Comment fonctionne un moteur de recherche ? (1ère partie)

Un moteur de recherche comme Google ou Bing est loin d’être un système simple pouvant être expliqué en quelques lignes. Il est au contraire l’addition de plusieurs technologies souvent assez complexes, lui permettant de renvoyer à l’internaute qui l’utilise les résultats les plus pertinents. Aussi, nous allons tenter, dans une série d’articles les plus pédagogiques possible, de vous expliquer quelles sont les différentes briques d’un moteur et de vous dévoiler les arcanes qui constituent leurs entrailles. Ce mois-ci, nous détaillerons les différentes étapes de fonctionnement et les technologies de crawl…

Par Guillaume Peyronnet, Sylvain Peyronnet et Thomas Largillier

Même si les moteurs de recherche sont relativement récents (on peut raisonnablement dire qu’ils remontent au début des années 90), les concepts qui les sous-tendent sont bien plus anciens (l’après-guerre pour les idées de structuration de l’information, les années 30 pour les outils de théorie des graphes, les années 60-70 pour la recherche d’information, etc.). Ces concepts ont beau être assez anciens, ils sont finalement assez peu connus des référenceurs de métier. Le but de la série d’articles qui commence avec celui que vous êtes en train de lire aujourd’hui est de vous présenter de A à Z ce qu’est un moteur de recherche et les concepts algorithmiques qui se cachent derrière les interfaces épurées que l’on a l’habitude de manipuler.

Ce mois-ci, nous allons commencer du début, par les choses les plus basiques, depuis la définition même de ce qu’est un moteur de recherche jusqu’à la toute première brique technique, qui a pour but essentiellement de récolter l’information. Nous n’aborderons jamais les détails les plus techniques, car ils ne sont pas utiles à la compréhension générale, et nous renvoyons ainsi les lecteurs intéressés par ces derniers vers le livre An introduction to information retrieval [1], référence du domaine, ou Recherche d’information : applications, modèles et algorithmes [2], qui est en Français.

Qu’est ce qu’un moteur de recherche ?

Avant de définir ce qu’est un moteur de recherche, il est pertinent de définir ce qu’est l’objet analysé par ces derniers : le Web. Le Web, pour dire les choses littéralement, est un système de navigation permettant de se mouvoir dans l’information, construit au dessus d’Internet. L’information est contenue dans des pages web (regroupées au sein de sites web) et on peut naviguer d’une page à une autre en suivant un lien hypertexte (traditionnellement un texte de couleur bleue, souligné). Pour les yeux de l’algorithmicien, le Web est donc un graphe orienté dont les nœux sont les pages web, et les arcs sont les liens qui permettent de naviguer d’une page à une autre. Cette structure du Web sous forme d’un graphe est très importante, puisqu’elle est à la base du calcul d’importance des pages qui a rendu Google si populaire : le PageRank (que nous aborderons en détails dans un prochain article).

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter

Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet sont les fondateurs de la régie publicitaire sans tracking The Machine In The Middle (http://themachineinthemiddle.fr/).

Comment fonctionne un moteur de recherche ? (1ère partie)

Qu’est ce qu’un moteur de recherche ?

Cliquez ici pour annuler la réponse.

Comment choisir son rédacteur web ?

Noms de domaine expirés : comment les prendre en compte en SEO et est-ce une bonne stratégie ?

Les articles du moment

Netlinking : du catalogue à la méthodologie data driven !

ASO : Optimiser la visibilité & la conversion des apps sur les Stores

L’impact de votre fiche Wikidata sur votre Google Knowledge Panel – étude de cas

Dans les coulisses de la stratégie GEO de Yousign : méthode, outils et premiers résultats

Ne vous fiez pas à vos yeux : les pièges invisibles qui faussent l’analyse SEO

Quand l’intelligence collective dope la performance digitale : sortir des silos pour réussir ses projets

Netlinking à l’ère des IA génératives : comment devenir à la fois la source et la solution des LLM