Le monde des moteurs de recherche et de leur fonctionnement interne regorge d'expressions et d'acronymes parfois complexes à comprendre, ce qui génère souvent des malentendus. Voici un petit lexique qui vous en dira plus, de façon claire et concise, sur de nombreux termes utilisés très souvent dans ce domaine.

Ce mois-ci, nous avons proposé à Sylvain Peyronnet un petit exercice pas si facile : nous lui avons envoyé une liste de mots, d'expressions et d'acronymes qu'on lit ou entend très souvent dans le domaine qu'il connait le mieux : l'algorithmie des moteurs de recherche. Le but ? Répondre de la façon la plus concise et la plus pertinente possible, afin d'obtenir des définitions et des repères fiables dans notre compréhension de ce domaine et d'éviter de nombreux malentendus, souvent dus à une mauvaise compréhension par certains des termes du métier. C'est parti (classement par ordre alphabétique) :

Authorship et AuthorRank

Il s’agit ici d’identifier l’auteur d’un contenu web (via une donnée structurée, par exemple au format JSON-LD). L’idée étant ensuite que Google pourrait utiliser cette information pour qualifier des auteurs, et mettre en avant (ou pas) leurs contenus.
Les diverses expériences de Google sur le sujet de l’authorship sont plutôt malheureuses (grosse vague de spam au début des années 2010 en raison de ce mécanisme), et il y a fort à parier que l’authorship des années 2020 n’a pas grande utilité pour le SEO (mais pour le reste ? mystère…).

BERT

BERT est un terme sur lequel Google entretient une certaine confusion. C’est en effet le nom donné à un update algorithmique, et c’est aussi le nom de l’objet algorithmique en question.
BERT signifie Bidirectional Encoder Representations from Transformers, c’est un modèle de la langue dont la théorie a été développée par Jacob Devlin et ses collègues chez Google.
Ce modèle utilise des transformers (un type de réseau de neurones spécifiques, que l’on retrouve aussi dans GPT-3 par exemple) pour comprendre les relations entre les mots d’un même contexte.
Avec BERT on peut faire un vecteur de contexte pour chaque mot d’un texte, là où les approches des années 2000-2010 se contentaient de faire un vecteur par document. Cette finesse dans l’approche permet de mieux comprendre le sens des mots, entre autres. Pour Google, BERT est un outil qui réalise beaucoup de tâches, mais à l’origine, son premier objectif était de mieux comprendre l’intention des requêtes peu tapées par les internautes (celles sur lesquelles le moteur a donc peu d’information de satisfaction utilisateur).

BM25

Okapi BM25 est une mesure de l’importance des termes d’un texte basée sur le modèle probabiliste de pertinence. Il s’agit de la 25ème version du best matching (BM) du système Okapi (et oui, les chercheurs ont du génie pour trouver des noms !).
C’est techniquement une évolution des mesures de type TF-IDF, avec une meilleure prise en compte d’éléments liés à la requête. On notera qu’il existe une version encore plus spécifique, BM25F, qui prend en compte la structure du document analysé ainsi que les textes d’ancres des liens vers la page. Pendant des années, BM25 et les mesures similaires ont été l’état de l’art des mesures d’importance des termes utilisées par les moteurs de recherche.

Caffeine

Caffeine est le nom d’une refonte complète de Google ayant eu lieu en 2010. Il s’agit d’une modification profonde, qui a impacté l’infrastructure et l’algorithmique associé.
Comme toujours, il est très difficile de savoir de manière sûre ce qui a été modifié, mais cela a été l’occasion pour Google de passer à un traitement en continu des pages, et aussi d’industrialiser une forme de PageRank thématique et la personnalisation des résultats.
Il faut vraiment noter que cela a été l’occasion d’une modification des infrastructures de calcul, avec Caffeine on est sur un renouvellement de ce qu’est Google, pas juste des modifications à la marge.

La suite de cet article est réservée aux abonnés.

Sylvain Peyronnet, concepteur de l'outil SEO Babbar.