Comment fonctionne un moteur de recherche ? (5ème partie : l'analyse de la requête)

Un moteur de recherche comme Google ou Bing est loin d’être un système simple pouvant être expliqué en quelques lignes. Il est au contraire l’addition de plusieurs technologies souvent assez complexes, lui permettant de renvoyer à l’internaute qui l’utilise les résultats les plus pertinents. Cette série d’articles vous explique donc quelles sont les différentes briques d’un moteur et vous dévoile les arcanes qui constituent leurs entrailles. Après nos précédents articles sur les technologies de crawl, l’index inversé, le duplicate content, le PageRank thématique et la pertinence, nous abordons ce mois-ci la notion d’analyse et d’éventuelle reformulation de la requête de l’internaute. Comment le moteur prend-il en compte les mots clés tapés par ses utilisateurs et quels sont les traitements effectués pour mieux comprendre leur intention de recherche ? Explications…

Par Guillaume Peyronnet, Sylvain Peyronnet et Thomas Largillier

Ce mois-ci, nous allons voir une étape particulièrement importante, à tel point qu’on pourrait la qualifier de cruciale, du fonctionnement d’un moteur de recherche : il s’agit de l’analyse et la modification de la requête. En effet la requête “brute” fournie par l’utilisateur est souvent insuffisante pour qu’un moteur puisse répondre de manière pertinente et rapide.
Nous allons voir qu’une requête est “travaillée” de différentes manières et qu’un certain nombres de pré-calculs sont effectués par le moteur de recherche pour pouvoir répondre en temps réel ou presque aux demandes des internautes utilisateurs.

Lorsqu’on évoque différents “travaux” sur une même requête, c’est surtout parce que la notion de requête intervient à plusieurs moments de la vie du moteur de recherche. Tout d’abord, la requête a un impact sur la popularité des pages à travers la notion de PageRank thématique. Pour mesurer cet impact, il faut avoir une idée de la catégorisation thématique de chaque requête.

Ensuite, la requête est associée à un certain nombre de signaux de pertinence, car il faut aller au-delà du cosinus de Salton ou de BM25 pour obtenir des résultats de qualité suffisante.

Enfin, pour mieux comprendre la requête, le moteur va tantôt l’étendre, tantôt la reformuler, voire faire les deux opérations, et cette reformulation aura un impact sur une partie des signaux précédemment définis. Nous y reviendrons plus tard, mais ces “travaux” sont nécessaires au moteur pour fournir des SERP de qualité en partie à cause de la brièveté des requêtes qui rend difficile leur compréhension pour le moteur.

La catégorisation de la requête

Nous avions évoqué dans la lettre d’Abondance du mois de mars dernier le concept de PageRank thématique mis au point par Taher Haveliwala (voir la référence [1] pour plus d’information). Cet algorithme a pour but d’affiner la notion de popularité pour améliorer la qualité des SERP proposées.

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter

Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet sont les fondateurs de la régie publicitaire sans tracking The Machine In The Middle (http://themachineinthemiddle.fr/).

Comment fonctionne un moteur de recherche ? (5ème partie : l’analyse de la requête)

La catégorisation de la requête

Cliquez ici pour annuler la réponse.

Soumettre.fr propose la mise en relation d'un site web avec des rédacteurs

Détecter les Fake News : un défi insurmontable pour Google ?

Les articles du moment

Dans les coulisses de la stratégie GEO de Yousign : méthode, outils et premiers résultats

Ne vous fiez pas à vos yeux : les pièges invisibles qui faussent l’analyse SEO

Quand l’intelligence collective dope la performance digitale : sortir des silos pour réussir ses projets

Netlinking à l’ère des IA génératives : comment devenir à la fois la source et la solution des LLM

Récupérer son SEO après le piratage de son site WordPress

SEO ou GEO… Le nouveau combat : Être cité, pas (que) cliqué

Normes, standards et exigences du numérique : contraintes ou opportunités