Google a annoncé fin septembre le lancement, un mois plus tôt, de son nouvel algorithme baptisé Hummingbird. Cependant, peu d'impacts ont été identifiés dans les résultats du moteur de recherche suite à cette annonce alors que Google indiquait que 90% des recherches étaient touchées. Mais il semblerait que Hummingbird s'attache plus à désambigüiser les requêtes de l'internaute plutôt qu'à améliorer la formule de classement proprement dite. Comment cela peut-il se faire ? La plupart du temps en passant par des techniques d'"expansion de requête". Voici quelques pistes de réflexion et une revue des différentes façons d'effectuer ce traitement...

Cet article fait partie de la Lettre Réacteur #153 du mois de novembre 2013

Début de l'article :

Le 26 septembre 2013 était une date importante pour Google, qui fêtait son quinzième anniversaire dans le garage des origines. L'événement était un peu anecdotique pour ceux qui ne sont pas touchés par le coté nostalgique et fondateur de la chose, mais ce qu'il faut retenir est une annonce liée au fonctionnement du moteur : l'utilisation d'un nouvel algorithme, appelé « Hummingbird », pour améliorer l'expérience utilisateur, en particulier au niveau de la requête.

Dans cet article, nous n'allons pas faire de trop nombreuses spéculations sur ce qu'est précisément ce « colibri », nous ne sommes pas dans le secret de Google, mais plutôt prendre pour acquis le fait qu'il s'agit principalement d'un algorithme de « query expansion » et passer en revue tout ce que cela implique. C'est-à-dire que l'on va utiliser Hummingbird comme prétexte pour expliquer ce qu'un moteur moderne peut faire comme travail au niveau de la requête.

Query expansion ? Une définition rapide.

Le problème avec les requêtes qu'un internaute utilise pour interagir avec un moteur de recherche, c'est qu'elles sont courtes (entre 3 et 5 mots généralement), qu'elles sont ambigües, et enfin qu'elles peuvent être trop spécifiques. L'ambigüité peut provenir de l'utilisation de mots dont le sens est variable selon le contexte (orange, jaguar, avocat, etc.), phénomène qui peut être amplifié par des soucis grammatico-syntaxique (« l'homme, ferme, la porte » est différent de « l'homme ferme la porte », « on mange, les enfants » est différent de « on mange les enfants », etc.).

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).