Google a dernièrement modifié et amélioré - encore une fois - la façon dont son moteur de recherche prend en compte les synonymes lors d'une recherche. Ce qui peut paraître simple - remplacer un mot clé par un autre - est en fait basé sur des algorithmes très pointus qui s'améliorent d'année en année pour amener une meilleure expérience utilisateur. Cet article vous propose un petit voyage dans le monde de la linguistique et de la sytaxe, entre "expansions de requêtes" et "formes fléchies", pour mieux comprendre la complexité des algorithmes actuels des moteurs de recherche et évaluer les impacts en termes de référencement...

Cet article fait partie de la Lettre Réacteur #113 du mois de mars 2010

Début de l'article :

Le 19 janvier 2010, un billet publié par Steven Baker sur le blog officiel de Google (http://googleblog.blogspot.com/2010/01/helping-computers-understand-language.html) a révélé que Google utilisait à présent un système perfectionné d'expansion de requêtes à base de synonymes pour améliorer la pertinence de ses résultats. C'est une évolution intéressante du moteur vers une solution expérimentée par de nombreux chercheurs en Recherche d'Informations depuis une vingtaine d'années.

En quoi consiste une "expansion de requête" ? Pourquoi est-ce utile dans un moteur comme Google ? Pourquoi est-ce qu'il a fallu attendre si longtemps pour voir apparaître cette fonctionnalité ? Et qu'est-ce que cela change d'un point de vue SEO ? Voila toute une série de questions auxquelles nous chercherons à répondre dans cet article...

Qu'est-ce qu'une expansion de requête ?

Dans un moteur de recherche traditionnel, l'utilisateur tape des termes dans un champ de recherche, et le système renvoie une page de résultats classée selon le niveau de pertinence supposé des documents par rapport à la requête. Mais le fait d'interroger le moteur en tapant des mots clés comporte en soi une difficulté majeure inhérente aux caractéristiques du langage.

Tout d'abord, un mot a plusieurs graphies possibles, c'est-à-dire qu'il existe plusieurs manières de l'écrire. Ces "graphies" différentes peuvent être dues à des fautes d'orthographe, mais aussi dans certains cas à l'existence de plusieurs graphies officielles (par exemple: clé / clef). Par ailleurs, certains mots ou expressions peuvent être abrégés, ou représentés par des symboles différents (2 kilos, deux kg, 2 kilogrammes). Certaines expressions peuvent être utilisées soit sous leur forme développée, soit sous la forme d'acronymes, (exemple : USA / United States of America). Etc.

On comprend donc que le fait de ne chercher qu'une seule graphie a pour conséquence immédiate d'éliminer toute une collection de documents qui comportent les graphies alternatives, alors qu'ils sont tout aussi pertinents !

Ensuite, un même mot peut prendre plusieurs formes sans changer de sens pour des raisons de syntaxe (la "grammaire" de la langue). Par exemple la marque du pluriel (régulier : toile / toiles, ou irrégulier : oeil / yeux), du genre (malin/maline, cheval/jument) ou de la conjugaison des verbes (aimer/aimes mais aussi est/sont). Dans les langues à déclinaison, on aura aussi la marque du cas. Ces formes dites "fléchies" sont plus ou moins variées et régulières selon les langues. On a même des cas en français de formes fléchies double ("asseyez-vous" et "assoyez-vous" : la deuxième forme était encore utilisée jusque dans les années 50 dans certaines régions et la plus répandue au Québec). Une fois de plus, comme il s'agit de "formes" d'un même mot, le fait de ne pas chercher ces formes "fléchies" peut conduire le système à "oublier" toute une série de documents pertinents.


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).