On le sait, les moteurs de recherche stockent pendant une certaine durée les requêtes saisies par les internautes sur leurs outils, en plus de certaines informations comme l'adresse IP, etc. L'un des prétextes donnés par ces moteurs pour stocker ce type de données est que cela les aide à bâtir de meilleurs moteurs et algorithmes de pertinence. Mais à quoi peuvent bien servir ces informations ? Comment sont-elles traitées par les moteurs et en quoi cela les aide-t-il à être meilleurs au quotidien ? A la réflexion, on peut trouver de très nombreuses voies d'amélioration des outils de recherche basées sur ces données. Démonstration...

Début de l'article :

Lorsqu'on s'appelle Google, Yahoo ou Bing, et que l'on reçoit chaque jour un nombre faramineux de visites d'utilisateurs tapant un nombre encore plus grand de requêtes, on dispose en pratique d'une source de données formidable pour comprendre le comportement de recherche de ses utilisateurs. Les moteurs de recherche enregistrent en effet dans un fichier ad hoc (un fichier de "log") l'historique des requêtes tapées afin de l'utiliser pour effectuer ensuite des analyses. Google, en particulier, exploite visiblement de manière intensive ces données...

Nous allons voir que les données issues des logs de requêtes peuvent être utilisés pour des usages divers, et parfois inattendus.

A quoi ressemblent les données stockés ?

Les logs de requête gérées par les moteurs stockent généralement l'IP de l'utilisateur, les mots clés tapés, et un timestamp (l'horodatage de la requête). Dans le même fichier de log, on ajoute aussi parfois le tracking des clics de l'internaute sur la page de résultat, comme dans cet exemple issus des logs du moteur Excite (l'adresse IP a été enlevée pour préserver l'anonymat de l'utilisateur)...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).