AOL a dévoilé par erreur, il y a quelques semaines de cela, un fichier de données portant sur 36 millions de requêtes effectuées par plus de 500 000 internautes sur son moteur américain, dont la technologie est fournie par Google. Du coup, de nombreux sites ont analysé ces données et proposé des outils d'interrogation de cette énorme base d'informations. Nous avons tenté de les compiler dans cet article...

Vous en avez peut-être entendu parler : AOL a, aux Etats-Unis, publié un certain nombre de données par erreur, certaines d'entre elles permettant de retrouver des internautes utilisateurs de son moteur de recherche au travers de leurs habitudes de recherche (http://actu.abondance.com/2006-32/aol.php)...

AOL s'est excusé pour cette "gaffe" mais le mal était fait (les responsables ont été, malheureusement pour eux, virés...) et le fichier téléchargé plusieurs centaines de fois avant d'être retiré. L'étude était disponible ici (mais l'url ne semble plus répondre...):

http://research.aol.com/pmwiki/pmwiki.php?n=Research.500kUserQueriesSampledOver3Months

Cette étude portait sur l'analyse de 36 millions de requêtes effectuées sur son moteur de recherche par plus de 500 000 internautes sur une période de trois mois. Et le point le plus intéressant était que le fichier contenant les requêtes était disponible en ligne. Il a vite disparu de sa source "officielle" mais ce fichier de mots clés a cependant été sauvegardé sur plusieurs sites miroirs dont vous trouverez les adresses (entre autres) ici :

http://www.gregsadetsky.com/aol-data/

Il n'en fallait pas plus pour donner quelques idées à certains éditeurs de sites et développeurs qui ont eu l'idée de proposer des outils ou études intéressants sur la façon dont les internautes utilisent le moteur de recherche d'AOL. En effet, un travail sur 36 millions de requêtes est plus que significatif pour mieux connaître nos habitudes de recherches, AOL utilisant - qui plus est - la technologie de recherche de Google... Cette étude est restreinte malheureusement au site américain du portail, puisque AOL est "powered by" Exalead en France. Mais cette base de données et son analyse n'en restent pas moins intéressantes.

Voici donc un florilége des articles et applicatifs qui on été bâtis sur la base de ce fichier :

Les analyses

- Répartition des clics sur les 10 premiers résultats Google

http://www.webrankinfo.com/actualites/200608-repartition-des-clics.htm

WebRankInfo analyse la façon dont les internautes cliquent sur les liens proposés dans la première page de résultats du moteur (exemple : le résultat en 1ère position totalise 42% des clics !).

- Nombre moyen de mots par requête

http://www.webrankinfo.com/actualites/200608-mots-par-requete.htm

27,5% des requêtes sont effectuées sur un seul terme et 29% sur deux mots, etc.

- Nombre de clics dans les pages de résultats

http://www.webrankinfo.com/actualites/200608-nombre-de-clics.htm

Exploration du nombre de clics effectués par un même utilisateur sur une page de résultats donnée (89% des utilisateurs ne consultent qu'un seul des résultats affichés...).


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).