Les moteurs de recherche actuels doivent faire face à polusieurs défis majeurs et parmi ceux-ci se trouve la taille grandissante du web. Comment, dans ce cas, répondre avec la plus grande efficacité à des requêtes, larges, génériques ou ambigües ? Faut-il utiliser le même algorithme pour une demande très précise et une autre beaucoup plus large ? Plusieurs méthodes sont possibles et sont décrites dans cet article, mais Google pourrait bien en utiliser une spécifique, expliquée dans un brevet datant de 2004 et étudié dans cet article...

Cet article fait partie de la Lettre Réacteur #128 des mois de juillet-août 2011

Début de l'article :

L'un des défis les plus complexes que les moteurs comme Google ont eu à relever ces dernières années est certainement la croissance forte de la volumétrie des données qu'ils doivent manipuler. Deux phénomènes conjoints sont à l'oeuvre derrière cette explosion. Tout d'abord, le nombre de pages web ne cesse d'augmenter. Ensuite, avec son infrastructure Caffeine, Google s'est doté en 2010 des moyens pour crawler et indexer beaucoup plus de pages, et pour les crawler et les indexer plus rapidement !

L'ensemble a produit une nouvelle donne, qui a conduit Google à revoir son algorithme sur plusieurs aspects. L'index du moteur étant devenu plus "profond" (c'est à dire qu'une proportion plus importante du WWW a été crawlée et indexée), l'un des effets de bord attendu était la présence beaucoup plus visible et massive des sites "poids lourds", comportant des millions de pages, dans les pages de résultat sur les requêtes "longue traine". La mise à jour dite "MayDay" le 1er mai 2010, contemporaine du déploiement complet de Caffeine, avait clairement pour objectif de traiter ce problème.

Un deuxième effet de bord a été de favoriser de nouvelles formes de spamdexing, comme les fermes de contenu, ou plus généralement, tous les sites créant des millions de pages à partir de bases de données, le plus souvent "scrapées" c'est à dire constituée en copiant et en analysant les données déjà disponibles sur le web. On peut considérer que Panda est une réponse à ce nouveau problème : les index des moteurs sont inondés de pages de contenu créées massivement en utilisant des méthodes et des techniques qui ne violent pas clairement les conditions d'utilisation des moteurs de recherche (mais qui posent des problèmes de qualité).

La qualité des résultats sur les requêtes génériques

Mais cette explosion de la volumétrie des pages à classer produit également d'autres effets de bord. En particulier, la qualité des résultats sur les requêtes "génériques" s'est sensiblement dégradée. Ce n'est pas un phénomène récent cette fois-ci, le problème du très grand volume de pages retournées par une requête générique a conduit l'algorithme à atteindre ses limites probablement dès 2005 pour les requêtes anglophones.

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).