L'algorithme de Google est-il modifié sur les requêtes "larges" ?

Les moteurs de recherche actuels doivent faire face à polusieurs défis majeurs et parmi ceux-ci se trouve la taille grandissante du web. Comment, dans ce cas, répondre avec la plus grande efficacité à des requêtes, larges, génériques ou ambigües ? Faut-il utiliser le même algorithme pour une demande très précise et une autre beaucoup plus large ? Plusieurs méthodes sont possibles et sont décrites dans cet article, mais Google pourrait bien en utiliser une spécifique, expliquée dans un brevet datant de 2004 et étudié dans cet article…

Cet article fait partie de la Lettre Réacteur #128 des mois de juillet-août 2011

Début de l’article :

L’un des défis les plus complexes que les moteurs comme Google ont eu à relever ces dernières années est certainement la croissance forte de la volumétrie des données qu’ils doivent manipuler. Deux phénomènes conjoints sont à l’oeuvre derrière cette explosion. Tout d’abord, le nombre de pages web ne cesse d’augmenter. Ensuite, avec son infrastructure Caffeine, Google s’est doté en 2010 des moyens pour crawler et indexer beaucoup plus de pages, et pour les crawler et les indexer plus rapidement !

L’ensemble a produit une nouvelle donne, qui a conduit Google à revoir son algorithme sur plusieurs aspects. L’index du moteur étant devenu plus « profond » (c’est à dire qu’une proportion plus importante du WWW a été crawlée et indexée), l’un des effets de bord attendu était la présence beaucoup plus visible et massive des sites « poids lourds », comportant des millions de pages, dans les pages de résultat sur les requêtes « longue traine ». La mise à jour dite « MayDay » le 1er mai 2010, contemporaine du déploiement complet de Caffeine, avait clairement pour objectif de traiter ce problème.

Un deuxième effet de bord a été de favoriser de nouvelles formes de spamdexing, comme les fermes de contenu, ou plus généralement, tous les sites créant des millions de pages à partir de bases de données, le plus souvent « scrapées » c’est à dire constituée en copiant et en analysant les données déjà disponibles sur le web. On peut considérer que Panda est une réponse à ce nouveau problème : les index des moteurs sont inondés de pages de contenu créées massivement en utilisant des méthodes et des techniques qui ne violent pas clairement les conditions d’utilisation des moteurs de recherche (mais qui posent des problèmes de qualité).

La qualité des résultats sur les requêtes génériques

Mais cette explosion de la volumétrie des pages à classer produit également d’autres effets de bord. En particulier, la qualité des résultats sur les requêtes « génériques » s’est sensiblement dégradée. Ce n’est pas un phénomène récent cette fois-ci, le problème du très grand volume de pages retournées par une requête générique a conduit l’algorithme à atteindre ses limites probablement dès 2005 pour les requêtes anglophones.

…

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter

Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

L’algorithme de Google est-il modifié sur les requêtes « larges » ?

Cliquez ici pour annuler la réponse.

Comment intégrer Twitter dans une stratégie d'entreprise : entre SEO, veille et marketing direct

Revue d'URL (septembre 2011)

Les articles du moment

Dans les coulisses de la stratégie GEO de Yousign : méthode, outils et premiers résultats

Ne vous fiez pas à vos yeux : les pièges invisibles qui faussent l’analyse SEO

Quand l’intelligence collective dope la performance digitale : sortir des silos pour réussir ses projets

Netlinking à l’ère des IA génératives : comment devenir à la fois la source et la solution des LLM

Récupérer son SEO après le piratage de son site WordPress

SEO ou GEO… Le nouveau combat : Être cité, pas (que) cliqué

Normes, standards et exigences du numérique : contraintes ou opportunités