L'un des grands défis qu'ont à relever les moteurs de recherche actuels est la détection du "duplicate content", très présent sur le Web (selon plusieurs études, 30 à 40% du Web serait dupliqué). Pour arriver à leurs fins, ces moteurs doivent donc mettre en place des méthodes efficaces sans consommer trop de ressources techniques. Voici l'une d'entre elles, couramment utilisée à l'heure actuelle...

Cet article fait partie de la Lettre Réacteur #154 du mois de décembre 2013

Début de l'article :

Pour un moteur de recherche comme Google, être capable de détecter les copies multiples d’un même contenu est une tâche très importante. En effet, d’après Fetterly, Manasse et Najork (Dennis Fetterly, Mark Manasse, Marc Najork: On the Evolution of Clusters of Near-Duplicate Web Pages. LA-WEB 2003: 37-45), environ 30% du web est redondant, c’est-à-dire composé de pages web qui contiennent un contenu déjà présent, au moins en partie, dans une autre page. D’autres sources vont même jusqu’au chiffre de 40% (Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: Introduction to information retrieval. Cambridge University Press 2008, ISBN 978-0-521-86571-5, pp. I-XXI, 1-482).

Les raisons de la duplication de contenu sont diverses. Et la plupart sont d’ailleurs tout à fait légitimes. Il existe des miroirs de sites web (pages de man par exemple – i.e. des pages présentant des extraits du manuel des commandes unix), des contenus qui existent en divers formats (HTML, PDF, etc.), des textes « canoniques » (mentions légales, contrats, licences logicielles, etc.), des actualités reprises depuis l’AFP ou Reuters, etc.

On retrouve ensuite du contenu dupliqué pour de moins bonnes raisons : par exemple à cause d’erreur de développement (même contenu accessible aux travers de plusieurs URL), mais surtout par malice, lorsqu’un black hat souhaite générer rapidement un site web, et va pour cela le remplir d’un contenu repris ailleurs…

On peut avancer trois raisons qui vont pousser un moteur de recherche à détecter le contenu dupliqué :
- La réduction de la taille de l’index. En n’indexant pas le contenu dupliqué, le moteur fait des économies au niveau de ses dépenses en espace de stockage.
- Le nettoyage des SERP. Ce qui compte pour l’utilisateur, c’est d’accéder au contenu. Si un contenu est disponible sur 24 pages web via le moteur de recherche, c’est 23 de trop ! Les places sont chères, le moteur a intérêt à présenter à l’internaute des pages variées.
- La priorisation du crawl. Il n’est pas utile de crawler plusieurs fois le même contenu. En détectant le duplicate, le moteur fait des économies en envoyant ses robots aux endroits où l’information est inédite.

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).