Comment les moteurs de recherche détectent-ils le contenu dupliqué ?

L’un des grands défis qu’ont à relever les moteurs de recherche actuels est la détection du « duplicate content », très présent sur le Web (selon plusieurs études, 30 à 40% du Web serait dupliqué). Pour arriver à leurs fins, ces moteurs doivent donc mettre en place des méthodes efficaces sans consommer trop de ressources techniques. Voici l’une d’entre elles, couramment utilisée à l’heure actuelle…

Cet article fait partie de la Lettre Réacteur #154 du mois de décembre 2013

Début de l’article :

Pour un moteur de recherche comme Google, être capable de détecter les copies multiples d’un même contenu est une tâche très importante. En effet, d’après Fetterly, Manasse et Najork (Dennis Fetterly, Mark Manasse, Marc Najork: On the Evolution of Clusters of Near-Duplicate Web Pages. LA-WEB 2003: 37-45), environ 30% du web est redondant, c’est-à-dire composé de pages web qui contiennent un contenu déjà présent, au moins en partie, dans une autre page. D’autres sources vont même jusqu’au chiffre de 40% (Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: Introduction to information retrieval. Cambridge University Press 2008, ISBN 978-0-521-86571-5, pp. I-XXI, 1-482).

Les raisons de la duplication de contenu sont diverses. Et la plupart sont d’ailleurs tout à fait légitimes. Il existe des miroirs de sites web (pages de man par exemple – i.e. des pages présentant des extraits du manuel des commandes unix), des contenus qui existent en divers formats (HTML, PDF, etc.), des textes « canoniques » (mentions légales, contrats, licences logicielles, etc.), des actualités reprises depuis l’AFP ou Reuters, etc.

On retrouve ensuite du contenu dupliqué pour de moins bonnes raisons : par exemple à cause d’erreur de développement (même contenu accessible aux travers de plusieurs URL), mais surtout par malice, lorsqu’un black hat souhaite générer rapidement un site web, et va pour cela le remplir d’un contenu repris ailleurs…

On peut avancer trois raisons qui vont pousser un moteur de recherche à détecter le contenu dupliqué :
– La réduction de la taille de l’index. En n’indexant pas le contenu dupliqué, le moteur fait des économies au niveau de ses dépenses en espace de stockage.
– Le nettoyage des SERP. Ce qui compte pour l’utilisateur, c’est d’accéder au contenu. Si un contenu est disponible sur 24 pages web via le moteur de recherche, c’est 23 de trop ! Les places sont chères, le moteur a intérêt à présenter à l’internaute des pages variées.
– La priorisation du crawl. Il n’est pas utile de crawler plusieurs fois le même contenu. En détectant le duplicate, le moteur fait des économies en envoyant ses robots aux endroits où l’information est inédite.

…

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter

Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Comment les moteurs de recherche détectent-ils le contenu dupliqué ?

Cliquez ici pour annuler la réponse.

Le référencement des applications mobiles

WordPress, e-commerce et SEO : un tiercé gagnant !

Les articles du moment

Dark patterns : comment le web pirate notre cerveau

Les étapes clés pour rendre votre site accessible – Partie 1

“Red Flags” : les erreurs critiques à éviter lors de la conception d’un sondage – Partie 1

Piloter Google Ads en franchise : quel modèle pour garantir efficacité, croissance et équité ?

Etude de cas : Comment Santévet aligne sa stratégie de contenu sur ses objectifs de vente

5 erreurs qui vous privent de visibilité sur Google Discover

Etude : Stack technique des sites e-commerce Français en 2025