Le contenu dupliqué, ou "duplicate content", est l'un des soucis principaux des webmasters s'intéressant au référencement. Les moteurs de recherche ont fait d'énormes progrès dans la détection des différents contenus similaires, proches ou identiques sur le Web, mais sans obtenir encore des résultats parfaits dans la pratique. Mais c'est également oublier qu'il existe différentes formes de duplicate content, et donc, en fonction de celles-ci, différentes façons de les combattre. Petite revue d'effectif des différents contenus dupliqués identifiés par les moteurs de recherche actuels sur le Web et des remédes à y apporter...

Cet article fait partie de la Lettre Réacteur #121 du mois de décembre 2010

Début de l'article :

Beaucoup de webmasters évoquent régulièrement sur les forums de discussion leur crainte de recevoir une pénalité pour "contenu dupliqué". En réalité, nous le verrons dans cet article, il n'existe aucune raison pour qu'un moteur de recherche "pénalise" un site pour ce motif. Cela ne veut pas dire que la présence de contenu dupliqué n'est pas pénalisante pour un site. Mais cela n'a rien de systématique, car, point primordial, tout dépend de ce que l'on appelle un "contenu dupliqué"...

Comment définir le contenu dupliqué ?

En effet, il est important de bien définir les différentes formes de contenu dupliqué, car chaque forme a une origine différente et pose des problèmes différents.

Dans un premier temps, il faut distinguer trois cas différents :
- les documents dupliqués (qui se retrouvent en double sur la Toile, sous différences URL, mais code, textes, images, autres contenus sont identiques) ;
- les documents quasi dupliqués (near duplicates en anglais : le contenu peut-être légèrement différent, et/ou le code qui présente ces contenus est différent) ;
- les documents partiellement dupliqués (seule une partie du contenu se retrouve dans d'autres pages).

Les documents parfaitement dupliqués tirent souvent leur origine d'un problème ou d'une maladresse technique. On peut citer les cas suivants, qui créent effectivement des situations dans lesquelles la même page est accessible avec des URL différentes :

1. Les cas de DUST (Duplicate URL Same text) : le même contenu est accessible par des URL différentes au sein du même domaine/sous domaine. Nous reviendrons en détail plus loin sur les causes de DUST, qui sont essentiellement techniques.
2. Les sites miroirs : le même contenu est accessible depuis différents domaines, ou sous domaines. Tous ces "hôtes" peuvent appartenir à la même personne ou à la même organisation, ou constituer des miroirs gérés par d'autres webmasters pour assurer une meilleure disponibilité des contenus.
3. Les marques blanches : le même contenu est proposé à l'identique par d'autres sites, dans leur domaine, avec l'accord du producteur de contenu.
4. Le contenu copié : le résultat est le même que pour une marque blanche, sauf que ce contenu est copié sans autorisation.
...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).