Nous vous proposons chaque mois une série de "trucs et astuces" qui devraient vous simplifier la vie dans le cadre de vos recherches sur le Web. Ce mois-ci : commentéviter que Google ne prennent en compte vos pages - notamment dans le cas d'un site dynamique - comme du "duplicate content", considérant leur contenu comme trop proche...

Certains sites se voient affligés, sur Google, d'une "pénalisation" due à un phénomène de "duplicate content" (ou "contenu similaire"). En fait, lorsque certaines pages sont trop proches les unes des autres au niveau de leur contenu, Google n'en affiche que quelques-uns avec un lien de ce type pour visualiser les autres :

"Pour limiter les résultats aux pages les plus pertinentes (total : XX), Google a ignoré certaines pages à contenu similaire.

Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées."

C'était, par exemple, le cas de notre site "Boutique Abondance" (http://www.boutique-abondance.com/) lors de la mise en place de sa dernière version fin 2004 :

Sur la requête site:boutique-abondance.com, seule une page (sur 19) était affichée sous une forme complète par Google, les autres étant considérées comme similaires ("duplicate content")... (Rappelons que le deuxième résultat affiché sur cette copie d'écran - ayant pour titre "boutique-abondance.com" - correspond à une page non encore indexée par Google mais "connue" du moteur, un lien dans son index pointant vers cette adresse). La syntaxe site:, sur Google, est très utile pour détecter les pages considérées comme similaires par le moteur de recherche.

Cette situation est dommageable pour plusieurs raisons :

 


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).