Le fichier robots.txt est un grand classique du Web et du SEO. Pourtant, êtes-vous sûr de l'utiliser à bon escient et de bien comprendre son fonctionnement ? Nous avons présenté le mois dernier un état de l'art de la meilleure façon d'utiliser le fichier robots.txt pour mieux contrôler la vision de votre site qu'auront les moteurs de recherche. Ce mois-ci, nous vous présentons les dangers, en termes de PageRank, de l'utilisation trop assidue de ce fichier. Ou quand les "dandling pages" compromettent le référencement de votre site au lieu de l'aider...

Cet article fait partie de la Lettre Réacteur #143 du mois de décembre 2012

Début de l'article :

Dans la première partie de cet article, le mois dernier, nous avons insisté sur les erreurs les plus courantes à propos de la manière de configurer et d'utiliser un fichier robots.txt. Mais il en restait un à aborder: les fuites de pagerank engendrées par une mauvaise utilisation de ce fichier... Le mécanisme à l'origine du problème est souvent méconnu, et un peu difficile à comprendre. Mais il est important de prendre conscience des conséquences funestes que ce phénomène peut avoir sur le référencement de vos sites.

Or, c'est une erreur assez commune, et que l'on trouve paradoxalement surtout sur des sites optimisés par des référenceurs : le recours au blocage par une directive du fichier robots.txt est souvent fait à des fins d'optimisation (en général pour faire du "PR sculpting"). En réalité, le remède peut s'avérer plus grave que le mal.

Mais pour mieux comprendre pourquoi un robots.txt peut générer un véritable "trou noir à pagerank", rappelons d'abord quelques mécanismes fondamentaux à propos de cet algorithme de Google.

Le pagerank augmente grâce aux liens entrants, et diminue via les liens sortants

Le pagerank est un "signal" (parmi de nombreux autres signaux utilisés par Google) mesurant la popularité d'une page sur le net, calculé à partir des informations tirées des liens hypertexte reliant les pages web entre elles.

Si l'on s'intéresse à la formule du pagerank d'une page, on s'aperçoit vite que le PR d'une page dépend de la somme des PR transmis à cette page par les liens entrants : plus une page a de backlinks, et plus ces backlinks transmettent un PR élevé, plus la page reçoit de PR.

Mais le calcul du PR est un processus itératif : car comme la note d'une page dépend des notes des pages qui contiennent un lien pointant vers elle et que chaque calcul modifie les notes des pages en cascade, il faut faire "tourner" l'algorithme plusieurs fois pour faire converger les notes vers une valeur stable. ...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).