sitemap xml

Les fichiers Sitemaps XML fêteront l'année prochaine leurs 10 ans d'existence. Parfois décriés par certains au niveau de leur utilité pour le référencement, ils s'avèrent pourtant très importants dans de nombreux cas. Encore faut-il bien les mettre en place, dans les règles de l'art, et connaître leurs nombreuses possibilités. Voici un article détaillé sur les bonnes pratiques en la matière qui devrait aider votre site à être mieux crawlé et indexé par Google, Bing et leur confrères...

Début de l'article :


L'utilité des sitemaps XML n'a jamais totalement fait l'unanimité au sein de la communauté des experts SEO. Leur impact sur le référencement naturel des sites a également souvent été remis en question. Pourtant, si on comprend leur objectif réel et si on sait comment les implémenter, un référenceur peut tirer un réel bénéfice de la soumission de ces fichiers d'URL au format XML.

L'objectif de cet article est donc de faire le point sur les fonctions assurées par les sitemaps, sur les gains réels qu'ils apportent, et sur les précautions à prendre lorsqu'on les construit. Au passage, nous rappellerons quelques astuces avancées, parfois méconnues par les webmasters.

Pourquoi le protocole Sitemap a-t-il été inventé ?

Les moteurs de recherche comme Google ont abandonné très tôt le principe de la soumission d'URL aux moteurs, pour leur préférer une exploration automatique des pages du web en suivant les liens découverts dans les pages crawlées.

Mais lorsque l'on utilise ce mode d'exploration, deux défis apparaissent : assurer une "couverture" aussi parfaite que possible du web, et garantir la "fraicheur" des données explorées.

Le problème de la couverture

Une partie des pages se situe dans une zone du web que l'on appelle souvent le "web invisible". Il s'agit de pages que les moteurs de recherche ne peuvent pas découvrir en suivant des liens placés sur des pages explorables. La structure des sites web et de nombreux problèmes techniques peuvent créer des situations (volontaires ou involontaires) où une page n'est liée à aucune page accessible aux moteurs. Le problème s'aggrave si on considère que les moteurs décident aussi d'"oublier" parfois volontairement d'explorer des pages qu'ils considèrent comme inutiles (doublons, pages extrêmement profondes etc.).

La "couverture" d'un robot d'exploration d'un moteur de recherche est caractérisée par le ratio entre les pages web explorées et les pages web intéressantes.

Améliorer la couverture est apparu comme une priorité absolue aux ingénieurs de Google, dès le début des années 2000, tant le volume des pages "ignorées" semblait grand.

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).