Résumé de l'article :

Nous en avons parlé le mois dernier, les techniques de Web-scraping permettent de récupérer, de "piocher", de traiter et d'archiver le contenu ou une partie d'une page web. S'ils sont des outils de veille indispensables, ils peuvent également être utilisés en référencement naturel pour apporter sur une page web du contenu venu d'autres sources, proposant ainsi aux moteurs de recherche du texte et un contenu éditorial souvent mis à jour. Si le système peut paraître complexe au départ pour les non-initiés, il s'avère rapidement beaucoup plus facile à mettre en œuvre qu'on ne l'imagine si vous suivez bien nos indications...

Début de l'article :

Nous en avons parlé le mois dernier : le principe du Web-scraping consiste à intégrer sur son site du contenu web et, par exemple, un flux RSS (interne ou externe) en utilisant un outil adapté. Imaginons que vous offriez à vos lecteurs une page « Actualités », ils apprécieront le fait de pouvoir lire une page régulièrement actualisée. Cela peut être un des flux RSS que propose votre site, des flux RSS provenant de sites tiers ou un mélange des deux. Vous pouvez alors utiliser Yahoo! Pipes afin de mixer et de filtrer les différentes sources et générer une sorte de « méga-flux ». La différence, en termes de référencement, est importante entre du code JavaScript, tel qu'il est utilisé lors de la création d'un Snippet, et du code PHP « pur et dur ». Si les internautes n'y verront que du feu, il n'en sera pas de même pour les moteurs de recherche qui ne lisent pas le code JavaScript mais se délecteront des liens "en clair" trouvés dans vos pages PHP. Et ces derniers seront d'autant plus intéressés par votre page puisqu'elle présentera un contenu sans cesse actualisé mais également « lisible ». Il sera ainsi possible de rendre quotidienne la mise à jour d'une page en s'appuyant sur du contenu externe...

Au final, nous terminerons notre exploration des possibilités offertes par le Web-scraping en analysant, maintenant, en quoi il constitue un élément indispensable au SEO.


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).