Résumé de l'article :

Les techniques de Web-scraping permettent de récupérer, de "piocher", de traiter et d'archiver le contenu ou une partie d'une page web. Le plus souvent pour se tenir au courant des modifications survenues en son sein, mais de nombreuses autres utilisations sont possibles. Ces différents outils sont indispensables à une veille au quotidien. Il en existe beaucoup sur le Web et nous avons décidé de vous en présenter trois, au travers d'exemples détaillés. Lorsqu'elles sont bien utilisées, ces différentes applications s'avèrent redoutables, et constitueront vite une aide précieuse, pour vous tenir au courant du moindre changement sur les sites web que vous surveillez...

 

Début de l'article :

Avant de commencer cet article, rappelons tout d'abord que les programmes de Web-scraping ont pour but de récupérer et archiver le contenu (ou partie) d'une page web en vue de réutiliser son contenu ou de mettre en évidence les changements intervenus. L'utilité de ce genre de programmes est triple :
- Archiver les pages en vue d'en conserver un historique (à la manière des "Wayback Machine") ;
- Etre prévenu d'un changement alors même qu'aucune alerte n'est générée nativement par le site ou que le type d'alertes qui est utilisé ne convient pas à vos besoins ;
- Filtrer le contenu qui est récupéré de façon à améliorer la lisibilité et l'efficacité de votre système de veille et d'alerte.

Les programmes de Web-scraping sont aussi capables de récupérer les données de toutes sortes de documents (DOC, PDF, etc.) ou des formulaires (en mode GET ou POST avec des identifiants de session dynamiques ou non).

Quelles sont les applications possibles ?
- Etre tenu au courant des modifications (prix, gamme de produits, informations-clés) intervenues sur les sites de vos concurrents ;
- Suivre de manière précise les changements qui ont marqué les marchés que vous occupez ;
- Gérer des systèmes d'alertes élaborés dans le cadre d'une stratégie de veille ou d'intelligence économique...

 


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).