Vous avez un site web et vous proposez donc en ligne un contenu qui représente une certaine valeur - financière ou autre - à vos yeux. Dans ce cas, il y a de fortes chances pour que d'autres personnes, plus ou moins bien intentionnées, mettent en place des procédures automatisées et des robots pour "scraper" (copier/coller) vos informations afin de les utiliser sans votre accord. Pourtant, il existe des méthodes pour éviter ce vol potentiel ou pour le surveiller, afin d'agir par la suite. En voici quelques-unes...

Début de l'article :

Introduction

Le web grandit et grossit à une vitesse incroyable, de plus en plus de services sont interconnectés via les API (Application Programming Interface), permettant de récupérer les données de manière standardisée. Que vous ayez besoin de récupérer des données web de manière innocente, légitime ou illégitime, il est encore dans de nombreux cas nécessaire de récupérer la donnée par ses propres moyens. : c’est à dire en scrapant.

Fig.1 Nombre de sites sur le Web. Source : http://www.internetlivestats.com.

Le scraping est vieux comme le Web et le seul moyen de récupérer une donnée depuis un autre site web (à la genèse du web tel que nous le connaissons) était de récupérer la page via un outil spécialisé ou simplement via son bon vieux navigateur en enregistrant la page sur son disque dur local.

Tous les outils nécessaires pour extraire et traiter la donnée étaient déjà présent : Curl, Xpath, … (Xpath 1.0 est une recommandation W3C depuis le 16 Novembre 1999, la première version de Curl date de 1997).

Les outils classiques pour contrôler le scrap sur son site (robots.txt, user agent) sont arrivés en même temps que le Web (1994 pour robots.txt et 1989 pour http).

Puis, rapidement, sont arrivés les "aspirateurs de sites" qui ne faisaient pas dans le détail et récupéraient tout un site de manière massive, comme Httrack (1998).

Les techniques ont ensuite peu évolué, et à part les sélecteurs CSS (une alternative à Xpath pour cibler précisément un contenu dans le document HTML) et les navigateurs interprétants le Javascript, il n’y a rien eu de neuf depuis 20 ans.

Les différentes techniques de scrap

On l'a vu, la récupération de données sur le Web peut se faire de manière très simple via son navigateur en visitant et enregistrant les pages qui contiennent les données désirées puis en passant ces pages simplement dans un traitement de texte pour récupérer les informations de façon plus précise. ...

 

L'article n'est disponible ici que sous la forme d'un extrait.
Il est accessible en lecture intégrale uniquement aux abonnés à la lettre professionnelle « Réacteur » du site Abondance...

Cliquez ici pour vous abonner à la lettre 'Réacteur' !

Vous êtes déjà abonné ? L'article complet est disponible dans la zone "Abonnés". Cliquez ici pour vous identifier.

 

Plus d'infos pour les abonnés :

Auteur : Benoît Chevillot, Consultant SEO, DivioSeo (http://divioseo.fr/).

Formats disponibles : HTML
Date de parution : 13 octobre 2017

- Accès à la lettre Réacteur

Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre Réacteur ?

- Sommaire de la lettre Réacteur d'Octobre 2017

- Tous les articles de l'année 2017

- Sélection des meilleurs articles des 24 derniers mois

...