Les crawlers, des outils indispensables pour le SEO (1ère partie)

On connait tous les robots Googlebot et Bingbot, utilisés leur moteur de recherche respectif pour explorer des milliards de sites web chaque jour. Mais il existe également des outils qui simulent ces robots et vous donnent de nombreuses indications sur l’indexabilité de votre site web. Des systèmes qui sont devenus indispensables au fil du temps dans le cadre d’un audit SEO. Cet article en deux parties vous fera découvrir ces différents outils ce mois-ci ainsi que leur utilisation “classique”, avant de s’attarder à des usages plus avancés le mois prochain…

Cet article fait partie de la Lettre Réacteur #157 du mois de mars 2014

Début de l’article :

Les crawlers font partie de ces “briques” logicielles indispensables pour créer un moteur de recherche. La raison d’être de ces programmes est de permettre la découverte des pages et des documents publiés sur le web, et de les télécharger à fins d’indexation ou d’analyse. Au fil du temps, on les a affublés d’autres jolis noms anglais tout aussi imagés : harvesters (moissonneuses), spiders (araignées), bots (robots)…

Dans cette série de deux articles, nous allons passer en revue les raisons pour lesquelles les outils de type “crawler” sont indispensables dans la boîte à outils du référenceur. Le premier article sera consacré aux utilisations classiques des outils de crawl, et le second à des utilisations plus avancées…

Les moteurs de recherche explorent le web à l’aide de crawlers

Même si on peut trouver des exemples de moteurs de recherche qui, dans les premiers temps du web, ont référencé ou indexé des pages découvertes par “soumission” des webmasters, la règle pour les moteurs grand public consiste plutôt à utiliser un crawler pour découvrir les pages publiées sur le World Wide Web.

Le principe d’un crawler ou d’un spider qui fonctionne en mode exploration est le suivant :
1. On fournit une première URL au crawler.
2. Le crawler lance une requête http:// et télécharge le contenu de la page.
3. Le crawler analyse le contenu de la page, en extrait les informations utiles, et les stocke dans un entrepôt de données (data repository). Ces données sont ensuite retraitées pour créer le fameux “index” du moteur.
4. Parmi les données trouvées dans la page, figurent la mention d’autres URL dans le code HTML de la page (ou sous forme de liens hypertextes dans des PDF, des .doc Word…).
5. Ces liens sont placés dans une file d’attente.
6. Chaque lien fait à son tour l’objet d’une requête http://, le contenu de la page est téléchargé, analysé, de nouveaux liens sont découverts et ainsi (presque) à l’infini.

…

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter

Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Les crawlers, des outils indispensables pour le SEO (1ère partie)

Cliquez ici pour annuler la réponse.

Réseaux sociaux professionnels et SEO

Les plugin WordPress autour des rich snippets et de l'authorship

Les articles du moment

Devenir une source que les IA citent : méthode, analyse moteur par moteur et limites

SEO & Salesforce B2C Commerce : dompter la puissance de SFCC pour le search

Comment multiplier sa présence dans Google Discover : l’effet multi-pipeline

Construire un site scalable et SEO-friendly sur Webflow

Flux Shopping : comment décupler la visibilité de vos fiches gratuites

Maillage interne : concilier impératifs SEO et enjeux d’accessibilité

Edge SEO en production : 5 actions concrètes chez 1001pneus