Qu'on les appelle "robots", "spiders", "bots" ou "crawlers", les logiciels capables d'explorer les sites web pour mettre à jour leurs index ont toujours été utilisés par les moteurs de recherche. Mais les techniques ont changé depui sbientôt 20 ans. Entre les "traitements par lots" du début et le système mis en place par Google pour sa dernière mise à jour d'indexation Caffeine, il y a un monde que cet article se propose de vous faire découvrir. De quoi apporter quelques solutions aux webmasters qui ont connu quelques soucis d'indexation de leurs pages dans Gogle ces derniers mois...

Cet article fait partie de la Lettre Réacteur #118 du mois de septembre 2010

Début de l'article :

Les robots d'exploration des moteurs de recherche, que l'on appelle plus volontiers "crawlers", "spiders" ou "bots" sont l'un des composants-clé des moteurs de recherche. Malgré leur simplicité conceptuelle, la mise en œuvre des robots d'exploration de haute performance représente un défi d'ingénierie d'envergure en raison de la taille gigantesque du Web, et de l'évolution toujours plus rapide des pages.

Afin d'explorer une fraction substantielle du Web dans un laps de temps raisonnable, les robots d'exploration doivent télécharger des milliers de pages par seconde, et sont généralement répartis sur des dizaines ou des centaines d'ordinateurs. Leurs deux principales structures de données - la "frontière" (liste d'URL non encore explorées) et l'ensemble des URL déjà découverts - sont trop importantes pour entrer dans la mémoire principale, quels que soient les astuces trouvées pour "compresser" les URL et les données. La volonté de donner la priorité de l'exploration vers des pages de haute qualité et de préserver la fraîcheur de l'index impose des défis d'ingénierie supplémentaires.

Enfin, à ces défis techniques s'ajoute une contrainte : celle de rester "poli" envers les serveurs web, c'est à dire d'éviter de perturber et/ou de surcharger ceux-ci.

Dans le même temps, la course à la fraîcheur et à la rapidité est lancée dans le petit monde des moteurs de recherche : après la recherche "temps réel", on parle maintenant de recherche "instantanée".

Dans cet article, nous allons nous intéresser à la manière dont Google semble intégrer cette contrainte de "politesse" dans sa manière de crawler nos sites webs, et nous demander quelles évolutions Caffeine a réellement apporté dans les méthodes de crawl de Google ?


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).