Inktomi équipe le site AOL.FR pour ses recherches sur le "Web mondial". Nous en avons profité pour poser quelques questions à Ron Verheijen, "Business Development Manager Web Search" chez Inktomi Europe, à propos de cet outil de recherche, ce "grossiste en urls" qui semble plus se positionner aujourd'hui sur des technologies de "cache serveur" et des applicatifs intranet que sur le marché des outils de recherche Internet...

- Quelle est la taille actuelle de l'index d'Inktomi ?

Plusieurs réponses  sont possibles : notre "Webmap" (notre connaissance du Web, constituée par notre crawl de base) est d'environ 3 milliards de pages web. Il est en phase de croissance. Après traitement (détection du spam, dédoublonnage, etc.), nous arrivons à un index d'environ 600 millions de documents, qui atteindra bientôt le chifre de 700 millions, avec pour objectif à moyen terme d'augmenter cette capacité de façon beaucoup plus importante...

- Combien de "clusters" (index) utilisez-vous aux Etats-Unis et en Europe ? Sont-ils différents ?

Nos clusters sont localisés à plusieurs endroits aux Etats-Unis (côte est et ouest), et il existe également plusieurs emplacements avec des serveurs proxy (cache). Nous utilisons également des clusters privés pour certains clients. Des "IDPP (Inktomi Data Protocol Proxies)" sont également utilisés afin de récupérer des données de plusieurs bases de données pour les uniformiser et fournir une liste de résultat  uniques. Il existe également des IDPP en Europe.

- Est-ce que ces clusters sont divisés en plusieurs parties ?

Tout d'abord, nous utilisons plusieurs types de clusters (d'index) : recherche web "classique", urls soumises au travers de notre offre de référencement payant, "objets multimédia", etc. Nous utilisons également des clusters privés pour certains clients. Chacun de ces index dispose d'un crawleur spécifique. L'index européen utilise des technologies qui permettent d'effectuer une identification régionale (détection de la langue ou du nom de domaine). Nous utilisons également de façon assez forte l'analyse de liens pour parachever ce travail de distinction des index régionaux.

Pour ce qui est des index concernant la recherche web "classique", voici la situation actuelle :

- Un index nommé "Best of the Web (plus de  110 million de documents), remis à jour tous les 3 jours, avec un rafraîchissement complet tous les 9 jours.

- Un index nommé "Gigadoc" (plus de 500 million documents), entièrement rafraîchi tous les 30 jours.

- Un index spécifique pour l'Asie-Pacifique (plus de 65 millions de docs), rafraîchi tous les 21 jours.

- Est-ce que les pages "dynamiques" (asp, cfm, php) sont acceptées dans l'index d'Inktomi ?

Pour le crawl "classique", non. Pour les sites soumis par l'intermédiaire de notre offre "Paid inclusion" de référencement payant, cela ne pose pas de problème, sauf s'il s'agit de spam ou autre problème, point que nous contrôlons, bien sûr, de façon très fine. Vous aurez plus d'infos ici, par exemple, sur notre politique dans ce domaine :

http://www.inktomi.com/products/web_search/guidelines.html.

- Il n'est plus possible de soumettre une url sur HotBot US depuis plusieurs semaines. Comment les webmasters peuvent-ils soumettre un site dans l'index d'Inktomi ?

Exact, il n'est plus possible de soumettre un site sur HotBot US. Notre expérience nous indique qu'il y a beaucoup trop de spam soumis au travers d'une telle interface gratuite. Nous encourageons les webmasters à utiliser notre offre de référencement payant (http://www.inktomi.com/products/web_search/inclusion.html), avec tous ses avantages, ce qui nous permet de bâtir de larges index de contenus pertinents sur cette base. Cependant, nous avons également une liste de sites non commerciaux que nous crawlons de nous-même. Les urls soumises par l'intermédiaire de notre offre payante se trouvent sur des serveurs et dans des index spécifiques. Les résultats venant de ces bases de données sont mixés avec ceux émanant de nos index "classqiues". Même si  certains sites de nos clients "portails" proposent encore des formulaires de soumission gratuite, nous ne les prenons que très peu en compte. Le référencement payant est devenu quasi prioritaire pour être sûr d'entrer dans l'index d'Inktomi, si vous ne voulez pas attendre que le spider suive un lien de façon "naturelle" vers votre site. Nous ne remettrons pas en ligne de formulaire de soumission gratuite sur les sites qui n'en proposent plus aujourd'hui...

Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).