On ne présente plus Fast (http://www.fastsearch.com/), l'un des plus sérieux concurrents de Google à l'heure actuelle, pour ne pas dire l'un des seuls... D'ailleurs, son "combat" actuel avec Google pour fournir les liens "moteur" de Yahoo! est assez révélateur de la concurrence qui va se dessiner entre ces deux géants de la recherche d'information dans les mois qui viennent. Parions que l'hégémonie quasiment sans partage de Google jusqu'à maintenant sera quelque peu perturbée par un troublion nommé Fast, et son "laboratoire de recherche" AllTheWeb (http://www.alltheweb.com/). Pour en parler plus longuement, nous avons rencontré Franz Guenthner, "Professor for Computational Linguistics" à l'université de Munich, et qui est également très lié à Fast avec qui il travaille quotidiennement à améliorer l'outil de recherche.
Franz n'est d'ailleurs pas un inconnu dans le domaine des moteurs de recherche, loin de là. Il a travaillé pendant 3 ans avec l'équipe de Louis Monier, qui a développé le célèbre Altavista. En mars 1999, Louis Monier part avec son équipe (il travaille aujourd'hui pour eBay). En juin 99, Franz Guenthner feuillette négligemment un journal et tombe par hasard sur un article indiquant que Dell et Fast désirent mettre en place le plus gros moteur de recherche sur le Web mondial. Contact est pris et Franz devient rapidement "Chief Technology Advisor", terme que l'on peut traduire en "consultant extérieur" pour Fast Search and Transfert Inc., dont le siège social est basé à Oslo, Norvège. Fast a également des bureaux à Oslo, Trondheim, Munich, San Francisco,
Boston, Tokyo, Rome (http://www.fastsearch.com/about/locations.asp) et un représentant à Paris (voir lettre "R&R" du mois dernier). Fast compte 200 employés dans le monde dont 50 "PHd" et 100 chercheurs/développeurs.
Pourquoi les moteurs de recherche sont-ils (encore) si mauvais ?
La vision du monde des outils de recherche par Franz Guenthner est à la fois passionnante et pertinente. Pour lui, si les moteurs de recherche sont encore "si mauvais" aujourd'hui, c'est parce qu'ils traitent de la même façon toutes les requêtes, quelles qu'elles soient. Par exemple : pour les moteurs actuels, il faut absolument que les mots demandés soient présents dans le texte de la page, ce qui est une ineptie, selon Franz. Pour les moteurs, une requête n'est qu'une suite de "chiffres", de caractères, alors qu'elle possède pourtant une structure qui reflète une sémantique qu'il est nécessaire d'analyser.
Pour obtenir une vision plus avancée du monde de la recherche d'information, il est nécessaire, selon Franz Guenthner, d'examiner les rapports possibles entre les requêtes (Q = "Queries") et le document, selon une matrice semblable à celle-ci :
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).