Si Cybion a été choisie pour la partie "annuaire", c'est la société Exalead qui a pris en charge la partie "moteur" de l'outil de recherche d'AOL.FR Nous avons déjà donné pas mal d'infos sur cette technologie dans cette lettre (voir la lettre R&R du mois d'octobre 2001 à l'adresse http://abonnes.abondance.com/archives/acturech/0110.html). En complément de ces renseignements, nous avons rencontré François Bourdoncle, l'un de ses dirigeants, qui nous en dit plus sur ses produits et sa stratégie....
- François Bourdoncle, bonjour. Pouvez-vous vous présenter à nos lecteurs ?
Vous en saurez plus ici, sur cette superbe page 😉 : http://www.exalead.com/Francois.Bourdoncle/, mais disons que je suis PDG de la société Exalead ainsi que Professeur associé à l'Ecole Polytechnique. J'ai travaillé en 1993 et 1994 sur le moteur de recherche Altavista pour lequel j'ai créé la fonction "Refine" (noms de code "Cow9" ou "Live Topics") qui permettait d'affiner une recherche en proposant plusieurs mots clés connexes par analyse statistique des pages proposées pour la requête.
- Quelles sont les fonctionnalités innovantes de votre technologie par rapport à celles existant déjà sur le marché ?
L'ensemble de notre technologie est basée sur des algorithmes statistiques. Cela a des avantages et des inconvénients. Des inconvénients car, sur le papier, cela marche moins bien que des algorithmes strictement linguistiques. Des avantages parce que ça fonctionne sur des corpus qui peuvent être immenses et/ou hétérogènes. D'autre part, les algorithmes statistiques permettent de proposer des fonctions "intelligentes" que les systèmes linguistiques ne peuvent proposer. Nous proposons pas mal de fonctions nouvelles et originales que nous essayons d'optimiser chaque jour un peu plus :
- La lemmatisation, qui permet de trouver la racine des mots. En fait, on ne fait pas de la lemmatisation "pure" (personne n'en fait vraiment sur le Web), mais les options prises vont plus loin qu'une simple troncature. Exemple : "vaches folles" va trouver "vache folle" et inversement. "chiennes" va trouver "chien" et "chiens" et inversement, etc. Le moteur lemmatise en fait les requêtes dites "compliquées" (comportant au moins deux mots). Les requêtes sur un seul terme ne sont pas lemmatisées.
- D'autre part, on reconnaît, par des analyses statistiques, les requêtes qui sont en fait des expressions (on fait du "guillemet automatique"). Si, statistiquement, l'expression "vache folle" est très souvent présente sur le Web, on sait que quelqu'un qui demande ces deux mots clés séparés par un espace demande l'expression telle quelle (comme s'il mettait des guillemets) et on va lui fournir des pages qui contiennent les deux mots l'un à côté de l'autre et dans cet ordre, et non pas "vache" dans le titre et "folle" en bas de page... Le système connaît donc, en amont et grâce à des analyses statistiques, les "bonnes phrases" du Web. Cela permet de gagner beaucoup de temps lors de la recherche d'information... En fait, on recherche le "bon" groupe nominal dans la requête pour définir le "sens" de la demande : que désire la personne qui tape ses mots clés ?
- Le classement des résultat, en lui-même, s'effectue selon des techniques assez "classiques" sur le Web. On peut dire que, de ce côté, on est assez proche d'une approche à la Google, avec un calcul de l'indice de popularité basé à la fois sur un mode quantitatif et qualitatif (la "qualité" des liens pointant sur un site est importante), mais la plupart des moteurs majeurs orientent également leurs travaux dans cette direction au jourd'hui... En revanche, nous sommes plus innovants dans la lutte anti-spam : une personne chez nous s'occupe de cela à temps plein. Le but est de définir, de façon statistique, ce qui du spam et ce qui n'en n'est pas, et de l'appliquer à notre index : si l'on sait détecter, de façon statistique, ce qui "ressemble" à du spam, on arrive à lutter de façon plus efficace contre ce fléau en faisant ressortir assez rapidement les pages incriminées. C'est un gros boulot, car les sites de sexe, les premiers visés, mènent la vie rude aux moteurs de recherche... Mais nous intensifions notre travail dans cette voie, sans pouvoir en dire trop, comme vous vous en doutez bien... 😉
- Nous avons également tenté d'innover dans le crawl, en ne nous basant pas sur des critères strictement linguistiques pour créer un index axé vers les internautes francophones. Il nous semble, en effet, que l'utilisateur d'un outil de recherche ciblé sur les internautes francophones n'est pas obligatoirement et à 100% intéressé par des pages strictement en langue française, mais que des sites en anglais, notamment, peuvent l'intéresser si il n'existe pas d'équivalent en français. Le site d'Airbus (http://www.airbus.com/) en est un bon exemple. Il est entièrement en anglais mais reste une bonne source d'information pour les utilisateurs français ou francophones du réseau. Idem pour le site de CNN. Il nous semble donc intéressant de proposer un index majoritairement francophone, mais avec une frange de sites connexes en d'autres langues. La sélection s'effectue par analyse des liens sortants des pages en français. Si de très nombreuses pages en français pointent vers un même site en anglais, il y a de fortes chances que cette source d'information soit pertinente, même pour un public francophone..
- Nous avons également intégré un système de correction orthographique et de phonétisation, mais elle est disponible uniquement dans notre offre "market". Ces possibilités n'existent donc pas sur les sites Exalead.com et AOL.FR.
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).