Nota : cet article est une "version longue" de l'article écrit pour le site "le Journal du Net" et disponible aux adresses : http://www.journaldunet.com/moteurs/moteurs27.shtml
et
http://trucs-et-astuces.abondance.com/outils27.html

Cet article a pour ambition de décrire un nouvel outil de recherche, ou plutôt une nouvelle technologie de recherche d'information française, créée par la société Exalead, qui se positionne, dès sa création, comme l'un des outsiders les plus créatifs de sa génération.

Les concepteurs de la technologie Exalead connaissent bien le domaine, puisque François Bourdoncle, l'un des dirigeants de la société, a travaillé pour Altavista (il avait créé la technologie Cow9, autrement appelée "Fonction Refine" sur le moteur de recherche) il y a quelques années de cela, en collaboration étroite avec Louis Monier, l'un des créateurs du moteur. Exalead ne partait donc pas dans l'inconnu, loin de là...

L'histoire de cette fonction "Refine" mérite d'ailleurs que l'on revienne quelques temps dessus. Peut-être pourrez-vous lire utilement la page d'Abondance qui parle de la genèse d'Altavista avant toute chose :
http://outils.abondance.com/av_historique.html

La fonction "Refine" : historique ~~~~~~~~~~~~~~~~~~~~~~

François Bourdoncle travaillait à l'époque à l'Ecole des Mines de Paris. Au printemps 1996, le voici dans l'avion vers les Etats-Unis, invité par Louis Monier (avec qui il avait déjà travaillé dans une "vie antérieure") chez Altavista, donc chez Digital (propriétaire du moteur Altavista à cette époque- là) en "prospection scientifique" pour l'Ecole des Mines. L'école payait l'avion et l'hôtel sur place, mais il fallait que François travaille sur un vrai projet sur place. Du coup, dans l'avion, il cogite et pense qu'il serait intéressant d'imaginer un système qui permettrait d'affiner sa requête sur un moteur de recherche. La fonction "Refine" était née. Nom de code : Cow 9. Pourquoi ? Parce que François Bourdoncle tapait souvent les requêtes "cloud 9" (qui signifie "septième ciel" aux Etats-Unis) et "mad cow" (vache folle) pour faire ses tests de pertinence sur les moteurs de recherche. D'où un amalgame des deux en "Cow 9". C'était pour l'anecdote 😉

Si certains parmi vous ne se souviennent pas de cette fonction "Refine" (également appelée "Live Topics") sur Altavista, voici un lien qui vous rafraichira la mémoire :
http://www.exalead.com/Francois.Bourdoncle/ina.html

Après avoir travaillé six mois sur ce projet aux Etats-Unis, il revend la technologie Cow9 à Altavista. La fonction reste en production pendant deux ans sur le moteur de recherche Altavista avant d'être enlevée après le départ de nombreux ingénieurs, et notamment de Louis Monier. Grosso modo, personne ne savait plus trop comment fonctionnait la technologie et comment la faire évoluer, et comme à cette époque-là, le moteur de recherche était considéré comme la 5ème roue du carosse (l'heure était alors à la "portalisation" à outrance), le projet a été abandonné. Dommage... Car la fonction prenait quand même en considération de 3 à 7% du trafic et des requêtes sur le moteur, ce qui n'était pas rien.

Bref, après ces péripéties altavistienne, François Bourdoncle se remet au travail au printemps 1999 et entame le développement d'une nouvelle technologie, qu'il désire plus grand public et plus pertinente encore. Les prémices de l'outil Exalead se dessinent...

Une solution basée sur l'analyse statistiques des groupes nominaux ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

L'outil de recherche a nécessité 250 000 lignes de code et 2 ans de travail acharné par une équipe de 2 à 6 personnes. Aujourd'hui, l'entreprise emploie 15 personnes. La technologie proposée, qui est vendue et intégrée en direct ou en OEM, a pour vocation de s'intégrer dans des portails existants grâce à un langage de développement appelé ExaScript, que la société définit comme un langage de middleware effectuant une synthèse de Java, de XML et des langages de formatage de documents de type ASP/PHP/JSP. Exalead n'a pas pour ambition de devenir un nouveau Google, mais plutôt de proposer ses outils à des sites qui désirent fournir à leurs visiteurs des fonctionnalités de recherche "intelligentes", voire qui désireraient, eux, concurrencer Google.. ;-). De même, Exalead développe actuellement lui-même ses applicatifs, mais, à terme, ce seront éventuellement les intégrateurs, voire les clients eux-mêmes qui en auront la possibilité s'ils le désirent.

La plate-forme Exalead permet de déployer des solutions de recherche dans des bases de données comprenant plusieurs centaines de millions de documents en analysant en fait statistiquement le contenu de ces résultats pour en extraire les éléments caractéristiques, groupes nominaux significatifs (en partant du principe que le sens est porté par les groupes nominaux, pas par les mots eux-mêmes) ou rubriques pertinentes (Exalead

permet en effet d'intégrer un annuaire web ou n'importe quelle classification structurée de données), et permettre ainsi à l'utilisateur d'affiner sa requête d'un clic sur celui ou celle qui correspond le mieux à son idée. Selon des tests réalisés en interne, la technologie serait 5 à 10 fois plus rapide que celles disponibles à l'heure actuelle sur le marché. La cible ? Les portails d'entreprise, les grands intranets (unification, pour la recherche d'information, de l'information proposés sur plusieurs sites distincts), les catalogues en ligne, etc.

L'idée est d'extraire des groupes nominaux des corpus sans dictionnaire mais grâce à des méthodes statistiques. La plupart des technologies imaginées par Exalead font l'objet de brevets déposés ou en cours de dépôt. Une fois le développement en bonne voie de concrétisation, l'équipe se met à la recherche de fonds. Apprenant qu'à cette époque-là, patience et longueur de temps font plus que force ni que rage, la situation se décante enfin au printemps 2000 avec une holding financière (SCA Qualis) qui engage 20 millions de francs dans l'aventure.

Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).