Vivisimo (http://www.vivisimo.com/) est devenu en quelques années l'un des acteurs majeurs du domaine du "search" aux Etats-Unis. La principale innovation proposée par cette société est une solution de "clustering" permettant de classifier "à la volée" des résultats de recherche en différentes thématiques. Nous avons interviewé Jérôme Pesenti, co-fondateur de la société, qui nous présente l'historique de l'entreprise, sa gamme de produits, sa technologie et ses avantages...

- Bonjour Jérôme Pesenti et merci de répondre à nos questions. Pouvez-vous vous présenter à nos lecteurs?

Bien sûr. Issu de l'École Normale Supérieure de Paris, je suis arrivé aux Etats-Unis il y a six ans, dans le cadre de la coopération. J'ai mis en place, à cette occasion, un projet de clustering de données pour le "computer science department" de l'université de Carnegie Mellon. Devinant tout le potentiel commercial de ce type de développement, nous avons eu l'idée, avec Raul Valdes-Perez, qui travaillait également dans cette université (il était en fait le "faculty" qui m'avait invité à cette université et c'est lui qui m'avait proposé le projet sur le clustering), de créer la société Vivisimo pour vendre des solutions de "clustering" basées sur nos travaux. Raul est devenu CEO de l'entreprise et moi "chef scientist". L'histoire était lancée 🙂 Nous avons concentré nos efforts au départ sur les solutions de clustering, puis sur des systèmes de "métasearch" (métamoteur) avant de développer un moteur complet, notamment pour réseaux intranet. Ces trois produits constituent notre gamme d'outils qui, nous l'espérons, sont à même de répondre à toutes les problématiques de recherche des entreprises. N'oublions pas également nos deux sites "vitrines", Vivisimo.com pour l'aspect "professionnel" et Clusty.com pour le grand public.

- Pouvez-vous nous présenter la technologie proposée par Vivisimo en quelques mots ? Qu'est-ce qui en fait son originalité ?

Nous proposons donc, comme je vous le disais, une suite de produits (clustering, métasearch, moteur) complémentaires. Le plus connu est bien sûr notre système de clustering. Ce n'est pas une idée nouvelle puisqu'elle date de 40 ou 45 ans... Mais les techniques de clustering de cette époque ne prenaient pas assez en compte l'aspect linguistique du problème, se contentant de traiter les documents comme des données quelconques. Le problème vient du fait que ces techniques génèrent des clusters qui ne sont pas homogènes d'un point de vue conceptuel et trop difficiles a "digérer" par l'utilisateur. Verity et IBM, qui avaient développé ce type de techniques à l'époque, s'en contentent cependant toujours aujourd'hui.

L'idée de Vivisimo a été de prendre en compte un "mix" entre techniques probabiliste, statistique, et linguistique pour créer des "clusters" (ou ensembles de données) plus homogènes conceptuellement. L'analyse est effectuée "à la volée", au moment de la requête, ce qui demande des puissances de calcul assez considérables. Nos logiciels sont écrits en langage C et très fortement optimisés pour obtenir des temps de réponse performants. Par exemple, on pourra sans problème analyser et "clusteriser" mille documents en moins d'une seconde. Nous avons entièrement développé notre technologie "intra muros", ce qui nous permet de la maîtriser sur le bout des doigts mais également de connaître ses éventuelles limites.

Chaque cluster généré par Vivisimo est décrit par une phrase simple ou un couple de mots (alors que les techniques statistiques utilise 10 mots ou plus). L'information retournée à l'utilisateur est optimalement concise et non redondante, communiquant en un minimum de mots le contenu de l'ensemble des documents. Cela permet à l'utilisateur d'obtenir une vue d'ensemble de centaines de documents en quelques secondes. Cela permet aussi de ne pas avoir de problème de "precision/recall" comme dans les solutions de classification. Les labels des clusters sont extraits directement des documents, garantissant l'adéquation des catégories avec les documents qu'elles contiennent.

- Avez-vous pu mesurer l'apport qu'apporte le clustering à l'internaute, au travers d'études ?

Ce sont surtout des revues comme eWeek ou Infoworld, ainsi que des universités qui ont effectué ce travail. Voici quelques liens qui vous en diront plus sur ces tests certainement plus objectifs que tout le discours que nous pourrions avoir au sujet de nos produits :

http://www.infoworld.com/article/05/05/23/21TCvelocity_1.html

http://www.nwc.com/showArticle.jhtml?articleID=162100481

http://www.eweek.com/article2/0,1759,1683141,00.asp


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).