Depuis que les moteurs de recherche existent, leur procédure d'interrogation est immuable : taper des mots clés dans un formulaire de recherche. Depuis quelques années, des outils comme Siri ou Google Now changent petit à petit la donne en intégrant des interfaces vocales à ces investigations. Mais tout cela pourrait aller bien plus loin à l'avenir avec les techniques d'OIE ou Extraction d'Information Ouverte, qui mettent en relation les mots, les faits et les concepts et qui pourraient révolutionner notr efaçon de nous adresser aux moteurs. Les obstacles sont encore nombreux mais les objectifs passionnants...

Cet article fait partie de la Lettre Réacteur #149 du mois de juillet-août 2013

Début de l'article :

En avril 2013, Google a fait l'acquisition d'une nouvelle startup à l'origine de l'application mobile Wavii. Cette acquisition est apparue comme une tentative de « contrer » l'acquisition par Yahoo ! de Summly. Mais en réalité, la technologie « embarquée » dans l'application Wavii est tout à fait différente : il s'agit tout bonnement de l'Open Information Extraction (Extraction d'Information Ouverte), une approche qui pourrait tout bonnement être à l'origine des moteurs de recherche du futur. On peut donc logiquement soupçonner Google d'avoir voulu mettre la main sur certains brevets, et certaines compétences, pour pouvoir utiliser l'OIE non seulement dans une application mobile (qui n'est déjà plus disponible), mais également pour améliorer son « knowledge graph » qui est aujourd'hui déployé dans une version très limitée.

Mais qu'est-ce exactement que l'OIE ? A quoi cela sert-il et pourquoi est-ce susceptible de révolutionner le fonctionnement des moteurs de recherche ? C'est ce que nous allons essayer de vous expliquer dans cet article.

Ne pas confondre « Information Extraction » et « Information Retrieval »

Mais commençons par un « caveat » (un avertissement) : en français, nous avons pris la mauvaise habitude de traduire « information retrieval » par « extraction d'information ». Le problème est qu'il existe un autre secteur de recherche en informatique, baptisé en anglais « information extraction ». Et les deux domaines de recherche sont très différents.

L' « information retrieval » fait allusion aux techniques de recherche d'information dans les documents utilisées par les moteurs de recherche actuels. Par la suite, nous utiliserons les termes « informatique documentaire », ou « recherche documentaire informatisée ».

L' « information extraction » fait allusion à des techniques plus ou moins automatiques de « web mining » (« fouille du web »), permettant de créer à partir des textes trouvés dans les pages web des bases de faits exploitables. Dans la suite de cet article, nous désignons ce domaine de recherche par les termes « extraction d'information ».

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).