Résumé de l'article :

De nombreux moteurs de recherche majeurs basent aujourd'hui une partie de leurs algorithmes sur la détection des entités nommés : nom de personne, d'entreprise, de lieu, etc. Mais peut-on facilement définir ce qu'est une entité nommée et comment les moteurs les reconnaissent-ils dans les documents qu'ils indexent ? Où en sont les chercheurs dans ce domaine ? Les travaux actuels sont-ils fiables ? Qu'en est-il dans le cadre d'une approche multilingue ? Cet article aborde tous ces sujets et tente de faire le point sur un pan important du Web sémantique, exploré aujourd'hui par Google et ses concurrents...

Début de l'article :

Pour construire un moteur de recherche capable de renvoyer des résultats pertinents, savoir reconnaître qu'un terme représente un nom de personne, une raison sociale d'entreprise ou un nom de lieu représente un atout certain. Ce problème est pris en charge par les techniques de "reconnaissance d'entités nommées" ("Named entities recognition" (NER) en anglais). Certains spécialistes en extraction de l'information ont annoncé voila plusieurs années que leurs méthodes étaient à présent "mûres", annonçant savoir reconnaître plus de 85%, voire plus de 90% des "entités nommées" dans un texte.

En réalité, nous verrons que certains problèmes sont loin d'être résolus, même si les progrès faits dans ce domaine sont rapides, spectaculaires, et leurs applications multiples. Et les principales avancées dans ce domaine pour les moteurs de recherche sont accélérées par la compétition entre les chercheurs de Yahoo, Microsoft et Google. Mais nous verrons que ce sont les équipes de Google qui se sont avérées depuis quelques mois extrêmement prolifiques en brevets et en publications scientifiques, et nous commençons à voir apparaître dans le fonctionnement de Google de nombreuses applications de leurs recherches sur les entités nommées.


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).