L'outil IBM Watson News Explorer permet, au travers d'un travail sur les entités nommées, de mettre en place une veille sur les noms de personnes, d'entreprises ou de lieux notamment, et d'en extraire les liens entre eux. Malgré un manque de mise à jour et d'évolution de ses principales caractéristiques, il reste un outil à tester dans une démarche de veille économique et technologique. En voici ses principales fonctionnalités...

Par Christophe Deschamps


Le service en ligne Watson News Explorer (http://news-explorer.mybluemix.net/) a été lancé par l'IBM Research Visual AI Lab en juillet 2015 mais est resté étonnamment discret malgré son intérêt évident en termes de fouille d'actualités.

Il ne s'agit pas d'un moteur de recherche au sens traditionnel, mais bien d'un outil qui va vous aider à trouver des connexions entre des milliers d'articles de presse grâce à la reconnaissance d'entités nommées. On  peut définir une "entité nommée" comme « une unité lexicale (un mot, ou un groupe de mots) qui fait référence à une entité (une chose, une personne, un lieu, une date, une mesure...) du monde concret. » (Philippe Yonnet, dans la lettre « Réacteur » du mois de mai 2009). Concrètement, l'outil va détecter dans les articles de presse qu'il indexe des noms de personnes, de thématiques, d'entreprises ou d'organisations et va ensuite faire émerger les autres entités nommées qui apparaissent dans ce corpus d'articles, cela dans le but de faire émerger les relations de la première entité avec d'autres potentiellement surprenantes (ce qu'en veille stratégique on nomme « signaux faibles »). Ce n'est pas le premier service de ce type à apparaître dans la Lettre Réacteur puisque nous avions par exemple évoqué Silobreaker en novembre 2007 (http://www.reacteur.com/abonnes/archives/2007-11/0711.html), Iseek en mars 2009 (https://www.reacteur.com/abonnes/archives/2009-03/iseek.pdf), ou encore EntityCube en janvier 2010 (http://www.reacteur.com/abonnes/archives/2010-01/2010-01.html).

Description et fonctionnement du service

La page d'accueil est divisée en quatre espaces :


Fig. 1. Page d'accueil du service.

  1. Le moteur d'interrogation : il permet de lancer une requête sur une entité nommée dont on devra préciser la nature (« People », « Organization » ou « Company ») dans le second menu déroulant. Attention, comme déjà évoqué plus haut, il ne s'agit pas d'un moteur de recherche au sens habituel. On ne peut y trouver que des entités déjà identifiées par l'outil ou encore des catégories d'entités (Business, Science, Sport,…).
  2. Les Trending queries : requêtes les plus lancées dans le moteur (période non indiquée).
  3. Les Trending connections : associations les plus « tendances » entre deux entités dans l'actualité (période non indiquée, probablement 24 heures).
  4. Les Breaking News : vous retrouvez ici les entités nommées qui font la tendance, classées par catégories.

Chacun des quatre espace permet de lancer une recherche dans le corpus documentaire, soit en recherchant directement le mot-clé qui nous intéresse dans le moteur d'interrogation (et à condition qu'il ait été créé au préalable par le service en tant qu'entité nommée). Soit en cliquant sur les propositions de Trending queries, Trending connections ou Breaking news. Vous obtenez alors une page de résultats divisée en six espaces que nous allons maintenant détailler :


Fig. 2. Page de résultats suite à une requête ou un clic sur l'entité nommée « Huawei ».

  1. Details : on y trouve des détails sur l'entité nommée (biographie, notice, historique, …).
  2. Articles : liste des 100 derniers articles de presse de la semaine dans lesquels l'entité nommée apparaît. Cliquer sur un article permet de :
    • Faire apparaître les autres entités nommées détectées dans l'article ;

    • Fig. 3. Détail d'un article.

    • D'aller lire l'article original en cliquant sur « Full article ».
    • De centrer la carte sur l'article choisi et de voir ainsi ses relations avec d'autres entités nommées.

    • Fig. 4. Visualisation des articles liés à celui choisi.

    • De faire apparaître en rose les autres entités nommées citées dans l'article dans  le nuage de tags en bas à droite :

    • Fig. 5. Nuage d'entités nommées, en rose celles présentes dans l'article choisi.

    • De voir dans la Timeline, en bas de page, les jours où sont parus des articles citant des entités nommées en lien avec celles de l'article choisi.


    Fig. 6. Visualisation des articles liés à celui choisi.

  3. Graphe : la représentation proposée ici permet de naviguer dans un ensemble composé à la fois de la totalité des articles liés à votre requête ainsi que des entités nommées présentes dans ceux-ci. Notez qu'il est possible de simplifier le graphe en décochant les cases « Companies », « Organizations » et « People ».

  4. Fig. 7. Cases permettant d'afficher ou supprimer certaines catégories d'entités nommées.

  5. Locations : carte géographique représentant l'ensemble des pays cités dans les résultats. Vous pouvez aussi choisir des les afficher en mode liste (plus précis). Chaque nom de ville ou pays est bien sûr cliquable et va recentrer le graphe sur les articles citant le lieu choisi :

  6. Fig. 8. L'article entouré d'un cercle vert cite l'entité nommée "Zurich".

  7. Topics : les entités nommées détectées dans le corpus d'articles sont ici représentées sous forme de nuage. Chaque entité a une taille proportionnelle au nombre de fois où elle est citée (nombre d'occurrences). Trois onglets thématiques permettent si nécessaire de se focaliser sur les « People », « Companies » ou « Organizations ». De nouveau, le fait de cliquer sur une entité nommée permet de recentrer la carte sur les articles qui la citent.

  8. Fig. 9. Le graphe se recentre sur les articles où les entités nommées (ici Meng Wanzhou) sont citées.

  9. Timeline : on y trouve une visualisation des articles publiés sur la semaine (voir la figure 6 ci-dessus).

En haut à droite des résultats, on trouve un moteur de recherche qui permet de trouver des entités nommées à l'intérieur du corpus présenté afin de vérifier rapidement sa présence éventuelle et ses connexions.


Fig. 10. Moteur permettant de rechercher à l'intérieur du corpus affiché.

Mais l'outil permet d'aller plus loin en proposant la possibilité de faire une requête croisée. Il faut pour cela cliquer sur le lien « advanced » du moteur d'interrogation.


Fig. 11. Fonctionnalité de recherche croisée.

On génère alors un graphe et des résultats où n'apparaissent que les entités sélectionnées, ce qui permet de se focaliser sur des relations spécifiques en filtrant les résultats :


Fig. 12. Résultat d'une requête avancée.

Enfin, comme déjà évoqué, il est possible d'explorer une catégorie thématique plutôt que des entités spécifiques. Ainsi, à partir du moteur d'interrogation (ou des Breaking News), on peut par exemple obtenir une vue globale des actualités de la catégorie « Business and Industrial » et voir ainsi remonter des tendances générales :


Fig. 13. Visualisation des résultats d'une catégorie d'actualités.

Conclusion

IBM Watson News Explorer prouve une fois encore que les services utilisant les entités nommées sont extrêmement puissants lorsqu'il s'agit d'exploiter et de naviguer dans un corpus d'actualités. On pourrait alors se demander pourquoi ils sont finalement si peu connus et utilisés. Nous ne disposons pas d'études sur le sujet, mais il nous semble qu'ils sont vraiment réservés à certaines catégories d'utilisateurs dont l'objectif est avant tout d'investiguer et pas de s'informer (pour cela il y a les moteurs et agrégateurs d'actualité qui permettent d'avoir rapidement un aperçu de l'état du monde).

Les services comme celui-ci s'adressent donc avant tout à des analystes en intelligence économique, OSINT, renseignement… Silobreaker par exemple, après avoir été gratuit pendant de nombreuses années, se positionne ainsi, avec un slogan qui ne laisse pas de doutes : « Intelligence, simplified ». IBM Watson News Explorer pourrait un jour adopter le même positionnement même si pour l'instant, tout en restant fonctionnel, il semble un peu abandonné par ses concepteurs tant ses fonctionnalités n'évoluent pas au fil du temps.


Christophe Deschamps,  Consultant-formateur : veille stratégique, intelligence économique, social KM, e-réputation, mindmapping, IST (http://www.outilsfroids.net/)