Une nouvelle série d'articles dans la lettre "Recherche & Référencement" avec la description de projets mis en place dans le cadre de la recherche d'information sur réseau intranet. Ce mois-ci, nous découvrons commen Questel a mis en place un applicatif permettant d'effectuer des recherches dans des bases de données contenant plusieurs dizaines de millions de brevets...

Spécialisée dans la gestion des brevets industriels et des marques, Questel a développé une série d'outils d'indexation et de recherche

"Trouver le passage recherché dans un brevet qui peut compter jusqu'à deux cents pages n'est pas une mince affaire", explique Pierre Buffet, directeur général délégué de Questel. Créé à l'origine pour donner à la France son indépendance dans le domaine de l'information scientifique, Questel s'est spécialisée dans le conseil autour de la propriété industrielle.

Privatisée en 1999, la société propose aujourd'hui des services de recherche, de veille et d'analyse pour les brevets industriels et les marques. Une activité qui débute par une étape de recherche dans les nombreuses bases de données existantes, de celle de l'office européen des brevets à celles éditées par la société elle même. "Des bases qui comptabilisent 45 millions de brevets et marques mondiales et s'accroissent d'environ 150 000 brevets et marques pour l'Europe, environ du même nombre pour l'Amérique du Nord et du triple pour le japon", précise Pierre Buffet.

Résumé automatique

"L'utilisation de moteurs de recherche crée une véritable valeur ajoutée, notamment en permettant de visualiser les liens entre différentes notions, comme par exemple l'émergence d'une technologie dans un domaine particulier et dans un pays", explique Pierre Buffet. Dans le cadre de son offre de services, la société propose une panoplie de logiciels destinés à la recherche, à l'analyse et à la création de rapports.

A côté de moteurs dédiés aux brevets, comme QPAT, Questel propose également des moteurs permettant de chercher à l'intérieur de ceux-ci et dans les schémas associés. Dans cette optique, le moteur Patent Examiner s'appuie sur une approche statistique permettant de retrouver des occurrences de termes à partir d'une indexation texte intégral. Il comporte également une interface de visualisation évoluée. A partir des mots qu'il saisit, l'utilisateur peut directement accéder aux passages les contenant, visualiser ceux qui comportent le plus d'occurrences, et même afficher la légende d'un schéma. Outre ces fonctions de recherche, Patent Examiner ajoute des possibilités d'annotations et de partage des dossiers de recherche.

Récemment, Questel a créé sa boîte à outils, un moteur basé sur l'indexation sémantique et proposé par l'éditeur. PatReader met ainsi en oeuvre text mining (extraction des entités nommées) et clusterisation. A partir de l'indexation, il peut faire ressortir les expressions les plus significatives et les utiliser pour constituer un résumé. Les mécanismes utilisés pour identifier ces expressions reposent sur une approche combinée statistique, morphosyntaxique et sémantique. Le facteur statistique pondère le poids d'un mot ou d'une expression en fonction de sa fréquence ou par exemple de sa présence dans le titre. L'analyse morphosyntaxique repère les structures grammaticales complexes du type substantif suivi d'un adverbe et suivi d'un autre substantif par exemple. Ces structures sont souvent plus porteuses de sens que les autres expressions à l'intérieur d'un même texte. Le facteur sémantique permet de désambiguïser le sens des mots. Questel a utilisé cette fonctionnalité pour automatiser la création de résumés sur cinq millions de documents.

Plus précisément, les résumés générés se décomposent en trois types d'informations caractérisant les brevets. Le premier type concerne les objectifs généraux visés par le brevet comme un nouveau type de peinture inaltérable pour véhicule par exemple. Le deuxième concerne les avantages de l'invention. Par exemple, cette peinture résiste aux rayures. Le troisième type porte sur les revendications du brevet. En d'autres mots, du périmètre couvert par le brevet. Extraire et résumer ces informations pour des brevets comptant souvent des dizaines de pages facilite les recherches. Baptisée FamPat, La base de données hébergeant les métadonnées des brevets s'est enrichie de trois champs pour stocker ces informations.


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).