Le Web sémantique est dans toutes les bouches sans parfois que l'on sache réellement de quoi il s'agit. Dans cet article, nous tentons de faire le point sur sa définition, ses principes, ce qui a été réalisé aujourd'hui mais également ce qui reste à faire en termes de recherche d'information sur le Web dans ce domaine.

L'environnement du web sémantique a beaucoup évolué depuis les premières directives du W3C en 2001. Essayons de retracer les différentes étapes qui ont mené à la conceptualisation d'un web sémantique basé sur les usages ; et surtout… centré sur l'usager.  Cet article se situe volontairement dans une perspective des avancées qui concernent la recherche d'information.

Origine du web sémantique

Le projet "semantic web" a vu le jour grâce au Consortium W3C à l'initiative de Tim Berners Lee.

Le web sémantique, même si son application telle que ce dernier l'avait conçue en 2001 semble encore utopique aux yeux de bien des spécialistes, est cependant à l'origine de nombreux progrès. Son apport dans la création d'outils de recherche bien plus performants n'est plus à mettre en cause.

Tim Berners Lee

Cet universitaire britannique est aujourd'hui titulaire de la chaire "3Com Founder" du Laboratoire d'Informatique et d'Intelligence Artificielle (CSAIL) au "Massachusetts Institute of Technology" (MIT). Il s'agit d'une organisation qui a pour mission de développer le web, de façon à ce que le gisement d'informations disponibles sur internet puisse être accessible au plus grand nombre.  L'objectif premier était donc la création d'un système global de partage de l'information en réseau… mondial ! Une paille...

Depuis la conception de la notion de web sémantique, le W3C s'est attelé à un énorme travail dans le développement de normes, standards et définitions dans ce domaine.

Principes du web sémantique

 

Le stockage des informations se fait sur la base de thesaurus ou ontologies et de façon intelligente. Ainsi des balises servent à tagger un mot et son domaine de rattachement, c'est-à-dire selon une logique de prédicats (relation « sujet », « objet », « prédicat ») qui fait appel à des définitions de type « IS a ». Ainsi la balise <peugeot> est rattachée au concept <voiture> dans la mesure où une <peugeot> IS a (est une) <voiture>, concept lui-même rattaché à la super classe de <véhicule> (<voiture> is a <véhicule>). Le web sémantique utilise ainsi un langage dérivé de la structuration XML : le langage RDF (Resource Definition Framework).

Langage OWL et Ontologies

En plus du langage RDF, le W3C a créé le "langage" OWL. Ce langage est une extension spécialisée de RDF, servant à la création d'ontologies.  Ainsi, le web sémantique fonctionne grâce au protocole HTTP d'une part, aux URL ou pages web, d'autre part. Ces URL utilisent le langage XML qui lui-même fait appel à deux sous-langages ou structurations supplémentaires, à savoir RDF et OWL.

Mais le web sémantique, aujourd'hui ce n'est plus seulement les normes du W3C. C'est aussi toutes les avancées accomplies en faveur du sens et qui utilisent la langue naturelle comme vecteur de communication entre les usagers. A ce titre on trouve des applications de traduction automatique, la mise à disposition de dictionnaires multilingues sur le web, ou encore la cartographie d'information, qui fait appel à des processus cognitifs plus inédits que la simple analyse linéaire de texte.

Ce qui a été réalisé

Sur le plan des applications grand public de meta données structurées, on trouve la première version de RSS, la structuration des contenus de Wikipedia ainsi que par exemple, Mozilla Firefox dans sa gestion des bookmarks.


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).