Web sémantique et recherche d'information : où en est-on ?

Le Web sémantique est dans toutes les bouches sans parfois que l’on sache réellement de quoi il s’agit. Dans cet article, nous tentons de faire le point sur sa définition, ses principes, ce qui a été réalisé aujourd’hui mais également ce qui reste à faire en termes de recherche d’information sur le Web dans ce domaine.

L’environnement du web sémantique a beaucoup évolué depuis les premières directives du W3C en 2001. Essayons de retracer les différentes étapes qui ont mené à la conceptualisation d’un web sémantique basé sur les usages ; et surtout… centré sur l’usager. Cet article se situe volontairement dans une perspective des avancées qui concernent la recherche d’information.

Le projet “semantic web” a vu le jour grâce au Consortium W3C à l’initiative de Tim Berners Lee.

Le web sémantique, même si son application telle que ce dernier l’avait conçue en 2001 semble encore utopique aux yeux de bien des spécialistes, est cependant à l’origine de nombreux progrès. Son apport dans la création d’outils de recherche bien plus performants n’est plus à mettre en cause.

Tim Berners Lee

Cet universitaire britannique est aujourd’hui titulaire de la chaire “3Com Founder” du Laboratoire d’Informatique et d’Intelligence Artificielle (CSAIL) au “Massachusetts Institute of Technology” (MIT). Il s’agit d’une organisation qui a pour mission de développer le web, de façon à ce que le gisement d’informations disponibles sur internet puisse être accessible au plus grand nombre. L’objectif premier était donc la création d’un système global de partage de l’information en réseau… mondial ! Une paille…

Depuis la conception de la notion de web sémantique, le W3C s’est attelé à un énorme travail dans le développement de normes, standards et définitions dans ce domaine.

Principes du web sémantique

Le stockage des informations se fait sur la base de thesaurus ou ontologies et de façon intelligente. Ainsi des balises servent à tagger un mot et son domaine de rattachement, c’est-à-dire selon une logique de prédicats (relation « sujet », « objet », « prédicat ») qui fait appel à des définitions de type « IS a ». Ainsi la balise <peugeot> est rattachée au concept <voiture> dans la mesure où une <peugeot> IS a (est une) <voiture>, concept lui-même rattaché à la super classe de <véhicule> (<voiture> is a <véhicule>). Le web sémantique utilise ainsi un langage dérivé de la structuration XML : le langage RDF (Resource Definition Framework).

Langage OWL et Ontologies

En plus du langage RDF, le W3C a créé le “langage” OWL. Ce langage est une extension spécialisée de RDF, servant à la création d’ontologies. Ainsi, le web sémantique fonctionne grâce au protocole HTTP d’une part, aux URL ou pages web, d’autre part. Ces URL utilisent le langage XML qui lui-même fait appel à deux sous-langages ou structurations supplémentaires, à savoir RDF et OWL.

Mais le web sémantique, aujourd’hui ce n’est plus seulement les normes du W3C. C’est aussi toutes les avancées accomplies en faveur du sens et qui utilisent la langue naturelle comme vecteur de communication entre les usagers. A ce titre on trouve des applications de traduction automatique, la mise à disposition de dictionnaires multilingues sur le web, ou encore la cartographie d’information, qui fait appel à des processus cognitifs plus inédits que la simple analyse linéaire de texte.

Ce qui a été réalisé

Sur le plan des applications grand public de meta données structurées, on trouve la première version de RSS, la structuration des contenus de Wikipedia ainsi que par exemple, Mozilla Firefox dans sa gestion des bookmarks.

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter

Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Web sémantique et recherche d’information : où en est-on ?

Tim Berners Lee

Principes du web sémantique

Langage OWL et Ontologies

Ce qui a été réalisé

Cliquez ici pour annuler la réponse.

Référencement et lettres accentuées

Teresa Colombi (Ludo Tic) : "L'utilisabilité de l'interface Homme-Machine est au cœur des moteurs de recherche"

Les articles du moment

Bien classé sur Google, invisible dans les IA

Une seule page pour Google, ChatGPT et Claude : l’étude sur 6 moteurs et la méthode pour tout couvrir sans tripler ses contenus

Difficulté SEO d’un mot-clé : toutes les méthodes et ce qu’elles valent vraiment [Partie 1]

Google Discover : avant de tout miser sur le GEO, il y a un canal qui existe déjà

Devenir une source que les IA citent : méthode, analyse moteur par moteur et limites

Pourquoi vous continuez de produire du contenu… pour rien [partie 2]

Fiche produit e-commerce : pourquoi le gain d’information devient un vrai levier SEO, Shopping et IA