Depuis que les moteurs de recherche existent, le référencement existe. Mais les moteurs ont grandement évolué depuis près de 20 ans. D'un système "simple" d'indexation de mots clés isolés, ils sont passés à la détection de syntagmes, de synonymes puis aujourd'hui aux entités nommées et aux "index de concepts"... Nous continuons ce mois-ci notre exploration de ces technologies avec la seconde partie de notre article. Une évolution que les référenceurs devront prendre en compte à l'avenir pour s'adapter aux progrès toujours plus importants que font les moteurs de recherche pour mieux analyser le Web et rendre leurs résultats toujours plus pertinents...

Cet article fait partie de la Lettre Réacteur #139 du mois de juillet-août 2012

Début de l'article :

Identifier les entités nommées : une étape de plus dans l'indexation

La "reconnaissance des entités nommées", que nous avons souvent évoquée dans la lettre d'Abondance, est une technique permettant non seulement d'identifier au sein des pages web (et des requêtes) des noms de personne, de lieux, des marques, des numéros de téléphone, des raisons sociales de société etc., mais aussi d'identifier que les termes "Michael Jackson" font allusion, selon les pages, soit à un plombier du Bronx qui porte ce nom, soit à la Popstar.

Pour pouvoir utiliser cette information dans un moteur de recherche, il convient d'ajouter une étape supplémentaire de "balisage" (tagging) dans le processus d'indexation. Nous avons vu que dans le processus traditionnel, beaucoup d'étapes avaient pour objectif de supprimer des signaux, du code et des caractères inutiles. Ce processus de "toilettage" et de "normalisation" ou de "standardisation" est un processus qui détruit de l'information. Là, au contraire, il s'agit d'ajouter de l'information à la page : on part d'un texte non structuré, et on ajoute de l'information structurée.

Exemple de taggage (balisage sémantique) sur le terme Paris : dans le premier cas, le terme est étiqueté comme correspondant à une référence à la ville de Paris, dans le deuxième cas à la célébrité Paris Hilton.

On peut ensuite générer un index spécialisé en stockant pour chaque entité nommée les pages qui les contiennent, et compléter l'index inversé avec ces informations : ainsi, pour renvoyer les pages qui parlent de Michael Jackson, on pourra chercher dans les pages associées à l'entité nommée "Michael Jackson" comme dans les pages qui contiennent "Michael Jackson".

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).