Résumé de l'article :

On peut reprocher aux moteurs de recherche actuels de nous proposer des résultats uniquement sous la forme d'une simple liste de dix liens, de façon linéaire. Pourtant, des solutions existent pour insérer plus d'"intelligence" dans la façon dont ces résultats sont affichés. C'est le cas des systèmes de clusterisation qui permettent de classer les liens dans des dossiers thématiques qu'il est possible d'explorer pour n'obtenir qu'une partie thématisée des résultats renvoyés. Dans cet article, proposé en deux parties, nous explorons une quinzaine d'outils qui ont choisi cette voie pour afficher leurs liens. Certains sont assez étonnants et efficaces, et tous ajoutent une nouvelle dimension à la recherche d'information sur le Web...

Début de l'article :

Il existe un reproche que l'on peut faire à beaucoup de moteurs de recherche : leurs pages de résultats sont présentées à la "queue-leu-leu" sans que vous puissiez en appréhender les différentes catégories auxquelles elles pourraient appartenir. Et pourtant, il est possible d'imaginer toutes sortes de classifications possibles comme les différentes thématiques, les types de domaines trouvés, les occurrences de tel ou tel mot-clé, etc.

Nous ressentons souvent, lors de nos recherches sur le Web, un manque en termes de possibilités de synthèse qui permettraient soit de préciser notre requête, soit d'en découvrir des aspects moins connus ou moins immédiats. Il est donc possible de dire que, si nous possédons la matière nécessaire, nous aurions également besoin d'une méthode qui permette d'en faciliter l'accès.

Il n'est ainsi pas possible de :
• Classer les résultats en fonction de leur contexte ou de leur signification ;
• D'en avoir une vue immédiate ;
• De réorganiser les résultats non pas en fonction de l'algorithme propre du moteur mais en fonction de nos propres besoins.

La clusterisation pour mieux compartimenter les résultats

C'est là qu'interviennent les outils de clusterisation qui viennent s'ajouter comme une surcouche d'information à un ou plusieurs moteurs existants ou qui utilisent leur propre base de données. Cet article vise à vous faire découvrir les principaux moteurs, métamoteurs et outils visant à clusteriser le Web.

Le terme de "clusterisation" se définit comme un ensemble de techniques statistiques visant à extraire des pages de résultats des concepts, catégories et thèmes apparentés qui permettront d'affiner ou de réorienter vos recherches. Les clusters fonctionnent donc comme des grappes sémantiques regroupant les différents liens, multipliant les entrées possibles et mettant en évidence les relations invisibles qui existent entre les différentes pages web.

Nous allons d'abord faire un point sur les deux principaux moteurs de recherche que sont Google et Yahoo!, nous intéresser aux outils qui s'appuient sur Google puis aux services utilisant d'autres moteurs et dont la pertinence est directement liée à la catégorisation des résultats.
...

 


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).