Comment mesurer la qualité d'un système de classement de résultats ?

Tout moteur de recherche a besoin de classer ses résultats. Cette notion de mesure de la pertinence par rapport à une requête donnée a fait l'objet de nombreux travaux scientifiques depuis des années. Voici quelques pistes suivies par les chercheurs et quelques modèles utilisés, et quels sont les moyens utilisés pour évaluer ces méthodes ayant pour objectif d'atteindre le Graal du search : la meilleure pertinence possible...

Début de l'article :

Pour commencer cet article, nous allons revenir à la base la plus évidente : l’objectif d’un moteur de recherche est de déterminer parmi un très grand ensemble de documents (textuels d’abord, mais aussi plus évolués comme par exemple des images ou des vidéos) ceux qui sont pertinents par rapport à un besoin informationnel. La notion même de besoin informationnel, ainsi que celle de pertinence, sont très difficile à capturer puisqu’elle est dépendante de chaque personne. Par ailleurs, le canal de communication entre le moteur et l’utilisateur est imparfait et parcimonieux (les requêtes sont courtes, et l’utilisateur peut se tromper).

En conséquence, les moteurs doivent « apprendre » ce qui est pertinent et ce qui ne l’est pas. Dans cet article nous ne parlerons pas de comment se fait cet apprentissage, mais de la façon dont le moteur va savoir si il est dans l’erreur ou dans le vrai, c’est-à-dire l’évaluation de la qualité de l’algorithme qui détermine la pertinence. Nous avons déjà évoqué le problème de l’évaluation dans notre article du mois dernier, mais plutôt et principalement sous l’angle de l’approche dynamique : on extrapole la satisfaction des utilisateurs à l’aide d’un monitoring de son comportement. Ici, on verra plutôt quelles sont les mesures chiffrées que l’on peut utiliser pour noter les classements (et implicitement les algorithmes de classement) de manière objective, dans l’idée de nourrir des algorithmes d’apprentissage qui produiront de meilleurs classements.
...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).