spam box

De nombreuses méthodologies sont utilisées par les moteurs de recherche actuels pour détecter le spam dans leur index et produire ainsi des résultats de la meilleure qualité possible. Parmi celles-ci, la notion de "classifieur" est fondamentale. Cet article détaille une étude et un algorithme détaillés il y a quelques années à cette fin, ainsi qu'un projet actuellement en cours et qui permettra d'avoir, d'ici quelques mois, plus d'informations précises à ce sujet, ainsi que des outils pour définir le niveau de qualité d'une page web. Passionnant......

Début de l'article :

Nous allons aborder aujourd'hui la notion de spam de contenu, ce que l'on appelle souvent "webspam" dans la littérature scientifique. Sans aucune surprise, la détection du webspam est un enjeu important pour les moteurs de recherche. L'objectif de cet article est de définir ce qu'est le spam de contenu et de donner les clés permettant de comprendre comment un moteur va le détecter en utilisant des outils de classification.

Nous décrirons ensuite l'étude du projet que nous réalisons actuellement, et qui a pour objectif de mettre en évidence les critères constitutifs du spam de contenu, pour ensuite créer un outil de qualification de contenu.

Qu'est-ce que le spam de contenu ?

La formule, amusante mais convenue, nous le dit : « webspam, you know it when you see it ». Dans le folklore scientifique, il n'y a pas donc pas de vraie définition formelle du spam de contenu. Au final, on s'aperçoit généralement que le spam de contenu se traduit par une page web de faible qualité, dont le texte est réalisé au kilomètre (automatiquement ou à la main) et qui est "moche" (template de faible qualité graphique). Mais ceci n'est pas une réelle définition, et pour le chercheur, c'est la qualification par des quality raters qui fera foi : une page est du spam si elle a été notée « spam » par des êtres humains.

Et là apparaît un petit drame, car les humains ne sont pas toujours d'accord entre eux. Bien sûr, pour les pages contenant du texte généré par des méthodes automatiques de base, tout le monde est d'accord sur la qualité du contenu. Mais il existe de nombreux cas très borderline, et souvent, seuls les initiés qui connaissent les astuces y verront du spam, tandis que l'internaute lambda n'y trouvera rien à redire. C'est par exemple le cas des sites qui vont faire une copie de Wikipedia en y rajoutant quelques publicités.

Bref, la détermination de ce qui est du spam de contenu est réalisé par le monitoring du comportement humain. Ce monitoring peut être explicite ou implicite. Explicite quand on demande à des "quality raters" de noter des pages web, ou implicite quand le moteur va regarder le comportement de ses utilisateurs (retour "post click", temps passé sur une page, etc.).
...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).