Depuis de nombreux mois, plusieurs chercheurs, dont les auteurs de cet article, travaillent sur une étude permettant d'obtenir des indications claires sur la notion de "contenu de bonne qualité" et, par incidence, sur ce que les moteurs considèrent comme étant du spam sur le Web. Vous trouverez donc ici les premiers résultats, parfois surprenants, de cette analyse sur 5 critères de pertinence importants pour Google et consorts.

Début de l'article :

Dans cet article nous allons présenter les résultats préliminaires de ce que la communauté SEO a appellé « l'étude webspam des frères Peyronnet ». En effet, il y a maintenant deux ans, alors que nous mettions en place des formations présentant les algorithmes utilisés par les moteurs de recherches pour détecter les contenus « spammy », nous nous sommes posé la question de savoir si les critères utilisés par Ntoulas et ses coauteurs en 2006 (voir notre article en juin 2014 : http://recherche-referencement.abondance.com/2014/06/spam-de-contenu-comment-le-reconnaitre.html) étaient toujours valides. Il semblait évident que cela n'était pas le cas, et nous avons décidé de mettre en place notre propre étude, pour laquelle la communauté SEO francophone nous a aidé, en donnant de l'argent lors d'un crowdfunding, et du temps lors de l'étape de notation.

Notre équipe, nos objectifs

Cette étude, c'est d'abord le travail d'une équipe. Les trois personnes impliqués de manière continue sont Thomas Largillier (maitre de conférences à l'Université de Caen Basse-Normandie), Guillaume Peyronnet (Nalrem Médias) et Sylvain Peyronnet (ix-labs et Qwant), auteur de cet article. Nous avons été ponctuellement aidé par d'autres personnes, comme par exemple Laurent Bourrely pour le crowdfunding et la détermination des critères à étudier.

Les objectifs de ce travail sont multiples, mais le principal est de déterminer les critères utilisés par les internautes (de manière généralement implicites) pour décider de la qualité d'une page web. On note ici qu'on parle bien de qualité, ce qui est un problème plus complexe que simplement déterminer si une page est du spam ou non. De cet objectif principal découlent des sous-objectifs : avoir un dataset pour la communauté scientifique, obtenir un classifieur (par exemple via l'algorithme C4.5 [2]) pour les moteurs et les référenceurs, etc. Nous évoquerons ces objectifs plus loin dans l'article.
...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).