Google a déposé fin mars aux Etats-Unis une demande de brevet qui suscite de nombreux débats dans le monde de la recherche et du référencement. Compte tenu de la date de parution de cette information, entre le 31 mars et le 1er avril 2005, certains ont tout d'abord cru à un poisson d'avril ! D'autres ont également envisagé qu'il puisse s'agir d'un brevet "leurre" visant à tromper les concurrents ou ils y ont encore vu la preuve écrite de l'existence de la fameuse "sandbox", une théorie selon laquelle Google mettrait en quarantaine dans un "bac à sable" les sites récents lorsque l'apparition de liens pointant vers ces sites serait trop rapide pour être "naturelle" et risquerait d'améliorer injustement leur positionnement. Pour beaucoup, Google souhaite en outre véritablement "cadenasser" sa technologie avec ce brevet afin qu'elle ne puisse être utilisée par ses concurrents. Bien qu'il ne soit en rien certain que toutes les technologies qui sont exposées dans cette demande soient actuellement utilisées par Google, ce document apporte plusieurs éclairages sur le fonctionnement de ce moteur, d'ordinaire extrêmement "secret" quant à sa technologie. Nous vous proposons ici un récapitulatif du contenu de la demande et des débats qu'elle suscite.

Le résumé de cette demande de brevet, déposée auprès de l'United States Patent and Trademark Office (USPTO), indique qu'elle porte sur l'utilisation des données historiques pour déterminer le positionnement d'un document : "Un système identifie un document et obtient une ou plusieurs sortes de données historiques liées à ce document. Ce système peut ensuite attribuer une note [un score] à ce document en fonction, au moins partiellement, de cette ou de ces donnée(s) historique(s)" (voir http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&p=1&u=/netahtml/PTO/search-bool.html&r=1&f=G&l=50&co1=AND&d=PG01&s1=20050071741&OS=20050071741&RS=20050071741>qui).

Cette demande de brevet couvre un très large éventail de techniques de classement (ranking) et de méthodes permettant d'évaluer la pertinence des documents. Selon la méthode décrite, trois principaux critères sont recherchés et évalués afin de déterminer la pertinence d'un document : son âge, les changements qui ont été effectués et les tendances (pics de popularité…). Ces critères sont à la fois appliqués aux documents eux-mêmes et aux liens pointant vers ces documents.

Notez bien qu'il ne s'agit pour l'instant que d'une demande qui pourrait éventuellement se conclure par la délivrance d'un brevet dans un an environ.

Principaux points à retenir

Le premier point à noter est que les méthodes présentées dans ce document permettent d'évaluer la pertinence de tous les documents numériques (qu'il s'agisse de mails, de sites Web, de fichiers multimedia, de blogs ou encore de publicités…) et pas seulement des pages Web. Elles pourraient s'appliquer donc non seulement au réseau Internet, mais également à un intranet ou à un outil de "Desktop Search"...

La demande de brevet fait état de plusieurs méthodes :

- Pour définir la date de création / d'enregistrement d'un document

La date de création d'un document est une donnée utilisée par Google pour déterminer la pertinence et la qualité d'un document. Elle est définie comme la date de l'enregistrement d'un site ou la date à laquelle le spider de Google a pour la première fois crawlé ce document.

- Pour définir la fréquence de rafraîchissement des contenus et leurs changements

Google utilise également des données sur la fréquence de rafraîchissement des contenus pour déterminer la pertinence des documents. Les données sur les changements effectués peuvent être utilisées pour déterminer la "fraîcheur" d'un document ou son caractère "statique".

- Pour la détection du spam et l'application de pénalités

Plusieurs systèmes de détection et de prévention du spam sont décrits dans cette demande de brevet. Ces systèmes comprennent la surveillance des sites dont le classement progresse "trop rapidement", la surveillance des données qui ont été "blacklistées" par le moteur (adresses IP, serveurs, etc.)...

 

Cette demande de brevet valide-t-elle l'effet "sandbox" (bac à sable) ?

 

Le célèbre algorithme "PageRank" de Google assigne à chaque page un score reflétant son importance en fonction du nombre et de la qualité des liens pointant vers cette page. Pour contrer les abus (en créant notamment des liens "fictifs" pointant vers une page cible pour augmenter son positionnement), de nombreux référenceurs pensent que Google a mis en place un système de pénalité à l'encontre des sites suspectés de tenter de gonfler artificiellement leur PageRank en faisant croître trop rapidement le nombre de liens pointant vers eux. C'est ce que l'on appelle l'effet "sandbox", sorte de "bac à sable" où seraient mis en quarantaine les sites soupçonnés de fraude.

 

Rien n'indique clairement dans la demande de brevet l'existence de cette "sandbox" mais l'un des articles offre une piste quant à l'existence d'une possible pénalité infligée aux nouveaux sites :

"[0039] Prenons, par exemple un document "né" hier et référencé par 10 backlinks. Ce document sera, peut être, plus valorisé par le moteur de recherche qu'un document âgé de 10 ans référencé par 100 backlinks, et ce pour la simple raison que le taux de croissance de ses backlinks est considérablement supérieur au taux de croissance du document plus ancien. Toutefois, même si une croissance brusque du nombre de backlinks peut entraîner une valorisation du document par le moteur de recherche, cette croissance rapide peut également être le signe d'une tentative de spam contre ce même moteur de recherche. C'est la raison pour laquelle le moteur de recherche peut, au contraire, diminuer la valorisation d'un document avec pour but de se protéger contre le spamming".

 

Par ailleurs, concernant la prise en compte des liens pointant vers un document pour le calcul de sa pertinence, le composant 59 de la demande indique qu'une pénalité peut être infligée à un document lorsque les liens pointant vers lui ont une durée de vie courte et un bonus accordé si ces liens ont une longue durée de vie. Ce critère, qui considère que plus un lien est ancien et plus il a de valeur, pourrait également expliquer en partie le phénomène du "sandboxing". Affaire à suivre… 😉

 

 


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).