L'algorithme BERT nous a montré, il y a quelques mois de cela, que les moteurs de recherche actuels avançaient rapidement en termes de compréhension de la requête et de l'intention de recherche de l'utilisateur. Mais de nouveaux travaux et brevets, notamment autour de l'antique PageRank, nous montrent que l'importance de la richesse sémantique et la qualité des contenus devient elle aussi capitale pour obtenir une visibilité optimale. Et il en sera certainement de même à l'avenir. Plongée dans l'univers des nouveaux algorithmes...

Par Sylvain Peyronnet, concepteur de l'outil d'analyse de backlinks Babbar.

Le sujet du PageRank est un sujet que nous avons déjà abordé à plusieurs reprises dans ces pages il y a maintenant plusieurs années (c’était notamment le cas en mars 2017 dans le troisième article du cyle sur les algorithmes des moteurs de recherche). A l’époque, nous avions abordé la notion de surfeur aléatoire (que je vais rappeler très brièvement ici) et celle de PageRank thématique.

Le surfeur aléatoire ne date pas d’aujourd’hui ni même d’hier, mais plutôt d’avant-hier 😉 C’est en effet en 1998 que les auteurs de la référence [1] (Larry Page et Sergey Brin en tête) mettent en avant ce modèle. L’évolution en un modèle thématique basé sur un ensemble de thématiques choisies à l’avance est dûe à Taher Haveliwala et date de 2003, avec mise en application autour de 2007. Comme on le voit, là aussi ce n’est pas très récent.

Mais que s’est-il passé ensuite ? Est-ce qu’il y a eu de la nouveauté ? Oui bien sûr. Tout d’abord Google a fait passer un brevet sur la notion de PageRank raisonnable (en 2012) que nous avons évoqué en décembre 2017 dans ces mêmes pages. Mais après ? Pendant plusieurs années, notre seule possibilité était de spéculer, mais il y a eu récemment plusieurs publications scientifiques, souvent très techniques, qui donnent des pistes extrêmement importantes (et parfois impactantes) sur la vision actuelle du PageRank pour un moteur à l’échelle de ce qu’est Google.

C’est de cela dont nous allons parler dans cet article.

Back to the future : pour se rafraîchir la mémoire

L’idée du PageRank est de quantifier la popularité, qui est une notion liée au comportement des internautes, de manière formelle. Pour cela, les auteurs de l’algorithme ont créé un modèle mathématique de l’internaute : le surfeur aléatoire. Le PageRank va alors “compter” la fréquence de passage du surfeur aléatoire sur chaque page web, et c’est cela qui va donner une popularité à chacune des pages.

Concrètement, le surfeur aléatoire voyage de pages en pages en suivant les liens au hasard, mais de temps en temps (15% du temps selon l’article d’origine de Page et Brin) il va se “téléporter”, c’est-à-dire que plutôt que de suivre un lien au hasard, il va sauter sur une page web choisie au hasard dans l’index du moteur.

L'article n'est disponible ici que sous la forme d'un extrait.
Il est accessible en lecture intégrale uniquement aux abonnés à la lettre professionnelle « Réacteur » du site Abondance...

Cliquez ici pour vous abonner à la lettre 'Réacteur' !

Vous êtes déjà abonné ? L'article complet est disponible dans la zone "Abonnés". Cliquez ici pour vous identifier.


Plus d'infos pour les abonnés :

Plus d'infos pour les non-abonnés :