Le concept du PageRank de Google est, depuis le départ, fortement induit par celui du "surfeur aléatoire", cliquant sur des liens ou se trouvant téléporté sur une autre page du Web. Au fil des ans, ce surfeur est devenu "raisonnable" et la compréhension de son fonctionnement nous donne des clés très intéressantes pour mettre en place un maillage interne performant dans nos sites web. Voici quelques conseils allant dans ce sens...

Nous avons déjà parlé en 2015 dans cette lettre du concept de surfeur aléatoire, qui permet de définir la notion de popularité (le PageRank) que le moteur va utiliser comme signal important pour classer les pages web.

Nous avons vu que ce surfeur aléatoire s’est complexifié avec le temps, pour prendre en compte la réalité du comportement des internautes. Ainsi, les surfeurs aléatoires plus réalistes sont sensibles à la thématique portée par les pages visitées (voir références [1] et [2] par exemple), ou encore ils ne suivent pas de la même manière les liens internes et les liens externes (la référence [2] aborde ce point au travers d’un paramètre “beta”).

Dans cet article, nous allons rappeler très rapidement le concept de surfeur aléatoire, puis ensuite nous aborderons la notion popularisé par Google sous le nom de "surfeur raisonnable". Enfin, nous évoquerons les bonnes pratiques de linking associées (il n’y aura peut-être pas beaucoup de surprises pour les SEOs aguerris parmi les lecteurs de cette lettre).

Le surfeur aléatoire

Le surfeur aléatoire est une modélisation mathématique du comportement de l’internaute. Au départ, on place ce surfeur aléatoire sur une page web, choisie au hasard, puis on considère qu’il liste tous les liens sortants présents sur cette page, et en choisit un, au hasard, qu’il va suivre, pour arriver sur une autre page.

Parfois, le surfeur va souhaiter s’intéresser à quelque chose d’autre que le contenu de cette page. Dans ce cas, il va rejoindre une page web tirée au hasard. C’est ce que l’on appelle la téléportation puisque même sans la présence d’un lien (un chemin qui le guiderait vers une autre page), il va ailleurs sur le Web.

La probabilité que le surfeur aléatoire se trouve sur une page web par téléportation à un moment donné est par définition le PageRank de la page. Ainsi, cette notion de surfeur aléatoire donne les clés pour optimiser son PageRank.

Dès 2003, des améliorations conséquentes ont été apportées à ce surfeur. En premier lieu la prise en compte de la thématique de la page source et de la page cible d’un lien donné. Le surfeur aléatoire sensible à la thématique aura donc des comportements plus riches que le surfeur aléatoire classique :

  1. Lorsqu’il est sur une page donnée, il peut soit se téléporter, soit suivre des liens (comme le surfeur aléatoire classique le faisait avant lui).
  2. Si il se téléporte, ce sera vers une page tirée au hasard, mais en s’intéressant spécifiquement à une des thématiques portée par la page.
  3. Si il suit un lien, il peut soit continuer à s’intéresser à la thématique qui l’intéressait précédemment, soit au contraire changer de centre d’intérêt.

La question qu’il faut se poser, notamment dans la pratique du SEO, est donc celle de la valeur de chaque lien par rapport au surfeur aléatoire.

Le principe de base : tous les liens ne se valent pas

D’un point de vue conceptuel, les choses sont assez simples : le moteur ne va pas accorder la même valeur à tous les liens. Ainsi certains liens auront moins de valeurs car ils sont internes, et donc le webmaster a plus de marge de manoeuvre pour les manipuler donc on va amortir leur intérêt. D’autres liens auront moins de valeur car ils sont périphériques au vrai contenu (footer, menus, liens connexes). Certains liens auront beaucoup de valeur car ils sont en plein contenu, donc toujours vu par les internautes visitant le site. Enfin, certains liens seront pondérés par l’ancre, le texte les entourant, etc.

Concrètement, comment le moteur va t-il réaliser cette pondération ? Un exemple un peu grossier (et non contractuel, les chiffres étant bien évidemment grossièrement faux) est illustré dans la figure 1. Sur cet exemple, on va partir du principe que le moteur ne pondère que par zone (on va voir un peu plus tard que c’est bien plus compliqué que cela).
Grâce à des données d’usages, le moteur va dresser une cartographie de chaque page (ce qui est facilité par le peu de templates différents que nous utilisons : sites e-commerce, blogs, etc.). Ici nous avons attribué 70% d’usage au plein contenu, 5% à la navigation, etc.

Imaginons que sur cette page, le contenu important (ici une critique du film Blade Runner 2049) ne contient que 2 liens sortants tandis que la page contient 100 liens en tout. Le surfeur aléatoire standard aura une probabilité 85% * 2% = 1,7% de suivre un des liens du contenu principal (le 85% vient de la notion de téléportation qui prend 15% du pagerank). Ce qui paraît tout à fait ridicule par rapport à ce que l’on attend d’un lien plein texte.

Avec la pondération du contenu principal à 70%, la probabilité de suivre un lien de ce contenu est de 85% * 70% = 59,5%, soit presque 30% pour chacun des deux liens. Cette probabilité paraît tout à fait naturelle dans un tel contexte.


Fig. 1. Exemple de Click patterns sur le site www.krinein.com.

Regardons maintenant le cas des liens du footer. Le footer a une probabilité de click de 5% (c’est très peu), et propose 4 liens sortants. Chaque lien a donc une probabilité d’être cliqué par le surfeur aléatoire de 1,06%, le lien plein texte vaut donc quasiment 30 fois le lien du footer en terme de transmission de popularité !

On peut bien sûr faire le même procédé pour chacun des éléments graphiques de la page, avec par exemple une valeur fixe pour les mega menu, une autre pour les side menus etc. Mais le principe reste toujours le même.

Le surfeur raisonnable

Cette idée de pondération des liens selon des éléments de contexte, Google l’a eu il y a déjà longtemps. On trouve une première description (un peu cryptique) dans un brevet (référence [3]) datant de 2012 ! A la manoeuvre sur ce brevet, on retrouve Jeff Dean. Son nom ne vous parle peut-être pas, mais il est l’un des responsables de l’équipe Google Brain, un des plus grand spécialistes de l’industrialisation des réseaux de neurones profonds (deep learning).

L’idée est d’aller bien a- delà d’une pondération “graphique” en étant capable de créer des vecteurs de pondération utilisant de multiples caractéristiques. A l’époque, de nombreux commentateurs ont ainsi donné des listes plus ou moins exhaustives de caractéristiques possibles :

  1. Taille de la police de caractère utilisée pour écrire l’ancre du lien (avec probablement l’idée que plus on écrit gros, plus on est “fier” du lien) ;
  2. La position du lien dans la page (on retrouve l’idée évoquée précédemment). Pour être tout à fait honnête, cette idée est répandue dans bien des moteurs, avec une technique assez brutale : on compte le nombre de lignes entre le haut de la page HTML et la ligne qui contient le lien ;
  3. Le type de lien et ses caractéristiques graphiques (une image, un texte, de quelle couleurs, dans quel format, etc.) ;
  4. Une thématisation du texte de l’ancre. Il faut bien noter que ceci est différent d’un PageRank thématique puisqu’ici, il s’agit de modifier la valeur d’un lien sortant, pas de pondérer la valeur d’un couple source-cible ;
  5. Est-ce que le lien est interne ou externe ? ;
  6. L’adéquation entre la thématique globale de la page et la thématique de l’ancre du lien. Ici l’idée est très pertinente : un lien “rachat de crédit” sur une page qui parle des loutres se verra accorder moins de valeur.

Il existe bien sur beaucoup d’autres critères potentiels, en fait on peut en imaginer autant que l’on veut. En effet, in fine la décision de prendre en compte telle ou telle caractéristique sera prise par un algorithme d’apprentissage automatique et donc, au pire, une caractéristique inutile ne sera pas pris en compte.

Guide pour le SEO qui pense au surfeur raisonnable

Le guide des bonnes pratiques est assez simple au final. En voici quelques unes, un peu en vrac :

  1. Les liens importants doivent apparaître comme tels : ils doivent être en plein dans le contenu le plus important (vous voulez pointer vers un produit à pousser de votre catalogue, pas de sider, pas de liens connexes, mais bien une belle phrase dans un texte de description pour les humains) et si vous n’avez peur de rien, vous pouvez les insérer dans des phrases écrites dans une police plus grosse et en gras.
  2. Privilégiez de mettre les liens de structuration interne au dessus de la ligne de flottaison de votre site. Même si ces liens sont en menus/sider, ils auront un peu de valeur car mis en avant un minimum.
  3. Les footers sont presque inutiles. Pourquoi presque ? Parce que l’effet de masse continue à jouer, mais à la marge comme le montre l’exemple de la figure 1. Ceci étant, est-ce qu’un fat footer (ou de manière similaire un mega menu) vous pénalisera ? Probablement pas, tout simplement ils n’auront pas ou très peu d’utilité.
  4. Une image au milieu de votre texte ? Rendez là cliquable avec un lien bien choisi. Dans le modèle du surfeur raisonnable, ce lien aura de la valeur.
  5. Concernant l’achat de liens, il est valable seulement si les liens sont contextualisés et plein texte, sinon ils sont peu utiles.

A noter qu’en termes d’analyse de site, il est conseillé de procéder à plusieurs analyses différentes pour bien comprendre le flux de popularité à l’interne.

Une manière de faire est de regarder les PageRank internes sans se poser de questions, mais également de faire des représentations en enlevant certains liens (footer et navigation par exemple) pour voir quelles sont les pages importantes dans ce cas. Il y a fort à parier que des surprises apparaissent.

Un dernier point à garder à l’esprit : le brevet dont nous avons parlé dans cet article date de 2012, et les algorithmes d’apprentissage que nous étudions aujourd'hui sont très différents de ceux qui existaient à l’époque. On peut imaginer sans aucun souci qu'il est désormais possible de regarder le flux de visiteurs transitant par chaque lien (tâche facile quand on a le DNS, un outil d’analytics, un navigateur etc.) et de passer ensuite un outil de régression pour comprendre ce qui fait la valeur d’un lien, pour ensuite nourrir un surfeur raisonnable à très grande échelle.

Encore une fois, Google a annoncé une prophétie auto-réalisatrice il y a longtemps : c’est de plus en plus la qualité qui fait le classement, et la bidouille manipulative marche moins bien : content is king, as they said 😉

 

Références

[1] Haveliwala, T. H. (2003). Topic-sensitive PageRank: A context-sensitive ranking algorithm for web search. Knowledge and Data Engineering, IEEE Transactions on, 15(4), 784-796.
http://ilpubs.stanford.edu:8090/750/1/2003-29.pdf
[2] Lan Nie, Brian D. Davison, and Xiaoguang Qi. 2006. Topical link analysis for web search. In Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR '06). ACM, New York, NY, USA, 91-98. DOI=http://dx.doi.org/10.1145/1148170.1148189
[3] Ranking documents based on user behavior and/or feature data. Brevet Google.
http://bit.ly/1PND0i3


Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet sont les fondateurs de la régie publicitaire sans tracking The Machine In The Middle (http://themachineinthemiddle.fr/).