L'évaluation de l'importance d'un backlink par rapport à un autre est une tâche complexe, pour les moteurs de recherche comme pour les SEO. Aussi, la notion de force induite, qui prend en compte plusieurs critères au sein d'un contexte sémantique, peut être une solution intéressante pour mieux prendre en compte ce que peut amener un lien entre deux pages web. Voici une petite explication à ce sujet qui donne souvent des résultats étonnants qui pourraient nous amener à revoir notre vision du netlinking...
Ce mois-ci je vais aborder dans cet article un sujet sur lequel je travaille depuis très longtemps (2015) et sur lequel mes idées ont enfin pu se concrétiser de manière “industrielle” avec l’arrivée du projet Babbar.tech. Il s’agit de la quantification de l’intérêt réel d’un lien entre deux pages web, ce que nous appelons commercialement la force induite.
A mon sens, il est très important d’être capable de quantifier la force d’un lien dans un écosystème qui est de plus en plus prompt à mettre le netlinking en premier comme critère de ranking SEO. Cela peut être utile pour l’achat, pour arbitrer dans le cadre d’un partenariat (page profonde ciblée ou homepage plus populaire ?), pour éventuellement supprimer ou désavouer, etc.
Pourquoi est-ce qu’il y a un problème d’analyse actuellement ?
Aujourd’hui, les SEO évaluent les liens avec des métriques sur les sites et les pages. Nous allons discuter de ces métriques un peu plus loin dans cet article. Mais même dans un contexte où les métriques seraient parfaites (spoiler : ce n’est pas le cas), évaluer un site ou une page n’est pas du tout la même chose qu’évaluer un lien.
Il y a de nombreuses raisons à cela, mais la principale est liée au PageRank dit thématique (sémantique serait plus adapté depuis la mise en place de BERT et autres algos d’embeddings vectoriels) : la valeur de transmission de popularité dépend de la proximité sémantique entre la page source et la page cible du lien. Or, la plupart du temps, on va avoir une évaluation trop grossière de cette proximité, en passant par un indicateur haut niveau de la thématique du site (« le site parle de jardinage donc c'est parfait pour un lien vers une page qui parle de livraison de fleurs »). Dans ce raisonnement au niveau du site il existe deux écueils :
- Le premier est que la thématique vue à très haut niveau est souvent assez fausse. En tant qu'humain, on va avoir tendance à attribuer la thématique majoritaire, pas la thématique « moyenne » d’un site. C’est un problème, car cela veut dire que la métrique (souvent non thématique) qu’on voit sur les outils n’est pas du tout conforme à ce que chaque page du site a réellement.
- Le deuxième est que ce qui compte, c’est la page source en elle-même et pas le site source. On est sur un problème très proche du premier, mais un peu différent quand même : le pourcentage de transmission entre deux pages dépend de la proximité sémantique, et donc une page-source ne sera intéressante que si elle traite du même sujet que la page-cible du lien. Il faut donc s’assurer que le texte de la page source est parfaitement en adéquation pour le lien : un bon lien c’est aussi un très bon travail de rédaction sur la page source du lien. Il faut que le contenu de cette dernière soit parfaitement dans la bonne sémantique, mais qu’il ne soit pas en compétition directe pour éviter la cannibalisation.
Différents cas de figure de thématisations
La figure ci-dessus illustre différents cas de figure de transmission selon les proximités sémantiques. Nous y voyons deux sites qui vont se faire un lien entre eux par l’entremise de deux pages. Dans chacun des cas une page du site sur la gauche de chaque dessin (le rond qui est encastré dans le bloc rouge) fait un lien vers la page de droite (le rond encastré dans le bloc bleu).
La thématique du site 1 est majoritairement « rouge », celle du site 2 est majoritairement « bleu ». Si on fait un lien brutalement de rouge vers bleu la transmission est très amortie car il n'y a pas de proximité sémantique, et donc le lien a peu de valeur. C’est le cas A.
Dans le cas B, la rupture thématique est faite au niveau de l’intérieur du site 1, mais comme le nombre de liens internes est souvent assez haut, la probabilité d’avoir une meilleure transmission est plus forte.
Le cas C est le meilleur avec l’existant des sites 1 et 2 : on fait des pages source et cible qui sont bicolores, on va ainsi garantir une meilleure proximité. Bien entendu, la page du site 2 est alors moins focus sur la thématique bleu, et ça ne sera pas directement la page que l’on veut rendre forte.
A noter que ce cas C doit vous évoquer quelque chose si vous êtes un SEO un peu aguerri : c’est exactement la logique derrière le cocon sémantique (ou équivalent, vous pouvez choisir le nom que vous voulez).
L'explication ci-dessus vous a paru un peu abstraite ? Imaginez maintenant que le site rouge parle de voiture, et le site bleu des animaux.
Un lien depuis une page qui parle du dernier modèle de voiture électrique sur le site de la thématique "voiture" vers une page parlant d'un zoo sur le site de la thématique "animaux" ne transmettra quasiment aucune popularité à cause de la cassure sémantique, c'est le cas A.
Un lien depuis une page sur le jaguar (l'animal) sur un site "voiture" vers une page sur le jaguar (toujours l'animal) sur un site "animaux" aura une meilleure puissance. Principalement parce que les nombreux liens internes de la page source vont tous récupérer un petit peu de popularité quand même. C'est le cas B.
Enfin, un lien depuis une page qui explique la visite du "safari" du zoo de Thoiry (en voiture) sur le site "voiture" et qui fait un lien vers une page qui explique quelle voiture prendre pour faire la visite de Thoiry et de son safari sur le site "animaux" assurera une meilleure proximité thématique. C'est le cas C.
OK, on a bien compris, et sinon on regarde quoi sur le lien ?
Une fois qu’on a compris qu’on allait caractériser le lien, et donc regarder des critères sur la page source, mais aussi sur la page cible, tout devient plus facile. Il suffit de regarder les aspects suivants :
- Un bon lien vient d’une page qui transmet de la popularité. Et comme on va regarder la proximité sémantique à part, c’est la popularité brute qui compte ici. Nous proposons de prendre un score qui correspond au PageRank avec modèle du surfeur raisonnable.
- Un bon lien est thématisé. On vient d’en parler au-dessus, il faut calculer la distance sémantique entre le texte de la page source et celui de la page cible pour s’assurer que tout va bien se passer. Pour cela il faut utiliser BERT, FastText ou tout autre embedding vectoriel moderne.
- Un bon lien vient d’une page qui est de qualité raisonnable au regard du reste du Web. C’est un point difficile à évaluer et je propose de plutôt regarder une métrique « incidente » : le niveau de confiance de la page évalué par un algorithme de Trustrank. On rentre là dans un domaine plus prospectif, puisque Google a toujours dit ne pas utiliser cet algorithme, mais on sait qu’il poursuit le même but que d'hypothétiques algorithmes mis en place par le moteur pour évaluer la légitimité d’une page.
On va donc regarder le niveau de trust (au moins deux outils SEO ont ce type de métrique : Babbar.tech et Majestic SEO) et surtout, on va regarder s'il est au niveau attendu au vu de la popularité de la page. En effet, une page très populaire devrait mécaniquement être plutôt légitime. Et réciproquement, une page très légitime devrait être un minimum populaire. Plus que les valeurs brutes, ce qui compte ici est la cohérence des métriques les unes par rapport aux autres.
- Enfin, un bon lien est fait avec une ancre bien choisie (attention au Penguin qui veille toujours dans le coin) et en plein texte. Ces deux critères je les mets de côté dans le cadre de cet article.
Au final, savoir si un lien va être de bonne tenue est assez facile, mais il faut arbitrer entre plusieurs métriques simultanément, plus une distance un peu mystérieuse entre textes. C’est pour cela qu’on a créé la force induite qui est disponible chez Babbar.tech, pour simplifier la vision.
Au final, la force induite va être une savante recette qui prend en entrée la popularité d’une page source d’un lien, et qui va pondérer cette popularité avec la compatibilité sémantique entre la page source et la page cible, ainsi que la cohérence entre confiance et popularité. Le résultat sera une valeur entre 1 et 100, 100 étant le maximum. Et en réalité pour un lien donné, le maximum possible est la popularité brute de la page source : une page parfaitement choisie vaudra au maximum sa popularité.
J’achète un lien, mais la page source n’a pas encore été écrite, ça marche quand même ?
Techniquement la réponse est non, mais il y a bien sûr un contournement. En premier, on peut faire des projections sur ce que l’on va faire en termes de proximité et de placement de la page dans le site source, mais c’est beaucoup de travail pour quantifier ce que l’on va obtenir.
Le contournement réaliste est de rechercher dans le site source un page proche de la page qui va être réalisée en terme de sémantique, et à un niveau de placement similaire. On voit dans la pratique que les SEO qui utilisent la force induite vont prendre une page de catégorie ou une page-sœur de la future page qui va être réalisée. A posteriori le choix effectué ainsi reste souvent le meilleur choix possible (une fois la page mise en place, on peut vérifier la qualité du lien).
Un exemple pour mieux comprendre ?
A titre d’exemple on va imaginer que je souhaite obtenir un très bon lien pour pousser la page https://freres.peyronnet.eu/nos-activites/ (un site à visiter, c’est évident !). J’ai la possibilité de faire parler de moi sur 4 sites bien connus. En premier je vais regarder le profil des sites globalement, comme font les SEO sans se préoccuper de simuler un lien, sans surprise je vais utiliser notre outil babbar.tech pour faire toutes les manipulations. J’obtiens les métriques lisibles dans la figure ci-dessous :
Métriques des sites dans babbar.tech
Quand on regarde ces métriques, on se dit aussitôt que si on fait un article un peu dans le bon thème, le mieux est de partir sur Le Monde, puis Abondance, puis Les Echos, puis Formaseo.
Mais maintenant j’applique la force induite, et je regarde ce qui se passe :
Résultats avec la force induite
L’arbitrage devient totalement différent : je n’ai aucun intérêt à avoir un article depuis Le Monde, car il n’y a aucune proximité sémantique. En revanche, un article depuis formaseo.fr est le must (ça tombe bien !), alors que d’un point de vue site c’était en théorie le moins prometteur de tous.
Comme on le voit, cela change totalement la vue que l’on peut avoir des backlinks, même si bien entendu, un lien depuis lemonde.fr va avoir une grosse utilité sur d’autres aspects (et si on est bien thématisé alors c’est le jackpot, donc il faut bien faire le calcul au cas par cas).
Voilà, vous savez tout sur la force induite et du pourquoi c’est le lien qui compte, et pas le site qui l’émet ! Bonnes fêtes de fin d’année à tous, et à l’année prochaine !
Sylvain Peyronnet, concepteur de l'outil SEO Babbar.