On n'optimise plus en 2016 un contenu textuel pour une requête unique lorsqu'on désire être visible sur Google, Bing et consorts. Les algorithmes des moteurs de recherche prennent en compte la sémantique et il est important, lors de la rédaction, de s'appuyer sur un champ lexical étendu et donc sur des mots clés ou termes secondaires, complémentaires de la requête visée au départ. Voici donc une méthodologie, basée sur l'analyse lexicale et les co-occurrences, pour vous aider dans cette voie...

Par Guillaume et Sylvain Peyronnet


Depuis maintenant plusieurs années (probablement depuis 2012 pour être exact), Google utilise des algorithmes de reformulation de requête pour mieux comprendre ce que les internautes expriment maladroitement, ne permettant pas au moteur de trouver de bons résultats directement.

Avec ces techniques de reformulation, la requête qui est tapée par l’utilisateur du moteur n’est pas forcément celle que ce dernier va utiliser pour construire les SERP. La question qui se pose alors pour les SEO est de savoir s'il est possible d’anticiper les reformulations pour travailler sur des mots-clés complémentaires pour maximiser ses positions, même sur des requêtes qui seront potentiellement reformulées.

Dans cet article, nous vous proposons un algorithme pour trouver ces mots-clés complémentaires, en se basant sur la notion de co-occurrence, que l’on retrouve par exemple au cœur du brevet [1] que Bill Slawski avait appelé le brevet « Hummingbird » à l’époque.  

La nécessité de la reformulation pour le moteur de recherche

Le médium entre l’internaute et le moteur est la boite de dialogue (le formulaire de recherche) qui permet de saisir la requête. Malheureusement, de très nombreux problèmes se posent concernant ce « dialogue » : fautes d’orthographe, mots ambigüs, utilisation d’un vocabulaire inhabituel (« pince crocodile » au lieu de « pince multifonctions » par exemple), etc.

Pour lutter contre ces problèmes liés à compréhension de la requête, le moteur utilise des algorithmes spécifiques de reformulation (ou extension). Parmi les méthodes de reformulation, on trouve celles basées sur la notion de co-occurrence, qui est celle qui va nous être utile dans le contexte de cet article.

En utilisant les co-occurrences, le moteur va pouvoir préciser le sens d’une requête en lui rajoutant des mots-clés complémentaires, voire en substituant ces mots-clés complémentaires à certaines parties de la requête.

Intuitivement, la notion de co-occurrence est assez simple : on dira que deux mots sont co-occurrents si ils apparaissent ensemble dans un même bloc sémantique. Il est d’ailleurs très important de noter que la définition même de champ lexical ou thématique est basée sur la notion de co-occurrence : des mots d’un même champ lexical sont souvent co-occurrents et des mots souvent co-occurrents sont souvent présents dans un même champ lexical. On repère également la notion de décalage de champ lexical au fait qu’un mot devient moins co-occurrent aux autres mots d’un champ lexical, signifiant ainsi que son usage est en cours de changement.

Le terme plus scientifique pour la co-occurrence est « mesure d’association », il existe plusieurs types de mesures, dont la figure 1 nous montre quatre exemples.


Fig. 1. 4 types de mesure d'association.

Que nous disent ces formules cabalistiques ? La mesure de Dice est la plus intuitive : elle nous explique que l’association entre deux termes a et b est essentiellement la proportion de document qui contiennent a et b ensemble par rapport à ceux qui contiennent a ou b (ou les deux, bien sûr).

Les autres mesures sont plus complexes. L’information mutuelle représente la dépendance statistique entre les apparitions de a et de b : il s’agit d’un analogue de la corrélation entre deux évènements. La version plus complexe de l’information mutuelle (notée EMIM dans la figure 1) a un comportement analogue à la mesure de Dice. Enfin, la mesure via le CHI  2 est basée sur un test statisque bien connu qui mesure l’indépendance de deux variables.

Ce qui n’apparaît pas au premier coup d’œil lorsque l’on regarde ces formules, c’est que Dice et EMIM font ressortir en priorité des associations avec des mots plutôt communs (ceux qui ont une IDF faible, voir notre article [2] dans cette même lettre pour tout savoir de l’IDF), tandis que MIM et CHI2 font plutôt ressortir des associations qui sont des mots rares de la langue (une forte IDF dans le cadre de la TF.IDF).

Par exemple, sur les associations entre mots en anglais, le mot « tropical » se voit associé les mots « forest », « rain », « banana », etc. selon les mesures DICE et EMIM, ce qui intuitivement paraît tout à fait normal. Mais quand on regarde les termes proposés par les mesures MIM et CHI2, on retrouve des mots plus étonnants, comme « itto », « almagreb », « ortuno », « trmm » et « yuca ». Nous laissons les lecteurs curieux voir les définitions de ces mots peu connus, mais il s’agit bien de termes en rapport avec « tropical », qui sont cependant d’un usage très peu commun.

En utilisant une mesure qui favorise les mots communs et une qui favorise les mots rares, un moteur peut ainsi affiner sa compréhension d’une requête de deux manières, sachant qu’en rajoutant des mots à forte IDF dans une requête, on va être très précis sur sa thématique et donc son sens. Pour reprendre l’exemple précédent, en voyant apparaitre suite à une reformulation le mot « jack fruit » plutôt que le mot « banana », on a une information beaucoup plus fine de l’objet d’une requête.

Pour expliquer comment va faire un moteur pour se servir de ce genre de mesures, on va simplifier notre propos en se contentant de dire (ce qui est stricto sensu incorrect, mais l’idée générale est la bonne) que le moteur va prendre des co-occurrences pour chacun des termes de la requête, et va vérifier la compatibilité statistique des termes qui sont candidats à être rajoutés. Les moteurs vont ainsi créer des requêtes plus complètes, mais qui contiennent des mots que les SEO n’avaient pas forcément anticipé. La question cruciale est donc de savoir si on peut « deviner » les termes sur lesquels il faut travailler, en complément de ceux qui sont dans la requête visée.

Travailler sa requête en extension, c’est possible aussi pour le SEO

Le constat de base du paragraphe précédent est très simple : la puissance du mot-clé unique (ce que l’on appellerai plutôt la requête unique) est annulée, il faut maintenant travailler sur des familles de mots-clés en association.

Par exemple, si un vendeur d’outils de jardin travaille la requête « coupe-bordures pas cher », mais que le moteur reformule systématiquement le terme « coupe-bordures » par une entité nommée telle que « rotofil », alors sans prise en compte de la reformulation, le SEO ne pourra pas obtenir un bon positionnement. A noter que cet exemple est légitimé par le fait que des grandes marques, comme Husqvarna par exemple, se positionne sur le mot « rotofil » pour la partie publicitaire du moteur Google  (voir la page web suivante : http://www.husqvarna.com/fr/produits/coupe-bordures/).

Comment déterminer les mots-clés complémentaires qu’il va falloir rajouter ? Bien sûr, on peut se fier à ce que l’on appelle très sérieusement « l’expertise SEO », également appelée « le flair » ou encore parfois « le bon sens ». Mais on peut aussi suivre une méthodologie algorithmique qui peut être déployée sur toutes les thématiques, y compris les plus obscures.

L’idée générale de notre méthode est la suivante :

  1. Tout d’abord il faut fixer la requête principale qui vous intéresse. Par exemple « granulés pour poêle à bois ».
  2. Il faut ensuite créer un corpus sur la thématique de la requête en question, ici la thématique est celle du chauffage individuel et des poêles et cheminées associés.
  3. Dans ce corpus, nous allons compter et extraire les documents qui contiennent les termes de la requête (ici : « granulés » et « poêle à bois »).
  4. Pour chacun de ses documents, nous allons extraire les termes co-occurents (en utilisant une métrique d’association qui favorise les termes courants, et une autre qui favorise les termes rares, pour avoir les deux types de mots complémentaires).
  5. Au final, on va obtenir un ensemble de mots-clés à travailler de manière usuelle : les termes de la requête plus les termes co-occurents déterminés à l’étape 4.

Voyons maintenant comment on peut réaliser chaque étape.

Il faut tout d’abord constituer un corpus. Nous avons vu dans l’article [2] comment faire. Le point crucial s’agissant d’un corpus pour faire de l’expansion de requête est celui de la sélection des sites de la thématiques : la moindre erreur risque de faire apparaître des mots hors thématique. Un autre point important est celui de la lemmatisation : il ne faut pas en faire, car les termes d’une requête de sont pas lemmatisés par les moteurs de recherche.

A l’issue de la création d’un corpus, on possède un ensemble de documents que l’on va pouvoir analyser en détail.

Pour chaque document du corpus qui contient les termes de la requête, on va filtrer des mots ou termes qui sont les plus fréquents et qui sont utiles. D’un point de vue automatique, on peut déterminer l’utilité d’un terme par le calcul de la TF.IDF ou d’une métrique similaire, mais s’agissant d’une démarche semi-artisanale, on peut tout à fait déterminer à la main quels sont les termes utiles, et ensuite prendre les plus fréquents (et pour cela, il suffit de compter le nombre de fois où le terme apparaît dans le document).

Pour la suite, appellons TERME le terme de la requête que l’on est en train d’étudier, et UTILE le terme utile et fréquent choisi. On va compter dans combien de documents apparaît UTILE, dans combien de documents apparaît TERME et également dans combien de documents TERME et UTILE apparaissent ensemble. Une fois que c’est fait, on peut calculer les métriques d’association.

On répète cette opération pour tous les termes de la requête et tous les termes utiles et fréquents, ce qui va nous permettre de classer ces derniers, par score d’association. On travaillera ensuite son SEO pour la requête, et pour tous les termes utiles et fréquents qui ont un haut score d’association. Il n’y a pas de seuil pour décider de ce qu’est un haut score d’association : on va regarder et décider intuitivement (et aussi par rapport à ses moyens) sur les termes à garder.

Un exemple

Imaginons donc cet exemple de la requête « granulés poele à bois ». Après avoir fait un corpus, on détermine quelques termes qui sont fréquents et utiles dans le corpus thématique associé. Il s’agit par exemple ici de « invicta » (la marque de « l’homme aux poeles »), « bois », « pellets », « chauffage », « energie », « chaleur », « gaz » et « livraison ». On va ensuite calculer les scores d’association. Si on a pris 30 documents dans le corpus et que 25 contiennent le terme « granulés », on va ensuite voir ce qu’il se passe pour chacun des termes utiles.

Regardons le cas du mot « pellets », il apparaît dans 23 documents, dont 21 fois conjointement avec le mot « granulés ». Le score de Dice de « pellets » est donc de 0,4375, sachant que le maximum possible est de 0,5, ce score est très haut. En comparaison, le mot « livraison » apparaît 15 fois dont 10 conjointement à « granulés », son score de Dice est donc de 0,25.

On peut faire la même opération, mais avec la mesure de CHI2 par exemple, pour avoir une autre mesure de co-occurrence.

Ceci vous permettra donc de trouver les mots-clés complémentaires à utiliser.

Conclusion

La conclusion est assez simple : nous vous avons proposé une méthodologie pour enrichir les termes sur lesquels vous devez travailler votre positionnement car ils sont susceptibles d’être utilisé de manière transparente par le moteur lors de la création des SERP.

Si cette méthodologie vous fait peur sur la partie la plus technique, c’est-à-dire sur la partie de création du corpus et de filtrage des mots les plus importants, vous pouvez substituer à cette approche un outil de calcul de champ lexical pour trouver les mots utiles et fréquents directement, il ne vous restera plus qu’à estimer (sur les 10 pages de résultats pour votre requête par exemple) ceux qui sont les plus co-occurrents à votre requête. Les deux outils utiles pour faire cela sont yourtext.guru (voir [3] et [4], il s’agit de notre outil) ou les métamots (voir [5], outil de Christian Méline et article dans cette même lettre). Ces deux outils ne sont pas basés sur la méthodologie décrite ici, mais vous pouvez détourner leur utilisation pour avoir une idée des mots-clés complémentaires à votre requête.

Références

[1] Synonym identification based on co-occurring terms. https://www.google.com/patents/US8538984

[2] Le corpus comme guide d'optimisation des contenus (1ère partie). Guillaume et Sylvain Peyronnet. Lettre « Recherche & Référencement » d’Abondance.
https://www.reacteur.com/abonnes/archives/2015-05/corpus-seo.pdf
https://www.reacteur.com/abonnes/archives/2015-06/corpus-seo-2.pdf

[3] https://yourtext.guru

[4] YourTextGuru, un nouvel outil d'aide à la rédaction. Guillaume et Sylvain Peyronnet. Lettre « Recherche & Référencement » d’Abondance.
https://www.reacteur.com/abonnes/archives/2016-05/yourtextguru.pdf

[5] http://www.referencement-naturel-white-hat.fr/tarifs-meta-mots/


Guillaume Peyronnet est gérant de Nalrem Médias.
Sylvain Peyronnet
est co-fondateur et responsable des ix-labs, un laboratoire de recherche privé.
Ensemble, ils font des formations, pour en savoir plus : http://www.peyronnet.eu/blog/