Google propose depuis quelques mois la prise en compte de la balise Link Hreflang pour indiquer les différentes versions linguistiques d'une même page. Or, on s'aperçoit que cette balise est très souvent mal implémentée dans les sites web. Cet article a donc pour volonté d'expliquer comment Google détecte la langue d'un contenu ainsi que les différentes possibilités disponibles pour indiquer au moteur quelle est celle utilisée dans une page donnée et comment il faut les utiliser à bon escient...

Cet article fait partie de la Lettre Réacteur #148 du mois de mai 2013

Début de l'article :

Lors de leur exploration des pages du web, les moteurs de recherche rencontrent des pages rédigées dans les nombreuses langues différentes utilisées sur la Toile. L'identification exacte du langage employé est indispensable pour "classer" et "filtrer" correctement les pages par langue utilisée. Associer une langue à une page se révèle évidemment plus pratique pour les utilisateurs, mais aussi pour pouvoir appliquer les bonnes règles et les bons analyseurs lexicaux et syntaxiques aux textes à indexer. Or la détection de la langue employée n'est pas du tout triviale pour un moteur de recherche... Nous allons d'abord voir pourquoi dans un premier temps, avant de nous intéresser à une solution proposée par les moteurs Google et Yandex uniquement pour "aider" ces moteurs à associer les pages à la bonne version linguistique : l'annotation . Nous détaillerons ensuite les cas d'utilisation de cette balise dont la manipulation est souvent mal comprise par les webmasters.

Le problème de la déctection de la langue sur les pages multilingues

Le premier écueil que rencontrent les moteurs pour identifier la langue d'une page est dans un premier temps la complexité des langues parlées sur Terre. Il existe tout un continuum de situations entre la langue officielle, les langues locales, les variantes régionales, les dialectes, les "patois locaux", les créoles, les niveaux de langage (ex : le langage SMS comparé au français littéraire), les usages (ex : l'arabe moderne / l'arabe classique).

Cette absence de critère linguistique permettant de séparer clairement langues et variantes, langues et dialectes, empêche de comptabiliser correctement le nombre de langues parlées sur Terre. Mais on parle de plusieurs milliers de langues différentes... Un moteur comme Google n'en gère que 130 environ.

Le second écueil est bien sûr que les sites sont parfois rédigés en plusieurs langues, et surtout, que plusieurs langues peuvent être présentes sur la même page !

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).