Contenu dupliqué : types, algorithmes et méthodes d’optimisation (1ère partie)

Content marketing

15 juin 2022

Le contenu dupliqué sur Internet est un problème aussi vieux comme le Web lui-même. Une facilité absolue de copie (voire de pillage) de contenu propre à l’espace web multipliée par des constellations de solutions techniques non-optimisées comme les paramètres de tracking ou les erreurs humaines engendre des milliards de pages doublons à côté des pages déjà existantes. Ceci en fait une des tâches prioritaires à gérer par les moteurs de recherche. Et comme d’habitude, ce que veut Google se répercute inévitablement sur le travail des responsables SEO. Dans cet article en deux parties nous allons passer en revue les différents types de contenus dupliqués, les algorithmes de détection et les particularités de traitement du contenu dupliqué par Google, les méthodes et outils permettant de l’identifier et bien sûr de le corriger.

Qu’est-ce que le contenu dupliqué ?

Commençons par la définition du contenu dupliqué et pour cela reprenons l’explication officielle de Google :

« Par contenu en double, on entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques dans la même langue ou sensiblement similaires. Dans la plupart des cas, ces contenus ne sont pas trompeurs à l’origine. »

En se basant sur cette définition, nous pouvons facilement élaborer quelques typologies de contenu dupliqué.

En fonction du lieu d’apparition du contenu en double, on peut avoir :

Duplications internes (la page dupliquée se trouve au sein du même site).
Duplications externes (la page dupliquée se trouve sur un autre site, un autre nom de domaine).

En fonction du taux de similitude, on distingue :

Duplications complètes (« exact duplicate »).
Duplications partielles (« near duplicate »).

En fonction de la nature des duplications :

Duplications volontaires et trompeuses.
Duplications involontaires ou accidentelles.

A ces trois types de duplications, on peut ajouter une 4^ème:

Duplications techniques.
Duplications sémantiques (pages qui utilisent des mots et tournures différentes, mais finalement parlent au fond exactement de la même chose sans valeur ajoutée).

Selon le type de duplication, la gravité, la réaction et les méthodes de correction ne seront pas les mêmes. C’est ce que nous allons voir plus tard dans cet article.

Comment Google identifie-t-il le contenu dupliqué ?

Du côté des moteurs de recherche, la comparaison de documents web dans l’objectif d’en identifier les doublons est toujours une affaire de compromis entre précision et ressources machine consommées.

Beaucoup d’algorithmes qui sont à notre disposition et que nous pouvons utiliser sans aucun problème pour nos projets, s’avèrent très vite inefficaces à l’échelle du Web quand il faut effectuer la comparaison avec des millions, voire des milliards de pages web.

Pour identifier si un site contient du contenu dupliqué, Google utilise plusieurs niveaux, méthodes et algorithmes d’analyse.

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter

Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Content marketing

15 juin 2022

parAlexis Rylko

Voir les commentaires (3) Voir les commentaires (3)

5

Reacteur

13 juin 2022 à 9 h 02 min

Répondre
Merci pour ce post. Est-ce que Google n’arriverait pas à reconnaître le fait que le contenu puisse être dupliqué au moins partiellement entre des fiches produits de sites différents ?

Sans en faire découler des conséquences négatives.

Dans le sens où dans certaines thématiques les fiches sont très pauvres car il n’y a que très peu de choses à dire sur les produits.

Ramzi Mansouri

16 juin 2022 à 23 h 10 min

Répondre
1. Oui, comme expliqué dans l’article, je pense…
  
  Reacteur
  
  17 juin 2022 à 7 h 35 min
  
  Répondre

Cliquez ici pour annuler la réponse.

Article précédent

Comment optimiser une offre de magasins, succursales et store locator en SEO ? (1ère partie)

15 juin 2022

Article suivant

Revue d'URL (Juillet-Août 2022)

15 juillet 2022

Contenu dupliqué : types, algorithmes et méthodes d’optimisation (1ère partie)

Qu’est-ce que le contenu dupliqué ?

Comment Google identifie-t-il le contenu dupliqué ?

Cliquez ici pour annuler la réponse.

Comment optimiser une offre de magasins, succursales et store locator en SEO ? (1ère partie)

Revue d'URL (Juillet-Août 2022)

Les articles du moment

Pourquoi vous continuez de produire du contenu… pour rien [partie 2]

Fiche produit e-commerce : pourquoi le gain d’information devient un vrai levier SEO, Shopping et IA

Construire un site scalable et SEO-friendly sur Webflow

Pourquoi vous continuez de produire du contenu… pour rien [Partie 1]

Comment tirer parti de Reddit pour votre stratégie de présence sur les LLMs ?

LinkedIn dopé à l’IA : un nouveau levier de performance pour les PME B2B

Normes, standards et exigences du numérique : contraintes ou opportunités