Sur un site web, de nombreuses pages, appelées «  inactives  », ne génèrent pas du tout de trafic SEO ou très peu. Elles peuvent poser certains problèmes et doivent le plus souvent être traitées après avoir été détectées. Cet article a donc pour objectif de vous donner un maximum d'information à ce sujet, afin d'obtenir un site web le plus actif possible et surtout parfaitement optimisé pour le budget crawl de Google.

Par Daniel Roch


En référencement naturel, il est toujours conseillé de créer de nouveaux contenus pour améliorer sa visibilité. Mais que faire quand ces contenus sont très nombreux et que certains n’apportent plus de trafic ? Nous allons voici dans cet article ce qu’est un contenu inactif, comment le trouver, quel est son impact et surtout quelles sont les différentes méthodes que l’on peut mettre en place pour le gérer au mieux.

Qu’est-ce qu’un contenu inactif ?

En référencement naturel, on parle de contenu inactif quand une URL d’un site n’apporte aucun trafic en provenance des moteurs de recherche. En d’autres termes, la publication concernée n’a aucun intérêt SEO puisque les moteurs de recherche ne lui donnent pas de visibilité suffisante.

A côté, il existe aussi les contenus peu actifs, c’est-à-dire tous les contenus qui apportent peu de visites chaque jour (en général, quand l’URL attire moins d’un visiteur par jour depuis les moteurs de recherche, elle est considérée comme inactive).

Pourquoi un contenu est-il inactif ?

Il existe de nombreuses explications sur le fait qu’une URL précise ne soit pas suffisamment visible pour attirer des visiteurs. La liste des raisons possibles indiquées ci-dessous ne sera pas exhaustive, mais permet déjà d’avoir un ordre d’idée des principaux motifs à ce manque de visibilité.

Un mot clé non tapé

C’est sans doute la raison la plus évidente : le contenu que l’on analyse n’est optimisé pour aucun mot clé tapé par les internautes. Par la force des choses, il ne peut donc jamais apparaître dans les moteurs de recherche, et est ainsi inactif de manière systématique.

Des problèmes techniques

Seconde raison courante : des problématiques techniques qui empêcherait Google d’indexer le contenu ou de le comprendre réellement. Là encore, le résultat est le même : un contenu inactif car Google ne peut correctement se positionner.

Une page pas suffisamment positionnée

Troisième raison fréquente : le contenu est compris par Google et cible un mot clé, mais n’est pas jugé suffisamment pertinent pour avoir une position suffisante. On peut ainsi être en seconde page de Google, ce qui ne suffit pas pour attirer des visiteurs. Et ce manque de positionnement peut venir de plusieurs facteurs différents dont notamment :

  • Le manque de popularité du contenu : si ce dernier ne reçoit pas ou peu de backlinks, il y a de fortes chances que ce dernier n’apparaisse pas dans Google ;
  • La qualité sémantique trop faible du contenu ;
  • Un mauvais maillage interne et/ou une mauvaise structure du site (par exemple, un contenu « enterré » au fin fond de ce dernier) ;
  • Etc.

La saisonnalité

C’est un critère souvent ignoré et qui peut induire en erreur. Certains secteurs d’activité peuvent en effet être très saisonniers. Par exemple, la requête « feu d’artifice 14 Juillet » a une demande qui varie très fortement en Juillet :


Fig. 1. La demande peut parfois être très saisonnière.

Si on analyse le trafic d’un contenu positionné sur ce terme, il faut donc bien vérifier la période d’analyse choisie pour ne pas croire à un contenu inactif.

Un contenu ciblé sur une période et les baisses de la demande

Un contenu peut parfois bien se positionner car il traite d’une période précise (par exemple un événement). Il peut être bien positionné, mais la requête est de moins en moins tapée. Par exemple, un article sur l’évènement « SEOCamp’us 2018 » va bien fonctionner au début de l'année 2018, mais ne sera sans doute plus actif d’ici 2-3 ans.

Un contenu pas encore découvert ou découvert récemment

Une autre raison toute bête ici  : le contenu n’a pas encore été trouvé par le moteur de recherche, et n’apparaît donc pas (ce qui est d’ailleurs parfois lié à des problèmes techniques). C’est aussi le cas des contenus publiés il y a à peine quelques jours : ils mettent parfois un peu de temps à bien se positionner (et on risque alors à tort de les considérer comme inactifs ou peu actifs).

Quels problèmes cela peut-il engendrer ?

On pourrait se dire facilement qu’un contenu inactif ou peu actif n’est pas une chose très grave en soi et que l’on peut les ignorer.
C’est le cas quand ils sont peu nombreux, mais dès lors qu’ils représentent une forte proportion des contenus, ils vont poser différentes problématiques.

Le crawl

Google ne peut pas allouer des ressources infinies à un site. Il possède un "budget de crawl" alloué à chacun d’entre eux (source). Ainsi, si on lui fait perdre du temps sur des contenus inactifs, c’est du crawl en moins pour les contenus réellement intéressants. Cela peut donc freiner l’indexation globale du site concerné.

La perte et dilution de la popularité

Autre problématique : une perte de popularité. En faisant des liens vers un contenu, on lui transmet de la popularité. En le faisant vers des contenus inactifs, on va ainsi transmettre de la popularité à des contenus moins pertinents, popularité qui aurait tout son intérêt pour les contenus et URL que l’on veut mettre en avant.

Des signaux d’engagement faibles

Google indique de plus en plus qu’il prend en compte « l’engagement de l’utilisateur ». Si un internaute a tendance à cliquer sur un résultat de recherche et revenir juste après, le moteur tend à considérer le contenu comme non pertinent.

Dans le même temps, si de nombreux internautes cliquent souvent sur un résultat précis pour une requête donnée, ce résultat aura tendance à remonter (source).
Ainsi, si trop de contenus sont inactifs ou peu actifs, Google pourrait considérer l’ensemble du site comme moins pertinent.

Un plus grand risque de pénalités algorithmiques

Autre risque possible, les pénalités algorithmiques sont plus probables lorsqu’un site possède beaucoup de contenus de faible qualité. C’est d’autant plus vrai pour certains filtres, comme par exemple Google Panda. John Muller (des équipes de Google Zurich) a notamment indiqué que « TOUTES les pages indexées étaient prises en compte dans l’algorithme de qualité de Google », et non pas uniquement une page seule (source).

Comment détecter des contenus inactifs

La 1ère question que l’on doit se poser est donc très simple : comment savoir si mon site possède des contenus inactifs ?

Pour détecter ces derniers, deux informations sont importantes à récupérer pour chaque contenu :

  • Le nombre de fois où une URL précise apparaît dans les moteurs de recherche (les « impressions ») ;
  • Le nombre de fois où cette même URL est cliquée.

Ces informations sont disponibles dans la Search Console de Google :

  • Dans l’ancienne version de la Search Console : Menu « Trafic de Recherche » > « Analyse de la recherche » en activant la vue par « Pages » ;
  • Dans la nouvelle version de la Search Console : Menu « Etat > Performances » en activant l’onglet par « Pages » ;


Fig. 2. Le détail des pages dans la nouvelle Search Console.

Pour les clics, vous pouvez aussi l’obtenir de façon détournée avec un outil de Webanalytics en regardant pour chaque URL de votre site le nombre « d’entrées » pour le trafic en provenance des moteurs de recherche.

Mais récupérer ces éléments manuellement n’est pas pratique. Nous allons donc utiliser au maximum des logiciels pour exécuter ces tâches. Sachez aussi que dans l’idéal, il est intéressant de récupérer d’autres informations venant des Webanalytics, comme :

  • Le taux de rebond ;
  • Les conversions (si vous avez mis en place cet indicateur) ;
  • Le nombre de pages vues de l’URL.

En effet, un contenu peut être inactif en SEO mais avoir un réel intérêt commercial et marketing.

Etape 1 - Un crawl classique

La 1ère étape consiste à utiliser un logiciel de crawl, comme Xenu Link Sleuth (gratuit) ou Screaming Frog Spider SEO (payant). Le second est bien plus pratique (et surtout rapide) car il peut se connecter aux API de la Search Console et de Google Analytics pour récupérer les données.

Si le logiciel utilisé ne possède pas ces connexions API, vous devrez manuellement exporter les données de la Search Console pour ensuite fusionner ces éléments dans un fichier Excel.

Cas n°1 : logiciel sans accès d’API
Si vous êtes dans ce cas, exportez les données de votre outil de crawl dans Excel (par exemple avec Xenu avec l’exportation au format texte dans « File > Export to TAB separated File » ou dans Screaming Frog avec le bouton « Export » du premier onglet).


Fig. 3. L’option d’exportation de Screaming Frog.

Dans un second onglet dans Excel, exportez les données de la Search Console (bouton «  Télécharger  »tout en bas à gauche dans l’ancienne Search Console ou l’icône « Exporter » en haut à droite du tableau dans la nouvelle Search Console).

Une fois vos données (celles du logiciel de crawl et celles de la Search Console) dans le même fichier, vous devrez utiliser la fonction recherchev d’Excel pour faire la correspondance entre les deux tableaux. Pour ceux n’ayant jamais utilisé cette fonction, consultez cet article : https://support.office.com/fr-fr/article/fonction-recherchev-0bbc8083-26fe-4963-8ab8-93a18ad188a1

Cas n°2 : logiciel avec accès API
Si votre logiciel de crawl peut se connecter aux API, c’est bien plus simple. Prenons l’exemple de Screaming Frog Spider SEO qui le fait très bien. Avant de lancer le crawl du site, rendez-vous dans « Configuration > API Access » pour bien connecter Google Analytics d’une part et la Search Console d’autre part. Dans la mesure du possible, essayez de prendre une durée suffisamment longue pour avoir des données pertinentes (6 à 12 mois).


Fig. 4. Le menu de paramétrage des API.

Une fois le scan terminé, vous aurez donc la liste complète des URL trouvables sur le site actuel ainsi que leurs données respectives.

Etape 2  - Les contenus orphelins.

L’étape n°1 n’est pas suffisante, car elle ne vous donnera que les informations des URL actuellement présentes sur le site. Très souvent, les sites web ont des contenus « orphelins », c’est-à-dire des contenus qui existent encore mais vers lesquels vous ne faites plus aucun lien.

L’idée est donc de les ajouter au scan initial pour trouver les autres contenus que Google continue d’indexer et/ou de crawler car certains sont peut-être pertinents et d’autres sans doute inactifs. Là encore, plusieurs méthodes existent :

Solution n°1 : les logs du serveur pour trouver les URL appelée par les moteurs de recherche.

Chaque hébergeur étant différent, ils ne stockent pas tous au même endroit ces fichiers ni ne les conservent sur la même période. Il vous faudra télécharger vos logs pour ensuite pouvoir les utiliser. Une fois de plus, deux solutions s’offrent à vous :

  • Les importer dans Excel puis faire le tri manuellement (en supprimant les doublons et en ne conservant que les visites des robots de Google : Cf. cet article pour avoir la liste de leurs noms : https://support.google.com/webmasters/answer/1061943?hl=fr).
  • Ou utiliser un logiciel de logs. Par exemple l’excellent Screaming Frog Log File Analyzer est très bien fait pour cela (logiciel payant). Vous pouvez en effet créer un projet en important autant de fichier de logs que désiré afin d’avoir le détail du nombre de passages de Google sur chaque URL.


Fig. 5. Un exemple de données de logs.

Dans l’onglet «  URL  », il vous suffira alors d’appuyer sur le bouton « Export ».

Solution n°2 : Exporter toutes les URL trouvées dans la nouvelle Search Console.

Pour cela, allez dans le menu « Etat > Couverture de l’index ». Cliquez sur les 4 cases « Erreurs », « valides avec avertissements », « valides » et « exclues » (elles doivent être colorées). Vous devrez ensuite cliquer sur chaque type d’URL dans le tableau situé en dessous puis cliquer sur «  Exporter  ».


Fig. 6. L’interface de la nouvelle Search Console.

Si vous avez de nombreux « états » d’URL différents, ce travail sera long. Sachez aussi qu’il est très intéressant de répéter cette étape pour les 3 autres variantes de votre nom de domaine. Par exemple, si votre site est en HTTPS avec les trois w (https://www.exemple.fr), il est intéressant de regarder les données des Search Console suivantes :

  • https://exemple.fr
  • http://exemple.fr
  • http://www.exemple.fr

Pour les deux solutions

Une fois ce travail réalisé (pour les logs et/ou pour la Search Console), exportez toutes les URL dans un simple fichier texte que vous allez resoumettre à votre logiciel de crawl. La plupart d’entre ont en effet un mode « Liste » qui va contrôler une série d’URL plutôt que de scanner un site.


Fig. 7. Le mode liste de Screaming Frog (pensez bien à reconnecter les API auparavant).

En vous connectant à l’API, vous aurez ainsi les mêmes informations que lors de notre première étape, mais cette fois-ci avec les URL visitées par les robots et non pas seulement avec celles trouvables sur le site actuel.

Etape 3 – Croiser les données

C’est ici où les choses deviennent intéressantes. Le détail des URL du crawl et le détail des URL des logs et de la Search Console permettent à un instant T d’avoir la liste complète des URL existantes d’un site.

Utilisez donc Excel pour fusionner en un seul et même fichier Excel la liste complète de ces URL en supprimant les doublons éventuels.

Etape 4 – L’analyse

Il vous faut maintenant analyser ces données. Notre objectif est de lister les URL inactives d’une part et celles trop peu actives d’autre part. Théoriquement, à cette étape, vous avez en votre possession la liste des URL existantes de votre site avec :

  • Les informations SEO de base via votre logiciel de crawl (title, meta description, etc.) ;
  • Les informations de la Search Console (clics et impressions) ;
  • Éventuellement les informations de Google Analytics (pages vues, taux de rebond, conversions).

Avant de commencer l’analyse, regardez également la période utilisée car elle sera nécessaire pour avoir une évaluation juste des données (avez-vous des données sur 1 an ou sur 1 mois par exemple ?). Il vous faut ensuite classer les contenus selon différents types :

  • Contenus inactifs : 0 clics et 0 impressions ;
  • Contenus inactifs mais positionnés : 0 clics mais avec des impressions ;
  • Contenus peu actifs : plusieurs clics (mais moins d’un clic par jour sur la période analysée) ;
  • Contenus actifs : au moins un clic par jour ;
  • Contenu très actifs : en fonction de votre secteur d’activité, cela pourrait être au moins 50 et 100 clics par jour.

Théoriquement, les contenus actifs et très actifs n’ont aucun souci. Les autres sont problématiques et devront donc être traités. Pour d’ailleurs pouvoir avoir une classification plus pertinente, les autres données Analytics sont intéressantes :

  • Contenus inactifs :
    • s’il y a des conversions, l’URL reste utile ;
    • s’il y a des pages vues, il faudra regarder manuellement à quoi sert cette URL.
  • Contenus peu actifs : si le taux de rebond est élevé, la page semble peu pertinente sur les quelques requêtes où elle s’affiche.

Attention cependant : dans cette liste de contenus inactifs ou peu actifs, certaines URL peuvent l’être sans que cela ne pose de réel problème, notamment :

  • Les URL avec des contenus saisonniers ;
  • Les URL marketing ou légales (comme par exemple la page Mentions Légales).

Comment traiter un contenu inactif ?

Une fois que l’on connaît toutes les URL concernées par cette problématique, il existe plusieurs solutions : une amélioration de ces contenus ou bien une suppression/fusion de ces derniers.

Solution n°1 correction techniques

La première solution est celle qui est préconisée dans 100% des cas. Avant de déterminer si un contenu peut être utile ou non, il faut s’assurer que son « inactivité » n’est pas liée à un problème technique l’empêchant d’être correctement positionné. Vous devrez donc vérifier les points suivants (liste non exhaustive) :

  • Les URL des autres variantes du nom de domaine sont bien redirigées en 301 (par exemple les versions sans WWW et les versions HTTP) ;
  • Ces URL ne sont pas bloquées pour le moteur de recherche :
    • Par le fichier robots.txt ;
    • Par la méta robots (ou l’entête HTTP X-robots) en noindex ;
    • Par du cloaking ;
    • Par des liens vers cette page en nofollow.
  • Cette URL n’est pas une URL avec un paramètre (par exemple monsite.fr/ ?toto=youpi) ;
  • Le page indique bien une URL canonique identique à celle actuellement consultée (balise rel=canonical dans le <head> de chaque page) ;
  • En désactivant le Javascript, le contenu s’affiche bien ;
  • Si elles existent, les pages « Print » sont bien désindexées et inaccessibles pour le moteur de recherche ;
  • Le contenu n’est pas dupliqué dans le site (contenu dupliqué interne) ni sur d’autres sites web (contenu dupliqué externe) ;
  • Etc.

Une fois que l’on est sûr que le contenu inactif n’est pas impacté par ces problèmes techniques, il existe différentes méthodes à mettre en place :

Solution n°2 : la fusion

La deuxième solution est simple : fusionner tout contenu qui traite des mêmes sujets de façon similaire. Attention, on ne parle pas de fusionner tous les articles qui parlent d’une thématique, mais uniquement ceux qui sont redondants et inactifs.

Ceci est d’ailleurs aussi valable pour des contenus plus traditionnels. L’exemple le plus courant est la page de mentions légales que l’on peut facilement fusionner avec la page des CGV ou encore avec celle de la page de politique de confidentialité.

Solution n°3 : l’amélioration

Outre la fusion, on peut (et doit) tout simplement chercher à améliorer le contenu si cela est possible. Pour cela, il existe de nombreuses méthodes différentes et complémentaires, dont voici certaines :

  • Cibler un autre mot clé pour ce contenu ;
  • L’étoffer (plus de textes, de titres, d’images, de vidéos, etc.) ;
  • Créer des contenus secondaires sur la même thématique et les lier entre eux ;
  • Refaire parler du contenu (page d’accueil du site, réseaux sociaux, forums, emailings, etc.) ;
  • Mieux les mettre en avant dans la structure du site (maillage interne, page d’accueil, catégories, etc.) ;
  • Créer de nouveaux backlinks vers ces contenus ;
  • etc.

Solution n4 : la suppression

Dernière méthode : la suppression pure et simple du contenu. Pour cela, rien de très complexe : supprimer le contenu et redirigez impérativement l’URL vers le contenu le plus pertinent avec une redirection 301.

Mais ce n’est pas suffisant : une fois cette redirection correctement mise en place, vérifiez bien que :

  • Plus aucun lien interne n’est fait vers cette URL ;
  • Il y a le moins possible de backlinks vers cette dernière.

Sachez que vous pouvez demander dans la Search Console de supprimer une URL de l’index. C’est une méthode très rapide mais qui ne sera pas définitive, avec l'option : «  Supprimez temporairement vos URL des résultats de recherche  ». Pour supprimer un contenu définitivement, vous devez supprimer ou mettre à jour la page source. Nous déconseillons donc cette dernière méthode.


Fig. 8. Le menu peu utile des URL à supprimer dans l’ancienne Search Console.

Conclusion

Les contenus inactifs ou peu actifs peuvent nuire sur le long terme au référencement d’un site. Au même titre que la création de nouveau liens et de nouvelles publications, c’est une étape indispensable et continue dans le travail de référencement naturel d’un site.

Mais attention, chaque contenu inactif ou peu actif doit être analysé avec minutie pour en comprendre la raison, et surtout pour déterminer quelle est la solution la plus adaptée à mettre en place (correction technique, fusion, amélioration ou suppression).

Pour d'autres informations complémentaires, vous pourrez également cet article du site WebRankInfo qui traite de ce sujet.


Daniel Roch, consultant WordPress, Référencement et Webmarketing chez SeoMix (http://www.seomix.fr)