Comme vu dans notre article du mois dernier, les enjeux d’une refonte de site web sont multiples et impactent de nombreux corps de métiers. Une refonte, c’est également l’occasion de faire mieux : remettre à plat ce qui a marché, ce qui a moins bien fonctionné, et analyser l’existant en vue de la migration des URL. Nous allons aborder dans cet article cette analyse de l’existant afin de faire un état des lieux des URL à rediriger (en cas de modification de leur structure), pour conserver le trafic SEO existant, voire même le faire progresser.

Par Aymeric Bouillat


Analyser et prioriser les URL

En cas de modification d’URL, il sera nécessaire d’établir la liste des URL à rediriger, et de les prioriser pour ne pas passer à côté de celles ayant le plus de poids SEO. Afin de conserver la visibilité des URL les plus importantes, la première étape consistera à crawler l’ensemble du site à la manière de Google pour avoir une liste exhaustive des URL existantes, en récupérant des données liées aux performances de ces pages.

L’outil Screaming Frog Seo Spider est tout à fait adapté à cette tâche, puisqu’il est capable de simuler le passage d’un crawler comme GoogleBot pour récupérer l’ensemble des URL, tout en les associant à un certain nombre de KPI issus d’outils externes comme Google Search Console, Google Analytics (données trafic) ou encore Ahrefs et Majestic (données backlinks).

La figure 1 montre comment utiliser les connecteurs pour remonter un maximum d’informations pour chaque URL via cet outil.


Fig. 1. Crawler le site en récupérant des informations issues d'outils externes.

Il vous faudra dans un premier temps autoriser l’accès à Screaming Frog SEO Spider aux API externes. Une fois l’outil autorisé à récupérer les données en provenance des API, sélectionnez le site à analyser (fig. 2).


Fig. 2. Connexion de Screaming Frog Seo Spider à l'API Search Console.

Plusieurs options sont disponibles dans les onglets de chaque API (Date Range, Dimension Filter, General pour Google Search Console). Il est préférable de travailler sur les données des trois derniers mois, pour avoir un peu d’historique, et de sélectionner l’association entre les URL avec et sans trailing-slash pour limiter le traitement des doublons. Vous pourrez également ne pas tenir compte de la casse dans le cas où votre site gère indifféremment ce type d’URL au niveau du serveur.

La connexion à une API telle que Google Analytics peut être pertinente dans certains cas, afin de remonter des URL qui ne seraient pas visibles dans la Google Search Console, mais qu’il serait utile de rediriger malgré tout dans une stratégie plus globale (URL d’affiliation, URL publicité, URL générant du trafic via des sites référents, etc.)

Une fois les éléments de base du crawl configurés (respect du robots.txt, vitesse de crawl, type de ressources à crawler, etc.), vous pouvez lancer votre crawl afin de récupérer l’ensemble des KPI relatifs aux URL de votre site, une connexion à une API d’analyse de liens entrants tel que Ahrefs ou Majestic serait un plus, pour prendre en compte les URL générant peu de trafic mais recevant des liens de qualité, et pouvant transmettre de la sémantique à votre site via les ancres de liens.

La totalité des données pourra être exportée au format XLSX (Excel) plutôt que CSV, ce dernier posant parfois des problèmes lors de l’importation sous Excel. Vous aurez ainsi votre base de travail en vue de la mise en place du plan de redirections (fig.3).


Fig. 3. URL les plus performantes à rediriger en priorité.

Tenir compte de toutes les URL : utiliser différentes sources

Certains types d’URL qui ne seraient pas détectées par défaut par Google Analytics comme les .pdf par exemple, peuvent être remontés via des outils comme Google Search Console. Des URL qui ne sont plus exploitées dans le maillage du site peuvent également recevoir des liens externes et générer du trafic, soit via le SEO, soit via les sites référents entre autres.

Le crawl ne permettant pas toujours de remonter l’intégralité des URL, il est recommandé d’extraire de façon indépendante les éléments suivants, et de les placer de façon indépendante dans un premier temps, dans des onglets distincts de votre fichier de travail Excel, qui servira de plan de redirection :

  • Trafic Google Analytics ;
  • Trafic Google Search Console ;
  • URL recevant des backlinks ;
  • Analyse de logs (pour affiner et aller dans le détail).

Les statistiques en provenance de ces différents services vous permettront d’avoir l’exhaustivité des URL ayant un potentiel SEO. Des URL peuvent générer une part non négligeable du trafic, mais ne pas être détectées lors du crawl (liens en JS, pages orphelines) : une page recevant de nombreux liens externes et ne recevant plus de liens internes par exemple.

Vous pourrez ensuite regrouper l’ensemble de ces URL issues des différentes sources dans un seul et même onglet (onglet nommé « Regroupement » dans cet exemple), tout en conservant la provenance de vos URL, ce qui sera utile pour connaître la source de vos URL lors de la mise en place des correspondances, et ainsi vous permettre de mieux arbitrer dans certains cas (ex : utilité d’URL crawlée mais ne générant pas de trafic).

Pour cela, il vous faudra dans un premier temps rassembler l’ensemble de vos URL dans un seul et même onglet (sous les dernières lignes des URL issues du crawl), puis ensuite dédoublonner pour éviter les redondances d’une même URL sur plusieurs lignes.


Fig. 4. Suppression des URL en double en provenance des différentes sources.

Une fois cette opération effectuée, l’utilisation de la fonction « =RECHERCHEV » d’Excel vous permettra de déterminer la provenance de chaque URL à rediriger, mais également de regrouper l’ensemble des KPI dans un tableau unique :


Fig. 5. Fonction "RECHERCHEV d'Excel, afin de regrouper les différents KPI sur un tableau unique.

Dans la fonction ci-dessus, on récupère les données issues de l’onglet Google Analytics, dans lequel se trouvent les landing page SEO dans la colonne A, et le nombre de sessions sur chacune d’entre elles dans la colonne B. Cet opération est à répéter pour les différentes sources (Search Console,  Google Analytics ou toute autre solution de suivi de trafic, analyseur de liens entrants, voir même les logs si nécessaire).

Ces données serviront de base afin de faire les correspondances avec les nouvelles URL (élément qui sera abordé dans un futur article de la Lettre Abondance).

Redirections existantes

Des redirections peuvent déjà être opérationnelles dans la configuration du CMS ou du serveur, par rapport à l’historique du site : si le site a déjà subi des migrations ou des modifications d’URL, certaines redirections seront probablement à mettre à jour, et ce afin d’éviter des chaînes de redirections (anciennes URL -> URL actuelle -> URL du futur site).

Il faut garder à l’esprit que chaque redirection laisse s’enfuir une légère part de popularité d’après la formule du PageRank (coefficient d’amortissement), et qu’une chaîne de redirection peut faire découvrir de nouvelles URL intermédiaires à Google, qui n’ont pas forcément d’utilité.

Pour mettre à jour les données d’un fichier .htaccess sur un serveur Apache, vous pouvez également récupérer son contenu dans Excel, dans le même fichier de travail. Pour cela, il vous faudra insérer les données texte du fichier, et indiquer le caractère d’espacement comme séparateur (l’espace étant le séparateur des fichier .htaccess) :


Fig. 6. Insertion du fichier .htaccess.


Fig. 7. Données délimitées + choix de l'encodage UTF-8.


Fig. 8. Choix du séparateur.

Vous obtiendrez ainsi le contenu de votre .htaccess dans Excel, ce qui facilitera les mises à jour des correspondances. On retrouvera donc dans la « colonne A » les directives (RewriteRule, RedirectPermanent, RedirectMatch, etc.), dans la « colonne B » les URL à réécrire, dans la colonne C les URL réécrites, et dans la colonne D les drapeaux en cas de RewriteRule ([R=301,L], [NC], [F], etc.):


Fig. 9. Mise à jour des redirections du fichier .htaccess via Excel.

Cela facilitera la mise à jour des règles de redirections déjà en place, en remplaçant les URL réécrites des redirections 301 actuelles (colonne C), par les URL du futur site (onglet « Regroupement » dans cet exemple). Cette tâche sera effectuée en utilisant à nouveau la fonction RECHERCHEV d’Excel, et en faisant correspondre les URL du futur site (une fois les correspondances effectuées dans l’onglet « Regroupement »), avec les URL de destination actuelles du fichier .htaccess. La création d’une colonne temporaire dans l’onglet « .htaccess » d’Excel sera nécessaire afin de placer cette fonction RECHERCHEV, et de faire le lien entre les URL à mettre à jour et les futures URL du site.

Il vous faudra ensuite copier/coller l’ensemble de votre onglet dans un éditeur de texte comme Notepad++ (https://notepad-plus-plus.org/fr/) , et remplacer les tabulations (issues de colonnes Excel) par des espaces (l’espace étant le séparateur du fichier .htaccess pour rappel). Cette opération est réalisable en utilisant la fonction « Rechercher/Remplacer » couplée aux expressions régulières de Notepad++ :


Fig. 10. Remise en forme du fichier .htaccess en remplaçant les tabulations par des espaces.

En ayant regroupé l’ensemble des URL à rediriger via plusieurs sources (crawl, log, etc.), ainsi que les redirections existantes pour les mettre à jour, vous permettrez à votre site de faire une migration SEO plus fine, ce qui évitera les effets de bords provoqués par des chaînes de redirections ou encore des oublis d’URL.

Qualification des URL

Pour avoir plus de visibilité sur les URL à rediriger, et faciliter la mise en place des correspondances (sujet qui sera abordé dans un prochain article), il est utile de récupérer des informations sur les URL actuelles : code réponses, titre de la page, typologie de page, etc.


Fig. 11. Qualification des URL qui facilitera les correspondances.

Si un produit est supprimé du catalogue, cette qualification vous permettra plus facilement de retrouver un produit équivalent afin de le rediriger vers celui-ci, ou la catégorie mère le cas échant.

Cette qualification vous permettra également de segmenter les URL par typologie de page (ex : page produit, page catégorie, page édito, etc.), et pourra vous donner un aperçu des pages qui fonctionnent le mieux, pour avoir une vision plus claire sur le positionnement longue-traîne ou non de votre site. Si les pages catégories génèrent la majeure partie du trafic sur un site de e-commerce, n’y-a-t-il pas un problème avec l’ensemble des pages produits, plus nombreuses qui performent moins ?

La refonte sera l’occasion d’avoir une vision globale de votre site, pour mettre l’accent sur ses points faible lors de la migration (maillage à revoir, structure des pages, etc.), et ainsi repartir sur des bases plus saines, avec un site répondant mieux aux attentes des internautes.

 

Pertinence des pages

Cet inventaire effectué via un fichier Excel peut être comparé à un déménagement. Quand on déménage, il est toujours plus simple de faire du tri au préalable et d’avoir une vision exhaustive de ce dont on dispose : cela permet de voir ce que l’on jette (code réponse 410), mais aussi ce dont on ne se sert pas mais qui pourrait être utile, et enfin les choses dont on se sert le plus qu’il faudra déménager en priorité.

La question à se poser est la suivante : les URL ayant généré peu ou pas de trafic, ne recevant pas de liens externes et n’ayant eu aucune impression dans les pages de résultats de Google doivent-elles être conservées ? La réponse simple pourrait être de ne pas rediriger ces URL pour ne pas surcharger le fichier de redirections, et renvoyer un code retour 410 (« 410 = Gone ») afin de les faire disparaître de l’index.

Mais la démarche doit être plus constructive : pourquoi ces URL ont-elles généré peu de trafic ? Sont-elles trop profondes dans l’arborescence du site ? Leur titre et leur contenu est-il adapté ? Sont-elles rapides et performantes ?

Une refonte de site, c’est l’occasion de faire mieux et une analyse des pages les moins performantes d’un point de vue SEO permettra aussi de mieux définir les axes stratégiques SEO pour la refonte. Les pages sans trafic n’ont peut-être pas eu toutes les chances de leur côté … A vous de leur donner les moyens d’être plus efficaces quand cela est possible.

Nettoyage des erreurs 404

L’une des étapes préalables à une refonte de site est l’analyse des erreurs 404 : avec la présence de nombreuses erreurs 404 et en cas de modification de la structure d’URL, il sera plus compliqué d‘identifier leur origine post-refonte. Les erreurs 404 sont-elles causées par un plan de redirection incomplet ou étaient-elles déjà présentes avant la migration ?


Fig. 12. Traitement des erreurs 404 avant une migration SEO dans la Search Console.

 Il peut y avoir plusieurs causes qui génèrent des erreurs 404 :

  • Lien cassé ou erroné ;
  • Page supprimée ;
  • Redirection supprimée ;
  • Modification d’un titre d’article qui aurait modifié l’URL ;
  • Etc.

En identifiant l’origine de ces erreurs, vous pourrez ainsi les corriger quand cela est nécessaire (traiter en priorité les URL les plus visibles), mais également prendre conscience de certains problèmes liés à la structure du site actuel afin de ne pas les reproduire sur le futur site. Cela vous permettra d’être plus réactif post-migration, pour corriger les erreurs 404 liées au changement d’URL qui seront plus isolées :


Fig. 13. Apparition des erreurs 404 post-migration dans la Search Console.

L’état des lieux avant une refonte : une étape incontournable

L’analyse de l’existant est le point clé d’une refonte : il permet non seulement d’adapter la stratégie SEO, mais surtout de faire le point sur les URL à rediriger en priorité avec un inventaire exhaustif de ces dernières. Nous verrons dans les prochains articles comment traiter les paramètres d’URL, mais également comment mettre en place les correspondances du plan de migration. Une migration des URL n’est pas un fardeau, mais plutôt une opportunité quand une analyse préalable est effectuée de façon pointue et rigoureuse.


Aymeric Bouillat
Consultant SEO Senior, SEO Hackers (https://seohackers.fr/)