De nombreux outils proposent une visualisation des sites web. Ils sont cependant standards. En effet, afin de fournir un résultat quel que soit le projet, ils passent souvent par des opérations de simplification qui ne sont pas forcément souhaitées car souvent, nous voulons visualiser une information bien particulière. Dans cet article, nous vous proposons un paramétrage de l'outil Gephi qui vous permettra de distinguer la data spécifique qui vous intéresse, sans les filtres des outils classiques.

Par Laurent Peyrat

 

Notre objectif dans cet article est le suivant : visualiser si, dans un site web, les pages de même thématiques forment bien des clusters (des ensembles de pages liées entre elles) ou si, au contraire, elles sont traitées au même niveau et noyées dans l’arborescence du projet. Spoiler, nous cherchons à obtenir le graphique de la figure 1, sur lequel une couleur représente un thématique :


Fig. 1. Le résultat attendu.

La manipulation proposée vous permet de représenter n’importe quelle donnée avec une couleur qui lui sera associée.

Prérequis

Voici les prérequis pour obtenir la prévisualisation souhaitée :

  • Manipulation d’un crawler (Screaming Frog) pouvant extraire la liste des liens internes d’un site web ;
  • Manipulation d’Excel pour traiter facilement (nettoyer !) et sélectionner les listes d’URL, via un tableau, importer des csv et valider des listes avec la fonction RECHERCHEV par exemple ;
  • Connaissance de Gephi pour la visualisation de réseaux. Si vous n’avez jamais utilisé Gephi, vous pouvez commencer avec ces articles :
  • Travail sur un site techniquement correct : nous supposons que le site à examiner n’a pas de gros problème structurel (si c’est le cas, il vaut mieux les régler avant !) ;
  • Travail sur un site de quelques milliers de pages au maximum. Gephi n’est pas réputé pour sa stabilité ni sa maniabilité et il demande de la puissance de calcul. Pour les sites plus gros, d’autres outils devront être utilisés.

Préparation des données

Nous générons dans un premier temps une table des liens et une table de nœuds, qui seront importées dans Gephi. Ces opérations ne sont pas détaillées ; nous supposons que l’utilisation d’Excel vous est familière.

Préparation de la table des liens

Nous avons besoin de la liste des URL du site web, ainsi que de la liste des liens internes. Plusieurs crawlers du marché peuvent nous donner cette information, ici nous utilisons Screaming Frog, paramétré pour ne récupérer que l’information sur les pages html.

La suite de cet article est réservée aux abonnés.

Laurent Peyrat, consultant SEO, fondateur de l'agence La Mandrette (https://www.lamandrette.com/)