L’outil d’audit SEO français OnCrawl vient récemment de sortir une nouvelle version proposant de nouvelles fonctionnalités. Une bonne occasion donc pour jeter un regard sur les principales possibilités de cet outil, allant du crawler SEO à l'analyseur de logs, après plus de deux ans d'existence et sur un marché où de plus en plus de concurrents se positionnent.

Par Emma Labrador
Depuis de nombreux mois, la lettre Réacteur du site Abondance vous propose dans chacun de ses numéros la présentation par l'un de ses concepteurs d'un outil SEO, la plupart du temps d'origine française (Cocorico !). Il va de soi que ces articles sont proposés en dehors de tout concept de publi-rédactionnel, qu'ils ne font l'objet d'aucune rétribution ou échange dans un sens ou dans l'autre, etc. Il s'agit avant tout ici de vous présenter toutes les fonctionnalités d'un outil afin de mieux vous le faire découvrir, et ce sans aucune vision marchande.

La rédaction de la lettre Réacteur.

OnCrawl est une solution SEO française disponible depuis maintenant plus de deux ans. Né d’un consortium industriel monté avec Cdiscount en 2013, l’outil a été bâti au départ avec les contraintes et exigences de ce site e-commerce français.
L’équipe fondatrice était également convaincue qu’il n’est pas possible d’exploiter en SEO le potentiel des technologies Big Data si vous n'y ajoutez pas une dimension sémantique. C'est pourquoi ils ont travaillé et investi sur la compréhension du texte, des mots clés et des entités nommées. Parallèlement, ils souhaitaient également démocratiser des usages (analyse de logs et crawl) auparavant réservés aux grands acteurs du marché. OnCrawl a donc travaillé pour bâtir une infrastructure pouvant passer à l’échelle tout en étant accessible aussi bien aux petites entreprises qu’aux grands groupes. C'est également l'une des raisons qui ont poussé OnCrawl à rendre Open Source une partie de ses développements, notamment sur la partie Log Monitoring.

OnCrawl, les grands principes

OnCrawl est avant tout un crawler qui parcourt l’ensemble des pages d'un site afin d’en relever le code et le contenu. L’outil se concentre ainsi sur des métriques influençant les performances SEO dans les résultats des moteurs de recherche comme l’indexabilité, la qualité HTML, les données structurées, l’architecture de liens internes, le contenu dupliqué ou bien encore les performances.


Mais c'est également un analyseur de logs qui permet de comprendre le comportement de Google sur l’ensemble des pages d’un site web, de vérifier les erreurs de crawl des robots, de contrôler le taux de crawl de chaque robot pour n’importe quel groupe de pages, etc.

Enfin, OnCrawl est également une data platform permettant de croiser des jeux de données SEO (Logs, Backlinks, Analytics, CSV, JSON, APIs...) aux données de crawl pour détecter quel facteur de positionnement impacte le plus le taux de crawl ou le taux de pages actives génératrices de trafic.

En somme, OnCrawl permet d’obtenir une vue d’ensemble des performances on-page et de piloter ses optimisations de référencement naturel technique en s’appuyant sur des data visualisations ou l’export des données.

Les nouvelles fonctionnalités

L’Inrank flow

OnCrawl propose depuis le début un score pour aider à analyser la popularité interne à l’aide de l’InRank, une sorte de PageRank interne. Le score, allant de 0 à 10 permet de comprendre le degré de popularité d’une page en fonction de l’architecture du site web.

Ce score mesure l’autorité d’une page au regard du nombre et de la profondeur des liens internes. D’autres facteurs sont également pris en compte pour pondérer ce calcul, comme les ancres ou le contenu dupliqué car tous les liens ne sont pas égaux. L’Inrank est évalué en fonction de la taille du crawl, ce qui veut dire qu’il est nécessaire d’analyser l’ensemble du site pour avoir de la donnée pertinente et précise.

L’Inrank permet ainsi de comprendre l’impact d’une stratégie de maillage interne. Le nombre de liens internes sur une page a un fort impact sur la façon dont les moteurs de recherche vont analyser la page. Bien évidemment, d’autres facteurs entrent en jeu comme les backlinks, la vitesse de chargement ou la qualité du contenu. Les liens internes influenceront aussi bien la fréquence de crawl du Googlebot mais également la popularité interne de la page.

Avec OnCrawl 3.0, sortie fin novembre, la solution a décidé d’offrir une visualisation plus actionnable des données en développant l’InRank flow. Basée sur les groupes de pages d’un site, cette visualisation des données aide à comprendre comment la popularité circule à l’intérieur d’un site web et à travers les différents groupes de pages. Une fonction de select/unselect permet de prédire la manière dont le maillage interne pourrait être optimisé par l’insertion de noindex ou la suppression de quelques pages, par exemple.


Fig. 1. Représentation de l’Inrank flow.

Approfondir les analyses grâce au Data Explorer et au Viz Explorer

En dehors des principaux indicateurs clés de performance SEO qu’il est possible de retrouver dans les tableaux de bord OnCrawl, il est également possible de lancer des analyses plus larges et plus détaillées grâce au Data Explorer.

Le Data Explorer permet de zoomer dans n’importe quel morceau de données et de construire la table de données souhaitée en réglant n’importe quels paramètres crawlés. Le but est d’éviter de se compliquer la vie sous Excel. Le Data Explorer permet donc de construire des requêtes à l’aide de filtres et de les télécharger si souhaité en CSV.

Avec OnCrawl 3.0, l'outil permet de construire des requêtes particulières pour n’importe quel jeu de données :

  1. Toutes les métriques à propos des facteurs de classement depuis n’importe quelles pages ou groupes de pages ;
  2. Toutes les métriques ou variations depuis des séries de données de comparaisons de crawl ;
  3. Toutes les données depuis les logs ou analytics.


Fig. 2. Vue d’ensemble du Data Explorer.

Il est également possible de sauvegarder des requêtes personnalisées en illimité et d’accéder à ces données depuis l’API OnCrawl. L’objectif du Data Explorer est de permettre à l’utilisateur de jouer avec la donnée et d’affiner ses analyses.
Nouveauté également, le Viz Explorer permet de créer des tableaux de bord personnalisables. Lors d’audit SEO par exemple, différents facteurs sont à surveiller. Certaines métriques nécessitent davantage d’attention et parfois il n’est pas nécessaire de parcourir l’ensemble des rapports. Le Viz Explorer permet de construire ses propres dashboards selon les métriques souhaitées et d’accéder en un seul clic à n’importe quelle partie de donnée. 


Fig. 3. Vue du Viz Explorer.

Gestion des logs

Les fichiers de logs rassemblent les traces ou “hits” de toutes les requêtes reçues par le serveur. Les données reçues sont stockées de manière anonyme et comprennent des détails comme l’heure et la date à laquelle la requête a été faite, l’adresse IP de l'internaute, l’URL/contenu demandé et le user agent du navigateur. Ces fichiers sont utilisés lors d’audits techniques pour avoir une vue exhaustive des performances d’un site web et analyser ce qui ne peut l’être via un simple crawl on-page du site.

Ces données sont les seules à être 100% fiables pour comprendre parfaitement comment les moteurs de recherche crawlent votre site et pour avoir une vue d’ensemble de l’environnement d’un site web. L’analyse de logs permet de prendre les bonnes décisions pour améliorer les classements et le trafic et obtenir davantage de conversions.

OnCrawl propose ainsi l’analyse des fichiers de logs avec dans un premier temps un analyseur de logs open source reposant sur un stack ELK. En 2016, la solution sortait son analyseur de logs SEO en mode SaaS et permettait de réaliser des analyses croisées avec les données de crawl. L’objectif de cette offre est de démocratiser ces analyses en démarrant avec des offres pour 100 000 URLs et 100 000 lignes de log par mois. Les logs sont maintenant également directement intégrés aux plans proposés.

Avec cette nouvelle version, OnCrawl permet à l’utilisateur d’ajouter ses logs de façon complètement autonome via une plateforme dédiée.


Fig. 4. Configuration de la gestion des logs.

Le système permet de suivre le parsing et le processing de ses logs et de les retrouver traités sous forme de tableaux de bord. L’analyse de logs se concentre principalement sur :

  1. Le comportement du crawl : il permet de comprendre comment les robots de Google crawlent un site web. Les indicateurs se concentrent sur les hits du crawler par nom de robot, la fréquence de crawl par page et par page récemment trouvée de manière quotidienne. 
  2. L’impact SEO : ces analyses se concentrent sur les visites, les pages actives et inactives, ou encore les nouvelles pages qui génèrent du trafic. Le Fresh Rank, une métrique maison, calcule également le temps nécessaire à une page récemment crawlée pour être visitée.
  3. La santé du site : ces tableaux de bords présentent les performances techniques d’un site web à chaque crawl d’un robot. Mais également un rapport quotidien des status codes renvoyés par pages et ressources afin de les surveiller et optimiser les ressources crawlées.

Enfin, les analyses croisées de crawl et de logs permettent d’identifier les facteurs SEO positifs et négatifs derrière l’indexation et la fréquence de crawl. Le rapport Crawl x Logs donne accès à une vue d’ensemble de la structure d’une page et à la proportion de chaque type de pages en mesurant l’écart entre ce qu’OnCrawl voit et ce que Google est réellement en train de crawler et à quelle fréquence. Les pages orphelines peuvent être ainsi répertoriées.

Parmis les autres indicateurs que ces rapports permettent de suivre, l’influence de l’architecture, du contenu, des performances ou encore de la qualité HTML sur les taux de crawl ou les pages actives est à noter.

La solution prévoit dès les semaines et les mois à venir de nouvelles fonctionnalités. Restez connectés !


Emma Labrador
Marketing & Communication Manager, OnCrawl (https://fr.oncrawl.com/)