Créé en 2012, Botify est un outil en mode SAAS qui a pour vocation d’accompagner au quotidien les SEO managers dans leurs chantiers d’analyse et d’optimisation. Botify permet d’analyser un site web, d’identifier des possibilités de croissance et de monitorer le comportement des moteurs de recherche. Présentation de l'outil et de ses fonctionnalités.

Par Jean-Benoît Moingt

La société Botify a développé l'outil Botify Analytics (que nous appellerons "BA"), un crawler qui parcourt l’intégralité de votre site comme le font les robots d’indexation des moteurs de recherche. Pendant le crawl, BA collecte des centaines d’indicateurs sur chacune des pages qu’il découvre.

Une fois analysées, ces millions de données font l’objet d’un rapport permettant d’identifier des points de blocage et des projets d’optimisation. Toutes ces informations sont disponibles avec une vision globale, une vision par segment (vous pouvez "découper" votre site par templates de pages mais aussi par logique métier : catégories de produits, marques, gammes tarifaires, …) et à la maille URL.


Fig. 1. Le rapport généré par BA propose des centaines d’indicateurs.

Les aspects techniques

Premier "pilier" du référencement, la bonne construction technique du site web est fondamentale si l’on souhaite qu’il soit correctement pris en compte par les moteurs de recherche.

Un site mal conçu techniquement est l’assurance d’un mauvais référencement ! Botify va entre autres mesurer :

Les pages non conformes ("not compliant") : pages non indexables par un moteur de pages (à cause d’un mauvais code HTTP, d’une balise noindex, d’une balise canonical vers une autre page, …). Sur certains sites, nous découvrons plus de pages "not compliant" que de pages "compliant" ! Ce n’est jamais bon signe quant à l’état de santé du site.


Fig. 2. Ce site a 65% de pages Not Compliant ! Nettoyage de printemps en perspective !

La présence des balises : Title, H1, description, etc. Ces balises sont des fondamentaux du SEO. Botify Analytics va vérifier sur chaque page la présence de ces balises mais également contrôler leur unicité.

Les codes HTTP : retournés par le serveur, ces codes permettent d’indiquer au client le statut de la requête. 200 signifie "OK", les codes 3xx concernent les redirections, les codes 4xx les erreurs… En toute logique, un site doit avoir une majorité de codes 200, mais c’est loin d’être toujours le cas.


Fig. 3. Une grande partie des pages de ce site est en 301, les changements d’URLs n’ont pas été bien gérés.

Les performances : il n’est plus nécessaire de démontrer la corrélation entre la vitesse de chargement de vos pages et le nombre d’entre elles que va crawler Googlebot quotidiennement. Le rapport va mettre en évidence les segments les moins performants qui mériteront une optimisation.

La qualité du contenu

Deuxième "pilier" du référencement, le contenu est devenu critique depuis que l’algorithme Google Panda a commencé à sanctionner les contenus de mauvaise qualité en 2011.

Comment évaluer la qualité de son contenu sur des sites qui font plusieurs milliers, voire millions de pages ? Botify essaie d’y apporter des réponses à travers des algorithmes d’analyse.

Premier indicateur : BA va compter le nombre de mots présents sur chacune de vos pages en excluant le template (header, menus, footer, …). Il y a fort à parier qu’un site constitué à 98% de contenu "template" et qui a moins de 100 mots de contenu véritable en moyenne par page ne soit pas très bien perçu par Google.

Botify va également mesurer la similarité de vos contenus internes. Vous pourrez ainsi identifier les pages dupliquées qu’il faudra corriger rapidement mais également celles en near duplicate à optimiser.


Fig. 4. L’unicité du contenu laisse à désirer sur ce site.

Grâce à l’URL Explorer, vous pourrez faire des recherches avancées du type : "Quelles sont les URLs contenant moins de 100 mots, dupliquées à plus de 80% et qui ne font pas de trafic ?". Bien pratique pour entamer un chantier de nettoyage ou d’amélioration des contenus...

Le maillage interne

Composante essentielle de l’optimisation SEO d’un site, le maillage interne consiste à rendre accessible votre inventaire de contenu aux robots d’indexation. En simplifiant, on peut dire que les Googlebot, Bingbot, Slurp, YandexBot et autres Baiduspider partent de votre page d’accueil et découvrent vos contenus en suivant les liens disponibles. C’est exactement ce que va faire Botify Analytics en collectant au passage toutes les données disponibles. Sur certains sites, cela peut représenter plusieurs centaines de millions de liens !


BA va mettre en évidence les volumes de pages par niveau de profondeu. Nous verrons tout à l’heure à quel point des niveaux trop profonds peuvent avoir un impact néfaste sur votre référencement.

Pour évaluer le troisième “pilier” du SEO, la popularité, Botify calcule le PageRank interne de chacune de vos URL, vous permettant de vérifier que votre maillage interne bénéficie bien à vos catégories stratégiques. Il serait tout de même dommage d’envoyer trop de jus à des pages not compliant comme nous le voyons souvent.

Vous pourrez également mesurer la distribution du nombre de liens entrants par page ainsi que la variation des ancres de liens.


Fig. 5. 15% des URLs de ce site ne reçoivent qu’un seul lien entrant. Un maillage interne à optimiser ?.

 

Botify est un analyseur de logs

Si Botify Analytics permet de simuler le comportement théorique des robots d’indexation en crawlant votre site, il est également très intéressant d’étudier comment ils le parcourent réellement. C’est ce que propose Botify Log Analyzer (BLA).

Pour cela, il n’y a pas 36 solutions. Le seul moyen fiable d’étudier exhaustivement le comportement des robots est de travailler à partir des logs serveur HTTP. A chaque page parcourue par un robot, celui-ci fait une requête au serveur qui va enregistrer cet appel dans un fichier log. Au passage, le serveur va enregistrer des informations très précieuses : date et heure de l’appel, URL demandée, code retour, user-agent, referer, …

Les fichiers logs vont donc permettre de compter de manière très fiable le volume de pages crawlées par les robots mais également les visites "humaines" en provenance des moteurs de recherche.

Ces fichiers peuvent vite être très volumineux, parfois plusieurs millions de lignes par jour. BLA va les récupérer et les analyser quotidiennement.


Fig. 6. BLA propose de nombreux indicateurs permettant d’étudier le comportement des robots d’indexation.

Avec ces informations, BLA va vous permettre de monitorer tous les jours :

•  Le volume de crawl / segment : Est-ce que Google crawle bien régulièrement mes pages importantes ? Est-ce que les contenus que j’ai mis en ligne la semaine dernière ont bien été pris en compte ?

•  Le volume de crawl / code HTTP : Est-ce que les redirections 301 que j’ai mises en place sont bien crawlées par Google ? Est-ce que la mise en production d’hier s’est bien passée ? Sans générer d’erreurs serveur ?

•  L’apparition de nouvelles pages : BLA va mettre en évidence tous les jours les pages crawlées par Google qui ne l’avaient jamais été auparavant. Cela peut être une bonne nouvelle : la prise en compte de nouveaux contenus mis en ligne. Cela peut également être un cauchemar : la nouvelle version du site génère de nouvelles URL inutiles de manière incontrôlée.

•  Des scénarios avancés : en phase d’audit, l’analyse de logs va vous permettre de répondre à des questions complexes. Quel est mon crawl ratio ? Au bout de combien de jours une URL non crawlée va-t-elle "sortir de l’index" de Google ? Mon audience  se fait-elle majoritairement sur des anciens ou des nouveaux contenus ?

Botify est un explorateur de mots-clés

Depuis que Google est massivement passé en HTTPs, les mots-clés de recherche ne sont plus présents dans le referer et n’apparaissent donc plus dans les outils de web analyse (not provided). La Google Search Console est depuis devenue indispensable pour récupérer ces fameux mots-clés. En plus du nombre de clics par mot-clé, la Search Console communique le nombre d’impressions, les taux de clics, la position moyenne, etc.

Bien que très précieuse, la Search Console est frustrante car elle ne permet pas d’exporter plus de 1  000 lignes de données. Vous pouvez en récupérer davantage en filtrant par URL mais bon courage si votre site fait 100  000 pages !

Depuis début septembre 2017, Botify utilise l’API de la Search Console pour récupérer les informations disponibles pour le maximum possible de vos URL afin d’atteindre jusqu’à plusieurs centaines de milliers de mots-clés. Contrairement aux solutions de suivi de positionnement classiques, 100% des mots-clés récupérés ont généré au moins une visite ou une impression pour votre site. Ce sont donc les mots-clés les plus pertinents sur lesquels vous pouvez mettre en oeuvre des optimisations SEO immédiatement.

Bien plus qu’un simple export, les données de ranking vont ainsi pouvoir être croisées avec toutes vos données structurelles récupérées par Botify Analytics.


Fig. 7. Botify Keywords peut récupérer des volumes de mots-clés considérables et les croiser avec vos données structurelles.

Botify Keywords permet d’identifier les segments pour lesquels vous avez le plus gros volume de "visites manquées", c’est-à-dire la plus grosse différence entre le nombre d’impressions et le nombre de clics.

L’analyse du CTR moyen par segment vous permettra d’identifier des typologies de contenu à optimiser.

Le nombre de termes dans le mot-clé est utilisé pour pouvoir distinguer si vos contenus sont plutôt de type Courte ou Longue Traîne. Utile pour adapter la stratégie SEO en conséquence...

Vous pourrez également suivre l’évolution de la répartition de vos impressions et de vos visites marque versus hors marque. Bien pratique depuis que ce n’est plus possible avec les outils de web analyse.

Botify aime croiser les données

Le SEO est un univers où l’on aime analyser et croiser des données. Ca tombe bien, Botify également ! Voici quelques exemples.

Crawl + Logs

Le croisement des données du crawl réalisé par Botify Analytics et des données de logs est passionnant. Il va permettre de mesurer l’écart entre la façon dont les robots d’indexation devraient parcourir le site et la façon dont ils le parcourent réellement.

On va alors s’apercevoir que :

Toutes les pages de votre site ne sont pas crawlées : crawl ratio trop faible, pages trop profondes, temps de réponse trop longs, maillage interne déficient… les raisons peuvent être multiples. Aussi puissant que soit Google, il est rare sur les sites volumineux que toutes les pages soient crawlées. Il n’est pas rare de découvrir des sites qui ont plus de 80% de pages non crawlées.


Fig. 8. Googlebot crawle rarement l’intégralité d’un site, le croisement des logs et du crawl Botify le met en évidence.

Les robots d’indexation crawlent des pages non présentes dans votre structure : comme si le fait de ne pas crawler toutes les pages du site n’était pas suffisant, les robots peuvent crawler des pages qui ne sont pas ou plus dans votre structure. Nous les appelons des pages orphelines. Ces pages orphelines peuvent être légitimes : par exemple des URL qui n’existent plus, qui ont été redirigées.

C’est plus gênant s’il s’agit de pages de contenu qui devraient être dans votre structure. Il s’agit souvent de problème de maillage interne. Si les contenus trop profonds sont souvent peu efficaces, les pages orphelines sont encore pires.

Crawl + Web analytics

Dans le cas ou il n’est pas possible de récupérer l’information grâce aux logs serveur, Botify peut récupérer les données de visites par l’intermédiaire des APIs de Google Analytics, Google Analytics Premium et Omniture.

En récupérant le nombre de visites pour chacune des URL, vous allez ainsi pouvoir récupérer des informations fondamentales pour optimiser votre SEO : Quelle est la taille de contenu optimal à produire ? Combien de liens entrants reçoivent mes URL les plus efficaces ? Mes pages trop lentes sont elles dévalorisées ?… Il est souvent frappant de s’apercevoir que les pages présentes à un niveau de profondeur supérieur à 4 ou 5 ne génèrent quasiment plus aucun trafic.


Fig. 9. Sur ce site, les pages en profondeur 5 ne génèrent aucun trafic.

Crawl + Mots clés

Le Keywords Explorer permet d’identifier des pages à optimiser en effectuant des requêtes comme "Quelles sont les URLs en position > 10 dont le TITLE ne contient pas le mot-clé" ou "Quelles sont les URLs ayant des positions entre 3 et 10 dont la profondeur dans ma structure est supérieure à 3" ou encore "Quelles sont les URLs qui génèrent le plus d’impressions mais dont les mots-clés ne sont pas utilisés comme ancre de liens ?".


Fig. 10. 40% des mots-clés ne sont pas utilisés dans la balise TITLE.
Quelques optimisations permettront probablement d’améliorer le ranking.

 

Botify a pour vocation d'accompagner le webmaster

Comme évoqué en introduction, la volonté de Botify est de construire un outil qui va vous permettre de travailler votre SEO au quotidien, que ce soit pour la recette et le monitoring ou pour l’analyse et la mise en place de chantiers de fond.

Voici quelques exemples :

Recette / Monitoring

N’importe quel SEO avec quelques années d’expérience a connu une refonte qui est venue détruire des mois, voire des années d’optimisation à cause d’une recette qui a été réalisée trop rapidement.

Botify permet de crawler votre pré-production et de la comparer avec votre version en production. Vous pourrez mettre en place des tableaux de bord personnalisés mettant en évidence vos KPI importants. En quelques minutes, vous serez en mesure d’identifier les gros points de blocage.

Si nécessaire, vous pouvez également programmer des crawls récurrents pour vous assurer que tout va bien. Tous les lundis matins par exemple, vous pourrez étudier l’évolution de votre site par rapport à la semaine précédente.

En cas de souci, vous devriez vous en apercevoir rapidement grâce à Botify Log Analyzer avant que le trafic ne commence à s’effondrer.

Analyse d’une version AMP

De plus en plus de sites implémentent le nouveau standard AMP de Google. Botify permet de recetter et d’auditer les pages au format AMP, permettant d’éviter la fastidieuse recette manuelle.

BA dispose d’une option permettant de suivre les "liens AMP", vous pourrez ainsi vérifier facilement que toutes vos pages concernées ont bien leur équivalent AMP mais également que celles-ci répondent bien en HTTP 200, ont bien le contenu désiré, etc.

Analyse d’un site JavaScript

Autre sujet d’actualité, les sites en JavaScript. S’il n’y a plus de doutes sur le fait que Google essaie d’interpréter le JavaScript, son comportement de crawl par défaut reste de ne pas interpréter le JavaScript, probablement pour des questions de ressources.

Etant donné que de plus en plus de sites sont développés avec des frameworks JavaScript comme AngularJS ou ReactJS, la question se pose souvent de savoir si Google saura interpréter correctement vos pages en mode JS désactivé.

Botify a développé une version de son crawler qui interprète le JavaScript. Vous pourrez ainsi crawler votre site en mode JS désactivé puis en mode JS activé puis analyser les écarts entre les deux crawls en terme de nombre de pages, de structure, de contenu, ...

Portrait-robot d’une page qui fonctionne

En croisant les données structurelles de vos pages et les résultats en terme de ranking, Botify va vous permettre de dessiner le portrait-robot d’une page qui fonctionne.

Sur l’aspect technique : Quel est le temps de réponse que les pages ne doivent pas dépasser pour se positionner efficacement ?


Fig. 11. Dans cet exemple, on voit que les pages les plus lentes obtiennent moins de top positions.

Sur l’aspect maillage interne : Quelle est la profondeur optimale des pages ? De combien de liens internes entrants une page a-t-elle besoin ? Est-il indispensable d’avoir des ancres optimisées ?

Sur l’aspect contenu : Quelle est la taille des contenus qui performent le mieux ? Est-ce que l’absence du mot-clé dans les balises SEO est rédhibitoire ? Est-ce que mes pages avec du near duplicate obtiennent tout de même des positions ?

Une fois le portrait-robot défini, vous pourrez grâce au Keywords Explorer identifier rapidement les pages qui ne correspondent pas pour les optimiser.

Le volume d’informations récupéré permet en outre d’avoir une idée précise du CTR de vos pages en fonction de la position. Vous pourrez ainsi prioriser vos optimisations en estimant le gain d’audience en cas d’amélioration du ranking.

Conclusion

Comme le montre cette présentation, Botify a pour vocation d'être un outil couvrant tous les aspects d’optimisation on site et a pour ambition de vous permettre de trouver des nouveaux leviers d’optimisation SEO, vous aider à les mettre en place, à les recetter puis les monitorer et évaluer leurs performances.


Jean-Benoît Moingt
Search Data Strategist, Botify (https://www.botify.com/)