Comme n'importe quel site web ou outil sur la Toile, Google utilise des serveurs, des ordinateurs et donc des adresse IP. Il existe un certain nombre de façons de les récupérer pour s'en servir en SEO, à des fins d'analyse de logs ou de veille, voire d'alertes sur certains positionnements. Cet article a pour vocation de vous expliquer comment gérer et utiliser ces plages d'adresses IP, correspondant aux spiders ou aux datacenters de la firme de Mountain View, dans votre quotidien de référenceur.

Par Daniel Roch


Comme n'importe quel outil en ligne et n'importe quel crawler, Google a ses propres adresses IP. Dans cet article, nous allons voir comment les récupérer et comment les utiliser en référencement naturel.

C'est quoi un data center ?

Avant tout, commençons par quelques explications : un centre de données (« datacenter » en anglais) est un lieu où une entreprise va stocker l'ensemble de son système d'information : ses données, ses outils, etc.

Chez Google, l'entrrepise va ainsi stocker ses différents sites et applications (le moteur de recherche, ses outils en ligne, etc.) mais surtout toutes ses données, notamment la liste de toutes les URL indexées dans le monde entier et les informations qui vont avec.

Google a ainsi déployé différents centre de données dans le monde, chacun contenant les serveurs nécessaires aux différents outils de Google (le moteur de recherche, Google StreetView, Google Doc, etc.).


Les data center de Google. Source : Google.

En 2011, Google avait déjà à sa disposition plus de 900 000 serveurs (source). Et pour traiter et stocker l'intégralité des informations dont il a besoin, chaque Data Center de Google abrite des centaines de serveurs, comme le montre cette seconde image :


Un exemple de serveurs chez Google..

Les IP de Google

Lorsque vous allez vous connecter à un serveur de Google, par exemple lors d'une recherche, vous allez utiliser l'adresse IP de Google. De même, quand Google viendra parcourir votre site, son robot GoogleBot aura également une adresse IP spécifique.

Pour connaître ces adresses IP, deux solutions simples existent :

  • Analyser les logs de son serveur, extraire les bots de Google et regarder ensuite leur adresse IP (nous verrons comment détecter Googlebot un peu plus loin).
  • Faire une commande « ping google.fr » pour voir l'IP du serveur Google sur lequel vous êtes connecté (et sur lequel vous allez faire vos recherches).

Pour ce dernier point, il suffit d'ouvrir une invite de commande. Sur Windows, il faut cliquer sur « Démarrer > exécuter > CMD ». Tapez ensuite simplement : ping www.google.com puis cliquez sur « Entrée ».


Fig. 3. Faire un ping Google pour obtenir son IP, ici 216.58.201.227..

Lors du test, Google avait donc pour adresse IP : 216.58.201.227. Quelques minutes après, la même requête donnait : 216.58.213.132. Etant donné la taille du moteur de recherche, ces IP peuvent ainsi changer assez souvent, avec de nouvelles adresses qui peuvent apparaître tandis que d'autres peuvent disparaître.

Un grand nombre de sites donne ainsi des plages d'adresses IP que Google utiliserait. En voici un premier exemple (source) :

  • 66.249.64.0 à 66.249.95.255
  • 72.14.192.0 à 72.14.255.255
  • 74.125.0.0 à 74.125.255.255
  • 209.85.128.0 à 209.85.255.255
  • 216.239.32.0 à 216.239.63.255

D'autres sites mettent par exemple des listes d'IP précises (et non des plages d'IP) valides ou non, comme ici avec Positeo  :

  • 173.194.44.0
  • 173.194.44.1
  • 173.194.44.14
  • 173.194.44.2
  • 173.194.44.3
  • 173.194.44.35
  • 173.194.44.4
  • Etc.

Attention, nous rappelons que ces IP peuvent changer à tout moment. Vous ne devez donc pas les utiliser directement. Certaines peuvent ne plus être utilisées, d'autres peuvent apparaître chaque jour.

Il existe heureusement d'autres méthodes pour récupérer des IP à jour. On peut tout d‘abord utiliser un outil en ligne de vérification des DNS d'un nom de domaine : https://www.whatsmydns.net/. En vérifiant le champ A du nom de domaine google.com, on peut récupérer les adresses IP correspondantes (elles ne seront pas non plus exhaustives).


Fig. 4. Une liste partielle des IP de Google..

Chaque essai peut d'ailleurs faire varier ces IP :


Fig. 5. A chaque essai les IP peuvent changer..

Dernière solution pour récupérer une partie des IP de Google : détourner l'enregistrement SPF de leur nom de domaine. Le SPF (Sender Policy Framework) est un moyen de vérifier le nom de domaine de l'expéditeur d'un courrier électronique. Toujours en invite de commande, nous demandons le détail de ce dernier : nslookup -q=TXT _spf.google.com 8.8.8.8.


Fig. 6. Le détail du SPF de Google..

Le résultat détaille certains domaines dans la partie v=spf1 include. Il faut alors faire un nslookup de ces derniers comme par exemple avec : nslookup -q=TXT _netblocks.google.com 8.8.8.8.


Fig. 7. Le détail permet de lister des plages d'IP appartenant à Google..

On retrouve d'ailleurs dans la liste des plages d'IP celle trouvée avec le premier ping de cet article.

A quoi peuvent servir les IP de Google ?

Nous avons donc identifié plusieurs façons (complémentaires) de trouver les pages d'IP de Google. Certes, mais pour quoi faire ? Il existe deux façons de les utiliser en référencement naturel :

  • Détecter les vrais passages de GoogleBot sur son site ;
  • Tester les résultats sur différents Data Center pour anticiper des variations de positionnement.

Détecter le vrai GoogleBot

Commençons par le crawl de Google. Quand vous consultez les logs d'un serveur web, vous aurez la liste des « Hits », c'est-à-dire le détail des toutes les actions menées par des internautes et des robots sur votre site. Le problème est qu'il est facile de se faire passer pour Google. Quand on analyse les passages de Googlebot, il faut donc éliminer les faux positifs.

D'abord, il faut comprendre que l'on peut trier les logs d'un serveur en se basant sur le user agent, c'est-à-dire selon l'application utilisée par le visiteur. Pour GoogleBot, il peut avoir plusieurs user-agent différents en fonction du type de bot concerné :


Fig. 8. Différents spiders de Google.

Si vous utilisez le User Agent comme seul élément pour détecter Google, votre analyse sera faussée. Il existe en effet des solutions très simples pour modifier son User Agent et ainsi se faire passer pour un moteur de recherche. Pour s'assurer que ce n'est pas le cas, il faut donc vérifier l'adresse IP correspondante.

Certains logiciels le font d'ailleurs très bien, comme le logiciel SEO Log File Analyser de Screaming Frog.


Fig. 9. Certains logiciels permettent de filtrer pour vous les vrais passages de Google.

Pour vérifier manuellement une IP, il faut faire une vérification DNS de cette dernière. Prenons par exemple cette adresse IP extraite d'un fichier de log : 66.249.64.109. En invite de commande, nous allons vérifier le nom d'hôte correspondant : nslookup 66.249.64.109.


Fig. 10. Nous récupérons le nom d'hôte d'une IP précise.

En récupérant le nom, on est censé voir apparaître googlebot.com ou google.com à l'intérieur. Mais cette condition n'est pas suffisante car elle peut également être manipulée.

Il faut donc ensuite faire l'inverse, c'est-à-dire faire une recherche sur le nom que l'on vient de récupérer. Si les deux IP sont identiques, alors ce HIT a bien été réalisé par Google. Toujours en invite de commande, nous faisons la démarche inverse : nslookup crawl-666-249-64-109.googlebot.com.


Fig. 11. Le reverse DNS nous redonne bien la bonne adresse IP.
Source.

Le but de ces différentes méthodes est de vous donner la vraie liste des Hits de Google, et vous pourrez ainsi déterminer réellement quelles sont les URL ou ressources auxquelles il fait le plus souvent appel sur votre site. Vous pourrez ensuite en tirer des conclusions sur :

  • Les URL à supprimer et rediriger (beaucoup de hits et pas de pertinence) ;
  • Les URL à améliorer (beaucoup de hits et peu de pertinence) ;
  • Les URL à partir desquelles Google crawle le plus votre site et qui sont donc théoriquement des éléments clés ;
  • Les URL à rediriger (404, mauvaise 302, erreur 500, etc.) ;
  • Etc.

Analyser un positionnement global

L'autre intérêt de connaître ces IP est de pouvoir analyser et d'anticiper une variation de positionnement. Lorsque l'on se connecte à Google, nous nous connectons à un serveur spécifique. Chacun d'entre eux n'est pas mis à jour en simultané par rapport aux autres. On peut donc avoir un décalage de positionnement d'un serveur à un autre, ce qui nous donne les cas de figure suivants :

  • Positionnement identique sur tous les Data Centers (tout va bien en théorie) ;
  • Positionnement similaire (quelques variations) ;
  • Fortes disparités ou fortes variations (par exemple, forte chute ou hausse du positionnement), ou encore disparition du site sur certaines requêtes.

C'est le dernier cas qui est le plus intéressant. On peut ainsi voir un site qui gagne en visibilité sur certains Data Center (le travail du référenceur porte ses fruits). On peut aussi voir des baisses sur certains, termes, baisses qui annoncent parfois une vraie chute à venir. Le référenceur peut donc anticiper ce changement pour agir. Et dans le cas de fortes différences entre chaque Data Center, cela signifie que Google ne parvient pas à déterminer la pertinence ou non de vos URL.

Prenons par exemple le site SEO Hero qui propose de tester le positionnement d'un site sur un mot clé sur 26 Data Center différents : https://seo-hero.ninja/.
Remarque importante : merci de ne pas trop l'utiliser chaque jour pour que l'outil continue de fonctionner.

Voici quelques exemples de ce que cela peut donner :


Fig. 12. Un positionnement similaire (positions 18 à 20).


Fig. 13. Très peu de visibilité pour un résultat précis.


Fig. 14. Google n'arrive pas à donner une position précise à ce résultat (position 54 à 68).

Conclusion

Comprendre et suivre ce que fait Google est vital. En prenant en compte son adresse IP, on peut ainsi mieux analyser le comportement du moteur de recherche, tant au niveau de son crawl de notre site que du positionnement de nos URL sur les différents Data Center de la firme.

Seul bémol, l'utilisation des IP de Google dans certaines analyses est assez contraignante, et ne sera donc utile que ponctuellement lors d'analyses plus poussées.


Daniel Roch, consultant WordPress, Référencement et Webmarketing chez SeoMix (http://www.seomix.fr)