S'il est un domaine finalement assez peu abordé en SEO, c'est bien le référencement des images, ce qui est étrange car le moteur de recherche de Google dédié à ce format est l'un des plus utilisés par les internautes dans le monde entier. Cette série de trois articles a donc pour objectif de comprendre comment cet outil fonctionne, comment est-ce qu'il peut générer du trafic sur un site et comment optimiser sa stratégie de visibilité pour cela. Après l'analyse du comportement des utilisateurs qui utilisent cet outil et les différents critères de pertinence utilisés par le moteur ces derniers mois, plongeons-nous dans l'avenir avec la recherche sensorielle qui fera peut-être bientôt partie de notre quotidien.

 

Voici la 3ème et la dernière partie de notre feuilleton sur le référencement des images.

Dans la première partie de notre série, au mois de mai, nous avons passé en revue la part de la recherche d’images au global et par secteur d’activité, les questions de tracking et les particularités comportementales des internautes.

Dans la deuxième partie (juin), nous nous sommes focalisé sur l’optimisation des images et les critères de classement. À travers des tests réalisés pour notre étude, nous avons identifié les leviers efficaces du référencement des images.

Et finalement pour conclure, nous allons nous projeter sur l’avenir de la recherche visuelle et des possibles changements dans les résultats de recherche d’images.

 

Des informations associées vers la reconnaissance du contenu des images

Avril 2008. Beijing, Chine. Lors de la conférence annuelle WWW 2008, deux ingénieurs de Google, Yushi Jing et Shumeet Baluja présentent le rapport « PageRank for Product Image Search » dans lequel ils partagent leur vision du futur de la recherche visuelle.

Ce document est particulièrement intéressant, car Google y évoquait déjà les limites d’utilisation des données uniquement associées aux images (alt, nom du fichier, légende) pour classer celles-ci :

« Les moteurs de recherche commerciaux s'appuient souvent uniquement sur les indices textuels des pages dans lesquelles les images sont intégrées pour classer les images, et ignorent souvent entièrement le contenu des images elles-mêmes comme signal de classement ».

Les ingénieurs ont exprimé leur vision selon laquelle, pour classer de manière efficace les images, il était important de reconnaître le contenu de l’image (et non pas ce qui l’entoure) et mettre en place un système de pondération efficace comme le PageRank dans la recherche web classique.

Le problème est que le PageRank classique se base sur les hyperliens, et il n’est pas forcément adapté pour la recherche d’images (ce sont les pages web qui sont reliées moyennant les liens, mais non pas les images). Une approche expliquée dans le rapport propose de remplacer le graphe de liens par un graphe basé sur la similitude des images et ainsi juger leur importance :

« Les gens ont tendance à naviguer depuis une image vers d'autres images similaires. En traitant les images comme des documents Web et leurs similitudes comme des hyperliens visuels probabilistes, nous estimons la probabilité des images vues par un utilisateur de servir de hyperliens visuels ».

Lors de la conférence, les ingénieurs ont confirmé que Google était en mesure de reconnaître le contenu des images (en 2008 !) et possédait des ressources suffisantes pour l’implémenter dans le moteur de recherche.

Le domaine de la compréhension des images est complexe et nécessite surtout des ressources conséquentes, humaines (entraîner les algorithmes d’apprentissage automatique) comme technologiques (traitement des visuels et calculs).

Les gros acteurs ont très vite compris que c’était un des chantiers sur lequel l’apport de la communauté peut être plus efficace que d’essayer de pousser le domaine juste avec ses ressources internes.

Ainsi, de multiples initiatives de crowdsourcing ont été entreprises pour favoriser son développement. Parmi les plus connues on peut se souvenir de la fameuse compétition ImageNet ILSVRC (2010 – 2017) ou encore le jeu Google Image Labeler (2006 – 2011, 2016).

La suite de cet article est réservée aux abonnés.

Alexis Rylko, directeur technique SEO chez iProspect (https://www.iprospect.com/https://alekseo.com/)