Nous débutons dans cette lettre une série d'articles sur les outils de recherche spécialisés sur certains formats spécifiques de fichiers ou de données : image, actualité, fichiers PDF, etc.

Nous inaugurons cette série avec les outils de recherche d'image. Ces sites seront étudiés en fonction des types de données qu'ils proposent. Ce mois-ci, ce sont les moteurs de recherche d'images proposés par les leaders de la recherche d'information généraliste (Google, Fast, Lycos...) qui sont comparés. Le mois prochain, nous étudierons plutôt les banques de données d'images et moteurs spécialisés (Corbis, Ditto, etc.). Enfin, un article sera plus spécifiquement consacré aux métamoteurs du domaine.

Comment les moteurs de recherche d'images effectuent-ils leurs investigations ?

Les moteurs de recherche identifient la plupart du temps les images qu'ils proposent à l'intérieur des pages détenues dans leur index web. Lorsque vous tapez le mot clé "napoléon", le moteur tente de retrouver les "bonnes" images selon plusieurs critères :

- Le nom du fichier : il proposera par exemple des images ayant pour nom napoleon.gif ou napoleon.jpg.

- Le descriptif textuel de l'image : les webmasters, lorsqu'ils créent leur site, ont la possibilité de placer, dans le code HTML de leurs pages, un petit texte décrivant chaque image affichée (option "ALT" de la balise <IMG>). Ce texte s'affiche, sur certains navigateurs, lorsqu'on passe la souris sans cliquer sur l'image ou avant le téléchargement de cette dernière. Ce texte descriptif est pris en compte par le moteur pour effectuer ses recherches. Exemple :

<IMG SRC="images/nap.jpg" ALT="Napoléon à Waterloo">

L'image ci-dessus sera donc potentiellement identifiable pour les mots clés "Napoléon" et "Waterloo".

- Le texte "autour" de l'image. Le moteur tient compte du texte de la page "proche" de l'image. Si celui-ci contient le mot "napoléon", l'image pourra être prise en compte même si son nom n'est pas évocateur (exemple : nap28.gif). Si un lien textuel permet d'afficher une image, le texte du lien sera également très important.

- Les balises Meta. AltaVista, par exemple, peut prendre en compte le texte des balises Meta pour retrouver une image contenue dans une page.

Comparaison de 6 outils de recherche d'images

Etudions donc de plus près la fonction "Images" des moteurs de recherche leaders du Web. Pour chacun d'entre eux, nous avons essayé d'indiquer des critères quantitatifs, qualitatifs et fonctionnels pour tenter de mieux les comparer. Nous avons testé dans cet article les moteurs "images" de :

- Google (http://images.google.fr/)

- Fast/AllTheWeb (http://www.alltheweb.com/?cat=img&cs=utf-8&q=&_sb_lang=fr+en)

- Lycos (http://www.recherche.lycos.fr/)

- AltaVista (http://fr.altavista.com/image/default)

- Tiscali recherche (http://www.nomade.tiscali.fr/)

- Et le nouvel outil de Yahoo! US (http://new.search.yahoo.com/images), en ligne depuis quelques jours.

Nous n'avons pas intégré les outils de recherche suivants :

- MSN France : une recherche d'images est possible dans la zone de recherche avancée (http://search.msn.fr/advanced.aspx), mais uniquement sur le nom des fichiers. Cette recherche semble, de toutes façons, ne pas fonctionner : les résultats sont identiques à ceux d'une recherche Web...

- Voila.fr : pas de test non plus, pour une raison identique. La recherche avancée (http://options.ke.voila.fr/plus_voila.php) ne propose qu'une option permettant d'effectuer des recherches sur des pages Web contenant des images, pas sur les images elle-mêmes.

- AOL France : le portail ne propose pas d'outil de recherche d'images.

Pour effectuer nos comparatifs, nous avons pris en compte 12 mots clés ou expressions : napoléon, cathédrale strasbourg, papillon, madonna, ferrari, bush, logo ibm, clé, tatouage, harry potter, lance armstrong et mona lisa.

Notons enfin que, si nous avons testé 6 outils de recherches différents, seules trois technologies sont utilisées par les moteurs : celles de Google (Google + Yahoo!), AltaVista (AltaVista) et Fast (AllTheWeb + Lycos + Tiscali Recherche).

Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).