Depuis de nombreux mois, les moteurs de recherche n'indexent plus seulement des documents au format HTML, PHP ou autres ASP et CFM. Les formats bureautiques, comme le .doc (Microsoft Word) ou le PDF (Adobe) sont aujourd'hui pris en compte sans problèmes par les moteurs. De plus, il existe de nombreux moteurs de recherche d'images très performants, comme ceux d'AltaVista, d'AllTheWeb ou de Google.

Alors, après tout, pourquoi ne pas tenter d'optimiser des documents de votre site, disponibles sous ces formats, pour qu'ils soient plus facilement trouvés et mieux classés dans les pages de résultats des moteurs ? D'autant plus que les efforts à fournir sont assez faibles (sans spammer pour autant, bien sûr, rappelons-le) pour des résultats souvent excellents...

Dans le cadre de cet article, nous allons essayer de comprendre comment mieux optimiser le référencement de documents images, Word (.doc) et PDF en optimisant les documents eux-mêmes ou leur environnement web (le contenu de la page qui les propose).

Images : surtout soigner le nom et le commentaire

Un fichier image est le plus souvent décrit ainsi dans une page HTML :

<IMG SRC="http://www.votresite.com/images/nom-de-l-image.jpg" width="45" height="52" ALT="commentaires sur l'image">

De leur côté, les critères pris en compte par les moteurs pour identifier les images qu'ils proposent dans leurs pages de résultats sont les suivants :

- Nom de l'image (ci dessus "nom-de-l-image.jpg"). N'hésitez pas à donner un nom caractéristique à votre image en y incluant des mots clés précis et descriptifs : jacques-chirac.gif, moteur-electricite.jpg, paysage-alpes.jpg, strasbourg.gif, etc.

Les noms d'images n'acceptent pas les caractères accentués, rappelons-le. Mais ce point est peu important pour la plupart des moteurs actuels qui ignorent l'accentuation des mots de toutes façons. Pour séparer les mots, utilisez le tiret (-) ou l'underscore (_), il ne semble pas que les moteurs fassent de disctinction à ce niveau. En revanche, évitez les mots "collés". En d'autres termes, préférez "jacques-chirac.jpg" à "jacqueschirac.jpg". L'utilisation d'un séparateur (tiret ou underscore) va "détacher" plusieurs mots dans une même expression et les rendre "réactifs" à une recherche.

- Format de l'image. Préférez les formats GIF (.gif) ou JPEG (.jpg). Certains moteurs peuvent indexer d'autres formats (PNG, autres...) mais le "tronc commun" pris en compte par tous les moteurs d'images sont le GIF et le JPEG. Un autre format risquerait d'exclure vos images de l'index.

- Texte alternatif. Ce texte, présent dans l'option ALT="..." est très important pour les moteurs de recherche. Il peut être comparé à la balise <TITLE> pour une page web quant à sa fonction et son importance dans le cadre d'un référencement. Nhésitez pas à développer, en une dizaine de mots, ce que représente l'image, en y insérant des mots clés de recherche importants. Exemples :

<IMG SRC="http://www.votresite.com/images/jacques-chirac.jpg" width="45" height="52" ALT="discours de jacques chirac au sommet europeen du Luxembourg - 10 juillet 2004">

<IMG SRC="http://www.votresite.com/images/cathedrale-strasbourg.gif" width="100" height="40" ALT="entree ouest de la cathedrale de strasbourg, alsace, france">

Les textes ainsi insérés ne sont pas affichés sur la page (sauf en attendant l'affichage complet de l'image ou, sur certains navigateurs, en passant la souris sur celle-ci). Indiquez-les plutôt en minuscules non accentuées, notifications comprises par tous les moteurs actuels et notamment Google. De plus, ce texte "alternatif" est prise en compte par bon nombre de moteurs comme critère de pertinence "web". Bien renseigner cette zone aidera donc au bon référencement de vos images comme de vos pages web.

Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).