A mesure que croît la richesse du Web, la question de l'archivage des données numériques se pose de plus en plus. Faut-il conserver une trace de tous les articles, témoignages, vidéos et autres documents audiovisuels disponibles sur le Net ? Ces contenus ne présenteront-ils pas en effet un intérêt dans quelques décennies, notamment pour les historiens et les sociologues ?

Pour éviter que ces données ne tombent progressivement aux oubliettes du Net, plusieurs solutions d'archivage ont d'ores et déjà vu le jour. Ces systèmes sont pour l'instant surtout développés par de grandes institutions dédiées à la conservation du patrimoine et ils pourraient aussi être proposés à l'avenir par des moteurs de recherche souhaitant enrichir leurs contenus. Nous vous proposons ici un panorama de ces outils d'archivage du Web. Le mois prochain, nous publierons plusieurs entretiens avec des responsables de grandes bibliothèques nationales à ce sujet.

En France, les livres sont archivés depuis 1537 (le dépôt légal a été instauré par François 1er), les estampes depuis 1648, les partitions musicales depuis 1793, les photographies et les phonogrammes depuis 1925, les vidéogrammes depuis 1975 et l'édition électronique sur support depuis 1992. Depuis 1999, la BnF prépare également l'extension du champ du dépôt légal aux sites Internet mais le dépôt légal obligatoire des sites Web n'est pas encore en vigueur.

Le fait de légiférer pour le dépôt légal des pages Web ne suffira pas à garantir la sauvegarde des ressources électroniques. Le caractère immatériel et mouvant du Web nécessite en effet la création de nouveaux outils d'archivage automatiques et performants. Les techniques utilisées par ces outils d'archivage ne sont pas vraiment nouvelles et elles sont très proches de celles qui sont utilisées par les moteurs de recherche. L'archivage des pages Web nécessite aussi le déploiement par les bibliothèques de nouveaux moyens financiers, notamment pour l'acquisition et la maintenance des serveurs de stockage.

Nous allons nous concentrer ici sur l'archivage des données du Web et nous n'aborderons pas la question de la numérisation des ouvrages des bibliothèques. Nous traiterons ultérieurement ce sujet qui suscite actuellement de nombreux débats en France suite à l'annonce par Google, en décembre 2004, d'un accord visant à numériser et à mettre en ligne dans plusieurs années environ 15 millions d'ouvrages provenant de cinq grandes bibliothèques américaines (http://actu.abondance.com/2004-51/google-print.html).

Quelles sont les solutions pour retrouver un document Web qui a disparu ?

Qui n'a pas un jour perdu la trace d'une information importante publiée à un moment donné sur un site Internet avant d'être effacée par son auteur ? Sans avoir à contacter l'auteur du document, il existe plusieurs solutions pour retrouver un document qui a disparu.

La première méthode, moyennement fiable, consiste à utiliser la fonction "Cache" de Google. Si vous vous souvenez d'une expression exacte de ce document, vous pouvez saisir une requête dans Google avec cette requête entre guillemets. Ou bien, vous pouvez tenter de retrouver cette page en effectuant une recherche avec des mots clefs susceptibles d'y apparaître. Si vous retrouvez la page dans la liste de résultats, vous pourrez alors la consulter en cliquant sur le lien "En cache" proposé juste en dessous du résultat en question.

Chaque page indexée par Google est sauvegardée par le moteur dans une mémoire cache pendant toute sa durée de vie. Cependant, cette solution est peu sûre car elle ne fonctionne que si le spider (robot indexeur) de Google n'a pas encore découvert que cette page n'est plus active. La vocation première de Google n'est en effet pas l'archivage mais, au contraire, la fourniture de résultats aussi actuels que possible et Google élimine systématiquement de son serveur les pages correspondant à des liens disparus. De plus, le lien "En cache" n'apparaît pas toujours, le propriétaire du site ayant la possibilité de demander à ce qu'un contenu ne soit pas sauvegardé en cache par Google.

Point important cependant : il semblerait que Google "stocke" actuellement le contenu de ses "caches" pour utilisation ultérieure. Des rumeurs nous ont indiqué que ce stockage s'effectuait depuis plus de trois ans au sein du moteur de recherche. Il ne nous a malheureusement pas été possible d'obtenir une confirmation officielle de ce fait par Google. Difficile, donc, de dire si ce stockage est effectif...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).