S'identifier / Créer un compte
  • Actualités
  • Dossiers
  • Tests
  • Commentaires
  • INpactiens
Publicité

Dans les coulisses du dépôt légal de l’Internet

Xavier Berne le 14 juin 2012
En avril dernier, la Bibliothèque nationale de France (BNF) annonçait qu’elle allait effectuer une collecte des sites Internet impliqués dans les campagnes présidentielles et législatives de 2012, de la même manière qu’en 2002 et 2007(voir notre article). Cette opération ponctuelle de capture de milliers de pages rentre dans le cadre des missions dévolues au dépôt légal de l’internet, qui sauvegarde depuis plusieurs années le Web français à des fins de conservation et de valorisation du patrimoine national. Clément Oury, responsable du dépôt légal de l’internet à la BNF, nous a reçu pour nous présenter de manière plus détaillée son fonctionnement.

BNF 

Une logique de conservation depuis François 1er

Depuis 1537, la BNF a pour mission de collecter au titre du dépôt légal divers documents mis à la disposition du public, à commencer par les documents imprimés. Au fur et à mesure que les progrès techniques conduisaient à l’apparition de nouveaux médias, la liste des éléments conservés au titre du dépôt légal s’allongeait. Tant et si bien qu’aujourd’hui, cette mission s’étend aux documents audiovisuels comme les DVD, ainsi qu’aux logiciels et bases de données, comme le précise le site de la BNF. Le principe est le suivant : à chaque fois qu’un éditeur publie un contenu intellectuel, il est obligé d’en transmettre une copie à la BNF.

Le développement des communications par voie électronique et l’apparition récente du Web ont progressivement conduit le dépôt légal à élargir son champ d'application aux sites Internet. Même si son cadre légal a été défini plus précisément lors de la loi DADVSI de 2006, le dépôt légal de l’Internet effectue depuis 2002 différentes opérations d’archivage du Web. L’intérêt de ces collectes automatisées est de conserver un échantillon du web, permettant de savoir à quoi ressemblait l’internet français à une date précise. De fait, la première collecte opérée par la BNF date de 2002, mais il possible de retrouver dans les archives de l’établissement public des sites plus anciens, grâce à partenariat avec Internet Archive. La BNF détient ainsi une copie du premier site du Monde, datant de 1997.

Obtenir une représentation du Web français à un moment donné

Cette logique de conservation à long terme n’est toutefois pas destinée à entretenir uniquement les éléments les plus intéressants du Web français, mais plutôt une représentation de ce qui était globalement disponible à un moment donné. Comme l’explique Clément Oury, « on conserve un peu tout et n’importe quoi, parce que c’est aussi important de voir que la consommation culturelle des français en 2012 c’était un peu tout et n’importe quoi ». Ainsi, de la même manière que le dépôt légal papier reçoit par exemple des sudokus, le dépôt légal du Web va lui aussi conserver certains jeux populaires sur la toile, tels que « des jeux d’épluche patate »

archive pcinpact janvier 2011
Capture du site PC INpact, tel qu'on pouvait le voir le 1er janvier 2011

Délimitation du « Web français »

Comme le reste du dépôt légal, le service des archives du Web est limité aux documents nationaux. Autrement dit, le législateur a confié à la BNF la mission de collecter uniquement les sites français, toute capture d’un site étranger sortant dès lors de son cadre légal. Ce critère de nationalité est néanmoins plus facile à établir s’agissant des documents matériels que des sites web, les frontières de la toile étant parfois complexes à déterminer. La définition du « Web français » a ainsi été fixée plus précisément par un décret du 11 décembre 2011, et concerne désormais :
  • tout site en .fr
  • tout site dont le nom de domaine a été réservé par une personne physique ou morale hébergée en France (www.pcinpact.com se trouve ainsi concerné)
  • tout site proposant des contenus dont on peut prouver qu’ils ont été produits sur le territoire national (par exemple un blog hébergé aux États-Unis mais rédigé par un français)
Même s’il apparaît bien difficile d’archiver de manière complète l'ensemble des sites visés par cette délimitation, le dépôt légal de l’internet tente de s’adapter aux contraintes auxquelles il fait face, grâce à un dispositif combinant collecte large et opérations ciblées.