S'identifier / Créer un compte
  • Actualités
  • Dossiers
  • Tests
  • Commentaires
  • INpactiens
Publicité

[Dossier PCi] Dans les coulisses du dépôt légal de l'Internet

Dossier archivé

Depuis le début des années 2000, la Bibliothèque nationale de France opère une sauvegarde des sites Web français. Dans le cadre de sa mission de dépôt légal de l’internet, elle est ainsi chargée par le législateur de collecter un échantillon représentatif du « Web français », au moyen de robots « moissonneurs » fonctionnant pour la plupart avec des logiciels libres.

bnf 

La collecte des sites s’est même élargie aux réseaux sociaux comme Facebook ou Twitter, qui sont par exemple particulièrement observés durant les périodes électorales, comme nous l’évoquions il y a quelques semaines. Grâce aux milliards de pages qu’elle a accumulées, la BNF dispose désormais d’une collection d’archives de plus de 250 Téraoctets, qui ne cesse de s’accroître au fil du temps. La BNF a présenté ses archives du Web à PC INpact, et nous vous proposons un dossier sur ce sujet.

« En avril dernier, la Bibliothèque nationale de France (BNF) annonçait qu’elle allait effectuer une collecte des sites Internet impliqués dans les campagnes présidentielles et législatives de 2012, de la même manière qu’en 2002 et 2007(voir notre article).

Cette opération ponctuelle de capture de milliers de pages rentre dans le cadre des missions dévolues au dépôt légal de l’internet, qui sauvegarde depuis plusieurs années le Web français à des fins de conservation et de valorisation du patrimoine national. Clément Oury, responsable du dépôt légal de l’internet à la BNF, nous a reçu pour nous présenter de manière plus détaillée son fonctionnement. »

Xavier Berne

Journaliste, spécialisé dans les thématiques juridiques et politiques.

Le 14 juin 2012 à 17:49 (12 048 lectures)

Il y a 28 commentaires

Avatar de Norde INpactien
Norde Le jeudi 14 juin 2012 à 18:04:37
Inscrit le samedi 7 janvier 06 - 94 commentaires
Ainsi le mystère est résolu...
J'ai toujours senti un frisson me parcourir l'échine les fois ou j'approchai un bibliothécaire, de là à imaginer qu'ils étaient les créateurs des moissonneurs...

La voilà ta vrai conclusion de trilogie Shepard !
Avatar de John Shaft INpactien
John Shaft Le jeudi 14 juin 2012 à 18:42:36
Inscrit le vendredi 14 janvier 11 - 7630 commentaires
Je garde ce dossier au chaud pour plus tard, mais ça m'intéresse énormément vue le domaine sur lequel je bosse majortirairement (web crawling)

Edité par tot0che le vendredi 18 janvier 2013 à 19:33
Avatar de MarcRees Equipe
MarcRees Le jeudi 14 juin 2012 à 18:56:52
Inscrit le lundi 20 décembre 04 - 4238 commentaires
Merci pour vos commentaires, et bravo à Xavier qui signe là l'un de ses premiers dossiers
Avatar de 127.0.0.1 INpactien
127.0.0.1 Le jeudi 14 juin 2012 à 19:08:47
Inscrit le mercredi 29 avril 09 - 12270 commentaires
Heureusement qu'il y a PCI (et donc Xavier) sinon je n'aurais sans doute jamais su que la BNF s'occupait d'aspirer le web français.


D'ailleurs je me pose des questions sur la compatibilité de ce projet national avec celui du droit à l'oubli... autre projet national.
Avatar de chp2 INpactien
chp2 Le jeudi 14 juin 2012 à 19:15:31
Inscrit le mercredi 14 décembre 05 - 1025 commentaires
Ah.... Google en 1999.....

A cette époque là j'utilisais soit Netscape soit IE4 et on téléchargeais pas les images car les modems tournaient à 9600bauds.phibee.gif

En tout cas, j'ai appris quelque chose de plus aujourd'hui
Il n'est plus possible de commenter cette actualité
Vous devez être connecté ou vous inscrire en haut pour pouvoir participer aux commentaires.

Il y a 28 commentaires