Depuis le début des années 2000, la Bibliothèque nationale de France opère une sauvegarde des sites Web français. Dans le cadre de sa mission de dépôt légal de l’internet, elle est ainsi chargée par le législateur de collecter un échantillon représentatif du « Web français », au moyen de robots « moissonneurs » fonctionnant pour la plupart avec des logiciels libres.
La collecte des sites s’est même élargie aux réseaux sociaux comme Facebook ou Twitter, qui sont par exemple particulièrement observés durant les périodes électorales, comme nous l’évoquions il y a quelques semaines. Grâce aux milliards de pages qu’elle a accumulées, la BNF dispose désormais d’une collection d’archives de plus de 250 Téraoctets, qui ne cesse de s’accroître au fil du temps. La BNF a présenté ses archives du Web à PC INpact, et nous vous proposons un dossier sur ce sujet.
« En avril dernier, la Bibliothèque nationale de France (BNF) annonçait qu’elle allait effectuer une collecte des sites Internet impliqués dans les campagnes présidentielles et législatives de 2012, de la même manière qu’en 2002 et 2007(voir notre article).
Cette opération ponctuelle de capture de milliers de pages rentre dans le cadre des missions dévolues au dépôt légal de l’internet, qui sauvegarde depuis plusieurs années le Web français à des fins de conservation et de valorisation du patrimoine national. Clément Oury, responsable du dépôt légal de l’internet à la BNF, nous a reçu pour nous présenter de manière plus détaillée son fonctionnement. »
La collecte des sites s’est même élargie aux réseaux sociaux comme Facebook ou Twitter, qui sont par exemple particulièrement observés durant les périodes électorales, comme nous l’évoquions il y a quelques semaines. Grâce aux milliards de pages qu’elle a accumulées, la BNF dispose désormais d’une collection d’archives de plus de 250 Téraoctets, qui ne cesse de s’accroître au fil du temps. La BNF a présenté ses archives du Web à PC INpact, et nous vous proposons un dossier sur ce sujet.
« En avril dernier, la Bibliothèque nationale de France (BNF) annonçait qu’elle allait effectuer une collecte des sites Internet impliqués dans les campagnes présidentielles et législatives de 2012, de la même manière qu’en 2002 et 2007(voir notre article).
Cette opération ponctuelle de capture de milliers de pages rentre dans le cadre des missions dévolues au dépôt légal de l’internet, qui sauvegarde depuis plusieurs années le Web français à des fins de conservation et de valorisation du patrimoine national. Clément Oury, responsable du dépôt légal de l’internet à la BNF, nous a reçu pour nous présenter de manière plus détaillée son fonctionnement. »
Le 14 juin 2012 à 17:49
(12 038
lectures)
Il y a 28 commentaires
Ainsi le mystère est résolu...
J'ai toujours senti un frisson me parcourir l'échine les fois ou j'approchai un bibliothécaire, de là à imaginer qu'ils étaient les créateurs des moissonneurs...
La voilà ta vrai conclusion de trilogie Shepard !
J'ai toujours senti un frisson me parcourir l'échine les fois ou j'approchai un bibliothécaire, de là à imaginer qu'ils étaient les créateurs des moissonneurs...
La voilà ta vrai conclusion de trilogie Shepard !
John Shaft
Le jeudi 14 juin 2012 à 18:42:36
#2
Inscrit
le vendredi 14 janvier 11
-
7515
commentaires
Je garde ce dossier au chaud pour plus tard, mais ça m'intéresse énormément vue le domaine sur lequel je bosse majortirairement (web crawling) 
Edité par tot0che le vendredi 18 janvier 2013 à 19:33

Edité par tot0che le vendredi 18 janvier 2013 à 19:33
Merci pour vos commentaires, et bravo à Xavier qui signe là l'un de ses premiers dossiers
Heureusement qu'il y a PCI (et donc Xavier) sinon je n'aurais sans doute jamais su que la BNF s'occupait d'aspirer le web français.
D'ailleurs je me pose des questions sur la compatibilité de ce projet national avec celui du droit à l'oubli... autre projet national.
D'ailleurs je me pose des questions sur la compatibilité de ce projet national avec celui du droit à l'oubli... autre projet national.
Ah.... Google en 1999.....
A cette époque là j'utilisais soit Netscape soit IE4 et on téléchargeais pas les images car les modems tournaient à 9600bauds.
En tout cas, j'ai appris quelque chose de plus aujourd'hui
A cette époque là j'utilisais soit Netscape soit IE4 et on téléchargeais pas les images car les modems tournaient à 9600bauds.
En tout cas, j'ai appris quelque chose de plus aujourd'hui
Sam LAYBRIZ
Le jeudi 14 juin 2012 à 19:16:00
#6
Inscrit
le dimanche 7 décembre 03
-
8673
commentaires
au moyen de robots « moissonneurs »
...Shepaaaaaaaaard, au secour !!!!!
Tous ces skyblogs au côtés de Maupassant, Vian, Proust, Voltaire et autres grands auteurs de notre beau pays.
Je suis fier de mon pays
Je suis fier de mon pays
Tous ces skyblogs au côtés de Maupassant, Vian, Proust, Voltaire et autres grands auteurs de notre beau pays.
Je suis fier de mon pays
Je suis fier de mon pays

Si Voltaire bloguait un peu plus souvent, on n'en serait pas là. Ce mec serait mort que ca ferait pareil.
Edité par 127.0.0.1 le jeudi 14 juin 2012 à 19:52
Comme l’explique Clément Oury, « on conserve un peu tout et n’importe quoi, parce que c’est aussi important de voir que la consommation culturelle des français en 2012 c’était un peu tout et n’importe quoi ».
Très bon article!
Je savais que cette moisson avait été faite il y a loooontemps, mais pas qu'elle était et sera toujours en cours.
Il n'est plus possible de commenter cette actualité
Vous devez être connecté ou vous inscrire en haut pour pouvoir participer aux commentaires.









