• il y a 8 heures
"Tous les Skyblogs sont là".
Des premières pages Internet, blogs et forums, aux milliards de pages existantes aujourd’hui, la Bibliothèque nationale de France conserve les archives du web français.

Vladimir Tyben, responsable du dépôt légal du web à la BNF, nous a révélé les secrets de cette bibliothèque d’archives numériques.

Catégorie

📚
Éducation
Transcription
00:00Tous les skyblogs sont là, tous les 12 millions de 600 000 skyblogs sont stockés ici.
00:05Alors actuellement dans nos collections, on a 60 milliards de pages web,
00:08les premiers forums, les premiers blogs,
00:10pour constituer le patrimoine, cette mémoire numérique française
00:14pour les générations futures.
00:16206 Corsair qui a tuné sa 206.
00:21Depuis l'apparition du web, la Bibliothèque Nationale de France
00:25s'est tout de suite souciée de collecter tous les contenus sur le web français.
00:29Les premiers sites web, les premiers forums, les premiers blogs,
00:32tous les sites de médias, Facebook, Twitter, TikTok.
00:36Dans nos collections, de 1996 à nos jours,
00:38on a toute cette histoire du web français.
00:43Je peux te montrer à quoi ça ressemble déjà.
00:45Ce portail d'accès aux archives de l'Internet.
00:48On dit que c'est une machine à remonter le temps.
00:50On sait que le web, au tout début, c'était surtout des pages de sociétés
00:54qui voulaient communiquer sur leur activité.
00:56Si je tape combini.com, on a la première capture qui remonte à 2009,
01:02le 26 septembre 2009.
01:04Un joli gif avec le logo Combini qui clignote.
01:08Là, on est le 1er décembre 2014.
01:10Combini, All Pop Everything.
01:13Là, c'est plutôt une bonne collecte.
01:15On a quasiment tous les contenus.
01:17Tout l'intérêt de la mission du dépôt légal du web,
01:19c'est pour garder la trace de ce qui, à un moment donné,
01:23a été transmis, diffusé, lu, écouté, entendu.
01:27La mission du dépôt légal, c'est tout à fait ça.
01:31L'équipe de Skyblog nous a contactés en disant
01:33qu'on allait supprimer les 12 600 000 blogs à l'été 2023.
01:39On sait que vous, à la BNF, vous archivez le web français.
01:42On a décidé de tout collecter.
01:50J'ai créé ce blog pour parler de ma vie de collégienne,
01:52de ma vie sentimentale et de la vie de mes copines.
01:54Et oui, c'est le but de ce blog.
01:56N'oublie surtout pas de lâcher des comms, lâcher des commentaires.
01:58La vie sans les amis, ce serait comme une tartine sans Nutella.
02:02C'est de l'aphorisme.
02:04Ça, c'est toi ?
02:05Ça, c'est carrément moi, oui.
02:07Ça te fait quelque chose de retrouver ton Skyblog de 12 ans ou pas ?
02:11Oui.
02:13Et puis, Brune est fière de l'être.
02:17Fais ta pub sur mon blog.
02:19Mon vieux Skyblog est financé pour l'éternité dans les archives par nos impôts.
02:25C'est une manière de présenter les choses,
02:26mais en fait, il n'y a pas de distinction entre un blog d'ado et un site d'université.
02:34Donc, pour nous, ça a la même valeur.
02:38Par définition, on ne sait pas ce qui va intéresser les chercheurs dans 10, 20, 30, 50 ans.
02:42Des chercheurs viendront comprendre tout un tas de contenus
02:45qui peuvent paraître frivoles ou anecdotiques pour nous au moment où on le collecte.
02:50Donc, effectivement, une page de blog ou une vidéo TikTok a toute sa place à la BNF
02:54à côté d'un manuscrit enluminé du 9e siècle.
02:57206 corsaires qui a tuné sa 206.
03:03Il y a effectivement des sites pornographiques
03:07qui peuvent être collectés par le dépôt légal du web.
03:10C'est quand même très à la marge et on n'a pas une collecte spécifique sur ce segment-là.
03:14Mais encore une fois, ça fait partie à un moment donné de ce qu'est le web.
03:20On réalise deux types de collectes.
03:22Des collectes larges, une fois par an,
03:24qui essayent de couvrir le spectre le plus large de tous les noms de domaines français.
03:30À côté de cette collecte large, on réalise des collectes ciblées
03:33pour documenter des événements sur le web.
03:36Il y a le procès de Nicolas Sarkozy en rapport avec le dossier libyen.
03:42Donc ça, typiquement, c'est une page qu'on va aller archiver tout de suite
03:45parce que pendant toute la durée du procès, elle sera probablement mise à jour.
03:49On travaille avec notre robot Erytrix.
03:52On lui donne une liste d'URL bien précise.
03:55À la manière d'un internaute, il va aller cliquer sur tous les liens qu'il va rencontrer
04:00jusqu'à une certaine profondeur qu'on lui aura attribuée.
04:04Alors là, on se dirige vers le data center.
04:09Très peu de personnes à la BNF ont accès à cet endroit.
04:22Donc ici, en fait, dans cet armoire, c'est là que le robot travaille.
04:26Lorsqu'on lui donne des millions d'URL à aller collecter,
04:30ça part de là et après c'est envoyé sur le web pour une collecte à des fréquences variables.
04:36Mais en tout cas, les espaces de travail du robot sont ici.
04:39Donc c'est un peu la maison d'Erytrix.
04:41Ton collègue qui habite sur place et qui travaille 24h24.
04:44Voilà, exactement. Vraiment 24h24 en plus parce qu'il ne s'arrête jamais une fois qu'on le lance.
04:51Alors actuellement, dans nos collections, on a 2,4 pétaoctets de données,
04:552 400 000 gigaoctets.
05:01Sur ces baies de stockage, on a toute l'histoire du web français.
05:062996 à nos jours.
05:08Tout ça, c'est que des petits disques d'armature ?
05:10Un disque, ça fait 4 Teraoctets de données.
05:12Donc voilà, ça donne un ordre d'idée de la place.
05:162 400 disques de 4 Tera.
05:19Mais c'est la taille d'une penderie ?
05:21Voilà, donc ce n'est pas immense non plus en termes de stockage.
05:25Mais voilà, c'est comme ça que ça marche.
05:28On a un peu moins de 60 milliards d'URL.
05:3260 milliards de pages web.
05:34Donc là, tout à coup, c'est une échelle tout à fait différente et assez vertigineuse.
05:40On ne pourra jamais consulter toutes les pages web.
05:43Mais on travaille sur le très long terme pour le patrimoine.
05:46Ici, effectivement, tout est sécurisé pour résister à tout.
05:51Inondation, feu, détérioration de tout type.
05:55Et tout l'objectif, c'est de maintenir l'accès à l'information pour les années à venir.
06:02En 10, 20, 40, 50 ans, 100 ans, on est sûr de pouvoir rejouer l'information
06:07au plus proche de ce qu'elle était au moment de la collecte.
06:10Et c'est la raison pour laquelle, quand on collecte, on embarque aussi les technologies.
06:13On peut très bien lire des anciens sites en flash, par exemple.
06:16Cette techno flash qui n'existe plus.
06:18Ça, c'est un jeu vidéo en flash.
06:20On l'a capturé en 2011.
06:22Il a disparu d'internet et nous, on peut y avoir accès dans nos collections.
06:26Je suis Justin Bieber et je dois me battre contre les zombies.
06:30Je ne sais pas très bien jouer.
06:32Je suis en train de me faire complètement manger.
06:36Ils sont à mes trousses, mais ça va, j'ai réussi à les...
06:39Ouh là !
06:40Je ne sais pas si je peux m'échapper par là.
06:42Il a l'air d'y avoir du feu.
06:44Boum !
06:45Die Justin !
06:48Parti !
06:50Voilà.
06:51La partie un peu fun du métier peut-être ?
06:52Oui, c'est sûr qu'on tombe sur des contenus parfois un peu drôles, un peu divertissants.
06:59Exactement.
07:00Les archives de l'internet ne sont pas consultables librement sur le web.
07:04Il faut venir à la BNF, en salle de recherche,
07:07et dans certaines bibliothèques en région, 22 exactement,
07:10mais uniquement sur place, sur des postes dédiés.
07:14La mission de collecter tout le web français et l'archiver est une mission de service public.
07:18Pour constituer le patrimoine d'hier, d'aujourd'hui,
07:22cette mémoire numérique française pour les générations futures.

Recommandations