22 - Manonmani Restif et Mathieu Stoll

  • il y a 7 mois
SESSION 5. UTILISATION DE RIC DANS DES PROJETS TRANS-INSTITUTIONNELS ET DES PORTAILS

Opportunités et défis de RiC pour l’agrégateur FranceArchives et les Archives de France par Mathilde Daugas (experte qualité des données du portail FranceArchives), Manonmani Restif (cheffe de projet du portail FranceArchives) et Mathieu Stoll (chef du bureau de la diffusion et de la valorisation numérique), Service interministériel des Archives de France

[English]

SESSION 5. USING RIC IN TRANS-INSTITUTIONAL AND PORTAL PROJECTS

Opportunities and challenges of RiC for the French aggregator FranceArchives and the Archives de France
by Mathilde Daugas (data quality expert of FranceArchives portal), Manonmani Restif (managing archivist of FranceArchives portal) and Mathieu Stoll (head of the Bureau de la diffusion et de la valorisation numérique), Service interministériel des Archives de France
Transcript
00:00 Bonjour à tous et j'espère que vous avez encore une toute petite once de courage pour
00:13 cette dernière présentation. Merci beaucoup Florence de nous donner l'opportunité de
00:19 présenter France Archive, donc le portail agrégateur pour les archives françaises,
00:24 porté par le service interministériel des archives de France, aussi appelé CIAF, au ministère de la
00:30 culture, en partenariat avec les ministères des armées et des affaires étrangères. Mis en ligne
00:37 en mars 2017, il a ouvert en septembre 2023 un Sparkle Endpoint, peuplé de près de 400 millions
00:47 de triplés, interrogables par les outils Sparknatural et Yasky. C'est une des rares utilisations de
00:55 Ricoh à aussi grande échelle à notre connaissance, mais il faut dire que nous n'avons pratiquement pas
01:02 communiqué sur cela. L'objectif de cette présentation est bien sûr de vous présenter
01:08 les choix d'utilisation de RDF avec Ricoh sur France Archive et je remercie beaucoup tous ceux
01:14 qui sont intervenus ce matin et tout au long de cette journée parce qu'il y aura beaucoup de
01:20 redites. On voit que nos constats rejoignent beaucoup d'autres, mais on a choisi aussi de
01:27 vous présenter les implications que, en tant que CIAF, nous voyons sur les pratiques de description
01:35 des archivistes français. Le CIAF, pour nos collègues non français, anime et coordonne,
01:46 contrôle le plus grand réseau d'archives publiques françaises au niveau national et territorial et
01:54 définit les bonnes pratiques de description archivistique en France, bien sûr en collaboration
02:02 avec des représentants des autres réseaux d'archives qui existent en France, notamment
02:09 ceux des universités. Deuxième préalable, un agrégateur offre des services aux internautes,
02:20 bien sûr sa cible privilégiée, en cassant les silos entre institutions, déjà sur un portail
02:27 agrégateur classique, mais il offre aussi des services à ses contributeurs en donnant plus
02:33 de visibilité à leurs données sur le web et en leur redistribuant des données enrichies qu'il
02:41 aurait pu retraiter. Donc France Archive, en quelques chiffres, ne peut pas fonctionner sans
02:51 ses contributeurs, 138 actuellement, qui ont fourni au portail plus de 21 millions
02:59 d'unités de description d'archives, 16 000 fiches descriptives de producteurs d'archives,
03:06 et il assure aussi une fonction de recherche et développement sur les usages innovants d'accès
03:14 aux informations archivistiques telles que le 3IF et le RDF. La mission principale du portail
03:24 étant de donner de la visibilité aux ressources archivistiques françaises, vous voyez qu'en
03:30 entrée il accepte tous des formats plus ou moins structurés, même si 90% des données en entrée
03:39 sont en XML et à moyen terme il n'est pas prévu d'accepter en entrée du Ricoh. Cependant France
03:48 Archive retraite ces données pour les diffuser de différentes façons, bien sûr en recherche et
03:55 visualisation sur le portail classique, mais aussi il alimente Archives Portal Europe, il met les
04:05 données en open data et les diffuse dans un Sparkle Endpoint. Vous avez été plusieurs ce matin
04:13 à pointer l'hétérogénéité des données au sein d'une institution. A l'échelle d'un agrégateur,
04:22 vous pouvez vous douter qu'on est à une échelle 100 fois ou encore plus haut pour traiter ce
04:31 problème. Donc nous avons mis en place un processus de traitement des données où sans toucher aux
04:41 données sources, on extrait toute l'indexation qui figure dans les inventaires et leurs composants
04:49 pour en faire ce qu'on appelle des autorités sur France Archive, lieu, agent et thème, dont les
04:56 libellés sont harmonisés conformément au code RDAFR, elles sont groupées et alignées vers des
05:04 référentiels externes de façon à récupérer des données pour les enrichir et elles sont aussi dotées
05:12 du RIS. Cependant le réservoir de données à traiter était immense et on s'est aperçu qu'il
05:22 fallait une vérification humaine. Donc depuis début 2022, nous alimentons des réservoirs d'autorités
05:34 de qualité et vous voyez qu'on a un chantier pour plusieurs années que l'on essaie de, en quelque
05:43 sorte, de certifier. France Archive crée ces référentiels internes et ces autorités de
05:49 qualité sont converties en RDF. Cette conversion est réalisée par Logilab, qui est notre prestataire
06:01 de développement expert en Linked Open Data. Logilab traite les données à partir de la
06:11 base de données. On s'est inspiré des mappings élaborés par les archives nationales pour
06:18 Ricoh Converter mais on les a adaptées à notre modèle de données spécifique. Deux graphes sont
06:25 créés. Un graphe dit de qualité peuplé d'environ 283 millions de triplés et un autre d'environ
06:36 110 millions de triplés pour toutes les autres données qui sont dans les fichiers XML, EAD et un
06:43 peu trop verbeuse pour une exploitation efficace en RDF. Cette opération est réalisée tous les six
06:50 mois vu l'ampleur des données et le temps de conversion on en a pour 50 heures. Les données
06:57 en RDF sont exploitées en interrogation sur France Archive grâce à deux outils, YASGI et
07:06 SPARNATURAL. Ce dernier, dont vous voyez la copie d'écran, est limité aux graphes de qualité et il
07:13 exploite une ontologie de recherche adaptée à nos données qui a été élaborée par ma collègue
07:20 Mathilde Doga qui est là avec moi. Il est possible d'exporter des résultats sous forme de tableau et
07:28 de basculer vers le portail classique pour visualiser les données. Quelques constats
07:35 maintenant sur ce projet. En tant qu'agrégateur, nous sommes loin d'exploiter toute la finesse de
07:45 RICO à cause de l'hétérogénéité des données. Vous voyez sur cette diapositive ce que l'on a
07:52 pu exploiter dans le graphe de qualité. Par exemple, on n'a pas pu utiliser l'attribut
08:01 @level pour qualifier le niveau de description des données en EAD. Tous les composants sont
08:08 donc traités comme des records de ressources ce qui empêche d'exploiter les types de documents
08:14 par exemple. De même, seule une douzaine de relations ont été utilisées, bien qu'on ait
08:24 joué sur les données enrichies provenant de réservoirs externes aux métadonnées archivistiques.
08:33 Donc pourquoi avoir choisi le RDF et RICO ? RIC-CM est porté par l'ICEA, qui est un garant de
08:44 pérennité pour nous. Il met en exergue les principes fondamentaux de la description
08:50 archivistique. Donc on ne peut qu'y être sensible. RICO est l'anthologie adaptée à ce modèle
08:56 conceptuel et son efficacité avait été prouvée en France par les travaux des archives nationales.
09:02 Le choix de RDF, ça a été dit, c'est aussi pour s'inscrire dans un univers du web de données
09:12 liées, qui est largement exploité par les bibliothèques et les musées. Il fallait donner
09:17 une visibilité aux métadonnées archivistiques. Les technologies du web sémantique, cela aussi
09:24 était dit déjà précédemment, nous ont permis d'aligner, d'enrichir relativement
09:30 simplement nos données grâce à des référentiels externes, d'aligner les données internes aussi,
09:36 de faire de la réconciliation et de mettre en valeur, faire des recherches transversales
09:42 entre inventaire et notice de producteurs d'archives. Les données récupérées grâce
09:48 aux alignements nous permettent aussi d'exploiter ces données sur le portail classique en proposant
09:55 des recherches additionnelles aux internautes. Et là vous avez un exemple qui est presque
10:02 complet. Et nous espérons, c'est la suivante, le RDF étant machine readable, nous espérons pouvoir
10:14 lier nos données, nos métadonnées archivistiques avec d'autres réservoirs, autant de réservoirs
10:21 externes que possible et par ricochet renvoyer vers le site source de nos contributeurs.
10:27 RDF et Rico présentent cependant des défis. Le premier étant lié à la volumétrie des données
10:39 que nous avons sur France Archive et par conséquent aux performances des outils. Nous avons dû pendant
10:49 toute l'année qu'a duré la recette de ce projet revoir nos grandes ambitions, nos ambitions qui
10:58 étaient très grandes au départ comme pour tout projet, à la baisse et le choix le plus douloureux
11:03 fut l'abandon de l'autocomplétion pour les lieux et les agents. L'outil Spar natural et Virtuoso
11:12 probablement ne permettant pas d'exploiter 25 millions ou 25 000 ou 33 000 entités. RIC est
11:21 également révélateur d'un fort enjeu de qualité des données qui était pressenti depuis pas mal
11:31 d'années mais montre, et cela a déjà été dit donc je vais passer rapidement, le besoin d'une
11:38 description plus fine et plus structurée et aussi de notices EAC-CPF. C'est une forte
11:45 implication, nécessité et il souligne l'importance de l'indexation à la bonne granularité à
11:56 condition qu'elle soit, qu'elle suive le code RDA-FR et utilise des vocabulaires communs. Enfin
12:03 la conversion en RDF n'est pas anodine, implique des changements d'habitude de notre public et des
12:12 archivistes. Cela a été dit, il faut penser la recherche que l'on fait avant d'utiliser une
12:20 requête Sparkle, même avec un outil aussi génial que Spar natural car cela implique une réflexion
12:25 sur ce qu'on cherche, une réflexion préalable. C'est encore aussi pour les archivistes où RIC,
12:35 ça implique presque une révolution des pratiques de description, d'impertants investissements
12:43 financiers en temps et aussi des compétences nouvelles et j'avoue que sans Mathilde et aussi
12:51 mes anciens collègues qui étaient tous formés du master de TNAH de l'école d'Eschart, n'aurions
12:57 pas réalisé ce travail aussi poussé et aussi rapidement. Je vais passer la parole à Mathieu
13:02 pour les perspectives. Merci Manomani. Pour terminer rapidement quelques perspectives.
13:09 Tout d'abord le CIAF qui est l'administration des archives françaises, qui assure la tutelle des
13:16 services d'archives nationales, départementales et municipales, recommande à ces services d'archives
13:21 tout d'abord de perfectionner leur pratique de description en utilisant les standards EAD et
13:26 EAC CPF comme l'a évoqué Kerstin Arnold dans son intervention de ce matin, que je vous invite à
13:32 consulter lorsqu'elle sera diffusée si vous n'êtes pas pu y assister en direct. De son côté, le
13:39 portail France Archive prendra en charge la conversion et la diffusion des données en RDF,
13:44 ces données pouvant ensuite être récupérées et exploitées par les services d'archives s'ils le
13:49 souhaitent. Ces services peuvent bien entendu, cependant s'ils le souhaitent, utiliser RICO pour
13:55 des valorisations ponctuelles de fonds spécifiques, notamment dans le cadre de projets de recherche.
14:00 Donc voici les recommandations de l'administration française des archives. Pour les mettre en
14:10 oeuvre, le CIAF a impulsé un mouvement de transition archivistique avec la création en 2020 d'un groupe
14:17 de travail national sur la description et l'indexation des archives. L'objectif est
14:22 d'encourager les services d'archives à indexer et à décrire leurs fonds d'une manière plus
14:26 adaptée au web, en utilisant les dernières versions si possible de l'EAD et de l'EAC CPF,
14:31 dans l'optique d'optimiser les pratiques actuelles des archivistes en prenant en compte les outils et
14:37 les moyens dont ils disposent. Le CIAF mise donc sur une transition qui repose sur une montée en
14:44 qualité des données et non sur une révolution archivistique. Enfin, le portail France Archive
14:52 apportera sa contribution à ce mouvement en mettant à disposition des outils, en reversant
14:58 les données enrichies à ses partenaires et en créant l'année prochaine normalement un
15:03 référentiel des personnes et des institutions publiques. Et pour conclure très rapidement,
15:09 nous voyons vraiment de réelles opportunités dans le RICO et le RDF pour multiplier les points
15:17 d'accès et donner de la visibilité aux métadonnées archivistiques, en permettre une exploration
15:23 transversale. Mais cela présente encore des défis qui pourraient être transformés tout à fait en
15:31 atouts si on utilise RIC CM, RICO aussi comme levier, pour adopter nos pratiques actuelles
15:38 de description. Et probablement dans le temps cela va arriver à maturité. Et ce que nous appelons
15:46 nos voeux c'est qu'en fait il y ait une boucle d'amélioration mutualisée des données entre
15:54 France Archive, ses contributeurs présents et futurs. Merci pour votre attention.
15:58 – Sous-titrage : Le Crayon d'oreille -
16:04 [Silence]

Recommandée