17- Florence Clavaud et Florian Langelé

Archives nationales de France

l’année dernière

SESSION 4. RIC DANS DES PROJETS DE RECHERCHE

Utilisation et extension de RiC-O pour construire un graphe de connaissances à partir de descriptions de documents médiévaux dans le cadre du projet ORESM par Florian Langelé (étudiant en Master 2 Technologies numériques appliquées à l’histoire de l’École nationale des chartes) et Florence Clavaud (responsable du Lab, AnF)

[English]

SESSION 4. RIC IN RESEARCH PROJECTS

Using and extending RiC-O to build a knowledge graph from the descriptions of medieval records produced within the ORESM project
by Florian Langelé (Master student, “Digital Technologies Applied to History” Master’s degree, École nationale des chartes, France) and Florence Clavaud (head of the Lab, AnF)

Catégorie

📚

Éducation

Transcription

Afficher la transcription complète de la vidéo

00:00 Bonjour à nouveau. Je ne vais pas parler longtemps. Je vais me contenter de présenter

00:14 en introduction et de conclure la présentation que va faire Florian. Comme Mathieu l'a déjà

00:21 dit, là on va parler d'utilisation de Ricot pour construire un graphe de connaissances

00:28 à propos de documents médiévaux. Juste quelques mots au sujet du contexte de ce projet. Il

00:37 s'agit d'un projet qui s'appelle Oresme, en français œuvres et référentiels des

00:41 étudiants, suppôts et maîtres de l'université de Paris au Moyen-Âge. Un projet de recherche

00:48 en histoire qui a démarré en 2019, qui est mené par plusieurs institutions, en particulier

00:56 par la bibliothèque interuniversitaire de la Sorbonne, qu'on appellera plus loin BIS,

01:02 qui a eu l'initiative du projet et qui le porte administrativement. Le laboratoire de

01:08 médiévistique occidentale de Paris, qui est une équipe de chercheurs en histoire

01:14 habitués à utiliser les technologies numériques. Et les archives nationales où sont spécialement

01:21 impliquées le LAB, que vous connaissez déjà, et le département du Moyen-Âge et de l'Ancien

01:29 Régime, qui est le service de la direction des fonds sous l'égide de Marie-Françoise

01:34 Limon, qui s'occupe des archives antérieures à la Révolution, pour le dire très vite,

01:41 aux archives nationales. Pourquoi ces institutions ? Parce que le fonds de la très ancienne

01:48 université de Paris, pour ceux qui ont un peu de notion d'histoire en Europe et en

01:56 France, a été démembré sous la Révolution. Et si beaucoup de ces documents sont aujourd'hui

02:04 conservés aux archives nationales, c'est dans des différentes collections formées

02:09 après la Révolution, selon une perspective assez thématique et non selon la provenance.

02:17 Et une autre partie de ces archives est conservée aujourd'hui à la BIS, sur la base de ce

02:25 constat, et grâce à un financement essentiellement fourni par l'infrastructure de recherche

02:33 française Colex-Percé, une équipe s'est montée pour essayer d'atteindre deux buts

02:42 principaux. Le premier, mieux comprendre l'histoire du fonds de cette ancienne et prestigieuse

02:48 université, en le reconstituant virtuellement, mais avec l'idée de pouvoir être capable

02:56 de dire à tel moment, au Moyen-Âge ou au début de l'Ancien Régime, le fonds était

03:01 constitué de ces objets-là. Et deuxième objectif, étudier le réseau de personnes

03:06 et d'institutions formant cette université et relier à elle. Le choix technologique

03:15 qui a été fait a été d'utiliser les technologies sémantiques comme le cœur du futur dispositif.

03:21 J'y reviendrai peut-être un peu dans la conclusion. En fait, je vais passer la parole

03:26 à Florian, parce que dans le cadre de ce projet, Florian Langeley, qui termine actuellement

03:33 sa deuxième année de master technologie numérique appliquée à l'histoire à l'École

03:38 nationale des Chartes, a effectué un stage de quatre mois d'avril à juillet dernier

03:45 à la BIS d'une part et au Lab d'autre part pour travailler à la construction du

03:52 graph de connaissances. Donc, Florian, je te passe la parole.

04:03 Bonjour, moi j'ai travaillé sur le projet Auresme pendant quatre mois, comme Florence

04:08 l'a dit par rapport à mon stage. Je ne suis pas parti de rien, je suis parti d'une

04:15 première preuve de concept que Florence avait déjà réalisée puisqu'elle est partie

04:19 première du projet en 2021. Cette preuve de concept utilisait déjà Ricoh 0.2 et avait

04:26 montré les possibilités et surtout l'utilité du passage en sémantique en utilisant l'ontologie

04:33 Ricoh. La présentation est disponible qu'elle avait faite à ce sujet.

04:37 Mon stage consistait à étendre cette preuve de concept, notamment puisque Florence avait

04:44 travaillé sur un petit groupe de données, 188 archives dépouillées que j'ai étendues

04:51 à plus large. Mon stage aussi cherchait à commencer à travailler directement sur le

04:58 graph en montrant les possibilités qu'on pouvait avec l'inférence et aussi à travailler

05:03 sur les besoins utilisateurs, notamment pour la relacture que les chercheurs devront mener

05:09 sur nos données qu'ils ne peuvent pas chercher directement en Sparkle.

05:16 On va parler d'abord de nos données sources. Les données qu'on a proviennent de campagnes

05:25 de dépouillement financées par le LabEx ASTEC et réalisées au cours de l'année

05:30 2021-2022. Ces dépouillements ont eu lieu principalement aux archives nationales mais

05:35 aussi dans certaines archives départementales comme les archives de la Seine-et-Marne et

05:40 de l'Oise. Ils se basaient sur des inventaires pré-existants qui ne fournissait pas suffisamment

05:45 d'informations pour les enjeux scientifiques du projet. Le choix a été fait de retravailler

05:52 directement sur les originaux pour extraire davantage de données de contexte sur ces

05:57 pièces d'archives. Ce que j'ai traité du remontage, ça concerne 1441 pièces d'archives

06:04 parties sur 13 collèges différents puisque les collèges étaient liés à l'université

06:08 de Paris donc c'était très intéressant pour les enjeux scientifiques d'extraire

06:12 ces données. Ces données, vous avez un exemple à droite, c'est un exemple des données

06:20 qu'on peut retrouver sur une seule pièce d'archives. Ici c'est une pièce du collège

06:24 des Cholets. Je vous l'ai mise sous la forme verticale mais on les trouve dans des fichiers

06:29 Excel qui suivent une méthodologie avec 47 champs ou colonnes choisies par le conseil

06:37 scientifique du projet. L'archiviste en charge des dépouillements a rempli chacune de ces

06:43 47 colonnes avec des informations qu'elle a pu extraire au moment des dépouillements.

06:48 Cette description 47 colonnes c'est énorme. C'était des descriptions très détaillées

06:54 notamment sur les personnes, physiques ou morales et sur l'historie de conservation

06:58 donc les anciennes cotes, les anciens conservateurs de l'archive et tout ce qui est mention dorsale

07:05 etc. L'utilisation de Ricoh était assez naturelle puisque déjà Florence fait partie

07:19 du projet donc elle a pu nous apporter son expérience à ce niveau là mais surtout

07:25 son ontologie de référence quand il concerne la description d'archives et son caractère

07:32 assez générique permettait d'exprimer n'importe lesquelles des relations dont on avait besoin,

07:36 en tout cas en surpropriété pour nos besoins mais il a fallu quand même pour exprimer

07:44 les spécificités de la recherche médiévale et surtout des archives médiévales, étendre

07:52 cette ontologie. Donc quand on l'a étendue, on a créé 42 relations d'entités à entités

08:00 qu'on appelle object properties, 42 ça compte les inverses donc en vérité il n'y en a

08:04 que 21 et 17 data type properties donc les attributs des entités. Toutes ces relations

08:12 qu'on a créées sont des sous-propriétés de Ricoh ce qui permet l'interopérabilité

08:16 de nos données. On n'a pas créé de classes parce que toutes les classes créées par

08:22 Ricoh étaient suffisantes pour exprimer ce dont on avait envie. Là ici je vous ai mis

08:27 un screen de l'arborescence de nos relations donc en graphe vous avez les relations que

08:35 nous avons créées pour exprimer les besoins donc notamment puisqu'on s'intéresse à

08:41 l'historique de conservation on avait besoin d'exprimer si une cote était actuelle ou

08:44 ancienne ou si une cote était incluse dans un ensemble plus général. Donc ça c'était

08:51 ce qu'on fait descendre de la relation as-or-add-identifier ce qui nous permet quand même de nous rattacher

08:56 au model-ric. Donc là je vous ai mis une représentation en UML des relations dont

09:11 on avait besoin pour représenter nos données. Les traits bleus représentent les relations

09:18 déjà créées par Ricoh et en rouge, les flèches rouges représentent les relations

09:23 que nous avons créées pour le besoin. Ici c'est le même exemple que le tableau précédent

09:26 que je vous ai montré. Je peux vous citer quelques relations créées notamment la relation

09:33 a pour testateur qui est une notion très importante en termes médiévaux que nous

09:40 avons fait descendre de la relation as-auteur puisqu'un testateur c'est un type spécifique

09:44 d'auteur. Également aussi la relation est-conservée actuellement par puisque l'archiviste en

09:50 charge des débrouillements a relevé de nombreuses institutions de conservation intermédiaires

09:56 qui sont par exemple le collège Joliot-Grand qui étaient nécessaires d'exprimer dans

10:02 notre modèle de données. Je peux aussi citer la relation a pour vidimus puisque le vidimus

10:06 c'est un type spécifique d'archive qui descend de la relation as-copie. Le vidimus

10:15 c'est une notion très médiévale dont on avait besoin pour le modèle que l'on peut

10:21 rattacher au modèle Ricoh. L'ensemble de la transformation qu'on a effectuée entre

10:31 le passage du fichier Excel à un modèle RDF est documenté dans un mapping. Vous avez

10:38 un screen du tableau ici. Ce mapping a été réalisé sur les 47 champs donc aucun champ

10:47 n'a été oublié. Tous les champs des campagnes de débrouillement ont pu être exprimés

10:52 avec notre ontologie qui est en Ric évidemment. La transformation se fait avec un script XSLT

10:59 que nous avons développé conjointement avec Florence qui transforme les 1441 pièces en

11:05 environ 5-6 secondes. C'est très puissant et on essaiera de continuer à l'utiliser

11:12 pour les futures campagnes de débrouillement qui vont suivre puisque l'idée du projet

11:16 est de débrouiller l'ensemble du fond de l'ancienne université de Paris. Pour certaines

11:23 de ces données, notamment les états des documents, nous avons utilisé les référentiels

11:33 développés par le Lab des Archives Nationales. C'est rédigé en scotch qui utilise l'ontologie

11:40 Ricoh aussi. Une fois qu'on avait effectué la transformation de nos données en RDF,

11:52 on a commencé à explorer le graphe. On les a mis dans une base de données, un graphe

12:00 de connaissances, un triple store. Il en résulte que nous avons, je vais vous parler un peu

12:06 en chiffres, on a 3457 entités personnes qui ont été créées. Sur 1441 pièces d'archives

12:14 débrouillées, on a pu extraire 3457 personnes. Évidemment il y aura des variations puisque

12:21 il y a beaucoup de toponymes ou de graphies différentes mais c'est un chiffre très intéressant.

12:25 Aussi, 102 institutions, 314 lieux et 1770 pièces d'archives. Ce n'est pas le même

12:32 chiffre que le nombre de pièces débrouillées puisque nous avons aussi extrait les originaux.

12:37 Donc plusieurs fois dans les débrouillements, l'archiviste en charge a identifié une pièce

12:44 comme étant une copie ou un vidimus ou un extrait d'un acte, d'un original, mais l'original

12:49 n'a pas été retrouvé. Cet original est quand même représenté dans la base comme

12:55 un record ressource mais il n'a pas d'instanciation. C'est là qu'on fait la différence entre

12:59 la pièce d'archives intellectuelle et la pièce d'archives physique. On a aussi 1447

13:07 instanciations, donc c'est 6 instanciations de plus que les 1441 pièces débrouillées

13:13 puisque aussi certaines de nos pièces étaient numérisées. Donc les instanciations représentent

13:18 6 pièces numérisées directement par les archives nationales.

13:23 Donc là vous avez la représentation en graphes toujours de la même pièce. L'exploration

13:32 dans le graphes se fait aussi par les langages Parkell. Ce qui est intéressant pour la recherche

13:37 c'est qu'on peut faire des requêtes qui donnent beaucoup de sens aux données. Ici

13:41 je vous ai mis un exemple d'une requête que j'ai rédigée pour identifier par siècle

13:46 le nombre de pièces et la langue qu'elle utilisait. On voit qu'au début le latin

13:50 prédomine puis au fur et à mesure des siècles qui passent le français prend de plus en

13:54 plus de place.

13:55 Évidemment Sparkle ne fait pas tout et nous avons décidé d'utiliser un début de l'interface

14:08 Spanatural pour permettre la relecture des données. Ici je vous ai mis un screen d'une

14:13 requête construite suivant la configuration que j'ai faite en utilisant Spanatural 8.5.0.

14:20 Le résultat est assez satisfaisant même si la prise en main reste à appréhender

14:26 évidemment. Ce n'est pas évident pour tout le monde de comprendre la logique de création

14:30 mais quand on s'y met on se rend compte très vite des possibilités et ça permettra je

14:35 pense à terme d'aider beaucoup la recherche puisque l'interrogation du graphes permet

14:40 beaucoup plus de choses qu'un simple formulaire traditionnel.

14:45 Il reste juste cette diapositive de conclusion. En termes de perspective après ce stage court

14:53 et intense c'est de poursuivre le travail bien entendu. Des données coexistent avec

15:01 les fichiers Excel de dépouillement qui attendent d'être sémantisés en particulier des données

15:08 que l'on va sortir d'un fichier XML EAD coproduit par l'équipe Projet et qui décrit les ensembles

15:18 documentaires cette fois-ci constituant les archives de l'université telles que l'on

15:25 est en mesure de les reconstituer aujourd'hui pour l'époque médiévale. Inversement nous

15:34 allons avoir besoin de réintégrer les données que nous avons produites dans les instruments

15:38 de recherche préexistants aux archives nationales. Dans le cadre de ce projet nous avons également

15:45 - ce n'est pas en fait le lab qui en est la source mais le DEMAR avec Jean-François Moufflet

15:52 a produit un tableau qui décrit de façon extrêmement détaillée y compris avec des

15:59 données spatio-temporelles des types d'actes, des états d'actes et des formes d'actes,

16:07 tous concepts entre guillemets puisque ce ne sont plus des concepts que nous allons réintégrer

16:11 dans les référentiels correspondant des archives nationales en utilisant SCOSS et RICO. Nous

16:17 allons en avoir besoin et puis ensuite nous allons faire bénéficier au projet. Par ailleurs

16:24 et ça c'est la principale problématique en ce qui concerne les données, des travaux

16:30 de réconciliation doivent être menés entre les personnes qui ont émergé dans le cadre

16:37 de ce premier travail avec elles-mêmes mais aussi avec les données d'une base de données

16:44 produites préalablement par le LAMOP qui s'appelle Studium Parisiense et qui est en

16:50 cours dont le contenu devrait également être sémantisé pour produire un référentiel

16:59 en ligne et opérer des réconciliations. Et enfin l'interface complète d'interrogation

17:06 de ce graphe reste à construire. Elle ne doit pas se limiter évidemment. Une interface

17:14 de recherche de type avancée comme celle que SporNatural peut facilement permettre

17:21 de construire.

17:22 Voilà, je vous remercie.

17:26 Merci.

17:28 Merci.

17:30 Merci.

17:32 Merci.

17:34 Merci.

17:36 Merci.

17:38 Merci à tous !

17:40 [SILENCE]

Recommandations

25:59

À suivre

14- Florence Clavaud et Thomas Francart

Archives nationales de France