Le projet ORESM
Un inventaire commun : des données sémantisées
Le projet Œuvres et Référentiels des Étudiants, Suppôts et Maîtres de l’université de Paris au Moyen Âge [ORESM], vise à rassembler et publier différentes ressources documentaires sur la vie universitaire parisienne, du XIIe au XVIe siècle.
Il propose notamment de publier un inventaire qui permettra de reconstituer virtuellement les fonds d’archives issus de l’ancienne université et des collèges parisiens, aujourd’hui répartis entre différentes institutions de conservation.
Il cherche aussi, à travers des analyses poussées faites sur les documents, à constituer un référentiel de personnes physiques ayant séjourné dans ces structures d’enseignement.
Cette journée d’étude présentera les dernières avancées du projet, notamment la progression des travaux de dépouillement des archives des collèges parisiens, la publication en ligne d’un premier inventaire et enfin la transformation des données descriptives archivistiques en données RDF, conformes à la toute nouvelle ontologie Records in Context, qui offrira à terme aux chercheurs des possibilités de recherche encore plus poussées.ORESM est coporté par la Bibliothèque interuniversitaire de la Sorbonne et le Centre Lucien-Febvre (université de Franche-Comté). Ce projet repose sur un partenariat avec des unités de recherche, comme le Laboratoire de médiévistique occidentale de Paris, et des institutions de conservation, comme les Archives nationales qui financent cette journée. Il bénéficie du soutien du LabEx Hastec, de la région Île-de-France (DIM-SCTN) et de CollEx-Persée.
Un inventaire commun : des données sémantisées
Le projet Œuvres et Référentiels des Étudiants, Suppôts et Maîtres de l’université de Paris au Moyen Âge [ORESM], vise à rassembler et publier différentes ressources documentaires sur la vie universitaire parisienne, du XIIe au XVIe siècle.
Il propose notamment de publier un inventaire qui permettra de reconstituer virtuellement les fonds d’archives issus de l’ancienne université et des collèges parisiens, aujourd’hui répartis entre différentes institutions de conservation.
Il cherche aussi, à travers des analyses poussées faites sur les documents, à constituer un référentiel de personnes physiques ayant séjourné dans ces structures d’enseignement.
Cette journée d’étude présentera les dernières avancées du projet, notamment la progression des travaux de dépouillement des archives des collèges parisiens, la publication en ligne d’un premier inventaire et enfin la transformation des données descriptives archivistiques en données RDF, conformes à la toute nouvelle ontologie Records in Context, qui offrira à terme aux chercheurs des possibilités de recherche encore plus poussées.ORESM est coporté par la Bibliothèque interuniversitaire de la Sorbonne et le Centre Lucien-Febvre (université de Franche-Comté). Ce projet repose sur un partenariat avec des unités de recherche, comme le Laboratoire de médiévistique occidentale de Paris, et des institutions de conservation, comme les Archives nationales qui financent cette journée. Il bénéficie du soutien du LabEx Hastec, de la région Île-de-France (DIM-SCTN) et de CollEx-Persée.
Category
📚
ÉducationTranscription
00:00 [Musique]
00:13 Voilà, on devrait finir avec un petit quart d'heure de retard, donc je trouve qu'on s'en tire bien finalement.
00:19 Donc on va terminer la matinée, je vais essayer de la terminer du mieux que je peux,
00:24 parce que je vais essayer de remplacer Florence Claveau, mais on sait bien que c'est impossible de la remplacer.
00:29 Donc je vais quand même parler de ce qu'elle devait évoquer, à savoir la sémantisation des données ORESM,
00:36 dans le cadre de leur conversion dans un autre format de données qui s'appelle RDF,
00:41 qui est un dérivé des technologies du web sémantique.
00:45 Et donc je vais vous parler de l'ontologie Recorded in Context, ou RIC,
00:51 qui nous sert justement à structurer, à restructurer, à retransformer ces données.
00:56 Alors, moi je n'en ai qu'une connaissance théorique, je ne l'ai pas pratiquée,
01:00 donc je peux vous expliquer le principe, mais concrètement ce que Florence a fait en termes de transformation,
01:05 je ne pourrais pas aller trop dans ce détail-là.
01:07 Mais c'est tout simplement que vous puissiez voir le principe de la mise en graphe et de la sémantisation,
01:13 et surtout des usages que cela peut offrir à terme, qui devraient être encore plus souples et encore plus performants
01:19 que ce que peut nous offrir un inventaire EAD.
01:22 Et pour nous c'est quelque chose, en tant qu'archiviste, qui est assez innovant,
01:26 puisque c'est une ontologie qui est toute récente, une première version qui a été publiée l'année dernière, en 2022.
01:33 Donc pour nous c'est quelque chose d'assez novateur, qui nous permet de voir aussi
01:37 comment on peut transformer des données archivistiques en données sémantisées.
01:43 On a vu déjà dans les précédentes présentations les limites techniques que pouvait nous imposer l'EAD,
01:53 et qui peuvent gêner certains objectifs du projet, ou en tout cas les rendre plus difficiles à atteindre.
02:00 Et donc je parlerai après cela de l'intérêt de l'ontologie RIC, et de la modélisation en graphes de données.
02:08 Et les avantages que cela peut offrir aux chercheurs à venir.
02:12 Présents et à venir, pour prendre la formule bien connue.
02:15 Alors, les limites techniques de l'EAD, je vais y aller assez vite.
02:18 On se repose beaucoup sur un mode de recherche en plein texte.
02:23 C'est à dire qu'on a vu tout à l'heure que si on voulait chercher des occurrences de mots,
02:28 le premier outil qu'on utilise c'est le moteur de recherche en texte intégral, la barre de recherche,
02:33 et puis on voit si l'occurrence arrive à un endroit ou l'autre de l'inventaire.
02:37 Alors, ça ne veut pas dire qu'on n'a pas de mode de recherche plus structuré,
02:42 c'est à dire qu'on peut essayer d'interroger des index d'auteurs par exemple, des index de noms,
02:46 et donc de ressortir des notices qui seraient indexées avec ce nom de personne ou ce nom de lieu.
02:52 Mais on voit qu'il est assez difficile de combiner différents critères de recherche.
02:57 On l'a vu ne serait-ce que précédemment.
03:01 Et de même, en général, on n'a pas trop d'outils dans les outils logiciels existants pour filtrer les résultats que l'on obtient.
03:08 C'est à dire qu'on obtient une liste de résultats, mais on pourrait les ré-ordonner par date, par sujet ou par thème.
03:14 Mais en général, on n'a pas ces fonctionnalités là, soit parce que l'outil qu'on utilise ne le propose pas,
03:20 soit parce que les données elles-mêmes n'ont pas été suffisamment indexées pour pouvoir permettre cela.
03:27 L'autre inconvénient que l'on peut voir, c'est que quand on propose un inventaire en EAD,
03:33 c'est qu'on propose aux chercheurs une interface de navigation, une arborescence,
03:38 qui vous permet de vous repérer dans le fond.
03:41 Une arborescence à plusieurs niveaux, on a vu qu'on pouvait créer beaucoup de niveaux pour arriver jusqu'à la pièce d'archive,
03:48 mais en fait ce cadre de classement que l'on propose, il est monolithique, il est fixe.
03:53 C'est à dire que c'est un cadre que l'on propose aux chercheurs,
03:57 mais sur lequel le chercheur ne peut pas vraiment interagir.
04:03 Il est obligé de se mouler dans ce cadre pour faire sa recherche, pour appréhender le fond.
04:07 Alors peut-être qu'on pourrait essayer de lui donner plus de liberté aussi dans ce qu'il peut afficher dans cette arborescence.
04:13 Et donc quand je dis présentation monolithique, quand on arrive au niveau de la pièce, vous avez cette liste là,
04:20 qui n'est pas forcément non plus facile à appréhender pour retrouver le document que l'on cherche.
04:26 Enfin on s'est rendu compte, et nos débats, nos questions l'ont montré,
04:34 que l'EAD n'est pas forcément adapté pour des descriptions fines d'archives anciennes.
04:39 Par exemple on n'a pas de champs pour renseigner le lieu de passage de l'acte.
04:43 Le statut du document "copie-brouillon", on a créé un référentiel pour cela,
04:49 et on vous a expliqué que, ce qu'Arsène a expliqué, c'est à dire que dans ce qu'on appelle la description du contenu,
04:55 on va mettre "statut du document de point brouillon".
04:58 Donc c'est semi-structuré on va dire, ça reste seulement un paragraphe de texte,
05:01 ça reste pas une information de type statut informatiquement.
05:05 Alors voilà, c'est ce que j'ai dit ici, ces informations peuvent être saisies,
05:11 mais elles ne sont que peu structurées informatiquement,
05:13 ce qui ne permet pas vraiment de les exploiter ensuite pour faire des recherches plus avancées, plus performantes.
05:19 Voilà, si je prends cet exemple là, vous avez ici l'intitulé du document "Mendement de filles pleubelles",
05:29 "Ordonnant aux prévôts de Paris de prêter serment à l'Université de Paris de maintenir ses privilèges", d'accord.
05:34 Et vous voyez qu'on a été obligé de renseigner dans ce qu'on appelle la description du contenu,
05:38 "lieu de passage de l'acte 2.1 Paris", "datation", "date convertie en nouveau style", "ancienne cotation assisée",
05:45 donc vous voyez ce sont des informations qu'on rajoute sous forme de paragraphe,
05:48 mais sémantiquement ce n'est pas qualifié en fait.
05:52 Donc là, le seul outil de recherche que l'on a, c'est la recherche plein texte,
05:56 et ce n'est pas forcément le plus adapté en fait comme mode de recherche pour récupérer ce type d'informations.
06:04 Et alors face au projet Oresm, le projet Oresm, pour rappel,
06:08 donc cherche à mieux connaître les individus, personnes physiques ou morales liées à l'université,
06:12 et aussi, c'était un point qui nous était cher en début de projet,
06:16 c'était de restituer cette épaisseur archivistique des documents,
06:19 pouvoir retracer leur évolution dans le temps au fil des mains entre lesquelles ils sont passés,
06:24 d'où l'exploitation des anciennes quotations et des anciens inventaires d'archives.
06:31 Alors c'est là où l'ontologie Records in Context peut nous aider.
06:35 Alors, il y a une première phase, on va dire, qui consiste à modéliser les données,
06:41 c'est-à-dire définir les concepts que l'on souhaite mettre en évidence,
06:45 et définir les relations entre ces concepts.
06:49 Alors l'ontologie Eric, elle a été conçue justement pour décrire tout le contexte de production d'un document d'archives,
06:55 et tout ce qui est lié à ce document d'archives.
07:00 L'avantage du RDF, qui est donc le langage qu'on utilise pour exprimer ces concepts et ces relations entre les concepts,
07:08 l'avantage c'est qu'on dispose d'ores et déjà de tableaux de dépouillement qu'on vous a montrés,
07:15 où chaque champ d'informations est bien isolé, dans une colonne distincte,
07:19 donc on a déjà une granularité, si vous voulez, satisfaisante.
07:22 Et donc ce langage RDF nous permet d'exprimer toutes les relations que l'on souhaite en fait.
07:28 On peut créer autant de concepts et de relations que l'on veut, on n'a aucune limite par rapport à ça,
07:33 du moment que l'on définit dans des vocabulaires contrôlés, dans des ontologies, ces concepts.
07:38 Et surtout l'intérêt c'est que ça va nous permettre de visualiser autrement
07:44 toutes les données que l'on a constituées dans le cadre du projet Ores.
07:48 L'autre avantage c'est que c'est un langage qui est standardisé,
07:52 donc conforme aux recommandations du W3C,
07:55 et voilà, comme je le disais, du moment qu'on a des vocabulaires contrôlés,
07:59 des ontologies définies, on est dans un champ de standardisation satisfaisant.
08:04 Voilà, donc là j'ai réécrit en fait ce que je viens de vous expliquer,
08:09 Record in Contexte est conçu pour restituer sous forme de graphes toutes les entités
08:15 liées au contexte d'un document d'archive.
08:17 Alors, je vais présenter une modélisation très simple
08:22 que je vais exprimer en mes propres termes, qui ne sont pas les termes de Rick,
08:25 mais c'est pour que vous compreniez le principe, c'est-à-dire qu'on va par exemple prendre
08:29 l'entité fondamentale qui est le document,
08:31 avec tout un tas d'informations d'ores et déjà qui lui sont associées,
08:35 un titre, un contenu, une date,
08:38 mais on va pouvoir par exemple expliquer que ce document,
08:41 il a une instantiation physique, c'est-à-dire que ce document existe sous une forme physique,
08:46 avec donc un support, des dimensions, une cote.
08:52 On peut exprimer ce support par exemple en expliquant que c'est un support de type parchemin.
08:58 On peut dire aussi que ce document, il est inclus dans un,
09:03 ça c'est le terme de Ricord, un Record Set, c'est-à-dire un groupe de documents,
09:06 un ensemble de documents, ça c'est aussi quelque chose qui est cher aux archivistes,
09:09 c'est qu'un document il n'a de sens que par la relation qu'il a avec les autres documents
09:14 avec lesquels il a été conservé, classé.
09:17 Donc on peut tout à fait décrire tous ces niveaux supérieurs,
09:21 qui est plus ou moins l'arborescence EAD, qu'on vous a exposé,
09:25 on peut exprimer ces niveaux-là avec les groupes Ricord Set.
09:29 On peut aussi dire que ce même document, il a une instantiation numérique,
09:33 c'est-à-dire qu'il a été numérisé.
09:35 On dispose aussi de ce document sous support numérique.
09:39 Et là on peut définir aussi toutes les caractéristiques d'une image numérique,
09:42 son format, sa résolution, sa colorimétrie, etc.
09:46 On peut aussi utiliser nos référentiels de statut,
09:50 en disant que ce document a pour Ricord State, c'est-à-dire pour ETA,
09:55 une copie, un brouillon, un vidimus.
09:58 On peut aussi qualifier le type documentaire, c'est-à-dire le type d'action juridique.
10:06 On peut dire que ce document est de type donation, par exemple.
10:12 On peut ensuite introduire toutes nos entités de type personnes,
10:16 en disant que ce document a pour sujet principal,
10:21 ou en tout cas est en relation avec un individu,
10:24 qu'on va appeler personne A, donc une entité biologique.
10:28 Et on peut du coup réintroduire les liens de cette personne avec d'autres personnes,
10:33 c'est-à-dire qu'on peut dire que cette personne qui est mentionnée dans le document,
10:35 par ailleurs, elle avait pour professeur la personne 2.
10:39 Cette personne 2 elle-même, elle avait une occupation, une fonction,
10:44 elle avait la position de recteur, et elle avait cette position de recteur
10:47 au sein d'un organisme de type corporate body,
10:51 c'est-à-dire de type personne morale qui était la faculté des arts, par exemple.
10:55 Et c'est comme ça, si vous voulez, qu'on va naviguer sur l'ensemble des informations,
10:59 pas seulement du document, mais aussi des informations de personnes
11:03 que l'on pourra récupérer aussi à partir de la base Studium, par exemple.
11:06 Et on peut aussi dire que notre document, il a été un temps détenu
11:11 par la faculté des arts dans le fonds d'archives.
11:14 On peut aussi du coup restituer cette historique de conservation,
11:19 là encore en défiçant des liens entre l'entité document,
11:22 l'entité personne morale qui a été un temps en charge de la conservation de ce document.
11:28 Et enfin, on peut aussi, par exemple, dire que ce même document
11:32 il est décrit dans un inventaire.
11:35 Par exemple, on peut prendre l'inventaire de Jourdain, de Nifle-Châtelain.
11:40 On peut tout à fait renvoyer à d'autres inventaires
11:43 qui font état de ce document.
11:46 Et c'est comme ça, si vous voulez, qu'on peut restituer cette galaxie,
11:50 si je puis dire, cet environnement contextuel
11:52 autour de notre entité de départ qu'est le document.
11:56 Voilà, ça c'est pour le principe de modélisation, c'est pour le principe de modélisation.
12:00 C'est pour que vous puissiez voir comment nos concepts peuvent être réécrits et transposés de cette manière-là.
12:07 Alors voici une vraie modélisation faite par Florence.
12:11 Elle a réutilisé dans cet exemple-là les informations collectées par Louis Gousseau
12:18 pour la pièce numéro 1 de la boîte M111.
12:23 Et donc, voici si vous voulez les liens.
12:28 Alors, qui là sont exprimés selon l'ontologie rique.
12:32 C'est-à-dire qu'on part d'un vidimus de l'officiel de Paris
12:36 et on voit qu'en fait, il vidime une bulle de Martin IV adressée à Jean Chollet.
12:43 Donc là, on a bien nos deux entités documentaires, le vidimus et l'acte vidimé.
12:48 Donc on peut tout à fait réintégrer, enfin mettre en avant l'acte qui est vidimé.
12:54 On voit aussi qu'on l'a mis en lien avec l'Italie,
12:58 alors sans doute parce que le document a dû être... la bulle de Martin IV a été donnée à Witterbe.
13:03 Donc notre vidimus, on peut donc ici exprimer qu'il a pour langage le latin,
13:10 que c'est un document de type juridique vidimus,
13:15 qu'il a été produit par l'officier à l'été de Paris,
13:18 qu'il fait référence à la personne Martin IV,
13:21 qui avait pour fonction ou occupation pape,
13:25 que ce vidimus a été donné à Paris et qu'il concerne également le cardinal Jean Chollet.
13:32 Ce vidimus, il a une instantiation physique,
13:36 qui se trouve conservée aux archives nationales,
13:39 qui est de type parchemin,
13:41 et qui avait pour précédente cote IC, enfin grand I C je pense,
13:48 qui a eu pour identifiant aussi D,
13:51 et qui a été un temps qualifié de 3e pièce de la 4e liasse.
13:55 Là ce qui nous manque c'est de savoir dans quel inventaire on trouve ces cotes là.
13:59 Mais c'est comme ça que de cette manière on pourrait récupérer avec ces graphs
14:04 toutes les cotes mentionnées par un inventaire ancien,
14:07 et du coup restituer une présentation des documents qui sont mentionnés dans cet inventaire ancien,
14:12 et pas forcément selon le cadre prédéfini qu'on a conçu pour l'inventaire commun.
14:17 Alors ces données, on peut les visualiser sous forme de graphes,
14:25 c'est à dire que toutes ces entités sont représentées par les bulles,
14:29 par les petits ronds que vous voyez ici.
14:32 Donc si vous voulez c'est la transposition de ça sous forme de graphes.
14:36 Donc par exemple on voit que Jean Chollet, qui se trouve ici,
14:39 est lié à tout un tas d'autres documents qui sont représentés par les points rouges.
14:45 Si je me concentre sur notre document Vidimus de l'Officiel de Paris,
14:49 on va retrouver toutes les informations que je vous ai dit.
14:52 C'est un document qui a pour statut original, c'est un document latin,
14:55 c'est un document qui a eu pour code grand A, grand C, qui est conservé aux archives nationales.
15:00 Donc voici comment on peut représenter de manière un peu plus graphique les relations entre les entités.
15:08 Et on pourrait tout à fait imaginer, enfin ça existe,
15:11 c'est à dire qu'on navigue aussi dans le graphe en cliquant sur Jean Chollet,
15:15 puis sur le document qui lui est lié, on va afficher toutes les informations liées à ce document.
15:20 C'est une des façons qu'on a de visualiser et parcourir ces données.
15:25 Les avantages que l'on peut voir pour la recherche,
15:28 c'est évidemment la façon que l'on a d'interroger ces graphes.
15:33 Alors pour ça on utilise le langage SPARQL,
15:37 qui lui va nous permettre de faire une recherche en combinant tous les critères que l'on souhaite
15:42 et que l'on a exprimé en fait dans l'ontologie.
15:45 Alors ça c'est une requête simple qui dit "je voudrais avoir la liste de tous les types d'actes que je trouve".
15:54 Donc ça, ça va vous donner ensuite une liste de résultats
15:57 où vous allez avoir tous les types de documents avec leur nombre d'occurrences.
16:01 Tout ça, ça avait été fait par Florence Claveau sur les données de Louise Gousseau.
16:06 Donc ça c'est une requête relativement simple, je veux tous les types de documents.
16:10 Mais on pourrait imaginer des interfaces ensuite de recherche
16:14 qui nous permettraient de combiner tous les critères qu'on veut.
16:16 Alors ça c'est le projet SPARQL Natural qu'elle pilote avec la bibliothèque nationale,
16:22 financé par le ministère de la culture.
16:24 On peut dire par exemple "je cherche tout un ensemble de ressources archivistiques,
16:32 comprises entre 1250 et jusqu'à 1350
16:35 et je voudrais leur code ancienne".
16:39 Et donc on va vous restreindre le nombre d'items dans les résultats en fonction de ces critères là.
16:46 Donc on pourrait tout à fait imaginer des requêtes préconçues,
16:49 mais on pourrait aussi laisser la liberté aux chercheurs de construire leurs propres requêtes
16:53 en fonction de leur centre d'intérêt et de ce qu'ils cherchent.
16:56 Et en tout cas on pourrait leur présenter des codes qui seraient redistribués
17:00 non pas selon un cadre de classement fixe,
17:02 mais filtrés et répartis selon différents critères de recherche combinés.
17:06 Dans ce que je vous disais on pourrait par exemple resituer l'état d'un fonds d'archives
17:12 tel qu'il était en 1620 d'après l'inventaire conservé aujourd'hui.
17:17 Ou encore retrouver tout un ensemble d'individus liés à un événement, à une date ou à un type de document.
17:30 Voilà un petit peu l'intérêt.
17:32 Florence vous aurait présenté la transformation des données qu'elle a faites,
17:37 mais j'ai essayé de résumer du mieux possible l'intérêt de cette ontologie et de ce procédé.
17:43 Merci.
17:45 Merci beaucoup pour cette présentation limpide.
17:49 Sur le modèle, moi j'ai une question, je comprends bien le principe de définition d'un modèle, les relations etc.
18:00 La question que je me pose c'est comment on gère l'incertitude en fait ?
18:08 Puisque pour définir une relation il faut qu'on s'engage sur la relation.
18:11 Oui, on revient à la question fondamentale qui est la fiabilité des données.
18:15 La fiabilité des données et des identifications.
18:19 Alors pas tout à fait la fiabilité, parce que tes données peuvent être tout à fait fiables dans chaque document,
18:25 sauf qu'il y a des variabilités de noms, il y a des possibilités d'homonymes etc.
18:34 Comme tu disais, tout dépend du référentiel sur lequel on s'aligne.
18:38 C'est à dire qu'on peut appairer un individu à une notice déjà existante dans VIAF, dans Zoom Parisiennesse ou dans un autre référentiel.
18:51 Et se servir du coup de l'entrée de ce référentiel pour récupérer toutes les entités de personnes dont le nom varie mais qui est bien la même personne.
19:00 Donc il faut bien un référentiel en fait ?
19:02 Oui, tout à fait.
19:05 Ça permet de consolider en tout cas les relevés de noms qu'on fait dans le document.
19:08 Sauf que j'avais cru comprendre que votre choix finalement était, si on a dit Johannes Parvus mais qu'on n'est pas sûr qu'il s'agit de la même personne,
19:18 que du coup on allait créer en fait 10 entrées d'index différentes.
19:26 Donc à ce moment là, ça veut dire que le système doit non plus se débrouiller avec un référentiel,
19:30 mais il doit dans le référentiel arriver à gérer l'approximation, ce qui n'est pas la même chose.
19:35 Donc est-ce que c'est prévu effectivement qu'il y ait de l'approximation orthographique,
19:41 quelque chose qui permette effectivement pour des entrées très équivalentes et qui ont été identifiées comme des entrées distinctes,
19:48 de s'ébrouiller avec ça ?
19:50 Je pense que dans le langage de Rocket Sparkle, on peut faire des formes approximatives.
19:54 C'est-à-dire avec des expressions régulières, je pense qu'on va pouvoir entrer le facteur de variation du nom par exemple.
20:02 Mais ça c'est Florence qui pourrait vous le dire, je m'aventure sur des terres que je connais mal.
20:07 J'avais une autre question, en fait je remplace Stéphane Lamassé, je vais vous parler d'incertitude.
20:16 Chacun remplace.
20:17 Il n'est pas là, lui aussi il nous manque.
20:19 Donc sur par exemple les liens entre actes, les vidimus, les copies etc.
20:27 Parce que certes on peut faire des relations entre les documents, mais sur quels critères on définit la relation ?
20:35 Là encore c'est défini dans un référentiel.
20:38 C'est-à-dire qu'on a un référentiel avec le type de copie par exemple, ou le type de vidimus, acte inséré, acte vidimé.
20:48 Donc on peut dire que l'acte qui est vidimé a pour acte vidimant celui-ci.
20:54 Ça s'est exprimé dans la relation de l'ontologie.
20:57 Oui, mais je pensais de plusieurs actes qui avaient la même date, comment on les relie concrètement ?
21:07 Bien sûr on sait qu'il y a un document qui est un vidimus, mais l'original il ne sait pas forcément qu'il va être vidimé un jour.
21:16 Si je peux m'exprimer ainsi.
21:19 Donc si on a toute une série d'actes à une même date, comment on va faire le lien entre le vidimus ?
21:30 Par une chaîne de caractère entre le nom, la date, etc.
21:35 C'est ça qui m'échappe un peu.
21:37 C'est la question que j'avais posée tout à l'heure à Arsène, mais qui concerne plutôt l'inventaire virtuel en graphes.
21:45 Effectivement, pour l'instant on décrit tous ces actes-là de manière indépendante.
21:50 Et c'est vrai que la solution de décrire l'acte vidimé dans la description du vidimus est une solution de dépannage.
21:59 Mais pour créer un lien entre ce vidimus et l'original, il faut créer un lien dans l'ontologie entre deux actes différents, entre deux entités différentes.
22:12 Je pense que l'ontologie le prévoit.
22:15 Mais c'est vrai que quand on aura des milliers et des milliers de pièces, et qu'on devra retrouver laquelle correspond à quoi,
22:25 donc quel est l'original de tel ou tel vidimus, comment les aligner ?
22:31 J'avais pensé à la date, mais c'est vrai qu'on va avoir des centaines d'actes.
22:36 Oui, c'est ça, bien sûr.
22:38 Mais ça ne pourra pas être automatisé si c'est seulement la date.
22:41 Non, mais je veux dire, ça ne remet pas en cause l'ontologie, mais c'est vrai que c'est une réflexion qu'on a.
22:46 On va le retrouver aussi par la description du contenu.
22:48 Normalement, dans l'acte et dans le vidimus, il y a le même.
22:51 Oui, mais ça ne sera peut-être pas exactement le même texte.
22:55 Parce que là, pour le coup, on est dans une analyse qui est...
22:58 Si on croise des critères, si on croise un nom de personne autorité de l'acte...
23:03 Alors, il faudrait que ça soit l'auteur.
23:05 ...plus le type juridique de l'acte, normalement, avec des requêtes croisées qui doivent permettre de sortir...
23:12 C'est-à-dire, si on prend l'exemple...
23:16 ...de façon automatique, la relation entre...
23:22 Si on prend l'exemple d'une bulle pontificale, on peut dire qu'elle a pour instantiation physique la bulle originale,
23:27 et que par ailleurs, elle existe sous forme d'un vidimus qui est contenu dans tel acte postérieur,
23:33 produit par l'officialité de Paris, par exemple.
23:36 Oui.
23:37 Ça.
23:38 La question, c'est...
23:40 Comment tu es sûr du lien ?
23:43 Comment on retrouve ?
23:44 Parce que le lien, il est prévu d'Enrico, mais comment on retrouve, finalement, ces actes-là ?
23:50 Bon, c'est une question, d'ailleurs, qui vous est particulièrement adressée, puisque finalement, c'est une question au projet OREM.
23:55 Et à la manière dont on gère les choses, puisqu'on décrit les actes les uns après les autres.
24:02 Il est évident qu'on ne peut pas, dans ce cadre-là, demander...
24:06 Bon, maintenant Louise n'est plus là, mais on ne pouvait pas demander à Louise,
24:09 à chaque fois qu'elle rentre un original, d'aller chercher toutes les copies qui existent,
24:13 et à chaque fois qu'elle entre un vidimus, elle n'a pas tout traité.
24:16 Donc bon, il y a des trous dans la raquette, c'est évident.
24:18 Et puis, il y a aussi des originaux qui ont disparu, donc ce n'est pas la peine de...
24:21 Mais c'est vrai qu'à un moment, on va se poser la question, si on veut vraiment construire un inventaire virtuel,
24:26 de relier tous ces actes-là, pas seulement dans leur contexte archivistique,
24:32 qui font partie de tel carton, etc., mais d'un point de vue historique, dans leur tradition.
24:38 - Oui, je comprends. - Et ça, ça va poser un problème
24:41 quand on aura des milliers d'actes. - Je comprends.
24:43 Après, je pense que... Ça, c'est Florence qui pourrait nous le dire,
24:46 mais je pense qu'il doit y avoir des moyens, en comparant par exemple...
24:50 En fait, vous pointez le risque de doublon, c'est-à-dire qu'on ait plusieurs fois le même acte,
24:54 parce qu'on n'a pas su l'identifier, il est présent plusieurs fois.
24:58 - Ah mais pas au même endroit. Une fois décrit comme acte principal, une fois décrit comme acte acéré.
25:05 - Oui, comme acte "vide", mais par exemple.
25:07 Après, je pense qu'il y a moyen, en comparant le producteur, l'auteur, la date,
25:14 éventuellement l'inventaire, la publication dans laquelle il se trouverait,
25:18 de voir éventuels documents qui seraient similaires, et de les doublonner ou de les fusionner.
25:24 - Oui, oui. - Alors, ça, je pense qu'il doit y avoir des scripts qui permettent de le faire.
25:28 - Justement, la question... Le modèle décrit des relations,
25:32 mais la façon d'établir la fiabilité de la relation, c'est ça qui n'est pas explicite.
25:40 Ça existe sans doute, ou peut-être qu'il faut avoir déjà livré des données claires
25:48 sur les liens entre les actes avant de le passer en graphe.
25:52 Ça, c'est important pour le projet, par exemple.
25:54 - Et je dirais d'un certain côté qu'il faut peut-être appliquer aux actes
25:58 les méthodes qu'on applique aux personnes,
26:02 puisque finalement, on essaiera d'identifier l'original.
26:08 Dans la masse des originaux, on essaiera d'identifier l'original qui a été copié dans tel ou tel acte.
26:14 Et il va falloir donc essayer d'aligner ces individus statistiques comme les personnes.
26:21 - Tout à fait.
26:22 - Avec aussi la question de l'incertitude évoquée par Laurence,
26:27 parce que dans certains cas, de toute façon, on trouvera obligatoirement des actes
26:32 qui ont été passés le même jour par la même personne.
26:36 - Inévitablement.
26:38 - En particulier les bulles pontificales.
26:40 - C'est très clair.
26:43 [Musique]
26:49 Merci.