• l’année dernière
SESSION 4. RIC DANS DES PROJETS DE RECHERCHE

Le projet InterPARES-Trust-AI : que peut apporter l’IA à RiC-O ?
par Hugolin Bergier (professeur associé en informatique, Regis University, Denver, Colorado, États-Unis)


[English]

SESSION 4. RIC IN RESEARCH PROJECTS

InterPARES-Trust-AI project: Can we leverage AI for RiC-O?
by Hugolin Bergier (associate professor in computer science at Regis University, Denver, Colorado, USA)



Les premières implémentations de Records in Contexts / Early implementations of Records in Contexts

Le Groupe d'experts sur la description archivistique (EGAD) du Conseil international des archives (ICA) a organisé le 15 novembre 2023 le premier événement international entièrement dédié aux premières implémentations de nouveau standard Records in Contexts (RiC)

voir : https://www.ica.org/fr/release-of-the-first-three-parts-of-the-records-in-contexts-archival-description-standard-version-1-0-ric-fad-ric-cm-and-ric-o/ pour la description des archives.

Le programme et les supports de présentation, en français ou en anglais, sont disponibles à cette adresse :
https://drive.google.com/drive/folders/1zywJxTuccDjSX-QUrYc4deACs_BTw9z8?usp=drive_link

The Expert Group on Archival Description (EGAD) of the International Council on Archives (ICA) organized on November 15th 2023 the first international event entirely dedicated to early implementations of the new Records in Contexts (RiC) archival description standard https://www.ica.org/release-of-the-first-three-parts-of-the-records-in-contexts-archival-description-standard-version-1-0-ric-fad-ric-cm-and-ric-o/

The program and the slides of this study day, in French or English, are available at: https://drive.google.com/drive/folders/1zywJxTuccDjSX-QUrYc4deACs_BTw9z8?usp=drive_link

Catégorie

📚
Éducation
Transcription
00:00 [inaudible]
00:09 Ok, vous pouvez voir mon écran.
00:10 Super, je n'étais pas sûr.
00:11 Merci.
00:12 Merci beaucoup.
00:13 Je m'appelle Hugo Bergier et je vais présenter un projet qui fait partie de l'entreprise Trust AI.
00:21 Donc, un peu de background.
00:23 Je dois utiliser le bon écran.
00:27 Un peu de background. L'entreprise Trust AI est un projet multinational d'initiative interdisciplinaire
00:33 qui se concentre sur l'utilisation de l'intelligence artificielle pour assurer l'accessibilité d'un record public confiable.
00:42 Il gagne environ 40 études et projets de recherche.
00:48 Le nôtre est l'un d'entre eux.
00:50 Il s'intitule "Logic-Based Intentional AI for Records and Context Ontologies".
00:55 Le point de départ de ce projet est que l'intention intentional a un nombre très large de données très structurées et relatives
01:07 qui peuvent être utilisées en utilisant l'intelligence artificielle basée sur la logique.
01:11 J'espère que ce que je vais présenter va vous aider à comprendre ce que je veux dire par l'intelligence artificielle basée sur la logique.
01:17 Un peu de background sur cette notion de l'intelligence artificielle basée sur la logique.
01:21 C'est assez simple au fond.
01:23 Vous avez vraiment l'idée d'une théorie et une base de connaissances qui s'unissent pour déduire des faits.
01:30 L'environnement idéal pour appliquer cela est ce que nous appelons le programmage logique.
01:39 Le langage de programmation qui est le plus important dans cette aréa s'appelle PROLOG.
01:46 PROLOG signifie Programming Logical.
01:48 Par contre, Parcol fait aussi ceci.
01:50 Dans le cas de RIC, je vous présente ici la version 0.2 car c'est celle que nous utilisons.
01:56 Dans le cas de l'ontologie RIC, nous faisons exactement ceci.
02:04 Nous avons une théorie, une base de connaissances avec des fichiers RDF et nous pouvons déduire des faits inférieux.
02:09 Je vous montre ici un exemple.
02:13 Je suis désolé, c'est très petit, mais sur le fond, vous avez ici l'interface d'un serveur Fuseki que nous avons mis ensemble en utilisant des instances d'Amazon Web Services.
02:31 Ce sont des serveurs qui possèdent tous les données du graphisme de connaissances du prototype de l'INF SparNaturel que Florence Clavo a mis ensemble.
02:44 Il contient 20 millions de triples inférieux et 37 triples assurés.
02:51 Plus 37 qui sont inférieux, donc un total de 58 millions de triples.
02:59 Ici, vous avez un exemple d'une très petite base de données de Sparkle, où nous demandons tous les paires de SO,
03:07 de manière à ce que S soit associé à la place O.
03:10 Nous avons ici 18 000 résultats qui viennent de ce serveur que nous avons mis ensemble.
03:18 Mais notre point est que peut-être que c'est juste le début de ce que nous appelons la logique de raisonnement ou de l'IA de base de logique.
03:27 C'est peut-être le premier pas.
03:30 Notre idée est que nous pouvons probablement en faire beaucoup plus.
03:34 Prologue, dans ce sens, a plusieurs avantages.
03:37 Il a plus de flexibilité et de capacité de raisonnement.
03:40 La première chose que nous avons fait, c'est de migrer tous les triples de RDF dans une base de connaissances Prologue.
03:46 Nous pouvons faire des choses comme ce que je viens de mettre ici,
03:49 c'est une règle pour essayer de trouver tous les types de places, par exemple.
03:53 Si je query Prologue, il va me donner les types de places de cette base de connaissances,
03:59 comme arrondissement, paroisse, quartier, etc.
04:05 Notre question est donc de comment nous pouvons gérer l'IA,
04:08 la machine learning, la logique et l'inguistique en utilisant Prologue.
04:13 Il y a plusieurs façons de faire cela.
04:17 Notre point de vue est que nous allons faire cela par 4 compétences que je vais lister.
04:27 La première est en utilisant ce que nous appelons le programmement de logique inductif,
04:32 qui est en fait la machine learning de la logique.
04:35 Comment fait-on cela ?
04:38 Nous prenons une base de connaissances, juste une base de connaissances, juste des faits fondamentaux,
04:42 et nous essayons d'induire une théorie de l'intérieur.
04:45 Nous essayons d'induire des règles des faits fondamentaux en utilisant Prologue.
04:51 Nous sommes encore au début de ce projet, pour être honnête.
04:55 Nous souhaitons des fonds pour les humains numériques aux Etats-Unis,
05:04 pour pouvoir en faire plus.
05:06 Pour le moment, nos tests sont limités.
05:09 Je ne peux pas en faire 57 millions de fois.
05:15 C'est trop pour le moment en termes de puissance computative.
05:19 Je n'ai pas encore la capacité.
05:22 Mais sur un petit exemple, j'ai encore des résultats intéressants.
05:26 Nous avons encore des règles qui sont très basiques.
05:30 Elles sont tout simplement des règles inversées.
05:34 Ce qui est excitant, c'est que c'est correct.
05:37 Ce qui n'est pas excitant, c'est que c'est assez évident.
05:40 Si A est ou a été décrit par B, alors B décrit ou a été décrit par A.
05:47 Mais ces règles sont toutes correctes.
05:50 Dans un sens, cette inversion fonctionne.
05:53 C'est intéressant de voir que le programme a pu inverser ces règles
05:58 juste à partir des faits fondamentaux.
06:00 L'idée est que pour le projet, ces bonnes règles,
06:03 les règles que nous avons décidé de garder, ont persisté dans la théorie.
06:07 Et puis, elles peuvent être utilisées pour infermer de nouvelles connaissances.
06:11 Pour apprendre de nouvelles choses que nous n'avions pas dans la base initiale.
06:16 La deuxième compétence est le domaine de recherche et le richement pour la théorie.
06:20 La théorie ici a des concepts limités.
06:24 Par exemple, si un utilisateur demande des enregistrements
06:26 qui ont à faire avec les archéologues de Paris,
06:29 il n'y a rien dans les types de places qui mentionnent des diocèses ou des archéologues.
06:34 Ce que nous avons conçu est un API qui peut communiquer avec OpenAI GPT
06:42 pour pouvoir envoyer directement mes résultats de Prolog.
06:47 Ces résultats de Prolog avec les types de places,
06:50 je les envoie et j'ajoute les prompts en haut.
06:53 Ici, il y a une liste de concepts, qui est le plus proche du concept X.
06:56 X étant celui que mon utilisateur a besoin.
06:59 Je vais pouvoir extraire de la réponse, l'enregistrement,
07:05 le paroisse, qui est le bon enregistrement.
07:08 C'est celui que je devrais en faire.
07:12 C'est ma deuxième compétence.
07:14 La troisième compétence est l'idée d'avoir une définition explicite de la métathéorie.
07:22 C'est-à-dire qu'il y a toutes ces règles de la logique de description
07:29 qui sont derrière le OWL et RDF.
07:35 Notre idée est donc d'expliciter ces règles,
07:39 pour être très clair sur comment ça fonctionne.
07:42 Un exemple, c'est ici,
07:44 si X contient ou contient Y,
07:52 alors X est associé à Y, selon la recontologie.
07:58 C'est 0.2, donc je vous en prie si j'ai changé ça depuis.
08:02 Mais selon cette hiérarchie,
08:05 il y a certaines règles qui doivent toujours être vues.
08:09 Et on veut écrire ces règles explicitement sur le papier
08:12 et les définir comme notre métathéorie.
08:16 Ici, l'exemple est que dans la version où j'ai juste le fait assuré,
08:24 quand je query qui est associé à place,
08:28 je n'obtiens que 1 000 résultats.
08:31 Quand je utilise le fait inférieur, je reçois 18 000 résultats.
08:34 Donc, clairement, l'engin utilise cette métathéorie.
08:39 Je veux juste mettre ça sur le papier
08:42 et voir à quel point il faut l'étendre.
08:45 Et c'est ce que je viens de dire avec ma quatrième compétence.
08:49 Comment devons-nous expander cette métathéorie au-delà de la logique de description?
08:56 Parce que si je prends, par exemple, l'idée de créer une règle
09:01 pour trouver tous les records qui sont recherchés,
09:08 et c'est ce que dit cette règle Prologue,
09:11 donne-moi tous les records qui ont été recherchés sans instantiation.
09:14 C'est drôle, parce que ça parle de la présentation des records médiévaux.
09:18 Et si je query Prologue, ça va répondre "false".
09:24 Ça veut dire qu'il n'y a pas de cas dans...
09:27 ...dans cette base de connaissances,
09:31 de telle qu'un record n'a pas d'instantiation.
09:34 Si j'utilise mon moteur ILP que j'ai parlé d'abord,
09:38 ça peut être un peu problématique,
09:40 parce que de cette réalité,
09:45 le fait qu'il n'y ait jamais eu de situation
09:48 où un record n'a pas d'instantiation,
09:50 c'est très possible que mon moteur de machine learning
09:53 va inférer que si X est un record,
09:57 alors X a un instant.
09:59 Et c'est problématique,
10:01 encore une fois, en parlant des records médiévaux,
10:03 parce que nous perdons la possibilité
10:07 d'avoir un concept de record perdu.
10:10 Ça devient un concept impossible.
10:13 Ça devient impossible dans notre monde logique,
10:17 si vous voulez,
10:18 parce que notre logique est fermée,
10:19 elle va dire que, vous savez, un record a un instant.
10:23 Et donc, l'idée de cette dernière composante
10:25 est plus théorique,
10:27 mais c'est ce que nous appelons la logique intentionnelle,
10:30 l'intentionnalisation de la théorie de la méthode.
10:34 L'idée est de faire de l'espace pour des cas atypiques,
10:37 pour dire, OK, bien,
10:39 peut-être que c'est une règle
10:40 que le record a un instant dans notre monde,
10:43 mais peut-être qu'il y a aussi de l'espace
10:45 pour des cas atypiques,
10:46 où un record peut toujours être un record à 100%
10:50 et n'avoir pas d'instantiation.
10:53 Et donc, c'est l'idée d'élargir
10:55 et de faire de l'espace pour,
10:57 d'élargir et d'aller au-delà de la logique de description.
11:00 Ces quatre composantes ensemble seraient,
11:03 vous savez, ensemble seraient ce que nous appelons
11:07 la capacité de l'IA de base de logique
11:09 pour l'anthologie archivale.
11:10 Merci beaucoup pour votre attention.
11:12 C'est un projet collaboratif.
11:14 Beaucoup de gens sont en train d'aider et d'y participer,
11:17 et de nombreuses organisations sont enregistrées ici.
11:21 Sous-titrage Société Radio-Canada
11:23 © Sous-titrage Société Radio-Canada
11:25 © Sous-titrage Société Radio-Canada
11:27 © Sous-titrage Société Radio-Canada
11:30 Sous-titrage Société Radio-Canada
11:32 [SILENCE]

Recommandations