• il y a 8 mois
SESSION 5. UTILISATION DE RIC DANS DES PROJETS TRANS-INSTITUTIONNELS ET DES PORTAILS

Memobase de Memoriav - Le portail du patrimoine audiovisuel suisse
par Roberta Padlina (spécialiste technologies de l’information et données, Memoriav, Suisse)

[English]

SESSION 5. USING RIC IN TRANS-INSTITUTIONAL AND PORTAL PROJECTS

Memobase by Memoriav. The portal to Switzerland’s audiovisual heritage by Roberta Padlina (IT/Data Specialist at Memoriav, Switzerland)
Transcription
00:00 Donc tout à fait pour ma part, je vais vous présenter MemoBase, le portail de Memoria
00:13 pour le patrimoine audiovisuel suisse, ainsi que son développement vers l'implémentation
00:19 des links d'open data grâce aux technologies du web sémantique.
00:23 Fondée en 1995, Memoria est l'association pour la sauvegarde de la mémoire audiovisuelle
00:30 suisse.
00:31 L'objectif de l'association est de répertorier, préserver et promouvoir ce patrimoine constitué
00:38 de photographies, d'enregistrements sonores, de films et de vidéos.
00:43 Memoria conduit différentes activités dont les principales sont les suivantes.
00:47 Maintenir et favoriser les réseaux de compétences ou l'échange d'expertise et de connaissances.
00:54 Conseiller les institutions et apporter aussi un soutien financier aux projets de sauvegarde
01:00 et autres projets.
01:01 Suivre l'évolution technologique des normes nationales et internationales et formuler des
01:08 recommandations qui s'y conforment.
01:10 Soutenir l'éducation et la formation de la préservation et la valorisation de la
01:16 culture audiovisuelle.
01:18 Deux parmi les tâches les plus importantes de Memoria sont premièrement l'agrégation
01:25 et la mise à disposition d'un accès centralisé aux données et métadonnées audiovisuelles
01:30 des différents institutions et collections suisses.
01:33 Et deuxièmement, la présentation et la promotion de ce patrimoine audiovisuel par le biais
01:39 d'une plateforme en ligne qui soit moderne et aussi destinée à différents types de
01:43 public.
01:44 Donc l'enseignement, la recherche, mais aussi les grands publics.
01:48 Afin de sensibiliser à la valeur et à la richesse de ce patrimoine.
01:54 Memoria atteint ces deux objectifs majeurs grâce à son portail d'accès de recherche
02:00 en ligne, MemoBase, accessible à l'adresse memobase.ch.
02:06 MemoBase a été mis en ligne pour la première fois en 2001 et n'a cessé de se développer
02:12 depuis.
02:13 En mai 2021, en partenariat avec l'université de Bâle, Memoria a lancé la quatrième
02:20 version de MemoBase, nouveau basé sur le paradigme des "linked open data" et aussi
02:26 sur les technologies du Web Synthétique.
02:29 Vous voyez ici une capture d'écran de la page d'accueil de MemoBase.
02:34 L'objectif de ce portail est de faciliter la recherche, l'accès, la consultation
02:40 et la réutilisation des biens culturels audiovisuels, ainsi que des informations contextuelles correspondantes.
02:47 Le portail est traduit dans les trois langues nationales officielles de la Suisse, c'est-à-dire
02:53 allemand, français et italien.
02:54 MemoBase adhère au principe FAIR, c'est-à-dire trouvable, accessible, interopérable et réutilisable,
03:04 ce qui chez nous se traduit dans l'effet d'une augmentation de la qualité et de l'enrichissement
03:11 des métadonnées, dans des possibilités d'hébergement des données pour les institutions, dans l'utilisation
03:18 d'un modèle de données accessible au public et conforme aux normes et formats internationaux,
03:24 et enfin à la possibilité de réutiliser les données de façon transparente et claire,
03:29 mais suivant aussi les décisions des institutions partenaires qui mettent à disposition leur
03:35 collection sur MemoBase.
03:37 Vous voyez ici schématiser les systèmes MemoBase, donc à gauche les institutions qui
03:44 nous livrent leurs données dans différents formats, Excel et XML pour la plupart du temps.
03:50 Au milieu, les systèmes MEM avec ses différentes bases de données et services, et à droite
03:56 enfin le point d'arrivée des données avant tout MemoBase, mais aussi Europeana par exemple.
04:03 Je viens de dire que la plupart des institutions nous livrent des fichiers Excel ou XML, mais
04:09 je dois mentionner une exception importante et aussi exemplaire.
04:13 La fondation SAPA, Archive Suisse des Arts de la Seine, a migré en 2021 les métadonnées
04:19 de ses collections en RDF, en suivant les recommandations du standard RICO.
04:25 Cette migration a coïncidé avec la mise en ligne d'un nouveau portail de ses collections,
04:30 c'est-à-dire performing-arts.ch.
04:33 Cette plateforme offre aussi une SPARQL endpoint grâce auquel nous, chez Memoriab, pouvons
04:41 télécharger les métadonnées qui nous intéressent en toute autonomie.
04:44 À l'avenir, il sera donc possible d'automatiser cette tâche d'échange des métadonnées
04:50 et s'épargner donc des échanges de fichiers via email ainsi que des transformations manuelles.
04:56 L'architecture de MemoBase est modulaire et basée sur des microservices, chacun représentant
05:05 une fonctionnalité spécifique du système.
05:08 Par exemple, certains processus d'importation fondamentaux comme la validation, la normalisation
05:14 et l'enrichissement.
05:15 L'ensemble du code source de MemoBase est publié en libre accès dans un dépôt GitLab
05:24 et peut donc être réutilisé par toute personne intéressée.
05:27 Pour maximiser l'exposition des données et métadonnées de MemoBase, nous fournissons
05:35 un accès multimodal grâce à différentes interfaces.
05:39 On peut distinguer deux types principaux d'interfaces, les interfaces pour l'utilisation directe
05:45 par les humains et les interfaces pour l'utilisation par et pour les machines.
05:50 Pour l'utilisation en humain, l'accès principal est donné par le portail MemoBase
05:57 avec ses possibilités de recherche et d'accès au niveau des institutions, collections ou
06:01 des objets individuels.
06:03 Et en plus de cela, sur MemoBase, il y a aussi une part de narrative, de storytelling, que
06:11 nous appelons les vitrines.
06:12 Il s'agit donc d'expositions virtuelles thématiques préparées en collaboration
06:18 avec différentes institutions, comme par exemple la vitrine de repère de pierres sur
06:23 les bornes le long de la frontière nationale suisse qui a été préparée par SwissDOT
06:28 ou l'Office fédéral de topographie.
06:30 MemoBase permet également la connexion à d'autres portails d'informations, comme
06:37 je viens de le dire.
06:38 Nous fournissons actuellement une correspondance permettant d'exporter les données de MemoBase
06:43 vers Européens.
06:44 Vous avez ici un exemple d'une collection de MemoBase, le fonds film plan fixe, qui
06:51 est aussi disponible sur les portails européens.
06:53 Pour l'utilisation par les machines, nous fournissons les interfaces suivantes, une
07:01 interface OI-PMH, les deux APIs de IIIF, Image and Presentation, ainsi qu'une RESTful
07:09 API pour les données ouvertes liées.
07:12 En ce qui concerne cette dernière, l'API met les données à disposition dans trois
07:18 formats, donc HTML dans les navigateurs, JSON-LD et aussi JSON-LAT.
07:24 Toutes les données de l'API sont disponibles sous la licence CC0, donc demandes publiques.
07:32 Cependant, toutes les métadonnées de MemoBase ne sont pas toutes disponibles dans l'API
07:38 suivant la décision de certains institutions.
07:41 L'API permet de rechercher, d'extraire et de télécharger des métadonnées, ainsi
07:47 que d'enregistrer des recherches dans un panier dont le lien est permanent et peut
07:52 donc être partagé.
07:53 L'API facilite donc la réutilisation systématique des métadonnées de MemoBase.
08:00 À titre d'exemple, j'aimerais mentionner le projet Connectome de Switch avec lequel
08:08 nous collaborons pour enrichir davantage les métadonnées.
08:11 Ce projet moissons les métadonnées de MemoBase directement via l'API et applique un processus
08:18 de reconnaissance des entités nommées dans les champs des textes libres.
08:23 Ces entités sont ensuite reliées à Wikidata afin de récupérer d'autres informations
08:30 et enfin les données enrichies sont renvoyées à MemoBase.
08:34 Outre l'API, nous prévoyons également de créer un point d'accès SPARQL, un SPARQL
08:40 Endpoint, pour l'interrogation directe et la recherche fédérée des données RDF.
08:46 Toutefois, cela n'est pas une priorité pour notre association puisqu'on n'a pas
08:50 vraiment de demande en tel sens.
08:53 Je vais revenir sur ce point dans un moment quand je parlerai des défis auxquels nous
08:57 devons encore faire face.
08:58 En ce qui concerne le contenu, MemoBase est organisé selon trois niveaux d'indexation
09:07 interconnectés, à savoir institutions, collections ou fonds et documents.
09:12 Donc vous avez ici actuellement, on a 123 institutions sont représentées dans MemoBase,
09:20 réparties dans les catégories énumérées, principalement les archives, les musées et
09:25 les bibliothèques.
09:26 Veuillez noter que des affectations multiples sont possibles.
09:30 Ces institutions ont 320 collections ou fonds réporteries dans MemoBase, incluant tous
09:39 les types de documents audiovisuels, dont les audios, les films, les vidéos, la radio,
09:44 la télé, mais aussi la photographie.
09:45 Plus de 880 000 documents sont actuellement compris dans cette collection et parmi ces
09:56 documents, plus de 300 000 sont directement consultables en ligne.
10:01 Pour les autres, seulement les métadonnées sont accessibles au public sur MemoBase.
10:06 Des nouvelles institutions, collections et documents sont ajoutées en permanence.
10:10 En ce qui concerne les modèles de données, celui de MemoBase est structuré selon les
10:17 technologies et les normes du web sémantique.
10:20 Tout d'abord, bien sûr, donc les normes de la W3C, RDF, RDFS et AWN.
10:27 Ensuite, les modèles principaux sur lesquels reposent les modèles MemoBase, en particulier
10:33 pour la description des documents et l'ontologie Recorded Context, dont nous utilisons la version
10:39 0.2.
10:40 Nous mettons en œuvre de nombreux concepts riques, en particulier Recorded Results, à
10:48 la fois Record Set et Record, Physical Object et Digital Object, en tant que principaux
10:55 types d'instanciation créés pour chaque document, I-Agent, à la fois Person and Corporate
11:02 Survey, ainsi que Date, Place, Concept Relation et aussi dessus.
11:07 MemoBase utilise également des concepts de propriété du modèle de données européenne
11:14 et de Wikidata, ainsi que Debut Core, qui est la spécification des métadonnées de
11:20 l'Union Européenne de Radio-Télévision, une alliance de médias de service public.
11:25 Ce modèle a été conçu pour décrire les ressources audio, vidéo et autres, pour une
11:31 large éventaille d'applications de radio-télévision.
11:34 Enfin, nous nous référons également à d'autres normes communes, telles que Dublin Core, Schema.org
11:41 ou SCOSS.
11:43 J'aimerais brièvement souligner les avantages de la mise en œuvre des technologies du web
11:50 sémantique et des ontologies, telles que Recorded Context.
11:54 Ces technologies et modèles permettent de rendre les données interopérables au niveau
12:00 sémantique, en enrichissant leur signification et leur portée.
12:05 Les données provenant de différentes institutions deviennent interopérables grâce au modèle
12:10 commun et les contenus peuvent être reliés de manière précise et significative.
12:15 L'expressivité des données peut ainsi considérablement être accrue.
12:20 Le travail de préservation des descriptions et de valorisation des objets du patrimoine
12:28 culturel est très exigeant en termes de ressources humaines et matérielles.
12:32 Un modèle de données basé sur le web sémantique garantit un énorme retour sur investissement.
12:39 Agissant comme un langage commun, une « lingua franca », ce type de modèle de données
12:46 garantit l'interopérabilité des informations très variées provenant de différentes institutions,
12:53 sans qu'elles aient besoin de modifier quoi que ce soit au préalable.
12:56 Cela permet aussi d'automatiser des opérations de contrôle de qualité et d'enrichissement
13:03 qui seraient autrement très coûteuses.
13:05 En outre, le web sémantique permet d'exprimer la sémantique, donc la signification des
13:11 données, de manière formelle et explicite.
13:14 Cela rend les données compréhensibles ou interprétables par des machines, en ouvrant
13:20 donc la voie à l'utilisation du raisonnement automatique ou machine reasoning.
13:25 Ainsi, en général, la mise en œuvre des technologies du web sémantique profite à
13:31 la fois aux utilisateurs finaux, mais aussi aux producteurs de contenu.
13:35 Pour conclure ma présentation, j'aimerais également énumérer quelques défis auxquels
13:41 nous sommes confrontés dans les cadres de cette transition numérique vers une utilisation
13:47 systématique des technologies du web sémantique.
13:50 Donc premièrement, il n'est pas facile de publier des données sous une forme lisible
13:55 par une machine où la signification est explicitement définie et liée à d'autres modèles.
14:02 La mise en œuvre de ces technologies demande un effort considérable et, même si le retour
14:08 sur investissement est important, un certain scepticisme persiste quant à la nécessité
14:14 et à la valeur de ces technologies.
14:17 En relation avec cet aspect, un autre problème est la difficulté de trouver des partenaires
14:22 techniques experts dans les technologies du web sémantique, ainsi que les manques d'outils
14:28 et de logiciels simples d'utilisation.
14:30 En effet, le développement des ontologies et la gestion des changements ne sont pas
14:36 du tout banales ou triviaux.
14:38 Un autre aspect délicat est le maintien d'identification unique et pérenne, ainsi que les changements
14:44 et les corrections.
14:45 Enfin, pour démontrer la valeur concrète du web sémantique, il faut des utilisateurs
14:53 avancés possédant des compétences numériques, ainsi que des cas d'utilisation réelle,
14:59 ce qui n'est pas encore très souvent le cas.
15:03 Donc, le plus grand défi concerne la facilité d'utilisation, et c'est là de deux points
15:09 de vue.
15:10 D'un point de vue technique, il est nécessaire de mettre à disposition des outils conviviaux,
15:16 mais aussi d'un point de vue conceptuel, il est nécessaire de rendre la complexité
15:20 des ontologies accessible à différents types d'utilisateurs, non seulement aux spécialistes
15:26 du domaine, mais aussi aux développeurs informatiques et au grand public, en fournissant des explications,
15:33 des illustrations, et même en mettant en œuvre des raccourcis, des shortcuts dans
15:39 les données.
15:40 Vous avez ici des liens justement à notre Wiki, à notre repo sur GitLab, et mon email
15:49 pour tout feedback.
15:50 Je vous remercie.
15:51 Merci.
15:52 Merci.
15:53 Merci.
15:54 Merci.
15:55 Merci.
15:55 Merci.
15:56 Merci.
15:57 Merci.
15:58 Merci.
15:58 Merci.
15:59 Merci.
16:00 Merci.
16:01 Merci.
16:02 Merci.
16:03 Merci.
16:04 Merci.
16:05 Merci.

Recommandations