SMART TECH - LLM et données personnelles : un nouveau paradigme ! - Vidéo Dailymotion

B SMART

Lundi 14 octobre 2024, SMART TECH reçoit Hervé Le Jouan (fondateur, Advisory)

Transcript

00:00On termine cette édition avec Hervé Lejouan, advisor. Bonjour Hervé. Alors aujourd'hui notre sujet c'est ces LLM, ces grands modèles de langage et les données personnelles, voilà un nouveau paradigme, vous nous dites. Alors pourquoi est-ce un nouveau paradigme ?

00:20Jusqu'à l'avènement de ChatGPT, quasiment toutes les données et certainement les données personnelles étaient sauvegardées dans des bases de données et elles le sont encore aujourd'hui d'ailleurs pour la majorité des services que nous utilisons, que ce soit lorsqu'on est sur des sites e-commerce, que ce soit des réseaux sociaux, des banques ou autres organisations.

00:39Et ces bases la plupart du temps sont des bases relationnelles comme Oracle, SQL Server, MySQL pour ne citer qu'elle ou des bases non-relationnelles ce qu'on appelle de type NoSQL comme MongoDB.

00:50Mais elles sont accessibles, ces bases, via des langages qui sont des langages certains, structurés comme SQL ou d'autres langages et donc qui ont un caractère déterministe et persistant.

01:01Et donc l'accès à ces données, il est certain et on peut ainsi en rajouter, les modifier ou les supprimer et c'est d'ailleurs sur ce type de modèles de données et des traitements associés que s'est appuyé le RGPD pour définir des droits à la fois pour les citoyens et des devoirs pour les entreprises.

01:17Aussi l'intelligence artificielle qui est déjà largement utilisée dans le monde industriel, de la santé, de la finance mais aussi par des moteurs de recherche ou lorsqu'ils nous ciblent sur Internet, elle s'appuyait et s'appuie encore sur ces bases de données persistantes pour la sauvegarde de données.

01:33Et là où effectivement avec l'émergence de LLM à partir de fin 2022 comme CHAT, GPT, Gmini ou Mistral ou d'autres, nous sommes entrés dans une nouvelle ère où un nouveau paradigme où la notion de base de données n'existe plus.

01:45En fait car chaque réponse à votre question, à votre prompte ce qu'on appelle, est générée et créée en temps réel et littéralement mot après mot, pixel après pixel, image après l'image dans une image et par des algorithmes de prédiction et de classification basés sur ce qu'on appelle des transformers qui sont des ensembles de réseaux neuronaux.

02:05Et pour finalement arriver à vous délivrer une réponse, que ce soit un texte, du code informatique ou une image ou une vidéo, ces algorithmes ont été entraînés à partir de centaines de millions de milliards de mots, de symboles, d'images ou de vidéos collectées sur Internet et ces données ont servi en fait à l'entraînement de ces modèles qui contiennent des données personnelles aussi qui peuvent être correctes mais aussi pas à jour ou erronées ou tout simplement mal interprétées par ces algorithmes.

02:33Est-ce que vous avez des exemples ?

02:35Je vais oser, je vais en prendre deux, le vôtre et le mien. En fait j'ai demandé à HLGPT de me dire qui était Delphine Sabatier. Donc vous avez la réponse en impression je crois sur l'écran et la réponse a été formulée comme si vous lisiez un article de Wikipédia, c'est-à-dire dans un très bon français, clair, précis, avec une présentation de vos compétences qui est de façon générale juste.

02:56Cependant le contenu n'est pas à jour et en partie erroné, c'est-à-dire qu'aucune mention de Bismarck n'est faite alors que j'ai interrogé la base très récemment et vous collaborez toujours selon la réponse de ChatGPT avec BFM Business.

03:09Me concernant, je me suis dit je vais poser la même question pour moi-même et si mon profil général est tout à fait correct, des informations complètement erronées m'ont été répondues. En effet, ChatGPT m'a présenté comme ayant été CEO d'Excelet Europe, ce qui est factuellement faux. Et qui sait et qui peut me dire d'où cette information a été extraite ? Personne.

03:30Les développeurs de ces algorithmes ne travaillent pas à partir de bases de données, encore une fois, mais sur des modèles qui s'appuient sur des probabilités par rapport à un contexte, des mots ou des idées. Donc personne ne pourra me dire pourquoi je ne suis pas CEO d'Excelet ou je suis CEO d'Excelet.

03:46Est-ce que ça veut dire que le RGPD, le règlement sur la protection des données personnelles, toutes les réglementations finalement européennes ne sont pas respectées par les LLM ?

03:55Alors ce n'est pas si évident que ça. C'est une très bonne question, mais ce n'est pas si évident que ça. Parce que d'un côté, les LLM ne sauvegardent aucune information dans des bases.

04:04Donc il n'y a pas de process au sens de l'article 4.2 du RGPD. Donc ça, c'est déjà un point important. Mais si vous et moi faisions une demande de rectification par rapport à ces données, René, à nos égards, celle-ci demeurera sans réponse.

04:18De leur part, ils ne peuvent pas les modifier. Il n'y a pas de base encore une fois. Donc en ce sens-là, ils ne respectent pas le RGPD qui nous offre le droit à la rectification.

04:27Alors aussi, pour éviter ces enjeux, si vous allez dans leurs conditions générales, les conditions d'utilisation, ces services vous disent qu'ils suppriment l'apprentissage. Dans l'apprentissage, ils suppriment toutes données personnelles.

04:38Mais que cela veut-il dire ? Personne ne sait. Et personne ne peut le contrôler surtout. Et c'est même un immense enjeu pour eux et donc pour nous.

04:45Et pour aller un peu plus loin, vous savez que les données que vous entrez, même en temps réel, quand vous dialoguez avec ces outils, elles sont réutilisées avant d'entraîner les modèles elles-mêmes.

04:55Alors sauf mention explicite de votre part, ce qui peut amener à de la désinformation, à des données personnelles fausses sur des personnes, si cela est fait à une échelle importante, sans qu'il soit possible de le modifier ou de le stopper rapidement.

05:09Oui, merci beaucoup Hervé, on arrive à la fin de l'émission. Merci, on a bien compris les nouveaux enjeux, en tout cas grâce à vous. Merci aussi à tous nos téléspectateurs de nous suivre.

05:18C'était Smartech, on se retrouve très bientôt sur la chaîne BeSmart for Change. Vous pouvez nous suivre également en podcast. A bientôt pour de nouvelles discussions sur la tech.

SMART TECH - LLM et données personnelles : un nouveau paradigme !

Catégorie

Transcription

Recommandations