Why can't AI generate hands properly (yet)?

Le Monde

Have you ever been fooled by a fake image generated by an artificial intelligence software like Midjourney or Dall-E? There is often a simple giveaway: the hands. In AI-generated images, the fingers are often too numerous or bent in an unusual way. These fake images also often include other anatomical aberrations or incoherent texts. All these clues can help us detect deception. But can these current technical shortcomings save us from misinformation? And how should we address the questions and concerns raised by these new tools? To answer this, we need to understand how these software programs function. In this video, Le Monde takes you into the world of generative AI.

Transcript

00:00 Pope Francis dans un veste blanc.

00:02 Emmanuel Macron en prenant du déchets.

00:05 Ou Donald Trump, forcément arrêté par la police.

00:08 Ces images ont fait leur part dans le monde entier.

00:11 Mais toutes sont fausses.

00:13 Elles sont générées en utilisant l'intelligence artificielle.

00:16 Pour les produire, vous n'avez qu'à dire quelques mots.

00:19 Les possibilités sont inoubliables.

00:21 Chaque résultat est unique et peut illustrer n'importe quelle situation.

00:25 Que ce soit réel ou faux.

00:28 Nous avons clairement atteint un niveau.

00:29 Nous créons les conditions pour une société de distruste.

00:32 Cela donnera lieu à plus de doutes.

00:35 Le cerveau humain n'est pas capable de comprendre

00:37 la taille de cette intelligence artificielle.

00:40 Est-ce que les choses peuvent s'en sortir ?

00:42 Et pourtant, ces programmes semblent avoir une faiblesse sérieuse.

00:46 Les mains.

00:48 Les doigts sont souvent trop nombreux ou encore pliés d'une manière inusuelle.

00:53 Donc, peut-ce que cette erreur nous sauve de la misinformation ?

00:57 Pour répondre à cela, nous devons d'abord comprendre

01:00 pourquoi ces programmes ont tellement de mal à générer les mains.

01:03 En attendant,

01:11 demandons à une intelligence artificielle cette question.

01:15 ChatGPT est un chat AI qui converse avec les utilisateurs.

01:20 Nous devons simplement écrire notre question et il répondra.

01:23 Le programme souligne plusieurs éléments.

01:26 Tout d'abord, la forme et la structure des mains complexes.

01:30 Plus de moitié des os dans le corps sont trouvés dans les mains.

01:36 C'est un ensemble complexe capable de prendre de très différentes formes.

01:40 Même les meilleurs artistes ont dû les étudier à long terme

01:46 avant de les reproduire dans leurs œuvres les plus mémorables.

01:50 ChatGPT indique que même Leonardo da Vinci

01:53 mentionne cette difficulté dans un de ses livres.

01:57 Le peintre décrit le mouvement des mains

01:59 comme très difficile à exprimer en mots,

02:02 même si c'est l'une des choses les plus importantes dans le dessin.

02:05 Pour l'intelligence artificielle, c'est encore plus compliqué.

02:18 C'est directement lié à la façon dont fonctionne l'IA.

02:22 Pour obtenir ces images, le programme a dû apprendre deux choses.

02:26 Tout d'abord, comment générer des images.

02:30 Si vous vous zoomez, vous pouvez voir qu'une image

02:32 est composée de squares colorés, de pixels.

02:37 Ensemble, ils forment notre perception d'un dessin ou d'une photo.

02:42 Cette image est composée de 1 000 pixels de hauteur et 700 de hauteur.

02:48 Cela fait 700 000 en total.

02:50 La difficulté est de générer artificiellement

02:52 ces milliers de pixels

02:54 et de les organiser de façon cohérente et réaliste pour les humains.

02:59 Pour entraîner le programme,

03:01 les chercheurs utilisent une image de référence, comme celle-ci.

03:05 Ils dégradent graduellement l'image en ajoutant ce qu'on appelle du bruit.

03:11 Après un moment, il ne reste pas grand-chose de la version originale.

03:16 Les scientifiques reviennent à la procédure

03:19 en demandant à la machine de retirer le bruit.

03:23 Le programme commence ici

03:24 et essaie de reconstituer les pixels de la version précédente.

03:29 Par trial et erreur,

03:30 il trouve la configuration expérimentée.

03:34 Il transfert ensuite ce qu'il a appris

03:36 à chaque couche de la réseau

03:38 jusqu'à ce qu'il restaure l'image originale.

03:42 En pratiquant des milliers d'images,

03:45 il apprend à prédire comment les pixels sont organisés

03:48 et comment transformer le bruit en une image cohérente.

03:53 Ce processus s'appelle la diffusion.

03:59 La deuxième leçon s'involte dans la connexion entre le texte et l'image,

04:04 sachant que ce commandement correspond à ce résultat.

04:09 Pour y atteindre, les chercheurs utilisent de grandes données

04:13 composées d'images et de textes qui décrivent leur contenu.

04:18 Il y en a des milliards de millions

04:20 et ces programmes ont passé des centaines de milliers d'heures

04:23 à les entraîner.

04:26 Leur mission est de trouver des modèles

04:28 dans le moyen dont les pixels sont organisés.

04:31 Ils découvriront, par exemple,

04:33 que cette configuration correspond généralement à un pommeau

04:37 et celui-ci à un orange.

04:40 Ils analysent aussi comment ces pixels

04:42 interagissent avec d'autres configurations,

04:45 comme par exemple un pommeau de métal.

04:49 Ces exercices permettent au programme

04:51 d'entendre les nombreuses fonctions qui font en sorte d'une image.

04:55 Son style, ses textures ou le niveau de lumière.

04:58 Observations qui vont bien au-delà de l'analyse pixel par pixel

05:02 et qui font en sorte de ce qu'on appelle

05:04 la représentation de l'espace latent d'une image.

05:07 [Musique]

05:11 À la fin du cours,

05:12 le programme est en mesure de prédire confiamment

05:14 la photo qui correspond à chaque description.

05:17 [Musique]

05:23 Et c'est là que se passe la magie.

05:25 [Musique]

05:28 Parce que, une fois que le programme est en mesure

05:29 de faire le lien entre le texte et l'image,

05:32 les chercheurs peuvent donner des exemples de textes nouveaux

05:35 et demander à l'application de diffusion

05:36 de générer une nouvelle image,

05:38 même une image impossible,

05:40 basée uniquement sur un texte.

05:42 Et les possibilités sont inoubliables.

05:45 [Musique]

05:56 Ce qui est important à comprendre,

05:57 c'est que le programme ne génère pas une montage

06:00 en utilisant des images existantes.

06:02 Il génère de nouvelles combinations

06:04 en fonction du façon dont les pixels sont arrangés

06:07 statistiquement dans les données que l'application utilise.

06:10 Donc, le résultat est différent à chaque fois.

06:13 [Musique]

06:17 Mais c'est aussi là que vient la faute du programme.

06:22 Il ne comprend pas vraiment ce qu'il dessine.

06:26 Pour un A.I., les mains sont juste une combinaison de pixels,

06:29 statistiquement arrangées à la fin d'une autre

06:32 combinaison appelée un bras.

06:36 Il ne comprend pas ce que c'est que la main.

06:38 Son 3D, son anatomie et la façon dont les doigts interagissent.

06:45 Son connaissance est limitée à des images 2D

06:48 dans ces données.

06:51 Si ces données ne contiennent pas suffisamment d'exemples,

06:54 il peut avoir du mal à générer des dépictions précises.

07:00 Dans ces images, le visage est très présent

07:03 et toujours montré de la même manière.

07:06 Deux yeux, une bouche et un nez.

07:12 La main est plus discrète et peut prendre de très différentes formes.

07:18 Enfin, le texte ne s'appelle rarement.

07:21 Ici, nous ne parlons pas du fait que les doigts

07:24 tiennent la caméra, mais simplement d'une femme souriante.

07:29 Donc, inévitablement, quand le software

07:32 doit générer une demande similaire, il improvise.

07:38 Sur une plus proche inspection, d'autres éléments ne sont pas adéquats.

07:42 La femme a trop de dents,

07:44 Donald Trump a un doigt trop grand

07:46 et le texte est complètement incohérent.

07:50 Pour l'instant, ce sont des bons conseils

07:51 pour vérifier l'accuracé des images.

07:54 Mais ça va changer.

07:56 En mars 2023, la compagnie derrière ce software

08:10 a publié un update qui a amélioré la rendu de mains.

08:16 L'étude reste vague sur les méthodes utilisées,

08:19 mais les experts assument que le programme

08:21 a été spécialement entraîné sur les images de mains.

08:25 Cela lui donne plus de matériaux pour réfiner ses créations.

08:30 D'autres développent des générateurs de images tridimensionnels.

08:35 Même si ils ne sont pas encore succédents,

08:38 un meilleur compte spatial de la main

08:40 pourrait éventuellement résoudre dans un meilleur rendu 2D.

08:46 À ce rythme, il est probable que ces programmes

08:48 vont un jour maîtriser les générateurs de mains,

08:51 ce qui ne permet plus de faire

08:53 que l'œil nez à déterminer le réel du faux.

08:58 Mais cette confusion n'applique qu'à l'image.

09:01 ChatGPT, qui a servi comme notre guide

09:04 depuis le début de cette vidéo,

09:06 est aussi entraîné sur de grandes données.

09:09 Des millions de textes l'apprennent à prédire

09:11 les mots d'une phrase,

09:13 même si la phrase n'est pas vraie.

09:17 Prenons par exemple ce quote de Leonardo da Vinci,

09:20 mentionné au début de la vidéo.

09:24 Eh bien, il n'existe pas.

09:27 Il n'apparaît pas dans le livre en question,

09:30 et nous n'avons pas pu le trouver ailleurs dans son travail.

09:34 Il semble que ChatGPT l'a simplement inventé.

09:40 Face aux nombreux problèmes posés par ces outils,

09:43 les autorités travaillent déjà sur le développement d'un cadre légal.

09:47 Et cela doit se faire rapidement,

09:48 car ces outils attirent de plus en plus d'utilisateurs chaque mois.

09:52 Et en février 2023,

09:54 ChatGPT a enregistré un million de visites à son site.

09:59 Sous-titrage Société Radio-Canada

10:01 [Sous-titrage Société Radio-Canada]

10:03 [Sous-titrage Société Radio-Canada]

10:05 [Sous-titrage Société Radio-Canada]

10:07 [Sous-titrage Société Radio-Canada]

10:09 Merci à tous !

10:11 Merci à tous !

Catégorie

Transcription

Recommandations