Why can't AI generate hands properly (yet)?

  • l’année dernière
Have you ever been fooled by a fake image generated by an artificial intelligence software like Midjourney or Dall-E? There is often a simple giveaway: the hands. In AI-generated images, the fingers are often too numerous or bent in an unusual way. These fake images also often include other anatomical aberrations or incoherent texts. All these clues can help us detect deception.
But can these current technical shortcomings save us from misinformation? And how should we address the questions and concerns raised by these new tools? To answer this, we need to understand how these software programs function. In this video, Le Monde takes you into the world of generative AI.
Transcript
00:00 Pope Francis dans un veste blanc.
00:02 Emmanuel Macron en prenant du déchets.
00:05 Ou Donald Trump, forcément arrêté par la police.
00:08 Ces images ont fait leur part dans le monde entier.
00:11 Mais toutes sont fausses.
00:13 Elles sont générées en utilisant l'intelligence artificielle.
00:16 Pour les produire, vous n'avez qu'à dire quelques mots.
00:19 Les possibilités sont inoubliables.
00:21 Chaque résultat est unique et peut illustrer n'importe quelle situation.
00:25 Que ce soit réel ou faux.
00:28 Nous avons clairement atteint un niveau.
00:29 Nous créons les conditions pour une société de distruste.
00:32 Cela donnera lieu à plus de doutes.
00:35 Le cerveau humain n'est pas capable de comprendre
00:37 la taille de cette intelligence artificielle.
00:40 Est-ce que les choses peuvent s'en sortir ?
00:42 Et pourtant, ces programmes semblent avoir une faiblesse sérieuse.
00:46 Les mains.
00:48 Les doigts sont souvent trop nombreux ou encore pliés d'une manière inusuelle.
00:53 Donc, peut-ce que cette erreur nous sauve de la misinformation ?
00:57 Pour répondre à cela, nous devons d'abord comprendre
01:00 pourquoi ces programmes ont tellement de mal à générer les mains.
01:03 En attendant,
01:11 demandons à une intelligence artificielle cette question.
01:15 ChatGPT est un chat AI qui converse avec les utilisateurs.
01:20 Nous devons simplement écrire notre question et il répondra.
01:23 Le programme souligne plusieurs éléments.
01:26 Tout d'abord, la forme et la structure des mains complexes.
01:30 Plus de moitié des os dans le corps sont trouvés dans les mains.
01:36 C'est un ensemble complexe capable de prendre de très différentes formes.
01:40 Même les meilleurs artistes ont dû les étudier à long terme
01:46 avant de les reproduire dans leurs œuvres les plus mémorables.
01:50 ChatGPT indique que même Leonardo da Vinci
01:53 mentionne cette difficulté dans un de ses livres.
01:57 Le peintre décrit le mouvement des mains
01:59 comme très difficile à exprimer en mots,
02:02 même si c'est l'une des choses les plus importantes dans le dessin.
02:05 Pour l'intelligence artificielle, c'est encore plus compliqué.
02:18 C'est directement lié à la façon dont fonctionne l'IA.
02:22 Pour obtenir ces images, le programme a dû apprendre deux choses.
02:26 Tout d'abord, comment générer des images.
02:30 Si vous vous zoomez, vous pouvez voir qu'une image
02:32 est composée de squares colorés, de pixels.
02:37 Ensemble, ils forment notre perception d'un dessin ou d'une photo.
02:42 Cette image est composée de 1 000 pixels de hauteur et 700 de hauteur.
02:48 Cela fait 700 000 en total.
02:50 La difficulté est de générer artificiellement
02:52 ces milliers de pixels
02:54 et de les organiser de façon cohérente et réaliste pour les humains.
02:59 Pour entraîner le programme,
03:01 les chercheurs utilisent une image de référence, comme celle-ci.
03:05 Ils dégradent graduellement l'image en ajoutant ce qu'on appelle du bruit.
03:11 Après un moment, il ne reste pas grand-chose de la version originale.
03:16 Les scientifiques reviennent à la procédure
03:19 en demandant à la machine de retirer le bruit.
03:23 Le programme commence ici
03:24 et essaie de reconstituer les pixels de la version précédente.
03:29 Par trial et erreur,
03:30 il trouve la configuration expérimentée.
03:34 Il transfert ensuite ce qu'il a appris
03:36 à chaque couche de la réseau
03:38 jusqu'à ce qu'il restaure l'image originale.
03:42 En pratiquant des milliers d'images,
03:45 il apprend à prédire comment les pixels sont organisés
03:48 et comment transformer le bruit en une image cohérente.
03:53 Ce processus s'appelle la diffusion.
03:59 La deuxième leçon s'involte dans la connexion entre le texte et l'image,
04:04 sachant que ce commandement correspond à ce résultat.
04:09 Pour y atteindre, les chercheurs utilisent de grandes données
04:13 composées d'images et de textes qui décrivent leur contenu.
04:18 Il y en a des milliards de millions
04:20 et ces programmes ont passé des centaines de milliers d'heures
04:23 à les entraîner.
04:26 Leur mission est de trouver des modèles
04:28 dans le moyen dont les pixels sont organisés.
04:31 Ils découvriront, par exemple,
04:33 que cette configuration correspond généralement à un pommeau
04:37 et celui-ci à un orange.
04:40 Ils analysent aussi comment ces pixels
04:42 interagissent avec d'autres configurations,
04:45 comme par exemple un pommeau de métal.
04:49 Ces exercices permettent au programme
04:51 d'entendre les nombreuses fonctions qui font en sorte d'une image.
04:55 Son style, ses textures ou le niveau de lumière.
04:58 Observations qui vont bien au-delà de l'analyse pixel par pixel
05:02 et qui font en sorte de ce qu'on appelle
05:04 la représentation de l'espace latent d'une image.
05:07 [Musique]
05:11 À la fin du cours,
05:12 le programme est en mesure de prédire confiamment
05:14 la photo qui correspond à chaque description.
05:17 [Musique]
05:23 Et c'est là que se passe la magie.
05:25 [Musique]
05:28 Parce que, une fois que le programme est en mesure
05:29 de faire le lien entre le texte et l'image,
05:32 les chercheurs peuvent donner des exemples de textes nouveaux
05:35 et demander à l'application de diffusion
05:36 de générer une nouvelle image,
05:38 même une image impossible,
05:40 basée uniquement sur un texte.
05:42 Et les possibilités sont inoubliables.
05:45 [Musique]
05:56 Ce qui est important à comprendre,
05:57 c'est que le programme ne génère pas une montage
06:00 en utilisant des images existantes.
06:02 Il génère de nouvelles combinations
06:04 en fonction du façon dont les pixels sont arrangés
06:07 statistiquement dans les données que l'application utilise.
06:10 Donc, le résultat est différent à chaque fois.
06:13 [Musique]
06:17 Mais c'est aussi là que vient la faute du programme.
06:22 Il ne comprend pas vraiment ce qu'il dessine.
06:26 Pour un A.I., les mains sont juste une combinaison de pixels,
06:29 statistiquement arrangées à la fin d'une autre
06:32 combinaison appelée un bras.
06:36 Il ne comprend pas ce que c'est que la main.
06:38 Son 3D, son anatomie et la façon dont les doigts interagissent.
06:45 Son connaissance est limitée à des images 2D
06:48 dans ces données.
06:51 Si ces données ne contiennent pas suffisamment d'exemples,
06:54 il peut avoir du mal à générer des dépictions précises.
07:00 Dans ces images, le visage est très présent
07:03 et toujours montré de la même manière.
07:06 Deux yeux, une bouche et un nez.
07:12 La main est plus discrète et peut prendre de très différentes formes.
07:18 Enfin, le texte ne s'appelle rarement.
07:21 Ici, nous ne parlons pas du fait que les doigts
07:24 tiennent la caméra, mais simplement d'une femme souriante.
07:29 Donc, inévitablement, quand le software
07:32 doit générer une demande similaire, il improvise.
07:38 Sur une plus proche inspection, d'autres éléments ne sont pas adéquats.
07:42 La femme a trop de dents,
07:44 Donald Trump a un doigt trop grand
07:46 et le texte est complètement incohérent.
07:50 Pour l'instant, ce sont des bons conseils
07:51 pour vérifier l'accuracé des images.
07:54 Mais ça va changer.
07:56 En mars 2023, la compagnie derrière ce software
08:10 a publié un update qui a amélioré la rendu de mains.
08:16 L'étude reste vague sur les méthodes utilisées,
08:19 mais les experts assument que le programme
08:21 a été spécialement entraîné sur les images de mains.
08:25 Cela lui donne plus de matériaux pour réfiner ses créations.
08:30 D'autres développent des générateurs de images tridimensionnels.
08:35 Même si ils ne sont pas encore succédents,
08:38 un meilleur compte spatial de la main
08:40 pourrait éventuellement résoudre dans un meilleur rendu 2D.
08:46 À ce rythme, il est probable que ces programmes
08:48 vont un jour maîtriser les générateurs de mains,
08:51 ce qui ne permet plus de faire
08:53 que l'œil nez à déterminer le réel du faux.
08:58 Mais cette confusion n'applique qu'à l'image.
09:01 ChatGPT, qui a servi comme notre guide
09:04 depuis le début de cette vidéo,
09:06 est aussi entraîné sur de grandes données.
09:09 Des millions de textes l'apprennent à prédire
09:11 les mots d'une phrase,
09:13 même si la phrase n'est pas vraie.
09:17 Prenons par exemple ce quote de Leonardo da Vinci,
09:20 mentionné au début de la vidéo.
09:24 Eh bien, il n'existe pas.
09:27 Il n'apparaît pas dans le livre en question,
09:30 et nous n'avons pas pu le trouver ailleurs dans son travail.
09:34 Il semble que ChatGPT l'a simplement inventé.
09:40 Face aux nombreux problèmes posés par ces outils,
09:43 les autorités travaillent déjà sur le développement d'un cadre légal.
09:47 Et cela doit se faire rapidement,
09:48 car ces outils attirent de plus en plus d'utilisateurs chaque mois.
09:52 Et en février 2023,
09:54 ChatGPT a enregistré un million de visites à son site.
09:59 Sous-titrage Société Radio-Canada
10:01 [Sous-titrage Société Radio-Canada]
10:03 [Sous-titrage Société Radio-Canada]
10:05 [Sous-titrage Société Radio-Canada]
10:07 [Sous-titrage Société Radio-Canada]
10:09 Merci à tous !
10:11 Merci à tous !

Recommandée