• l’année dernière
Transcription
00:00 Un youtuber a utilisé une intelligence artificielle pour jouer à Pokémon Rouge
00:03 et c'est bien plus compliqué que prévu pour l'IA.
00:06 L'intelligence artificielle censée résoudre les problèmes de l'humanité
00:12 se heurte à un défi inattendu, Pokémon Rouge.
00:15 Le youtuber Peter Whedon a entrepris une aventure fascinante
00:19 en apprenant à une IA à jouer à Pokémon à l'aide d'un émulateur.
00:23 Le concept est simple en apparence, l'IA doit jouer au jeu aussi naturellement qu'un être humain.
00:28 Pour cela, Peter Whedon a conçu un système de récompenses pour guider l'IA dans la bonne direction.
00:33 Sauf que l'IA est loin d'être parfaite.
00:35 Elle peut ressentir ce que l'on pourrait appeler de la peur en entrant dans un Pokémon Center.
00:39 Un véritable traumatisme lorsqu'elle a rangé des Pokémon
00:42 et qu'elle s'est pu retirer des points car le niveau de son équipe avait diminué.
00:46 Pour augmenter la vitesse d'apprentissage, Whedon a effectué 40 sessions de tests en parallèle.
00:51 A chaque découverte de quelque chose de nouveau, mesuré en pixels sur l'écran,
00:55 l'IA reçoit des points de récompense.
00:57 Mais comme on peut s'y attendre, cette démarche la conduit à s'attarder par exemple sur l'animation de l'eau
01:01 au lieu de progresser vers la prochaine vie.
01:04 Une IA contemplative devant la beauté des pixels de Pokémon.
01:07 D'autres récompenses ont été introduites, telles que la capture de Pokémon,
01:10 le niveau global de l'équipe, la victoire dans un combat d'entraîneur ou la conquête d'une arène.
01:15 Malgré ces incitations, des problèmes persistaient.
01:18 L'IA a vécu des moments curieux lors de sa visite au Pokémon Center
01:21 en interagissant avec l'ordinateur et en stockant certains Pokémon.
01:24 Son niveau d'équipe a donc diminué, ce qui avait créé un véritable traumatisme.
01:29 Cela l'a poussé à éviter activement ses centres.
01:31 Weedlem a donc dû ajuster le système et introduire une nouvelle récompense pour surmonter cette aversion.
01:37 Les combats ont également réservé leur lot de surprises,
01:40 l'IA a participé à chaque combat qu'elle puisse gagner ou non.
01:43 Cependant, après la première défaite, elle a refusé d'appuyer sur le bouton A après la mort du dernier Pokémon,
01:48 cherchant à rester éternellement dans l'écran de combat pour ne pas perdre des points.
01:53 Le combat contre Pierre dans la première arène était tout sauf logique.
01:57 Pendant longtemps, l'IA n'a pas compris que les attaques hauts étaient le point faible des Pokémon de type Roche.
02:02 Après des milliers d'heures de jeu, une victoire facile a finalement été obtenue.
02:07 Malgré les défis, l'IA s'est montré particulièrement friande de Pokémon Magikarp
02:11 en en obtenant plus de 10 000 auprès d'un revendeur qui les vendait 500 Poké Dollars.
02:15 Cette démarche était sans doute l'option la plus simple et la plus rapide pour étendre son nombre de Pokémon
02:21 car l'IA était programmée pour enrichir son équipe en attrapant le maximum de Pokémon.
02:25 Pour mettre en oeuvre son algorithme d'apprentissage, Whedon a utilisé Proximal Policy Optimization,
02:30 une norme également employée pour Chatty Petit.
02:33 Cependant, la partie la plus délicate de ce processus consiste à guider la machine
02:37 sans lui expliquer chaque étape individuellement car l'IA est censée apprendre de manière autonome.
02:42 Contrairement aux IA textuelles ou vocales, Pokémon Rouge ne disposait pas de bases de données volumineuses,
02:47 ce qui rendait cette aventure encore plus impressionnante.
02:50 Bien que l'IA ait échoué dans sa quête à la deuxième arène après 50 000 heures de souffrance,
02:56 elle a tout de même accompli des prouesses étonnantes.
02:58 Cette expérience témoigne du potentiel et des limites de l'IA à apprendre et à évoluer.
03:02 Le Daily Tech, c'est fini. Rendez-vous demain pour la suite.
03:06 [Musique entraînante diminuant jusqu'au silence]