Catégorie
📚
ÉducationTranscription
00:00 Comment Google peut savoir que vous n'êtes pas un robot juste parce que vous avez cliqué
00:04 sur cette case ? Ces tests qui déterminent si vous êtes humain ou non, ça s'appelle
00:08 des CAPTCHA.
00:09 Et il est vrai qu'en apparence, ça a l'air vachement simple à résoudre.
00:12 Mais en réalité, ce n'est pas le clic sur la case qui est testé.
00:16 Derrière ce test ultra simple se cache en réalité un système beaucoup plus complexe.
00:20 On vous dit tout dans cette vidéo.
00:22 Commençons par le commencement.
00:23 Nous sommes en l'an 2000 et Yahoo fait face à un problème de taille, les bots.
00:28 A l'époque, Yahoo est un service de courriel qui limite le nombre de mails qu'il est
00:32 possible d'envoyer chaque jour à 500.
00:35 Les spammers, dont l'objectif est d'envoyer des millions d'emails par jour, ont l'idée
00:39 de contourner cette limite en utilisant des scripts pour créer des milliers d'adresses
00:43 mail gratuites chez Yahoo et donc envoyer, avec chacune d'entre elles, 500 emails.
00:47 Il faut alors trouver un moyen de différencier les humains des robots pour éradiquer ce
00:51 problème.
00:52 La tâche est compliquée, le test doit être assez difficile pour empêcher un programme
00:56 de le résoudre, mais assez facile pour que n'importe quel être humain y arrive.
01:00 On crée donc la première version du captcha.
01:02 On présente un texte déformé, dont on connaît d'avance la signification, et on teste l'utilisateur
01:07 dessus.
01:08 Les humains arrivent à lire les caractères, les robots non.
01:11 Et ça marche du tonnerre.
01:14 Des millions de tests sont résolus chaque jour sur la page d'inscription de Yahoo.
01:18 C'est alors que l'entreprise a une idée.
01:20 Pourquoi ne pas exploiter toute cette main d'oeuvre gratuite qui résout des problèmes.
01:23 Ils décident alors de créer une deuxième version du captcha en 2005, le re-captcha.
01:28 Cette fois-ci, ce n'est plus un, mais deux mots qu'il faut trouver.
01:32 Le premier est connu d'avance, et servira à vérifier si l'utilisateur est bien un
01:36 humain.
01:37 Le second mot, lui, est tiré de livres ou d'articles de journaux qu'on souhaite
01:40 numériser.
01:41 En gros, l'ordinateur n'a aucune idée de ce qui est écrit, et laisse l'utilisateur
01:45 le lui dire.
01:46 Si le premier mot proposé est bien trouvé, on sait que l'utilisateur est un humain.
01:50 Le logiciel garde donc en mémoire la réponse donnée pour le deuxième mot.
01:53 Si suffisamment d'utilisateurs sont d'accord sur ce qui est écrit sur le scan, le mot
01:58 peut alors être numérisé.
01:59 Avec cette stratégie, il était possible de numériser un an des journaux du New York
02:04 Times en seulement 4 jours.
02:06 Sauf qu'en plus de numériser des vieux livres et articles, cela créait une base
02:10 de données gigantesque de caractères déformés avec leur résolution.
02:13 Et une si grande base de données, c'est exactement ce qu'il faut pour apprendre
02:16 à un programme à lire en utilisant du machine learning.
02:19 Les robots devenaient meilleurs que les humains à cette tâche.
02:22 Après une étude de Google, 33% des humains réussissent un captcha de lecture du premier
02:27 coup alors que leur IA y arrive 99,8% du temps.
02:31 Les robots étaient donc devenus plus humains que les humains.
02:34 Il a donc fallu changer de test.
02:38 Et c'est justement Google qui va s'en charger après avoir acheté ReCaptcha et
02:42 en créant la V2 en 2014.
02:44 Mais pourquoi Google s'intéresse aussi au captcha ?
02:46 Et bien eux ont un but bien différent.
02:49 Leur objectif ? Améliorer leur véhicule autonome.
02:51 Pour ça, au lieu de lire des mots pour résoudre un captcha, eux font désormais identifier
02:56 des objets.
02:57 Et plus particulièrement des objets routiers tirés d'une image de Google Street View.
03:01 Ainsi, sur le même principe que la première version du ReCaptcha, Google se crée une
03:05 gigantesque base de données utile à l'amélioration de ses véhicules autonomes.
03:09 Mais quelques années plus tard, Google décide de changer d'approche pour ses tests, voyant
03:13 bien qu'il devenait de moins en moins efficace et frustrait les utilisateurs.
03:17 Une case à cocher, c'est tout.
03:19 C'est simple, c'est pas dérangeant à faire, en apparence c'est bien trop facile
03:23 pour un robot et pourtant c'est à l'heure actuelle l'une des méthodes les plus efficaces.
03:27 Car ce n'est pas le clic qui intéresse Google, c'est tout ce que vous faites avant,
03:31 pendant et même après ce clic.
03:33 Est-ce que vous déplacez votre souris comme le ferait un humain sur une page web ? Ou
03:36 d'une manière trop robotique ? Vous remplissez les formulaires à une vitesse normale ou
03:40 bien trop vite ? En gros, c'est tout plein de petits détails qui sont observés.
03:43 Et après tout, Google a tellement de données sur vous qu'il vous connaît mieux que vous
03:47 ne vous connaissez vous-même.
03:49 Pas étonnant alors qu'il sache si vous êtes humain ou non.
03:52 Mais malgré ces efforts, il ne sera jamais possible d'empêcher des bots de passer
03:55 entre les mailles du filet.
03:57 Tout simplement car il existe des services payants qui proposent de résoudre les captchas
04:00 à votre place par un humain dont c'est le travail.
04:03 En conclusion, contrairement à ce qu'on peut penser, les captchas n'ont pas qu'un
04:07 seul objectif.
04:08 Certes, ils vérifient que vous êtes humain, mais ils pourraient très bien être utilisés
04:11 pour vous traquer et surtout pour améliorer des algorithmes grâce à vos réponses.
04:16 Alors merci à vous de faire avancer la science.
04:18 Merci.
04:19 Au revoir.
04:20 [Musique]
04:20 [Générique]