Google suspend la création d’images de personnes sur son outil d’intelligence artificielle générative Gemini, à la suite de "problèmes récents" concernant cette fonctionnalité

Jeanmarcmorandini.com

Transcript

00:00 Une des raisons pour lesquelles nous nous sommes intéressés par l'IA depuis le début,

00:05 c'est que nous avons toujours considéré notre mission comme une mission sans temps.

00:09 C'est organiser l'information du monde et la rendre accessible et utile à l'univers.

00:14 Mais, envers les informations qui ont évolué, qui ont augmenté en taille et en complexité,

00:19 le problème s'est devenu plus difficile.

00:21 Nous savions donc toujours que nous devions avoir un délai plus profond pour faire de l'avance.

00:27 J'ai travaillé sur l'IA toute ma vie, car j'ai toujours pensé que c'était la technologie la plus bénéfique et conséquente pour l'humanité.

00:37 Les êtres humains dans notre société, nous avons cinq sens,

00:40 et le monde que nous avons construit et le média que nous consommons est dans ces modalités différentes.

00:45 Je suis donc très fier et excité de dénoncer le lancement de l'éra Gemini,

00:49 un premier pas vers un modèle AI vraiment universel.

00:52 L'approche Gemini vers la multimodalité est tout ce que vous voulez que l'IA puisse faire.

00:59 Et ce sont des capacités qui n'ont pas vraiment existé dans les ordinateurs avant.

01:04 Traditionnellement, les modèles multimodaux sont créés en se connectant

01:09 les modèles textes, vision et audio seuls, dans un moyen suboptimal, à la phase secondaire.

01:15 Gemini est le multimodèle de la base,

01:18 donc il peut avoir une conversation sur les modalités sans problème

01:22 et vous donner la meilleure réponse possible.

01:25 Gemini est notre plus grand et capable modèle.

01:27 Cela signifie que Gemini peut comprendre le monde autour de nous de la manière que nous le faisons

01:32 et absorber n'importe quel type d'entrée et d'exit,

01:35 donc pas seulement des textes comme les autres modèles, mais aussi des codes, des audio, des images et des vidéos.

01:42 Ce qui est incroyable chez Gemini, c'est qu'il est si bon à tant de choses.

01:46 Au début de l'entraînement, on a vu que Gemini était meilleur que n'importe quel autre modèle

01:52 sur ces très importants benchmarks.

01:54 Par exemple, chaque des 50 zones de sujets que nous avons testées,

01:58 est aussi bonne que les meilleurs experts humains dans ces zones.

02:02 C'est très rare de pouvoir travailler sur une technologie à un niveau fondamental

02:07 et de pouvoir, simultanément, impacter tous nos produits.

02:10 Nous avons créé une famille de modèles qui peuvent fonctionner sur tout,

02:14 de modèles mobiles à centres de données,

02:16 chaque d'entre eux étant le meilleur de sa classe.

02:19 Gemini sera disponible en trois tailles.

02:21 Gemini Ultra, notre plus capable et plus grand modèle pour des tâches très compliquées.

02:25 Gemini Pro, notre meilleur modèle de performance pour un grand rang de tâches.

02:28 Et Gemini Nano, notre plus efficace modèle pour des tâches sur un appareil.

02:32 Nous voulons offrir les meilleurs blocs fondamentaux

02:36 et nous savons que les développeurs et les clients d'entreprise

02:40 vont trouver des façons créatives de plus en plus réfinir

02:44 nos modèles fondamentaux Gemini et leurs potentiels sont presque limités.

02:49 À Google, il y a un désregard pour l'impossible,

02:53 qui nous a orientés à être tous les deux valables et responsables.

02:58 En tant que système de développement,

03:00 ces capacités-là posent aussi des questions.

03:03 Nous devons penser à ce que signifie avoir un image

03:06 comme partie de l'entrée, par exemple.

03:08 Parce qu'une image peut être innocuante en soi,

03:11 ou un texte peut être innocuant en soi,

03:13 mais la combinaison peut être offensive ou frappante.

03:15 La sécurité et la responsabilité doivent être construites depuis le début.

03:18 Et à Google DeepMind, c'est ce que nous avons fait avec Gemini.

03:21 Nous développons des politiques proactives

03:23 et les adaptons à la considération unique des capacités multimodales.

03:27 Nous faisons ensuite des tests rigoureux contre ces politiques

03:30 pour éviter les harmes que nous avons identifiés

03:32 avec des approches comme les classifiés et les filtres.

03:35 Si je regarde les déroulements fondamentaux de l'IA

03:38 au cours de la décennie,

03:39 Google a été au forefront de nombreux de ces déroulements.

03:43 Et je pense que Gemini continue cette riche tradition.

03:46 C'est une énorme tâche d'ingénieur monumental,

03:50 qui a été très délicate, mais aussi très excitante.

03:53 J'ai été à Google depuis un certain temps,

03:55 et la raison pour laquelle je suis là,

03:57 c'est que je crois vraiment à la mission de l'entreprise.

03:59 Et je pense que Gemini a fait un bon pas dans cette mission.

04:02 Nous sommes dans un monde qui a plus de connaissances

04:05 et où les gens ont plus d'accès à des informations

04:08 qui ne les seraient pas disponibles autrement.

04:10 C'est ce qui m'excite,

04:12 la chance de faire de l'IA aidée pour tout le monde,

04:15 partout dans le monde.

04:17 [Musique]

Category

Transcription

Recommandations