FRnOG 40 - Table-Ronde: Défis et Enjeux de l'IA (Infrastructure, Puissance, Souveraineté et Antitrust dans l'Ère des LLMs) - Vidéo Dailymotion

Vidéos des réunions FRnOG

FRnOG 40 - Table-Ronde: Défis et Enjeux de l'IA (Infrastructure, Puissance, Souveraineté et Antitrust dans l'Ère des LLMs) avec Julien Simon (Arcee AI), Julien Gauthier (Arkane Cloud), Franck Volko (Eclairion), Albane Bruyas (Scaleway), Sami Slim (Telehouse) et Khaled Maalej (VSora) - animée par Philippe Bourcier (FRnOG)

Transcript

00:00Donc on va déjà commencer par remercier les membres du comité de programme qui m'aident à trouver tous ces valeureux et sympathiques speakers du panel.

00:15Donc il y a Raphaël Monnier, François Rousseau, Samy qui est là et Vincent Jardin qui font partie du comité de programme.

00:26Quand vous avez des idées de talk aussi, n'hésitez pas à les solliciter. Et puis aussi merci à Nicolas Fontès qui m'a aidé pour cette table ronde.

00:39Ensuite, on va commencer par un petit tour de table. Chacun va pouvoir prendre le micro le plus proche de lui et se présenter. Allez-y, bonheur aux dames.

00:51C'est bon, c'est bon. Donc bonjour à tous, Albane Bruyas, je suis COO de Scaleway depuis 5 ans maintenant, en charge de toute la partie hardware, du cycle de vie hardware, des datacenters et du customer care.

01:05Et Scaleway, pour ceux qui ne connaîtraient pas par pur hasard, est donc la filiale cloud du groupe Iliad.

01:10Bonjour à tous, je suis Franck Volko, directeur général d'Eclairion. Nous sommes une usine d'habergement de supercalculateurs.

01:24Nous fournissons toutes les facilities, space power cooling, pour permettre aux machines d'IA de tourner dans les meilleures conditions.

01:34Bonjour à tous, Khaled Malej de la société Vésorage. Je suis cofondateur et CEO de la société. On est une société fablesse semi-conducteur.

01:44On développe des puces à très forte capacité de calcul pour répondre à la problématique du déploiement aujourd'hui du generative AI.

01:53Bonjour, Samy Slim, directeur général de Telehouse, opérateur de datacenters en colocation. Je suis chez Telehouse depuis 20 ans maintenant.

02:09Bonjour, Julien Simon, je suis chief evangelist chez Arcee. Arcee, c'est une startup américaine qui est un des champions des small language models.

02:20Avant ça, j'ai fait 2-3 trucs. J'ai passé 3 ans chez Hugging Face, 6 ans chez AWS. Je crois bien que dans une autre vie, on a fait Criteo tous les deux.

02:32Bonjour à tous, Julien Gauthier, fondateur et CEO de Arcane Cloud. On est GPU cloud provider et on est spécialiste dans le déploiement de modèles IA pour toutes les entreprises.

02:43Comme la table ronde porte sur ce sujet IA, peut-être qu'on avait prévu une petite introduction sur l'IA, les LLM. Julien, si tu veux t'y coller.

02:55Avec plaisir. Il ne vous aura pas échappé que depuis 2 ans, 2 ans et demi, l'IA est enfin devenu un outil qui est à la fois accessible et compréhensible par le plus grand nombre en entreprise.

03:15L'IA et le machine learning en général sont un peu sortis du ghetto dans lequel ils vivaient depuis longtemps.

03:21Et maintenant, on a des responsables marketing et des RH qui peuvent utiliser les modèles pour accomplir des tâches au quotidien.

03:31Donc bravo à OpenAI pour avoir lancé ces modèles avec le niveau de qualité auquel ils ont lancé.

03:38Néanmoins, si on saute 2-3 épisodes dans la saison, on se rend compte que les modèles d'OpenAI et de manière générale les modèles fermés,

03:52donc les modèles dont l'architecture n'est pas publiée, dont les poids, les paramètres ne sont pas publiés, donc OpenAI, Anthropic et quelques autres,

04:03ont des qualités mais ont aussi des défauts. Et en particulier, on peut en citer 3.

04:12Alors le premier, je l'ai déjà cité, c'est l'opacité. Donc ces modèles-là, on ne sait pas ce que c'est.

04:19Officiellement, on ne sait pas ce qu'est GPT-4, on ne sait pas ce qu'est Cloud 3.5.

04:24Alors, ils ont des bons résultats, oui. Sur quoi ils ont été entraînés, on ne sait pas.

04:29Quelle est l'architecture du réseau de neurones ou des réseaux de neurones qui les font fonctionner, on ne sait pas.

04:34Qu'est-ce qui se passe avec les données que vous leur envoyez ?

04:39Alors si vous êtes un optimiste, vous allez dire, il y a une privacy policy, donc tout va bien.

04:43Et puis on voit que LinkedIn, subrepticement aux US, alors ça ne nous concerne pas encore, je crois, en Europe.

04:51Mais aux US, subrepticement, change ces conditions pour pouvoir entraîner des modèles sur vos données, etc.

04:59LinkedIn faisant partie d'un certain groupe avec lequel j'ai d'immenses affinités,

05:04et qui lui-même aurait des relations avec OpenAI, m'a-t-on dit.

05:08Donc il y a ce premier problème, qui n'est pas très clair, alors qui est embêtant d'un point de vue philosophique,

05:12mais qui est embêtant pour les entreprises. Parce que si vous êtes une grande banque,

05:15si vous êtes un hôpital, si vous êtes un service public, etc.

05:20Vous tenez globalement la confidentialité de vos données et des données des utilisateurs

05:25qui vont utiliser vos applications et votre IR. Bon, premier point.

05:29Le deuxième point, qui est au moins aussi gênant, c'est que ces modèles-là sont très difficiles à adapter à votre domaine.

05:37Alors je vais prendre des exemples telco, puisqu'a priori on a le bon public pour ça.

05:43Si vous avez envie de poser des questions hyper fines sur des standards 3GPP à un modèle,

05:52ça va marcher plus ou moins.

05:55Si vous avez envie de lui passer, je ne sais pas, 100 cas de log Cisco pour qu'il vous écrive un compte-rendu,

06:02un post-mortem en bon anglais ou en bon français, ou qu'il vous diagnostique le truc, ça va marcher ou pas.

06:09Mais dans tous les cas, si vous passez des données qui viennent de vos applications,

06:13qui ont des formats propriétaires, avec des données propriétaires, ça ne marchera pas bien.

06:18Pourquoi ? Parce que ces modèles-là, ils n'ont jamais vu ce genre de données, ils n'ont jamais été entraînés sur ça.

06:22Et vous pouvez multiplier ces exemples à l'infini.

06:24Donc ce qu'on appelle, nous, l'adaptation au domaine, c'est-à-dire la capacité d'un modèle à comprendre finement

06:32et à répondre de manière factuellement précise, avec le bon degré d'expertise, avec le bon ton de voix,

06:39avec la bonne sécurité de fonctionnement, etc. à des questions très très pointues sur vos domaines,

06:46ça ne se passe pas très bien.

06:49Et le troisième problème, il y a peut-être des gens ici qui l'ont expérimenté,

06:53c'est que quand on joue avec ChatGPT et les autres, on est content, ça ne coûte rien,

06:59on a l'impression qu'on paye 0,000 cent par token, donc par mots ou morceaux de mots, faisons simple.

07:08Le problème étant que généralement, votre application va injecter des données, elle va injecter des documents,

07:17donc votre question de 12 ou 15 ou 20 tokens, elle va devenir une requête de 5000 tokens,

07:24et puis vous allez faire des allers-retours, questions-réponses, questions-réponses.

07:27Donc dans une conversation, vous allez faire 100 000 tokens.

07:29Donc le 0,000 fois 100 000, déjà, il est moins sympa.

07:33Et puis si vous ouvrez ça à 1000 utilisateurs dans la société, ce qui est quand même l'objectif,

07:37parce que quand on construit des trucs, ce n'est pas pour trois personnes,

07:40vite on se retrouve avec des factures à 50 000 dollars par mois, et ça ne fait rire personne.

07:45Voir plus, nous on a des clients qui arrivent et qui se disent, mais on ne comprend pas,

07:50on avait fait le calcul, on pensait que ça coûterait 2000,

07:53et puis en branchant nos bases de données, nos trucs, on est à 100 000 et ce n'est pas possible.

07:57Donc ces trois problèmes, la privacy, la compliance, l'adaptation au domaine et les coûts,

08:07sont vraiment les trois problèmes que la communauté open source essaie de régler.

08:11Et donc depuis deux ans maintenant, on a des modèles hyper compétitifs et de plus en plus compétitifs

08:22qui sont disponibles en open source.

08:24Alors on peut en citer quelques-uns, dont vous avez au moins entendu parler,

08:29même si vous ne levez pas la tête de vos optiques.

08:32Vous avez entendu parler de Mistral, oui ?

08:35Qui a entendu parler de Mistral ?

08:37Ah voilà, bah oui quand même.

08:39Les modèles de Mistral.

08:41Alors ils ont commencé en open source, maintenant c'est moins clair.

08:43Alors on les encourage quand même à faire de l'open source.

08:45Il y a les modèles de Meta.

08:48Alors je n'ai pas un amour particulier pour Meta.

08:51Reconnaissons quand même que Meta AI, Yann Lequin et son orchestre font un travail exceptionnel.

08:57Et les modèles Lama 2, Lama 3, enfin il y a 3.2 là qui vient de sortir,

09:01sont vraiment excellents.

09:04Et puis il y en a tout un tas d'autres.

09:06Et donc ces modèles, au début, ils ont été regardés avec scepticisme,

09:11il y a on va dire un an et demi, deux ans.

09:14Et je pense que maintenant plus personne ne rit en fait.

09:18Et je pense qu'on est même arrivé au point où ces modèles sont l'état de l'art.

09:23C'est-à-dire que les meilleurs modèles disponibles aujourd'hui,

09:27sur étagère, sont des modèles open source.

09:32Et quand je dis meilleur, je ne parle pas juste de performance, de précision, de qualité,

09:35parce que ça c'est qu'un élément.

09:37Il faut penser au prix.

09:39Si vous arrivez à la même qualité avec un modèle de 70 milliards de paramètres,

09:43qu'un modèle comme GPT-4 qui fait peut-être 1000 milliards, on ne sait pas.

09:48On voit tout de suite intuitivement, mais si on ne comprend rien,

09:50que les coûts vont être tout à fait intéressants.

09:53Donc l'état de l'art aujourd'hui, c'est l'open source.

09:57La pression, ce n'est pas la communauté open source qui l'a,

10:00c'est la communauté open source qui la met.

10:03Et en ce qui nous concerne, je ne suis pas venu parler trop d'Arcee en général,

10:07s'il y a des questions, on peut en parler après.

10:09Mais nous, on voit beaucoup de clients dans des domaines verticaux,

10:12la finance, l'assurance, la santé, les télécoms, etc.

10:17qui ont compris ça, qui ont expérimenté en 2023, début 2024,

10:21et qui ont dit ok, on peut utiliser les modèles fermés pour résumer des CV,

10:26écrire des mails marketing, des trucs assez génériques.

10:29Par contre, quand il s'agit d'avoir le maximum de précision,

10:33le maximum de retour sur investissement,

10:36on a compris qu'on ne pourra le faire qu'avec des modèles open source.

10:39Aujourd'hui, pour faire simple, on a un modèle de 70 milliards de paramètres,

10:46c'est déjà gros 70, mais 70 par rapport à 1000, non c'est petit.

10:50Donc un 70 milliards aujourd'hui, c'est un small language model.

10:54On a un modèle qui bat GPT-4, qui bat Cloud 3.5.

11:00Alors on peut discuter des benchmarks jusqu'à la fin de la nuit.

11:04Dans les modèles open source, tu n'as pas parlé d'un certain modèle chinois ?

11:09Alors la communauté open source, ce qui est très intéressant,

11:15c'est que pour tremper dans l'open source depuis longtemps,

11:20tout était quand même assez occidental, on va dire.

11:25Et c'est vrai que sur les modèles, sur l'IA en général,

11:30sur les modèles open source en particulier, on voit des modèles qui sortent vraiment de partout.

11:34C'est vraiment une compétition, une collaboration qui est globale.

11:41Oui, il y a Lama, Mistral, il y a quelques champions.

11:45Il y a des modèles qui sortent d'Abu Dhabi, de la région du Golfe,

11:53parce qu'il y a aussi l'aspect linguistique.

11:55Si vous voulez un excellent modèle en langue arabe,

11:57il ne faut pas trop compter sur la côte ouest américaine pour vous le faire.

12:01Déjà le français, ça ne les intéresse pas des masses.

12:04L'espagnol, oui, parce que c'est quand même leur zone d'influence, alors ils font.

12:07Mais le français, l'allemand, ça ne les intéresse pas plus que ça.

12:10Alors autant vous dire que le finlandais, le slovak, ils ne savent même pas où c'est sur la carte.

12:15Quant au reste, alors là, ça n'a aucun intérêt.

12:18Donc il y a des modèles qui sortent de Singapour, il y a des modèles qui sortent de Chine.

12:21Il y a effectivement Alibaba, pour ne pas les citer, qui est un poids lourd de la tech.

12:25On ne sait jamais très bien ce qui se passe là-bas.

12:27On ne comprend pas bien ce qui se passe là-bas.

12:29Mais des sociétés comme Alibaba ont sorti des modèles.

12:32Il y a le fameux modèle Quen 2 qui est excellent, qu'on utilise beaucoup chez nous

12:36comme base de départ pour des projets clients.

12:40Il y a aussi du hardware.

12:43Il y a Huawei qui conçoit des chips puisque les américains ont essayé de ne pas leur vendre.

12:48Alors on peut discuter là aussi pendant dix ans.

12:50Est-ce que c'est une bonne idée de les empêcher de faire du Nvidia ?

12:54En tout cas, comptez sur eux pour faire des puces.

12:56Et en tout cas sur cette capacité semi-conducteur chez eux, tout va très bien, merci.

13:01Tu me fais la transition idéale.

13:04On l'avait bien répété pendant huit secondes.

13:07Donc aujourd'hui effectivement, merci pour cette longue intro,

13:12mais qui était quand même peut-être nécessaire pour ceux qui n'ont pas tout suivi dans l'IA.

13:17Donc aujourd'hui effectivement, on parle beaucoup de GPU, Nvidia, etc.

13:23La valo en bourse folle qui en a découlé.

13:27Demain, on parle plutôt d'ASIC, d'IA.

13:31Alors les ASIC, on connaît un peu.

13:33On en a tous au moins chez nous.

13:36Alors celles-ci, elles ne seront pas Cisco ou Junip ou etc.

13:41Celles-ci, elles seront peut-être Vessora.

13:44Elles seront peut-être Edge, qui est une boîte américaine.

13:48Quels vont être les effets sur le marché et sur les infras

13:52de ce gain d'efficacité promis de x20 par rapport au GPU ?

13:59En fait, ce qu'on adresse nous comme problématique,

14:02c'est un petit peu ce qui a été mentionné auparavant,

14:04c'est vraiment la réduction du coût de la requête.

14:07Et aujourd'hui, le marché, pour vraiment déployer l'inférence,

14:11il cherche un facteur.

14:13En fait, il faut diviser le coût de la requête pas par un facteur 2,

14:16mais plutôt par un facteur 10, 20, voire plus que ça.

14:20Et cette problématique-là de coût de requête aujourd'hui,

14:23elle est complètement liée à l'efficacité de calcul des GPU.

14:27En fait, au départ, on pensait que c'était aussi lié

14:30au coût énergétique de traitement d'une requête.

14:33Ça joue aussi sur la requête, mais pas tant que ça.

14:36En fait, le plus gros du coût d'une requête,

14:38il est donné par l'investissement dans le silicium

14:41et par l'amortissement de cet investissement

14:43sur un certain nombre d'années.

14:45Quand on regarde les modèles complexes,

14:48type GPT-3 ou GPT-4, etc.,

14:51on se rend compte que les solutions actuelles,

14:53donc NVIDIA et pareil pour les autres,

14:56on est dans des efficacités de calcul très très faibles.

14:59Donc, l'efficacité de calcul, c'est quoi ?

15:01C'est le taux d'utilisation de l'arithmétique dans la puce.

15:04C'est-à-dire, si je prends 100 cycles de fonctionnement,

15:07combien de cycles je vais faire vraiment des opérations arithmétiques ?

15:10Et là, les chiffres qu'on échange,

15:13dans la presse et ce qu'on voit nous,

15:15c'est qu'on est plutôt dans des taux d'utilisation de 3%,

15:18voire en dessous.

15:20Là, je parle vraiment des gros modèles,

15:22GPT-3, GPT-4, etc.

15:24Donc, il y a un besoin aujourd'hui

15:26d'apporter une nouvelle technologie

15:28pour améliorer un petit peu ce taux d'utilisation.

15:32Il y a aussi la contrainte énergétique qui est très forte,

15:35mais qu'on la retrouve plus sur le déploiement des réseaux,

15:38sur la structuration un peu des data centers, etc.

15:41Donc, on voit beaucoup de startups aujourd'hui dans le monde

15:44se créer pour adresser cette problématique-là.

15:46Comment on va résoudre un petit peu

15:48le mouvement de data dans le silicium

15:50pour vraiment améliorer cette efficacité de calcul ?

15:52Et là, on retrouve deux écoles aujourd'hui.

15:54Il y a les écoles qui disent,

15:56finalement, il faut une solution complètement flexible,

15:59programmable, un peu type GPU.

16:02Alors, le G, la partie graphique aujourd'hui,

16:05n'est plus importante dans les GPU.

16:07C'est vraiment la partie tensor

16:09et la partie processing AI

16:11qui drive complètement ce silicium.

16:13Et puis, il y a une autre école qui dit,

16:15finalement, le plus simple, c'est de faire

16:17des ASIC qui ne font que les transformers.

16:19Je trouve que cette école-là est quand même très risquée

16:22parce que si on retrace un peu l'évolution

16:25des réseaux de neurones,

16:27moi, j'ai déjà entendu ça, par exemple,

16:29sur les CNN, il y a à peu près 5 ou 6 ans.

16:32Je pense que si on retrace un peu

16:34toutes les startups aujourd'hui

16:36qui se sont lancées sur cette logique-là

16:38ou cette philosophie-là,

16:40je ne sais pas si elles existent encore ou pas.

16:42Donc, je pense que le marché,

16:44il a besoin quand même d'une solution

16:46qui soit programmable, flexible,

16:48mais qui apporte un peu cette flexibilité-là,

16:50en tant qu'à ce taux d'utilisation fort

16:52de l'arithmétique,

16:54pour permettre vraiment le déploiement

16:56du generative AI.

16:58C'est ce qu'on appelle, en fait, l'inférence wall aujourd'hui.

17:00C'est vraiment le mur de l'inférence

17:02qu'il faut arriver à passer.

17:04Et on n'arrivera à le passer qu'avec une nouvelle architecture.

17:07Et alors, du coup,

17:09pour tous les gens

17:11qui ont aujourd'hui

17:13beaucoup d'NVIDIA dans leur data center,

17:15quels effets

17:17si demain,

17:19on leur promet de diviser par 20

17:21en termes de

17:23consoles électriques, de refroidissement,

17:25est-ce que ça change tout ?

17:27Est-ce que...

17:29Voilà.

17:31Je pense qu'il y a plusieurs sujets.

17:33Evidemment, si vous me dites

17:35on divise par 20 la consommation électrique,

17:37ça m'arrange et ça arrange mes clients.

17:39Le plus complexe,

17:41c'est intéressant,

17:43et c'est une question que j'avais envie de vous poser,

17:45c'est que finalement ASICS, il améliore

17:47ce qu'il a en ce moment.

17:49Mais comme on met du temps de déploiement

17:51de la chip, dans quelle mesure on n'est pas toujours

17:53en train de courir après la dernière tectose ?

17:55C'était ça que je trouvais inquiétant.

17:57Donc c'est la première limite que je vois,

17:59sans dire que ça ne nous intéresse pas.

18:01Et ensuite, il va y avoir une bataille

18:03parce que,

18:05au cas où ça n'était pas suffisant,

18:07le cloud est encore plus qu'APEX intensive

18:09avec tous ces GPU.

18:11Ces GPU, NVIDIA est très fort

18:13parce que c'est eux qui sont hégémoniques pour l'instant.

18:15On pourra les renouveler tous les 6 mois, tous les ans,

18:17on pourra en reparler, on a vu leur roadmap.

18:19Tous les 6 mois, il y en a un nouveau, c'est génial.

18:21Et nous, on investit.

18:23Et ça met du temps à être rentabilisé.

18:25Et donc on compte bien sur l'inférence pour rentabiliser

18:27ces chips qui vont être finalement has been dans 3 ans

18:29pour tout ce qui est entraînement de modèles.

18:31Et donc c'est là où commence situer l'ASICS

18:33et pour moi, à la fois quelque chose de très intéressant,

18:35mais où je ne suis pas sûre de comprendre

18:37où va être le marché exactement, sauf peut-être ceux

18:39qui se spécifient sur l'inférence.

18:41Mais c'est vrai que pour nous qui avons ces entraînements,

18:43la question se pose.

18:45Peut-être juste revenir sur un point,

18:47nous ce qu'on fait,

18:49on ne fait pas des ASICS vraiment dédiés au LLM,

18:51on fait un espèce de GPU

18:53en quelque sorte, AI,

18:55qui a toute la flexibilité pour suivre un petit peu

18:57l'évolution des circuits.

18:59Nous, l'analyse qu'on fait un petit peu

19:01de l'inférence aujourd'hui, c'est que

19:03ce marché là, pour que vraiment se déploie,

19:05il faut arriver à diviser par 20

19:07le prix des requêtes aujourd'hui.

19:09Et ça aujourd'hui, on n'arrive pas

19:11à le faire avec Nvidia.

19:13Donc il faut une nouvelle architecture,

19:15et en tout cas, notre industrie dans le semi-conducteur

19:17s'aligne sur ce fait là.

19:19Maintenant, il y aura un gagnant,

19:21un jour, je ne sais pas lequel c'est,

19:23on espère l'être, mais clairement

19:25le marché a besoin de cette nouvelle architecture.

19:27On voit qu'il y a

19:29à peu près 3 ou 4 sociétés

19:31qui font à peu près ce que tu

19:33proposes.

19:35Si on prend les sociétés dans le monde aujourd'hui,

19:37et qu'on essaie de tracer, alors pour

19:39adresser des marchés type GPT-3

19:41ou GPT-4, ou même du

19:43Lama 2, Lama 3 à 70 Go,

19:45il faut quand même monter à des Processing Power

19:47de l'ordre de 2 Petaflops.

19:49Donc il faut être un petit peu dans des capacités de calcul

19:51assez importantes.

19:53Les sociétés dans le monde aujourd'hui qui promettent

19:55des Processing Power dans cet ordre là,

19:57il y en a moins de 10 en fait.

19:59Il y en a plusieurs qui offrent

20:01des Processing Power de l'ordre de

20:03200, 400 Teraflops.

20:05Mais à partir du moment où on passe le 2 Petaflops,

20:07il n'y en a pas tant que ça.

20:11Je voulais peut-être ajouter quelque chose

20:13dans le sens de ce qui vient d'être

20:15partagé.

20:17Il est forcément

20:19nécessaire de pouvoir abaisser l'impact

20:21énergétique de

20:23ces nouveaux usages parce que

20:25on a vu évoluer

20:27les baies informatiques chez les

20:29hébergeurs qui étaient couramment

20:31entre 4 et 10 kilowatts

20:33électriques à la baie.

20:35Juste pour vous rappeler qu'on considère

20:37qu'il y a un ratio de 1 pour 1 entre

20:39la consommation électrique d'une baie

20:41et sa dissipation en chaleur

20:43qu'il va falloir ensuite

20:45évacuer.

20:47On est passé de ce standard

20:49de 4 à 10 kilowatts pour lequel

20:51la plupart des data centers

20:53en colocation avaient été

20:55designés

20:57à aujourd'hui du 40,

20:59du 100 et on travaille

21:01avec certains fabricants

21:03aujourd'hui OEM

21:05qui annoncent 400 kilowatts à la baie.

21:07Pour vous donner un ordre d'idée,

21:09une baie de 800 millimètres de large,

21:111200 millimètres de profondeur,

21:132 mètres 20 de haut,

21:15une 42U à peu près,

21:17va maintenant peser 2 tonnes

21:19en poids physique à la charge

21:21va représenter

21:23entre 100 et 400 kilowatts

21:25à dissiper et à alimenter

21:27parce que tout le monde parle

21:29toujours du refroidissement

21:31mais on a aujourd'hui des problèmes,

21:33des difficultés sur le marché

21:35pour s'approvisionner en matériel électrique

21:37pour ces densités

21:39et ces intensités-là.

21:41Et puis, évidemment,

21:43il y a une notion aussi de capex

21:45dont on parlait, une baie comme ça

21:47va coûter jusqu'à 4 millions d'euros à la baie.

21:49Donc, tous ces éléments

21:51conjugués font qu'il y a

21:53évidemment des optimisations,

21:55des améliorations à apporter

21:57qui ne sont pas encore là

21:59comme vous le disiez.

22:01On court un petit peu après ces optimisations

22:03et les enjeux pour les hébergeurs

22:05de demain, je pense que peut-être

22:07Samy pourra en parler aussi,

22:09c'est à la fois de savoir accueillir

22:11les technologies que l'on connaît

22:13et lié à cette explosion

22:15de densité,

22:17il faudra aussi savoir accueillir

22:19les technologies que l'on voit déjà

22:21dans les laboratoires qui arrivent

22:23et celles qu'on n'imagine encore pas.

22:25Et ça, ce sont les enjeux

22:27de flexibilité et d'agilité

22:29auxquels vont être

22:31confrontés les acteurs

22:33d'hébergement dans

22:35les semaines, les mois et les années à venir.

22:37Pour rebondir là-dessus,

22:39sur la conso électrique, je ne sais pas si vous avez vu,

22:41il y a eu deux annonces

22:43assez intéressantes dernièrement.

22:45Il y en a une, c'est OpenAI qui demande

22:47l'autorisation je crois

22:49au gouvernement US d'ouvrir

22:515 data centers de 5 gigawatts chacun.

22:53Et

22:55il y a aussi

22:57Microsoft qui rouvre

22:59Three Mile Island pour pouvoir

23:01mettre un data center à côté.

23:03Alors c'est symptomatique,

23:05si tu me permets Franck. En fait,

23:07ce que viennent dire Alban et Franck

23:09est vraiment au coeur

23:11du projet industriel, de la difficulté industrielle

23:13de cette industrie parce que

23:15il y a une bataille sur l'optimisation

23:17du modèle lui-même.

23:19C'est des maths,

23:21on a de plus en plus de performances,

23:23on va pousser, on va optimiser.

23:25Et c'est très agile cette bataille là.

23:27Et puis il y a celle du hardware, effectivement.

23:29Est-ce que le GPU est mieux que l'ASIC ?

23:33Derrière, il y a des industriels

23:35du data center, qui je rappelle

23:37n'est pas dans un nuage,

23:39ils doivent construire des bâtiments pour tout ça

23:41sur des cycles de 20 ans.

23:43Alors que les batailles de ces messieurs,

23:45c'est en semaines.

23:47Nous on construit pour 20 ans.

23:49Et on doit suivre.

23:51Alors pour les plus anciens d'entre vous,

23:53il fut un temps

23:55où c'était plus simple de

23:57suivre parce que, si tu te rappelles

23:59de TH1, c'était

24:010,5 kWh la baie.

24:03Attention,

24:05on pouvait monter jusqu'à 2 kWh la baie.

24:09Et c'était, entre 0,5 et 2,

24:11tu couvrais des usages incroyables.

24:132 kWh le rack, c'était incroyable.

24:15On avait un support caloporteur

24:17qui est toujours le même, c'est l'air.

24:19Et qui nous a suivi jusqu'à

24:2120 kW, Franck, à peu près ?

24:23Sur l'air, on peut aller jusqu'à

24:25presque 40 en étant des portes

24:27froides, mais le standard est autour

24:29des 20-25 kW en standard sur l'air.

24:31Super. Après on a d'autres problématiques,

24:33plutôt d'ordre électrique, il faut du

24:35triphasé, etc. Bon.

24:37Une forme d'agilité, jusqu'à ce que

24:39ce mur, parce que nous aussi on a un mur effectivement,

24:41des 40 kW le rack.

24:43Passé ce mur-là,

24:45l'équation industrielle devient

24:47quasi impossible à tenir.

24:49Moi, mon benchmark

24:51actuel pour suivre ce que doit

24:53faire Thaléhaus demain, en tout cas l'industrie

24:55de l'ascendeur demain, c'est effectivement méta. On peut leur

24:57reprocher beaucoup de choses, mais leur documentation

24:59est extraordinaire.

25:01J'y étais là avant de venir,

25:03la MA3,

25:05tu peux l'entraîner sur des clusters d'environ

25:0720 000 GPU.

25:09Si on arrondit un GPU NVIDIA

25:11à 1 kW,

25:13c'est 20 MW le cluster.

25:15Pour vous donner

25:17quelques ordres d'idées,

25:191 kW construit en

25:21CAPEX, c'est environ 20 000 euros.

25:23Hors de grandeur.

25:25Un cluster,

25:27juste un seul,

25:29de la MA3, qui n'est pas le modèle le plus

25:31compute consuming,

25:33on est déjà dans les milliards.

25:35Qui va mettre des milliards

25:37en risquant que demain

25:39l'ASIC va détrôner le GPU

25:41et il faut tout refaire ?

25:43Sachant qu'encore une fois, quand c'était l'air,

25:45c'était facile, parce que l'air est

25:47universel. Un hardware qui prend de l'air

25:49frais, c'est le même, on le change,

25:51on est passé à la pizza box,

25:53ça marche bien.

25:55Mais quand le support qu'a le porteur

25:57devient liquide, tout devient

25:59quasiment sur mesure,

26:01on change la structure.

26:03TH1, c'était 100 kg

26:05le mètre carré.

26:07TH3, c'est 3 tonnes le mètre carré.

26:09On parle de structure.

26:11On va refaire un bâtiment

26:13parce qu'il y a une bataille industrielle

26:15au-dessus sur le hardware qui change.

26:17On n'est pas sur le même cycle.

26:19Ça se grippe, si bien que

26:21les Américains ont une méthode

26:23qui marche,

26:25que tu as citée, ils disent en gros

26:27on y va comme des bourrins.

26:29On ouvre des centrales nucléaires,

26:31on achète du GPU,

26:33c'est pas grave, il n'est pas aussi efficace

26:35que d'autres technologies, mais c'est pas grave.

26:37On trust TSMC à Taïwan.

26:39Tout ce qui sort de TSMC

26:41on prend.

26:43On rouvre les centrales nucléaires

26:45et on y va, on déroule.

26:47Ça marche.

26:49Sauf que je ne sais pas si ça va tenir

26:51dans le temps. Moi je pense qu'on a une opportunité,

26:53nous français particulièrement,

26:55en Europe encore plus, mais surtout français,

26:57c'est qu'effectivement à un moment,

26:59s'il n'y a pas d'ASAM.dot,

27:01ça ne marche pas. L'AMA5,

27:03je voyais qu'il me parlait de

27:05plus de 100K GPU

27:07par cluster.

27:09100K GPU.

27:11Ça ne va pas tenir.

27:13Si nous, par contre, aux français, on se met à faire

27:15de l'optimisation sur contrainte sur cet exercice,

27:17là où on est excellent, on a toujours été excellent,

27:19je pense que là,

27:21avec des discussions comme celles qu'on a aujourd'hui,

27:23on va pouvoir trouver un modèle,

27:25nous, qui sera plus tenable,

27:27où il y aura une ASAM.dot qui va

27:29tous nous aider, nous, industriels, pour construire,

27:31mais pas qu'eux, parce qu'il y a

27:33l'acceptabilité sociale. Je peux vous dire que ça,

27:35c'est mon quotidien en ce moment.

27:37La société est en train de

27:39rentrer en conflit avec nous,

27:41gens de l'infrastructure, sur l'électricité,

27:43sur l'eau,

27:45sur le foncier,

27:47et on va aller leur dire, comme a fait

27:49Sam Altman, 15 gigawatts. Sur le CO2.

27:51CO2 aussi.

27:53Tu me permets, Philippe,

27:55d'ajouter quelque chose très rapidement,

27:57parce que je suis très bavard et on va dépasser le temps

27:59de parole.

28:01En complément de ce que dit Samy,

28:03il faut que vous ayez conscience qu'il y a aussi,

28:05on parlait du foncier, de vrais enjeux

28:07sur le footprint, sur les mètres carrés.

28:09Auparavant,

28:11grosso modo, vous aviez une salle

28:13informatique de 1000 mètres carrés,

28:15vous aviez besoin, plus ou moins,

28:17de l'équivalent à l'extérieur

28:19pour mettre les groupes électrogène,

28:21les groupes de production d'eau glacée,

28:23les systèmes de refroidissement, etc.

28:25La densité dans les salles

28:27ayant explosé,

28:29le ratio qui était de 1 pour 1

28:31est passé de 1 pour 4.

28:33C'est-à-dire qu'il va aussi

28:35falloir avoir

28:37de l'emprise foncière

28:39beaucoup plus importante

28:41liée à l'évolution,

28:43l'explosion de la densité dans les salles.

28:45Je voulais ajouter un point.

28:47C'est très intéressant,

28:49cette discussion,

28:51et elle illustre,

28:53à mon avis,

28:55un risque dans lequel

28:57beaucoup d'entreprises tombent.

28:59C'est-à-dire que

29:01le marketing

29:03OpenAI,

29:05le marketing NVIDIA,

29:07les âneries de la presse,

29:09etc.,

29:11amènent tout le monde à penser

29:13que pour utiliser

29:15un modèle d'IA dans son entreprise,

29:17disons qu'on est une entreprise du CAC 40,

29:19je ne vais pas en citer,

29:21je les aime toutes.

29:23C'est mes préférées.

29:25Une entreprise du CAC 40

29:27a envie de déployer de l'IA

29:29un beau chatbot bancaire

29:31ou un beau chatbot télécom,

29:33ou je ne sais pas, peu importe.

29:35Tout le monde,

29:37tout le marché,

29:39la perception générale du marché,

29:41c'est que vous devez acheter

29:43128 GPU NVIDIA,

29:49vous devez dépenser

29:51des dizaines de millions d'euros,

29:53sinon vous n'aurez rien.

29:55Pardon d'être grossier,

29:57mais c'est une énorme connerie.

29:59Parce qu'il y a deux batailles

30:01dans cette industrie.

30:03Il y a une bataille avec,

30:05j'avais envie de dire dix,

30:07mais je pense que c'est cinq,

30:09qui essaie de construire

30:11les meilleurs modèles, les plus gros modèles,

30:13et de les entraîner

30:15à partir de rien,

30:17de créer vraiment des nouveaux modèles.

30:19Anthropic, OpenAI,

30:21Mistral, il y en a quelques autres.

30:23Effectivement,

30:25ceux-là, oui,

30:27ils sont en train de se dire

30:29j'achète tout ce qui sort de chez NVIDIA,

30:31qui achète tout ce qui sort de chez TSMC,

30:33et Intel essaie de se sauver

30:35en se disant mais nous aussi on sait en faire.

30:37Et on arrive à la conclusion logique

30:39que tout le monde,

30:41certains voyaient venir

30:43il y a un an en se disant

30:45il faut investir sur l'uranium

30:47et les compagnies électriques.

30:49Microsoft, moi je vous l'annonce,

30:51et les autres, ils vont finir

30:53par construire des centrales nucléaires eux-mêmes.

30:55Sam Altman a investi

30:57dans une start-up qui fait

30:59des réacteurs nucléaires.

31:01Je vous laisse faire vos devoirs.

31:03Mais c'est la logique.

31:05Amazon, AWS, Azure,

31:07ces gens-là, ils vont avoir des datacenters

31:09et des centrales nucléaires à eux.

31:11C'est gagné ça.

31:13Donc il y a cette bataille-là.

31:15Mais qui dans cette salle a envie

31:17ou est même concerné par cette bataille-là ? Personne.

31:19Je vais même être provoquant.

31:21Il n'y a personne en Europe qui peut suivre.

31:23Je suis désolé, personne.

31:25On ne va pas rediscuter Cloud Sovereign

31:27parce que vous allez sortir le goudron et les plumes.

31:29Et puis étant donné mon passé

31:31à la judiciaire,

31:33personne ne peut suivre.

31:35C'est une illusion.

31:37Cette bataille-là,

31:39elle ne nous concerne pas.

31:41Elle concerne à la limite quelques acteurs en Chine,

31:43quelques acteurs aux US.

31:45C'est fini. Et puis les autres qui ont envie de jouer,

31:47de toute façon, ils jouent dans les clouds.

31:49Hugging Face, nous et d'autres,

31:51on joue dans les clouds aussi.

31:53Donc que faire ?

31:55Les gens ici se disent

31:57j'ai envie d'avoir un modèle

31:59pour faire de la maintenance prédictive,

32:01pour faire de la résolution d'incident,

32:03pour faire du support, etc.

32:05Mais vous n'allez certainement pas l'entraîner à partir de zéro.

32:07Vous allez prendre un de ces bons modèles.

32:09Et c'est pour ça que Hugging Face est devenu célèbre.

32:11Il y a un million de modèles différents sur Hugging Face maintenant.

32:13Comme sur GitHub, vous avez sans doute des millions de projets.

32:15Donc vous en trouvez un qui vous plaît bien,

32:17qui est proche de ce que vous voulez faire.

32:19Et puis vous l'entraînez juste un petit peu sur vos données.

32:21Nous, c'est ça qu'on fait.

32:23C'est ça que fait la communauté.

32:25C'est-à-dire qu'en quelques heures

32:27ou quelques dizaines d'heures GPU,

32:29vous allez avoir une dizaine de milliers de dollars

32:31au grand maximum.

32:33Vous adaptez

32:35votre modèle

32:37à vos données et à votre cas d'usage.

32:39Donc la charge et le coût

32:41d'entraînement est faible.

32:43Ce qui fait que

32:45dans la vie du projet,

32:47il va être complètement lissé.

32:49Ce qui nous ramène au sujet

32:51que l'on évoquait, c'est l'inférence.

32:53Une fois que votre modèle est en production

32:55et que vous le déployez pour

32:5710 000, 50 000, 100 000 utilisateurs,

32:59grand public, etc., c'est là

33:01qu'il faut être malin. Parce que si le modèle

33:03vous a coûté 50 000 dollars à construire

33:05et qu'ensuite il vous coûte 200 000 dollars

33:07par mois, vous ne gagnez pas d'argent.

33:09C'est pour ça que la clé

33:11du succès, ce qu'on voit chez nos clients, c'est

33:13travailler avec le plus petit modèle possible.

33:15Si vous pouvez utiliser un modèle de 8 milliards, allez-y.

33:17Il y a des techniques

33:19pour le réduire encore plus.

33:21Je ne vais pas rentrer dans les détails, mais la quantisation

33:23qui permet de réduire

33:25la taille du modèle x2, x4, etc.,

33:27il y a des accélérateurs.

33:29Si tous les clouds

33:31aujourd'hui font leurs propres accélérateurs

33:33hardware, il y a une raison.

33:35Et nous, on arrive même au point

33:37où on les fait tourner sur CPU.

33:39En particulier

33:41les CPU ARM,

33:43dont je suis très fan.

33:45Et ça tombe bien parce que

33:47on en voit beaucoup.

33:49Donc, il ne faut

33:51vraiment pas se tromper de débat.

33:53Le débat de 99,99%

33:55des utilisateurs

33:57des entreprises,

33:59ce n'est pas tellement l'entraînement

34:01ou le complément d'entraînement,

34:03c'est l'inférence, le déploiement

34:05à l'échelle et l'écrasement des coûts.

34:07Et c'est

34:09ça qui est aussi important

34:11dans les data centers. J'entends bien

34:13que l'industrie data center essaye de capturer

34:15la charge d'entraînement parce que

34:17là, pour le coup, ça peut être des

34:19très gros budgets.

34:21Je suis un peu sceptique.

34:23Par contre, la charge d'inférence

34:25et la charge at the edge,

34:27c'est celle-là qui est intéressante.

34:29Et c'est celle-là

34:31où la combinaison des petits

34:33modèles, des techniques

34:35quantisation, etc.

34:37et de petits accélérateurs

34:39ASIC ou autres, voire même CPU

34:41avec un tout petit peu de hardware dessus

34:43pour l'IA, c'est vraiment

34:45la combinaison gagnante. Nous, c'est ce qu'on voit

34:47et vraiment, j'encourage tout le monde

34:49à bien réfléchir à ces choix techniques

34:51parce que là, le rapport, il n'est effectivement

34:53pas x2, il est x10,

34:55x20, x50.

34:57On n'a pas le temps de faire des démos, mais je pourrais vous montrer des trucs

34:59qui vous feraient tomber les cheveux,

35:01les dents et le reste.

35:03Pour les CPU,

35:05on a eu

35:07à une

35:09FRNC

35:1139 ou 38,

35:13on avait eu Cyperl, ça devait être

35:15la dernière,

35:17et en fait, qui fait exactement ça,

35:19c'est-à-dire des cœurs à armes avec de la HBM

35:21juste à côté pour pouvoir faire

35:23effectivement le futur du run

35:25sur l'inférence uniquement.

35:27Est-ce que

35:29quelqu'un a quelque chose à rajouter sur ce sujet

35:31avant qu'on passe sur la souveraineté ?

35:33Du coup, moi je vais parler un peu

35:35d'NVIDIA, à contraire de la partie

35:37ASICS.

35:39NVIDIA, ce n'est pas uniquement les hardware, c'est aussi

35:41une grosse partie software, c'est

35:43CUDA. CUDA,

35:45c'est un moteur chez Hugging Face qui a passé

35:47le million de modèles hébergés

35:49chez eux. C'est à peu près

35:5190%, peut-être voire plus,

35:53des modèles qui sont basés sur CUDA. Si vous allez

35:55sur les GitHub de chacun de vos modèles,

35:57vous allez voir une ligne de code

35:59qui met du CUDA. Et peut-être

36:01qu'un jour, le ASICS pourra

36:03prendre le pas s'ils arrivent à intégrer,

36:05parce que par exemple, 70, 80%

36:07actuellement du marché est trusté

36:09par NVIDIA, et AMD

36:11doit éduquer ses clients

36:13parce qu'ils arrivent à prendre en charge du TensorFlow,

36:15du CUDA, etc. sur

36:17leur machine. Et c'est ça qui fera

36:19faire la transition vers du ASICS,

36:21vers du LPU,

36:23donc du LLM Processing Unit,

36:25etc. pour optimiser pour l'inférence notamment.

36:27Sachant que la problématique sur CUDA,

36:29c'est notamment que ce n'est pas très open source.

36:31Malheureusement.

36:3710 secondes, je vais faire court.

36:39Alors,

36:41avec tout le respect, je ne suis pas tout à fait d'accord.

36:45J'entends

36:47beaucoup de gens d'NVIDIA dire ça,

36:49et je comprends très bien pourquoi ils disent ça.

36:51Alors, je fais une différence entre CUDA,

36:53on va dire le driver du GPU,

36:55pour ceux qui...

36:57C'est vraiment ce que c'est.

36:59Et puis après, les stack software de NVIDIA,

37:01où NVIDIA peut avoir une offre, on va dire, pour le

37:03high performance computing,

37:05la simulation nucléaire, où là, ok,

37:07ils ont une stack software,

37:09elle n'est pas, elle est sûrement très bien,

37:11et un client qui utilise ça, il est bien loqué à vie sur ce truc-là.

37:13Donc ça, c'est bien.

37:15Comme ça doit l'être, on va dire.

37:17NVIDIA a bien réussi ça.

37:19Sur CUDA,

37:21alors, on va reconnaître à CUDA

37:23le fait d'exister depuis

37:252007-2008.

37:27Une maturité, une stabilité,

37:29un niveau d'optimisation élevé.

37:31Maintenant,

37:33moi je suis dans le deep learning depuis

37:352015.

37:37Vraiment,

37:39sans mentir, j'ai jamais croisé

37:41un développeur qui développait

37:43du deep learning sur CUDA. Zéro.

37:45Tout le monde

37:47utilise Dupiton,

37:49sur TensorFlow, sur PyTorch,

37:51et quelques autres librairies.

37:53On va dire essentiellement PyTorch aujourd'hui.

37:55Et pour parler d'AMD, parce que moi j'ai

37:57beaucoup travaillé avec AMD quand j'étais chez Hugging Face.

37:59Donc AMD

38:01a un SDK équivalent

38:03à CUDA, qui s'appelle RockM,

38:05dont on peut dire

38:07qu'il est sans doute pas aussi mûr

38:09et pas aussi optimisé que CUDA, parce que

38:11lui a 2 ans ou 3 ans, en tout cas pour la partie

38:13deep learning, là où NVIDIA

38:15a au moins 10 ans.

38:17Néanmoins,

38:19en termes de bascule,

38:21en termes de migration, il y a

38:23zéro effort à faire. C'est-à-dire que vous

38:25prenez un modèle PyTorch

38:27qui a été entraîné sur

38:29NVIDIA.

38:31Vous le chargez

38:33sur un GPU AMD

38:37ou autre d'ailleurs

38:39avec PyTorch.

38:41Il n'y a pas à le réentraîner, il n'y a pas

38:43à modifier le code, etc. C'est-à-dire que les

38:45librairies de deep learning aujourd'hui, c'est une couche d'abstraction

38:47complète du hardware.

38:49Et c'est comme ça que ça doit être.

38:51Donc, autant j'entends,

38:53et ça j'accepte complètement le fait

38:55de se dire, les perfs

38:57peuvent être un petit peu supérieurs

38:59sur

39:01CUDA et sur NVIDIA parce qu'effectivement

39:03il y a une base installée, il y a un historique.

39:05Voilà, très bien, une communauté.

39:07Et AMD mettra un petit peu de temps

39:09à arriver là, tout comme d'autres accélérateurs.

39:11Les accélérateurs d'AWS, les accélérateurs

39:13d'autres cloud

39:15mettent aussi un petit peu de temps à arriver.

39:17Autant sur l'expérience de développement,

39:19aujourd'hui, il n'y a pas une grosse différence.

39:21Donc, le discours

39:23d'NVIDIA que j'entends parfois qui est

39:25« Ah mais non, mais si vous changez de GPU

39:27ou vous changez de plateforme hardware, il faut tout refaire. »

39:29C'est vraiment du gros bullshit

39:31digne de Steve Ballmer à la grande époque.

39:33De toute façon,

39:35les plateformes ne peuvent pas changer de GPU comme ça.

39:37Il me semble avoir entendu parler

39:39de contrats à NVIDIA

39:41d'engagement exclusif

39:43sur des durées assez longues.

39:45No comment.

39:49Donc, la question suivante,

39:51sans transition,

39:53c'est sur la souveraineté.

39:55Souveraineté des IA.

39:57Est-ce que

39:59le sujet

40:01de la souveraineté des IA

40:03n'est pas le même

40:05que le sujet

40:07de la souveraineté des données ?

40:11A vous les studios.

40:13Évidemment qu'il y a

40:15un tronc commun puisque

40:17in fine, c'est quand même de la donnée dont on parle.

40:19Il y a le facteur

40:21multiplicatif qui est énorme sur l'IA

40:23pour toutes les raisons dont on parle.

40:25Les milliards d'informations.

40:27Et la manière aussi

40:29dont on doit échanger, partager

40:31des informations propres

40:33à chaque entreprise, à chaque métier

40:35pour pouvoir entraîner

40:37le modèle.

40:39Et donc, je pense

40:41que le problème de souveraineté,

40:43on ne le traitera peut-être pas en France

40:45parce qu'aujourd'hui, on en parle beaucoup

40:47et c'est ceux qui en parlent le plus qui en font le moins

40:49et on en fait partie.

40:51Néanmoins,

40:53il se pose sur la table

40:55encore plus qu'avant.

40:57Je complèterai

40:59juste effectivement sur

41:01le débat de la souveraineté.

41:03On en parle souvent

41:05côté données.

41:07Je pense qu'il est également sur la

41:09supply chain.

41:11Exemple.

41:13Il fut un temps, quand on commandait

41:15un groupe électrogène pour construire un datacenter,

41:17c'était 12 semaines.

41:1913 semaines. Allez, 18 semaines.

41:21C'est du standard.

41:23Les collères, les SDMO, etc.

41:25Aujourd'hui, en France,

41:27pour avoir un groupe électrogène,

41:29on me dit

41:3180 semaines.

41:33Alors, je dis déjà, pourquoi vous parlez en semaines, en fait ?

41:35Non mais,

41:37en fait, pourquoi ils disent semaines ?

41:39Pourquoi ils ne parlent plus en années ?

41:41Et quand on creuse,

41:43ils nous disent, nos factories

41:45sont saturées, c'est du DDoS,

41:47par

41:49des commandes US.

41:51Et donc,

41:53le time to market d'un datacenter

41:55en Europe, aujourd'hui, est retardé

41:57de plusieurs dizaines de semaines,

41:59je vais parler comme eux, pour ne pas parler en années,

42:01à cause de ça.

42:03Je prends le GE comme exemple, il y en a d'autres.

42:05Et donc,

42:07NIS2, maintenant, commence à s'en tenir

42:09un petit peu, cette histoire de supply chain.

42:11NIS2 essaye d'identifier quelles sont les

42:13boucles de supply chain qui permettent de tenir

42:15aussi une certaine

42:17souveraineté

42:19sur une industrie aussi importante.

42:21Mais, plus le time to market

42:23est poussé loin,

42:25c'est-à-dire, plus on a une faible capacité

42:27à mettre un datacenter

42:29en Europe,

42:31à faire tourner du matériel, éventuellement

42:33européen, dessus, ou au moins

42:35avoir une emprise juridique dessus,

42:37plus, effectivement, on aura déjà

42:39entraîné nos modèles, on aura déjà envoyé

42:41nos données ailleurs,

42:43et l'effet locking, il va

42:45se verrouiller derrière

42:47l'ensemble de l'Europe.

42:49Donc, attention au débat de la

42:51souveraineté qui est très juridique,

42:53est-ce que ma donnée

42:55m'appartient ou pas, qui est très respectable,

42:57très important, mais je vous assure

42:59qu'il y a une guerre de la supply chain. Moi, ça me rappelle

43:01les masques en temps de

43:03Covid. On hijack

43:05les GPU, on hijack

43:07les

43:09groupes électrogènes, je ne sais pas comment

43:11ils font ça, mais aujourd'hui, c'est ça qui se passe.

43:13Alban, peut-être ?

43:15Oui, je pense, pour compléter,

43:17en effet, autant parler de supply chain directement,

43:19la vraie question, c'est quand est-ce qu'on

43:21se débarrasse d'NVIDIA, puisque c'est

43:23Jensen lui-même qui décide

43:25qui a le droit. On peut le dire, même

43:27Scalway se bat parce qu'on fait

43:29des commandes, et puis d'un coup, on lui dit, ah,

43:31Jensen a préféré un autre.

43:33Je ne fais pas de commentaires sur

43:35NVIDIA, parce que j'ai déjà suffisamment

43:37mais, oui, oui,

43:39je peux parler d'autres sociétés

43:41très, très, très connues

43:43où les arbitrages de livraison de serveurs

43:45sont faits par le CEO.

43:47C'est 8

43:49chez lui, 4 chez lui,

43:51c'est comme ça que ça se passe.

43:53Généralement, ils sont tous américains.

43:55Supermicro fait ça, mais en ce moment, ils ne vont pas très bien,

43:57donc ce n'est pas une bonne idée. Mais en tout cas,

43:59oui, il y a un vrai sujet de supply chain, mais

44:01ensuite, c'est aussi là où il faut revenir

44:03sur ce que vous disiez à propos d'open source,

44:05c'est que c'est le seul moyen de s'en sortir,

44:07parce qu'en fait, quelque part, les gros sont

44:09déjà ailleurs qu'en France, Mistral est plus open

44:11source et cherche à se vendre aux américains,

44:13à la limite, on a Qtie, vous n'en parlez pas, je suis déçu,

44:15je parle de ma paroisse un peu, il y a Qtie

44:17qui se défend, mais en effet, il n'y a que l'open

44:19source qui nous permettra de nous en sortir, puisque la bataille

44:21est déjà perdue du fait que les américains

44:23investissent en avance, et donc, ils ont la capacité

44:25en avance, alors que nous, on n'investit que quand on a une idée,

44:27et donc, on a les délais de supply chain derrière.

44:29L'analogie des masques est excellente.

44:31D'ailleurs, c'est marrant, j'y pensais.

44:33Je pensais à ça quand tu parlais,

44:35et c'est exactement ça.

44:37Je travaille, j'ai beaucoup

44:39travaillé pour des boîtes américaines, j'y vais souvent,

44:41et il ne faut jamais sous-estimer

44:43le America First, jamais.

44:45C'est-à-dire que les américains

44:47travailleront toujours avec les américains.

44:49Les gens qui pensent que Intel

44:51va couler, se trompent

44:53à un point.

44:55Moi, je n'ai pas de conseils boursiers à vous donner, mais...

44:57Pardon, Philippe, excuse-moi, c'est un mauvais jeu de mots.

44:59Je ne l'ai pas fait exprès.

45:01Je ne l'ai pas fait exprès.

45:03Intel ne coulera pas. Intel est stratégique

45:05pour les américains à un point que vous n'imaginez pas.

45:07TSMC, OK, mais TSMC

45:09est à côté d'un autre pays qui aimerait bien l'envahir.

45:11Donc, c'est compliqué.

45:13Tu shorterais Nvidia, par contre ?

45:17Oui, peut-être.

45:19On va dire comme ça. Je n'ai pas investi dans Nvidia.

45:21J'ai investi dans les autres.

45:23Mais peu importe.

45:25Cette espèce

45:27de conglomérat

45:29ou d'alliance, on va dire,

45:31OpenAI,

45:33OpenAI,

45:35Nvidia, AMD,

45:37Microsoft,

45:39Amazon, Google,

45:41plus l'argent

45:43de la Silicon Valley.

45:45Je suis désolé,

45:47parce que je suis français. Jusqu'à preuve du contraire,

45:49j'habite ici et je travaille ici.

45:51Des fois, ça me fait râler, mais c'est game over.

45:53Le problème de...

45:55Mistral a été hyper malin

45:57en se disant qu'on est français.

45:59Vous avez regardé la liste de leurs investisseurs ?

46:03Bien joué, bravo.

46:05Mais non,

46:07fondamentalement, vous n'êtes pas une boîte française.

46:09C'est un peu le

46:11next Dailymotion en même temps.

46:13Je leur souhaite

46:15de réussir, parce qu'ils sont brillants.

46:17Il ne faut jamais souhaiter

46:19du malheur

46:21à des startups.

46:23Les autres, on peut discuter.

46:25Le problème,

46:27c'est aujourd'hui,

46:29on a tous une super idée

46:31autour d'un verre ce soir,

46:33on veut créer une boîte pour entraîner

46:35un super modèle qui va révolutionner

46:37l'industrie des telcos,

46:39etc.

46:41Le ticket d'entrée,

46:43si vous n'avez pas 100 millions

46:45le premier jour, il n'y a même pas de discussion.

46:47D'accord ? C'est 100 millions

46:49même pour commencer.

46:51Quels investisseurs

46:53en France, j'en parle même pas,

46:55et même en Europe, sont capables

46:57sur une série A d'aligner

46:59100 millions comme ça sans discuter ? Personne.

47:01Personne. D'accord ?

47:03Et ce n'est sûrement pas les gouvernements

47:05et tout ça qui vont le faire.

47:07Quand vous regardez les levées de fonds aux US,

47:09on n'est même plus à 100, on est à 200, 300, 500.

47:11C'est de la folie.

47:13Pourquoi ? Parce que cet argent, il tourne là-bas.

47:15C'est l'argent des VCs

47:17qui va aller chez AMD,

47:19Nvidia, Amazon, Google,

47:21dans lesquels les VCs ont aussi investi.

47:23Cet argent-là, il reste en secure fermée.

47:25Tout le monde en profite.

47:27Leur économie se débrouille plutôt bien.

47:29Donc ils peuvent investir

47:31des sommes démentes parce qu'ils savent que de toute façon,

47:33ça circule dans les mêmes canaux.

47:35Bravo à eux !

47:37Essayer de lutter là-dessus,

47:39c'est compliqué.

47:41Alban, peut-être ?

47:43Rapidement.

47:45J'allais juste dire que j'étais d'accord

47:47sur le principe des fonds.

47:49Je parlais de QTAI tout à l'heure.

47:51On a deux Français,

47:53mais on est quand même allés chercher Eric Schmidt

47:55pour arriver à rassembler les 300 millions d'euros.

47:57Et on est ravis qu'Eric Schmidt,

47:59après sa carrière, ait investi dans QTAI.

48:01Alors,

48:03il reste deux questions.

48:05La dernière, on ira très vite.

48:07Le poids CO2 des IA ?

48:09Oui.

48:15Dans la question qu'il y avait,

48:17je vais aller jusqu'au bout de ta question.

48:19Le poids CO2 par rapport à l'entraînement,

48:21ça dépend, on va le faire.

48:23Pour l'instant,

48:25moi, personnellement, j'ai du mal à y croire

48:27parce qu'on fait des très beaux modèles,

48:29mais il y a très peu d'applicatifs concrets,

48:31hormis les chatbots, comme tu dis,

48:33dans le CAC 40.

48:35Arrivé à savoir quand est-ce qu'on va rentabiliser

48:37des dépenses de CO2

48:39qui sont monstrueuses,

48:41la seule bonne nouvelle,

48:43c'est que les seuls qui ont encore de la capacité électrique,

48:45j'exagère un peu, c'est les Nordics,

48:47et qu'ils ont une énergie renouvelable,

48:49donc à la limite, plus ça va, plus l'entraînement passe au Nord,

48:51donc il n'y a de moins en moins que de CO2 consommé,

48:53c'est déjà ça.

48:55Pour nous, c'est un peu trop tard

48:57pour ouvrir Face Alarm.

48:59On va mettre un petit bémol quand même.

49:01Il y a des acteurs comme

49:03Eclairion qui ouvrent

49:05des centres d'hébergement dédiés

49:07aux machines d'IA,

49:09avec évidemment

49:11la puissance électrique disponible,

49:13je ne peux pas m'étendre là,

49:15il y a plusieurs idées un peu

49:17novatrices. Ce qui est très important

49:19de souligner quand on parle du poids du CO2,

49:21c'est qu'on ne va pas rentrer dans les scopes

49:231, 2 et 3 de l'analyse

49:25de cycle de vie sur l'empreinte

49:27carbone du numérique

49:29en particulier, mais ça s'applique

49:31à plein d'autres industries.

49:33Ce qu'il faut simplement noter,

49:35on a beaucoup parlé des Américains,

49:37je vais enfoncer un peu le clou,

49:39il y a une institution qui s'appelle

49:41l'Uptime Institute qui a défini depuis

49:43plusieurs années maintenant des standards

49:45de conception permettant d'assurer

49:47la disponibilité

49:49des installations, des systèmes

49:51d'information. Et bien sûr,

49:53on essaye toujours de

49:55rester dans sa zone de confort et de ramener

49:57les éléments dans les cas

49:59que l'on connaît bien. Et aujourd'hui,

50:01nous, on doit

50:03faire preuve de beaucoup de pédagogie parce que

50:05tous les gens avec qui nous discutons

50:07ont envie de déployer

50:09leur grille d'IA sur les standards

50:11actuels, qu'on appelle tier 1, tier 2, tier 3,

50:13tier 4, je vous passe les détails techniques.

50:15Bref, c'est de multiplier

50:17les équipements techniques,

50:19on parlait des groupes électrogènes,

50:21on pourrait parler des batteries,

50:23des onduleurs, des alimentations sans

50:25interruption, on pourrait parler de tout

50:27un tas d'autres dispositifs qu'il faut

50:29mettre en double, en triple

50:31parce que la contrainte, c'est

50:33d'éviter

50:35la rupture de service et donc d'assurer

50:37la disponibilité. Dans

50:39les modèles, les cas d'usage

50:41qui nous préoccupent ici, les cartes

50:43sont redistribuées. Il faut arrêter

50:45de penser dans l'ancien temps

50:47avec des systèmes qui adressent

50:49des nouveaux usages, avec des nouveaux acteurs.

50:51Les acteurs dont on parle là,

50:53ils sont plus jeunes que moi,

50:55je rencontre beaucoup

50:57aujourd'hui, ils ont 27, 30, 35

50:59ans, ils brassent des centaines de millions,

51:01parfois des milliards d'euros et

51:03leurs usages

51:05n'ont pas de sens à

51:07répliquer ce qui a été fait depuis 10, 20,

51:0930, 40 ans dans les datacenters,

51:11d'aller doubler les lignes d'alimentation,

51:13d'aller mettre pléthore de groupes

51:15électrogènes avec du fuel

51:17qui est stocké et qui pourrit dans les cuves

51:19parce qu'on ne les fait tourner que

51:214 heures par mois.

51:23Tout ça, il faut le rebalayer

51:25et repenser autrement

51:27les infrastructures techniques,

51:29notamment de l'électricité et du refroidissement

51:31au regard des

51:33usages tels qu'ils sont aujourd'hui.

51:35Il y a des enjeux, il y a des nouveaux

51:37acteurs, vous parliez de centrales

51:39nucléaires, il y a aussi des choses à faire en France,

51:41pas de construire les centrales parce qu'on en a beaucoup,

51:43mais d'exploiter celles qui existent.

51:45Il y a aussi pour l'empreinte carbone

51:47toute une industrie

51:49qui va se déployer, qui est

51:51liée au biogaz, donc c'est du gaz

51:53qui est issu

51:55de systèmes qui permettent de le produire

51:57en local et qui n'est pas du gaz fossile,

51:59de la biométhanisation

52:01et ces systèmes-là vont devoir

52:03se déployer, ça nous évitera d'acheter du gaz

52:05dans des pays qui ne sont pas forcément

52:07nos amis ou alliés avec nous

52:09et ça nous permettra surtout de

52:11décarboner l'industrie du numérique.

52:13Sur l'histoire du poids CO2, moi j'ai

52:15souvent tendance à dire

52:17on nous parle beaucoup de l'impact CO2

52:19en négatif et

52:21qui chiffre aujourd'hui l'impact positif du numérique

52:23en poids CO2

52:25évité ?

52:27C'est ça, l'ADEME, ils sont occupés

52:29à compter les éponges, mais

52:31réellement

52:33le poids positif, par exemple

52:35de la télé

52:37consultation, de la visio

52:39conférence, c'est des choses

52:41réelles sur lesquelles

52:43malheureusement

52:45nos politiques ne s'attardent pas beaucoup

52:47et sont beaucoup plus attachés à

52:49essayer de taper sur le numérique, sur les infrastructures

52:51le data center

52:53il fait du bruit, il pollue, etc.

52:55Rien du tout, en France

52:57l'énergie elle est propre.

52:59Mais dans ton sens, il y a un lien

53:01hypertexte dans tout ça

53:03c'est que l'IA va servir à décarboner

53:05aussi le numérique dans un circuit fermé

53:07on va pouvoir faire travailler des modèles

53:09qui vont pouvoir, plus

53:11industriels que génératifs, mais qui vont pouvoir

53:13assister

53:15les conceptions

53:17pour réduire l'emploi de carbone de l'ensemble

53:19des chaînes et également dans la supply chain.

53:21Très peu de choses à rajouter

53:23sur ce que vous venez de dire, juste un point

53:25il me semble que cette histoire de CO2

53:27est une opportunité pour la France

53:29en particulier. C'est à dire

53:31qu'on va pouvoir vendre des tokens

53:33en coût CO2, je pense, les plus

53:35compétitifs au monde. Ici

53:37en France. En plus

53:39parce qu'Alban a raison, je pense

53:41qu'effectivement le Nord va être

53:43très spécialisé en

53:45entraînement et nous on sera très

53:47inférence. Et on a une

53:49opportunité supplémentaire sur l'inférence

53:51c'est qu'on a un positionnement géographique

53:53imbattable. On a une dorsale

53:55qui fait hémisphère sud, hémisphère nord

53:57Paris-Francfort,

53:59Paris-Londres, Paris-Amsterdam

54:0110 millisecondes, Paris-Marseille

54:039 millisecondes et puis de Marseille

54:05tu fais la périphérique autour de l'Afrique

54:07et je parle même pas du

54:09Marseille-Singapour.

54:11Et donc, point

54:13CO2 extraordinaire, positionnement

54:15géographique extraordinaire,

54:17on a en fait les cartes pour

54:19avoir un outil industriel extraordinaire.

54:21Il faut faire attention sur ce que tu dis, c'est à dire que

54:23ceux qui nous culpabilisent sur le CO2

54:25sont en train de nous désarmer

54:27industriellement. C'est une catastrophe.

54:31Un dernier

54:33petite

54:35question, vraiment

54:37on est plus en mode troll mais on a

54:39dépassé de 4 minutes donc

54:41un avis sur la législation européenne

54:43en matière d'IA.

54:45Allez Julien.

54:47Alors je tenais

54:49à remercier Thierry Breton pour l'ensemble de son oeuvre.

54:51Et on lui souhaite

54:53une longue retraite.

54:57Longue et paisible retraite

54:59à l'écart de tout pouvoir de décision.

55:01Je sais pas s'il y a d'anciens

55:03atos dans la salle.

55:05Salut à vous.

55:07Alors

55:09je garde le troll pour la fin

55:11mais mon avis professionnel

55:13non j'ai commencé en fait.

55:15Je pense que la conséquence

55:17directe de cette régulation

55:19c'est que

55:21c'est public, c'est que

55:23OpenAI et me semble-t-il

55:25Meta

55:27et peut-être Apple

55:29mais je suis pas 100% sûr, ont

55:31déjà annoncé qu'ils ne

55:33déploieraient pas pour des utilisateurs européens

55:35leurs modèles les plus avancés.

55:37Pourquoi ? Parce que ces modèles là

55:39sont considérés par

55:41l'AI Act européen

55:43comme des modèles systémiques

55:45etc.

55:47Donc ils sont soumis à un ensemble

55:49de régulations supplémentaires dont on pourrait

55:51débattre ad nauseum de est-ce que ça a du sens

55:53est-ce que ça a pas de sens.

55:55Eux ont décidé que

55:57ils en avaient rien à carrer

55:59que c'était du travail en plus

56:01pour satisfaire des grades papiers

56:03obscurs

56:05à Bruxelles et ailleurs

56:07et qu'ils le feraient pas.

56:09Et que si l'Europe avait envie de retourner

56:11dans un Moyen-Âge technologique

56:13ça la regardait et que

56:15c'est pas grave, c'est jamais que quelques centaines

56:17de millions d'habitants

56:19c'est pas énorme pour eux, ils peuvent vivre sans.

56:21Et vraiment c'est ça la conséquence directe.

56:23Donc ce que ça veut dire pour les entreprises

56:25bon ça c'est l'aspect philosophique énervant

56:27mais l'aspect business concret, c'est-à-dire si vous êtes

56:29une entreprise française ou européenne aujourd'hui

56:31et que cette hannerie là

56:33se prolonge, vous allez

56:35être limité à l'utilisation de

56:37modèles qui rentrent dans les clous

56:39de l'AI Act quand vos concurrents

56:41singapouriens, brésiliens

56:43et sans parler des américains

56:45eux seront full patate

56:47sur le dernier modèle qui est sorti hier

56:49et que ça finira

56:51par se voir. Là on parlait de supply chain

56:53il y a aussi une supply chain modèle

56:55et là à cause de la régulation

56:57elle est fermée.

56:59Donc juste comme d'habitude

57:01l'Europe commence par

57:03réglementer avant même d'avoir bâti

57:05moi je pense qu'avec tout l'argent

57:07qui a été dépensé pour écrire

57:09ces documents

57:11et pondre une énième

57:13norme, il y avait de quoi faire un beau

57:15projet européen avec les meilleurs

57:17équipes, les meilleurs labos et qu'on aurait

57:19certainement pu passer notre temps, notre

57:21argent et notre énergie à construire

57:23quelque chose de compétitif plutôt qu'à

57:25essayer de réglementer ce que les autres ont fait.

57:27Une fois de plus c'est assez lamentable

57:29et je suis

57:31pas très optimiste

57:33pour la suite.

57:35Et d'ailleurs moi je mettrais un certain

57:37lien entre justement

57:39toute la réglementation

57:41politique sur la CO2

57:43et sur l'IA

57:45ça part un peu

57:47du même philosophie

57:49qui est quand même

57:51le numérique c'est les vilains

57:53etc. et on va taper dessus tant qu'on peut.

57:55Concrètement il y a un peu

57:57quand même cette philosophie

57:59là chez nos politiques

58:01et contre quoi il faut

58:03qu'on soit tous

58:05je dirais communément

58:07amenés à se battre

58:09et ça serait un peu ça

58:11le mot de conclusion sauf si

58:13quelqu'un en a un meilleur.

58:15Par contre on a beaucoup râlé.

58:17Oui on a beaucoup râlé.

58:19Je pense que

58:21bon

58:23en vrai on n'a pas le temps pour des

58:25questions donc je pense que

58:27c'est l'heure de la pause

58:29et donc on se revoit d'ici

58:3130 minutes. Merci

58:33au panel.

FRnOG 40 - Table-Ronde: Défis et Enjeux de l'IA (Infrastructure, Puissance, Souveraineté et Antitrust dans l'Ère des LLMs)

Catégorie

Transcription

Recommandations