• l’année dernière
FRnOG 40 - Table-Ronde: Défis et Enjeux de l'IA (Infrastructure, Puissance, Souveraineté et Antitrust dans l'Ère des LLMs)
avec Julien Simon (Arcee AI), Julien Gauthier (Arkane Cloud), Franck Volko (Eclairion), Albane Bruyas (Scaleway), Sami Slim (Telehouse) et Khaled Maalej (VSora) - animée par Philippe Bourcier (FRnOG)
Transcription
00:00Donc on va déjà commencer par remercier les membres du comité de programme qui m'aident à trouver tous ces valeureux et sympathiques speakers du panel.
00:15Donc il y a Raphaël Monnier, François Rousseau, Samy qui est là et Vincent Jardin qui font partie du comité de programme.
00:26Quand vous avez des idées de talk aussi, n'hésitez pas à les solliciter. Et puis aussi merci à Nicolas Fontès qui m'a aidé pour cette table ronde.
00:39Ensuite, on va commencer par un petit tour de table. Chacun va pouvoir prendre le micro le plus proche de lui et se présenter. Allez-y, bonheur aux dames.
00:51C'est bon, c'est bon. Donc bonjour à tous, Albane Bruyas, je suis COO de Scaleway depuis 5 ans maintenant, en charge de toute la partie hardware, du cycle de vie hardware, des datacenters et du customer care.
01:05Et Scaleway, pour ceux qui ne connaîtraient pas par pur hasard, est donc la filiale cloud du groupe Iliad.
01:10Bonjour à tous, je suis Franck Volko, directeur général d'Eclairion. Nous sommes une usine d'habergement de supercalculateurs.
01:24Nous fournissons toutes les facilities, space power cooling, pour permettre aux machines d'IA de tourner dans les meilleures conditions.
01:34Bonjour à tous, Khaled Malej de la société Vésorage. Je suis cofondateur et CEO de la société. On est une société fablesse semi-conducteur.
01:44On développe des puces à très forte capacité de calcul pour répondre à la problématique du déploiement aujourd'hui du generative AI.
01:53Bonjour, Samy Slim, directeur général de Telehouse, opérateur de datacenters en colocation. Je suis chez Telehouse depuis 20 ans maintenant.
02:09Bonjour, Julien Simon, je suis chief evangelist chez Arcee. Arcee, c'est une startup américaine qui est un des champions des small language models.
02:20Avant ça, j'ai fait 2-3 trucs. J'ai passé 3 ans chez Hugging Face, 6 ans chez AWS. Je crois bien que dans une autre vie, on a fait Criteo tous les deux.
02:32Bonjour à tous, Julien Gauthier, fondateur et CEO de Arcane Cloud. On est GPU cloud provider et on est spécialiste dans le déploiement de modèles IA pour toutes les entreprises.
02:43Comme la table ronde porte sur ce sujet IA, peut-être qu'on avait prévu une petite introduction sur l'IA, les LLM. Julien, si tu veux t'y coller.
02:55Avec plaisir. Il ne vous aura pas échappé que depuis 2 ans, 2 ans et demi, l'IA est enfin devenu un outil qui est à la fois accessible et compréhensible par le plus grand nombre en entreprise.
03:15L'IA et le machine learning en général sont un peu sortis du ghetto dans lequel ils vivaient depuis longtemps.
03:21Et maintenant, on a des responsables marketing et des RH qui peuvent utiliser les modèles pour accomplir des tâches au quotidien.
03:31Donc bravo à OpenAI pour avoir lancé ces modèles avec le niveau de qualité auquel ils ont lancé.
03:38Néanmoins, si on saute 2-3 épisodes dans la saison, on se rend compte que les modèles d'OpenAI et de manière générale les modèles fermés,
03:52donc les modèles dont l'architecture n'est pas publiée, dont les poids, les paramètres ne sont pas publiés, donc OpenAI, Anthropic et quelques autres,
04:03ont des qualités mais ont aussi des défauts. Et en particulier, on peut en citer 3.
04:12Alors le premier, je l'ai déjà cité, c'est l'opacité. Donc ces modèles-là, on ne sait pas ce que c'est.
04:19Officiellement, on ne sait pas ce qu'est GPT-4, on ne sait pas ce qu'est Cloud 3.5.
04:24Alors, ils ont des bons résultats, oui. Sur quoi ils ont été entraînés, on ne sait pas.
04:29Quelle est l'architecture du réseau de neurones ou des réseaux de neurones qui les font fonctionner, on ne sait pas.
04:34Qu'est-ce qui se passe avec les données que vous leur envoyez ?
04:39Alors si vous êtes un optimiste, vous allez dire, il y a une privacy policy, donc tout va bien.
04:43Et puis on voit que LinkedIn, subrepticement aux US, alors ça ne nous concerne pas encore, je crois, en Europe.
04:51Mais aux US, subrepticement, change ces conditions pour pouvoir entraîner des modèles sur vos données, etc.
04:59LinkedIn faisant partie d'un certain groupe avec lequel j'ai d'immenses affinités,
05:04et qui lui-même aurait des relations avec OpenAI, m'a-t-on dit.
05:08Donc il y a ce premier problème, qui n'est pas très clair, alors qui est embêtant d'un point de vue philosophique,
05:12mais qui est embêtant pour les entreprises. Parce que si vous êtes une grande banque,
05:15si vous êtes un hôpital, si vous êtes un service public, etc.
05:20Vous tenez globalement la confidentialité de vos données et des données des utilisateurs
05:25qui vont utiliser vos applications et votre IR. Bon, premier point.
05:29Le deuxième point, qui est au moins aussi gênant, c'est que ces modèles-là sont très difficiles à adapter à votre domaine.
05:37Alors je vais prendre des exemples telco, puisqu'a priori on a le bon public pour ça.
05:43Si vous avez envie de poser des questions hyper fines sur des standards 3GPP à un modèle,
05:52ça va marcher plus ou moins.
05:55Si vous avez envie de lui passer, je ne sais pas, 100 cas de log Cisco pour qu'il vous écrive un compte-rendu,
06:02un post-mortem en bon anglais ou en bon français, ou qu'il vous diagnostique le truc, ça va marcher ou pas.
06:09Mais dans tous les cas, si vous passez des données qui viennent de vos applications,
06:13qui ont des formats propriétaires, avec des données propriétaires, ça ne marchera pas bien.
06:18Pourquoi ? Parce que ces modèles-là, ils n'ont jamais vu ce genre de données, ils n'ont jamais été entraînés sur ça.
06:22Et vous pouvez multiplier ces exemples à l'infini.
06:24Donc ce qu'on appelle, nous, l'adaptation au domaine, c'est-à-dire la capacité d'un modèle à comprendre finement
06:32et à répondre de manière factuellement précise, avec le bon degré d'expertise, avec le bon ton de voix,
06:39avec la bonne sécurité de fonctionnement, etc. à des questions très très pointues sur vos domaines,
06:46ça ne se passe pas très bien.
06:49Et le troisième problème, il y a peut-être des gens ici qui l'ont expérimenté,
06:53c'est que quand on joue avec ChatGPT et les autres, on est content, ça ne coûte rien,
06:59on a l'impression qu'on paye 0,000 cent par token, donc par mots ou morceaux de mots, faisons simple.
07:08Le problème étant que généralement, votre application va injecter des données, elle va injecter des documents,
07:17donc votre question de 12 ou 15 ou 20 tokens, elle va devenir une requête de 5000 tokens,
07:24et puis vous allez faire des allers-retours, questions-réponses, questions-réponses.
07:27Donc dans une conversation, vous allez faire 100 000 tokens.
07:29Donc le 0,000 fois 100 000, déjà, il est moins sympa.
07:33Et puis si vous ouvrez ça à 1000 utilisateurs dans la société, ce qui est quand même l'objectif,
07:37parce que quand on construit des trucs, ce n'est pas pour trois personnes,
07:40vite on se retrouve avec des factures à 50 000 dollars par mois, et ça ne fait rire personne.
07:45Voir plus, nous on a des clients qui arrivent et qui se disent, mais on ne comprend pas,
07:50on avait fait le calcul, on pensait que ça coûterait 2000,
07:53et puis en branchant nos bases de données, nos trucs, on est à 100 000 et ce n'est pas possible.
07:57Donc ces trois problèmes, la privacy, la compliance, l'adaptation au domaine et les coûts,
08:07sont vraiment les trois problèmes que la communauté open source essaie de régler.
08:11Et donc depuis deux ans maintenant, on a des modèles hyper compétitifs et de plus en plus compétitifs
08:22qui sont disponibles en open source.
08:24Alors on peut en citer quelques-uns, dont vous avez au moins entendu parler,
08:29même si vous ne levez pas la tête de vos optiques.
08:32Vous avez entendu parler de Mistral, oui ?
08:35Qui a entendu parler de Mistral ?
08:37Ah voilà, bah oui quand même.
08:39Les modèles de Mistral.
08:41Alors ils ont commencé en open source, maintenant c'est moins clair.
08:43Alors on les encourage quand même à faire de l'open source.
08:45Il y a les modèles de Meta.
08:48Alors je n'ai pas un amour particulier pour Meta.
08:51Reconnaissons quand même que Meta AI, Yann Lequin et son orchestre font un travail exceptionnel.
08:57Et les modèles Lama 2, Lama 3, enfin il y a 3.2 là qui vient de sortir,
09:01sont vraiment excellents.
09:04Et puis il y en a tout un tas d'autres.
09:06Et donc ces modèles, au début, ils ont été regardés avec scepticisme,
09:11il y a on va dire un an et demi, deux ans.
09:14Et je pense que maintenant plus personne ne rit en fait.
09:18Et je pense qu'on est même arrivé au point où ces modèles sont l'état de l'art.
09:23C'est-à-dire que les meilleurs modèles disponibles aujourd'hui,
09:27sur étagère, sont des modèles open source.
09:32Et quand je dis meilleur, je ne parle pas juste de performance, de précision, de qualité,
09:35parce que ça c'est qu'un élément.
09:37Il faut penser au prix.
09:39Si vous arrivez à la même qualité avec un modèle de 70 milliards de paramètres,
09:43qu'un modèle comme GPT-4 qui fait peut-être 1000 milliards, on ne sait pas.
09:48On voit tout de suite intuitivement, mais si on ne comprend rien,
09:50que les coûts vont être tout à fait intéressants.
09:53Donc l'état de l'art aujourd'hui, c'est l'open source.
09:57La pression, ce n'est pas la communauté open source qui l'a,
10:00c'est la communauté open source qui la met.
10:03Et en ce qui nous concerne, je ne suis pas venu parler trop d'Arcee en général,
10:07s'il y a des questions, on peut en parler après.
10:09Mais nous, on voit beaucoup de clients dans des domaines verticaux,
10:12la finance, l'assurance, la santé, les télécoms, etc.
10:17qui ont compris ça, qui ont expérimenté en 2023, début 2024,
10:21et qui ont dit ok, on peut utiliser les modèles fermés pour résumer des CV,
10:26écrire des mails marketing, des trucs assez génériques.
10:29Par contre, quand il s'agit d'avoir le maximum de précision,
10:33le maximum de retour sur investissement,
10:36on a compris qu'on ne pourra le faire qu'avec des modèles open source.
10:39Aujourd'hui, pour faire simple, on a un modèle de 70 milliards de paramètres,
10:46c'est déjà gros 70, mais 70 par rapport à 1000, non c'est petit.
10:50Donc un 70 milliards aujourd'hui, c'est un small language model.
10:54On a un modèle qui bat GPT-4, qui bat Cloud 3.5.
11:00Alors on peut discuter des benchmarks jusqu'à la fin de la nuit.
11:04Dans les modèles open source, tu n'as pas parlé d'un certain modèle chinois ?
11:09Alors la communauté open source, ce qui est très intéressant,
11:15c'est que pour tremper dans l'open source depuis longtemps,
11:20tout était quand même assez occidental, on va dire.
11:25Et c'est vrai que sur les modèles, sur l'IA en général,
11:30sur les modèles open source en particulier, on voit des modèles qui sortent vraiment de partout.
11:34C'est vraiment une compétition, une collaboration qui est globale.
11:41Oui, il y a Lama, Mistral, il y a quelques champions.
11:45Il y a des modèles qui sortent d'Abu Dhabi, de la région du Golfe,
11:53parce qu'il y a aussi l'aspect linguistique.
11:55Si vous voulez un excellent modèle en langue arabe,
11:57il ne faut pas trop compter sur la côte ouest américaine pour vous le faire.
12:01Déjà le français, ça ne les intéresse pas des masses.
12:04L'espagnol, oui, parce que c'est quand même leur zone d'influence, alors ils font.
12:07Mais le français, l'allemand, ça ne les intéresse pas plus que ça.
12:10Alors autant vous dire que le finlandais, le slovak, ils ne savent même pas où c'est sur la carte.
12:15Quant au reste, alors là, ça n'a aucun intérêt.
12:18Donc il y a des modèles qui sortent de Singapour, il y a des modèles qui sortent de Chine.
12:21Il y a effectivement Alibaba, pour ne pas les citer, qui est un poids lourd de la tech.
12:25On ne sait jamais très bien ce qui se passe là-bas.
12:27On ne comprend pas bien ce qui se passe là-bas.
12:29Mais des sociétés comme Alibaba ont sorti des modèles.
12:32Il y a le fameux modèle Quen 2 qui est excellent, qu'on utilise beaucoup chez nous
12:36comme base de départ pour des projets clients.
12:40Il y a aussi du hardware.
12:43Il y a Huawei qui conçoit des chips puisque les américains ont essayé de ne pas leur vendre.
12:48Alors on peut discuter là aussi pendant dix ans.
12:50Est-ce que c'est une bonne idée de les empêcher de faire du Nvidia ?
12:54En tout cas, comptez sur eux pour faire des puces.
12:56Et en tout cas sur cette capacité semi-conducteur chez eux, tout va très bien, merci.
13:01Tu me fais la transition idéale.
13:04On l'avait bien répété pendant huit secondes.
13:07Donc aujourd'hui effectivement, merci pour cette longue intro,
13:12mais qui était quand même peut-être nécessaire pour ceux qui n'ont pas tout suivi dans l'IA.
13:17Donc aujourd'hui effectivement, on parle beaucoup de GPU, Nvidia, etc.
13:23La valo en bourse folle qui en a découlé.
13:27Demain, on parle plutôt d'ASIC, d'IA.
13:31Alors les ASIC, on connaît un peu.
13:33On en a tous au moins chez nous.
13:36Alors celles-ci, elles ne seront pas Cisco ou Junip ou etc.
13:41Celles-ci, elles seront peut-être Vessora.
13:44Elles seront peut-être Edge, qui est une boîte américaine.
13:48Quels vont être les effets sur le marché et sur les infras
13:52de ce gain d'efficacité promis de x20 par rapport au GPU ?
13:59En fait, ce qu'on adresse nous comme problématique,
14:02c'est un petit peu ce qui a été mentionné auparavant,
14:04c'est vraiment la réduction du coût de la requête.
14:07Et aujourd'hui, le marché, pour vraiment déployer l'inférence,
14:11il cherche un facteur.
14:13En fait, il faut diviser le coût de la requête pas par un facteur 2,
14:16mais plutôt par un facteur 10, 20, voire plus que ça.
14:20Et cette problématique-là de coût de requête aujourd'hui,
14:23elle est complètement liée à l'efficacité de calcul des GPU.
14:27En fait, au départ, on pensait que c'était aussi lié
14:30au coût énergétique de traitement d'une requête.
14:33Ça joue aussi sur la requête, mais pas tant que ça.
14:36En fait, le plus gros du coût d'une requête,
14:38il est donné par l'investissement dans le silicium
14:41et par l'amortissement de cet investissement
14:43sur un certain nombre d'années.
14:45Quand on regarde les modèles complexes,
14:48type GPT-3 ou GPT-4, etc.,
14:51on se rend compte que les solutions actuelles,
14:53donc NVIDIA et pareil pour les autres,
14:56on est dans des efficacités de calcul très très faibles.
14:59Donc, l'efficacité de calcul, c'est quoi ?
15:01C'est le taux d'utilisation de l'arithmétique dans la puce.
15:04C'est-à-dire, si je prends 100 cycles de fonctionnement,
15:07combien de cycles je vais faire vraiment des opérations arithmétiques ?
15:10Et là, les chiffres qu'on échange,
15:13dans la presse et ce qu'on voit nous,
15:15c'est qu'on est plutôt dans des taux d'utilisation de 3%,
15:18voire en dessous.
15:20Là, je parle vraiment des gros modèles,
15:22GPT-3, GPT-4, etc.
15:24Donc, il y a un besoin aujourd'hui
15:26d'apporter une nouvelle technologie
15:28pour améliorer un petit peu ce taux d'utilisation.
15:32Il y a aussi la contrainte énergétique qui est très forte,
15:35mais qu'on la retrouve plus sur le déploiement des réseaux,
15:38sur la structuration un peu des data centers, etc.
15:41Donc, on voit beaucoup de startups aujourd'hui dans le monde
15:44se créer pour adresser cette problématique-là.
15:46Comment on va résoudre un petit peu
15:48le mouvement de data dans le silicium
15:50pour vraiment améliorer cette efficacité de calcul ?
15:52Et là, on retrouve deux écoles aujourd'hui.
15:54Il y a les écoles qui disent,
15:56finalement, il faut une solution complètement flexible,
15:59programmable, un peu type GPU.
16:02Alors, le G, la partie graphique aujourd'hui,
16:05n'est plus importante dans les GPU.
16:07C'est vraiment la partie tensor
16:09et la partie processing AI
16:11qui drive complètement ce silicium.
16:13Et puis, il y a une autre école qui dit,
16:15finalement, le plus simple, c'est de faire
16:17des ASIC qui ne font que les transformers.
16:19Je trouve que cette école-là est quand même très risquée
16:22parce que si on retrace un peu l'évolution
16:25des réseaux de neurones,
16:27moi, j'ai déjà entendu ça, par exemple,
16:29sur les CNN, il y a à peu près 5 ou 6 ans.
16:32Je pense que si on retrace un peu
16:34toutes les startups aujourd'hui
16:36qui se sont lancées sur cette logique-là
16:38ou cette philosophie-là,
16:40je ne sais pas si elles existent encore ou pas.
16:42Donc, je pense que le marché,
16:44il a besoin quand même d'une solution
16:46qui soit programmable, flexible,
16:48mais qui apporte un peu cette flexibilité-là,
16:50en tant qu'à ce taux d'utilisation fort
16:52de l'arithmétique,
16:54pour permettre vraiment le déploiement
16:56du generative AI.
16:58C'est ce qu'on appelle, en fait, l'inférence wall aujourd'hui.
17:00C'est vraiment le mur de l'inférence
17:02qu'il faut arriver à passer.
17:04Et on n'arrivera à le passer qu'avec une nouvelle architecture.
17:07Et alors, du coup,
17:09pour tous les gens
17:11qui ont aujourd'hui
17:13beaucoup d'NVIDIA dans leur data center,
17:15quels effets
17:17si demain,
17:19on leur promet de diviser par 20
17:21en termes de
17:23consoles électriques, de refroidissement,
17:25est-ce que ça change tout ?
17:27Est-ce que...
17:29Voilà.
17:31Je pense qu'il y a plusieurs sujets.
17:33Evidemment, si vous me dites
17:35on divise par 20 la consommation électrique,
17:37ça m'arrange et ça arrange mes clients.
17:39Le plus complexe,
17:41c'est intéressant,
17:43et c'est une question que j'avais envie de vous poser,
17:45c'est que finalement ASICS, il améliore
17:47ce qu'il a en ce moment.
17:49Mais comme on met du temps de déploiement
17:51de la chip, dans quelle mesure on n'est pas toujours
17:53en train de courir après la dernière tectose ?
17:55C'était ça que je trouvais inquiétant.
17:57Donc c'est la première limite que je vois,
17:59sans dire que ça ne nous intéresse pas.
18:01Et ensuite, il va y avoir une bataille
18:03parce que,
18:05au cas où ça n'était pas suffisant,
18:07le cloud est encore plus qu'APEX intensive
18:09avec tous ces GPU.
18:11Ces GPU, NVIDIA est très fort
18:13parce que c'est eux qui sont hégémoniques pour l'instant.
18:15On pourra les renouveler tous les 6 mois, tous les ans,
18:17on pourra en reparler, on a vu leur roadmap.
18:19Tous les 6 mois, il y en a un nouveau, c'est génial.
18:21Et nous, on investit.
18:23Et ça met du temps à être rentabilisé.
18:25Et donc on compte bien sur l'inférence pour rentabiliser
18:27ces chips qui vont être finalement has been dans 3 ans
18:29pour tout ce qui est entraînement de modèles.
18:31Et donc c'est là où commence situer l'ASICS
18:33et pour moi, à la fois quelque chose de très intéressant,
18:35mais où je ne suis pas sûre de comprendre
18:37où va être le marché exactement, sauf peut-être ceux
18:39qui se spécifient sur l'inférence.
18:41Mais c'est vrai que pour nous qui avons ces entraînements,
18:43la question se pose.
18:45Peut-être juste revenir sur un point,
18:47nous ce qu'on fait,
18:49on ne fait pas des ASICS vraiment dédiés au LLM,
18:51on fait un espèce de GPU
18:53en quelque sorte, AI,
18:55qui a toute la flexibilité pour suivre un petit peu
18:57l'évolution des circuits.
18:59Nous, l'analyse qu'on fait un petit peu
19:01de l'inférence aujourd'hui, c'est que
19:03ce marché là, pour que vraiment se déploie,
19:05il faut arriver à diviser par 20
19:07le prix des requêtes aujourd'hui.
19:09Et ça aujourd'hui, on n'arrive pas
19:11à le faire avec Nvidia.
19:13Donc il faut une nouvelle architecture,
19:15et en tout cas, notre industrie dans le semi-conducteur
19:17s'aligne sur ce fait là.
19:19Maintenant, il y aura un gagnant,
19:21un jour, je ne sais pas lequel c'est,
19:23on espère l'être, mais clairement
19:25le marché a besoin de cette nouvelle architecture.
19:27On voit qu'il y a
19:29à peu près 3 ou 4 sociétés
19:31qui font à peu près ce que tu
19:33proposes.
19:35Si on prend les sociétés dans le monde aujourd'hui,
19:37et qu'on essaie de tracer, alors pour
19:39adresser des marchés type GPT-3
19:41ou GPT-4, ou même du
19:43Lama 2, Lama 3 à 70 Go,
19:45il faut quand même monter à des Processing Power
19:47de l'ordre de 2 Petaflops.
19:49Donc il faut être un petit peu dans des capacités de calcul
19:51assez importantes.
19:53Les sociétés dans le monde aujourd'hui qui promettent
19:55des Processing Power dans cet ordre là,
19:57il y en a moins de 10 en fait.
19:59Il y en a plusieurs qui offrent
20:01des Processing Power de l'ordre de
20:03200, 400 Teraflops.
20:05Mais à partir du moment où on passe le 2 Petaflops,
20:07il n'y en a pas tant que ça.
20:11Je voulais peut-être ajouter quelque chose
20:13dans le sens de ce qui vient d'être
20:15partagé.
20:17Il est forcément
20:19nécessaire de pouvoir abaisser l'impact
20:21énergétique de
20:23ces nouveaux usages parce que
20:25on a vu évoluer
20:27les baies informatiques chez les
20:29hébergeurs qui étaient couramment
20:31entre 4 et 10 kilowatts
20:33électriques à la baie.
20:35Juste pour vous rappeler qu'on considère
20:37qu'il y a un ratio de 1 pour 1 entre
20:39la consommation électrique d'une baie
20:41et sa dissipation en chaleur
20:43qu'il va falloir ensuite
20:45évacuer.
20:47On est passé de ce standard
20:49de 4 à 10 kilowatts pour lequel
20:51la plupart des data centers
20:53en colocation avaient été
20:55designés
20:57à aujourd'hui du 40,
20:59du 100 et on travaille
21:01avec certains fabricants
21:03aujourd'hui OEM
21:05qui annoncent 400 kilowatts à la baie.
21:07Pour vous donner un ordre d'idée,
21:09une baie de 800 millimètres de large,
21:111200 millimètres de profondeur,
21:132 mètres 20 de haut,
21:15une 42U à peu près,
21:17va maintenant peser 2 tonnes
21:19en poids physique à la charge
21:21va représenter
21:23entre 100 et 400 kilowatts
21:25à dissiper et à alimenter
21:27parce que tout le monde parle
21:29toujours du refroidissement
21:31mais on a aujourd'hui des problèmes,
21:33des difficultés sur le marché
21:35pour s'approvisionner en matériel électrique
21:37pour ces densités
21:39et ces intensités-là.
21:41Et puis, évidemment,
21:43il y a une notion aussi de capex
21:45dont on parlait, une baie comme ça
21:47va coûter jusqu'à 4 millions d'euros à la baie.
21:49Donc, tous ces éléments
21:51conjugués font qu'il y a
21:53évidemment des optimisations,
21:55des améliorations à apporter
21:57qui ne sont pas encore là
21:59comme vous le disiez.
22:01On court un petit peu après ces optimisations
22:03et les enjeux pour les hébergeurs
22:05de demain, je pense que peut-être
22:07Samy pourra en parler aussi,
22:09c'est à la fois de savoir accueillir
22:11les technologies que l'on connaît
22:13et lié à cette explosion
22:15de densité,
22:17il faudra aussi savoir accueillir
22:19les technologies que l'on voit déjà
22:21dans les laboratoires qui arrivent
22:23et celles qu'on n'imagine encore pas.
22:25Et ça, ce sont les enjeux
22:27de flexibilité et d'agilité
22:29auxquels vont être
22:31confrontés les acteurs
22:33d'hébergement dans
22:35les semaines, les mois et les années à venir.
22:37Pour rebondir là-dessus,
22:39sur la conso électrique, je ne sais pas si vous avez vu,
22:41il y a eu deux annonces
22:43assez intéressantes dernièrement.
22:45Il y en a une, c'est OpenAI qui demande
22:47l'autorisation je crois
22:49au gouvernement US d'ouvrir
22:515 data centers de 5 gigawatts chacun.
22:53Et
22:55il y a aussi
22:57Microsoft qui rouvre
22:59Three Mile Island pour pouvoir
23:01mettre un data center à côté.
23:03Alors c'est symptomatique,
23:05si tu me permets Franck. En fait,
23:07ce que viennent dire Alban et Franck
23:09est vraiment au coeur
23:11du projet industriel, de la difficulté industrielle
23:13de cette industrie parce que
23:15il y a une bataille sur l'optimisation
23:17du modèle lui-même.
23:19C'est des maths,
23:21on a de plus en plus de performances,
23:23on va pousser, on va optimiser.
23:25Et c'est très agile cette bataille là.
23:27Et puis il y a celle du hardware, effectivement.
23:29Est-ce que le GPU est mieux que l'ASIC ?
23:33Derrière, il y a des industriels
23:35du data center, qui je rappelle
23:37n'est pas dans un nuage,
23:39ils doivent construire des bâtiments pour tout ça
23:41sur des cycles de 20 ans.
23:43Alors que les batailles de ces messieurs,
23:45c'est en semaines.
23:47Nous on construit pour 20 ans.
23:49Et on doit suivre.
23:51Alors pour les plus anciens d'entre vous,
23:53il fut un temps
23:55où c'était plus simple de
23:57suivre parce que, si tu te rappelles
23:59de TH1, c'était
24:010,5 kWh la baie.
24:03Attention,
24:05on pouvait monter jusqu'à 2 kWh la baie.
24:09Et c'était, entre 0,5 et 2,
24:11tu couvrais des usages incroyables.
24:132 kWh le rack, c'était incroyable.
24:15On avait un support caloporteur
24:17qui est toujours le même, c'est l'air.
24:19Et qui nous a suivi jusqu'à
24:2120 kW, Franck, à peu près ?
24:23Sur l'air, on peut aller jusqu'à
24:25presque 40 en étant des portes
24:27froides, mais le standard est autour
24:29des 20-25 kW en standard sur l'air.
24:31Super. Après on a d'autres problématiques,
24:33plutôt d'ordre électrique, il faut du
24:35triphasé, etc. Bon.
24:37Une forme d'agilité, jusqu'à ce que
24:39ce mur, parce que nous aussi on a un mur effectivement,
24:41des 40 kW le rack.
24:43Passé ce mur-là,
24:45l'équation industrielle devient
24:47quasi impossible à tenir.
24:49Moi, mon benchmark
24:51actuel pour suivre ce que doit
24:53faire Thaléhaus demain, en tout cas l'industrie
24:55de l'ascendeur demain, c'est effectivement méta. On peut leur
24:57reprocher beaucoup de choses, mais leur documentation
24:59est extraordinaire.
25:01J'y étais là avant de venir,
25:03la MA3,
25:05tu peux l'entraîner sur des clusters d'environ
25:0720 000 GPU.
25:09Si on arrondit un GPU NVIDIA
25:11à 1 kW,
25:13c'est 20 MW le cluster.
25:15Pour vous donner
25:17quelques ordres d'idées,
25:191 kW construit en
25:21CAPEX, c'est environ 20 000 euros.
25:23Hors de grandeur.
25:25Un cluster,
25:27juste un seul,
25:29de la MA3, qui n'est pas le modèle le plus
25:31compute consuming,
25:33on est déjà dans les milliards.
25:35Qui va mettre des milliards
25:37en risquant que demain
25:39l'ASIC va détrôner le GPU
25:41et il faut tout refaire ?
25:43Sachant qu'encore une fois, quand c'était l'air,
25:45c'était facile, parce que l'air est
25:47universel. Un hardware qui prend de l'air
25:49frais, c'est le même, on le change,
25:51on est passé à la pizza box,
25:53ça marche bien.
25:55Mais quand le support qu'a le porteur
25:57devient liquide, tout devient
25:59quasiment sur mesure,
26:01on change la structure.
26:03TH1, c'était 100 kg
26:05le mètre carré.
26:07TH3, c'est 3 tonnes le mètre carré.
26:09On parle de structure.
26:11On va refaire un bâtiment
26:13parce qu'il y a une bataille industrielle
26:15au-dessus sur le hardware qui change.
26:17On n'est pas sur le même cycle.
26:19Ça se grippe, si bien que
26:21les Américains ont une méthode
26:23qui marche,
26:25que tu as citée, ils disent en gros
26:27on y va comme des bourrins.
26:29On ouvre des centrales nucléaires,
26:31on achète du GPU,
26:33c'est pas grave, il n'est pas aussi efficace
26:35que d'autres technologies, mais c'est pas grave.
26:37On trust TSMC à Taïwan.
26:39Tout ce qui sort de TSMC
26:41on prend.
26:43On rouvre les centrales nucléaires
26:45et on y va, on déroule.
26:47Ça marche.
26:49Sauf que je ne sais pas si ça va tenir
26:51dans le temps. Moi je pense qu'on a une opportunité,
26:53nous français particulièrement,
26:55en Europe encore plus, mais surtout français,
26:57c'est qu'effectivement à un moment,
26:59s'il n'y a pas d'ASAM.dot,
27:01ça ne marche pas. L'AMA5,
27:03je voyais qu'il me parlait de
27:05plus de 100K GPU
27:07par cluster.
27:09100K GPU.
27:11Ça ne va pas tenir.
27:13Si nous, par contre, aux français, on se met à faire
27:15de l'optimisation sur contrainte sur cet exercice,
27:17là où on est excellent, on a toujours été excellent,
27:19je pense que là,
27:21avec des discussions comme celles qu'on a aujourd'hui,
27:23on va pouvoir trouver un modèle,
27:25nous, qui sera plus tenable,
27:27où il y aura une ASAM.dot qui va
27:29tous nous aider, nous, industriels, pour construire,
27:31mais pas qu'eux, parce qu'il y a
27:33l'acceptabilité sociale. Je peux vous dire que ça,
27:35c'est mon quotidien en ce moment.
27:37La société est en train de
27:39rentrer en conflit avec nous,
27:41gens de l'infrastructure, sur l'électricité,
27:43sur l'eau,
27:45sur le foncier,
27:47et on va aller leur dire, comme a fait
27:49Sam Altman, 15 gigawatts. Sur le CO2.
27:51CO2 aussi.
27:53Tu me permets, Philippe,
27:55d'ajouter quelque chose très rapidement,
27:57parce que je suis très bavard et on va dépasser le temps
27:59de parole.
28:01En complément de ce que dit Samy,
28:03il faut que vous ayez conscience qu'il y a aussi,
28:05on parlait du foncier, de vrais enjeux
28:07sur le footprint, sur les mètres carrés.
28:09Auparavant,
28:11grosso modo, vous aviez une salle
28:13informatique de 1000 mètres carrés,
28:15vous aviez besoin, plus ou moins,
28:17de l'équivalent à l'extérieur
28:19pour mettre les groupes électrogène,
28:21les groupes de production d'eau glacée,
28:23les systèmes de refroidissement, etc.
28:25La densité dans les salles
28:27ayant explosé,
28:29le ratio qui était de 1 pour 1
28:31est passé de 1 pour 4.
28:33C'est-à-dire qu'il va aussi
28:35falloir avoir
28:37de l'emprise foncière
28:39beaucoup plus importante
28:41liée à l'évolution,
28:43l'explosion de la densité dans les salles.
28:45Je voulais ajouter un point.
28:47C'est très intéressant,
28:49cette discussion,
28:51et elle illustre,
28:53à mon avis,
28:55un risque dans lequel
28:57beaucoup d'entreprises tombent.
28:59C'est-à-dire que
29:01le marketing
29:03OpenAI,
29:05le marketing NVIDIA,
29:07les âneries de la presse,
29:09etc.,
29:11amènent tout le monde à penser
29:13que pour utiliser
29:15un modèle d'IA dans son entreprise,
29:17disons qu'on est une entreprise du CAC 40,
29:19je ne vais pas en citer,
29:21je les aime toutes.
29:23C'est mes préférées.
29:25Une entreprise du CAC 40
29:27a envie de déployer de l'IA
29:29un beau chatbot bancaire
29:31ou un beau chatbot télécom,
29:33ou je ne sais pas, peu importe.
29:35Tout le monde,
29:37tout le marché,
29:39la perception générale du marché,
29:41c'est que vous devez acheter
29:43128 GPU NVIDIA,
29:49vous devez dépenser
29:51des dizaines de millions d'euros,
29:53sinon vous n'aurez rien.
29:55Pardon d'être grossier,
29:57mais c'est une énorme connerie.
29:59Parce qu'il y a deux batailles
30:01dans cette industrie.
30:03Il y a une bataille avec,
30:05j'avais envie de dire dix,
30:07mais je pense que c'est cinq,
30:09qui essaie de construire
30:11les meilleurs modèles, les plus gros modèles,
30:13et de les entraîner
30:15à partir de rien,
30:17de créer vraiment des nouveaux modèles.
30:19Anthropic, OpenAI,
30:21Mistral, il y en a quelques autres.
30:23Effectivement,
30:25ceux-là, oui,
30:27ils sont en train de se dire
30:29j'achète tout ce qui sort de chez NVIDIA,
30:31qui achète tout ce qui sort de chez TSMC,
30:33et Intel essaie de se sauver
30:35en se disant mais nous aussi on sait en faire.
30:37Et on arrive à la conclusion logique
30:39que tout le monde,
30:41certains voyaient venir
30:43il y a un an en se disant
30:45il faut investir sur l'uranium
30:47et les compagnies électriques.
30:49Microsoft, moi je vous l'annonce,
30:51et les autres, ils vont finir
30:53par construire des centrales nucléaires eux-mêmes.
30:55Sam Altman a investi
30:57dans une start-up qui fait
30:59des réacteurs nucléaires.
31:01Je vous laisse faire vos devoirs.
31:03Mais c'est la logique.
31:05Amazon, AWS, Azure,
31:07ces gens-là, ils vont avoir des datacenters
31:09et des centrales nucléaires à eux.
31:11C'est gagné ça.
31:13Donc il y a cette bataille-là.
31:15Mais qui dans cette salle a envie
31:17ou est même concerné par cette bataille-là ? Personne.
31:19Je vais même être provoquant.
31:21Il n'y a personne en Europe qui peut suivre.
31:23Je suis désolé, personne.
31:25On ne va pas rediscuter Cloud Sovereign
31:27parce que vous allez sortir le goudron et les plumes.
31:29Et puis étant donné mon passé
31:31à la judiciaire,
31:33personne ne peut suivre.
31:35C'est une illusion.
31:37Cette bataille-là,
31:39elle ne nous concerne pas.
31:41Elle concerne à la limite quelques acteurs en Chine,
31:43quelques acteurs aux US.
31:45C'est fini. Et puis les autres qui ont envie de jouer,
31:47de toute façon, ils jouent dans les clouds.
31:49Hugging Face, nous et d'autres,
31:51on joue dans les clouds aussi.
31:53Donc que faire ?
31:55Les gens ici se disent
31:57j'ai envie d'avoir un modèle
31:59pour faire de la maintenance prédictive,
32:01pour faire de la résolution d'incident,
32:03pour faire du support, etc.
32:05Mais vous n'allez certainement pas l'entraîner à partir de zéro.
32:07Vous allez prendre un de ces bons modèles.
32:09Et c'est pour ça que Hugging Face est devenu célèbre.
32:11Il y a un million de modèles différents sur Hugging Face maintenant.
32:13Comme sur GitHub, vous avez sans doute des millions de projets.
32:15Donc vous en trouvez un qui vous plaît bien,
32:17qui est proche de ce que vous voulez faire.
32:19Et puis vous l'entraînez juste un petit peu sur vos données.
32:21Nous, c'est ça qu'on fait.
32:23C'est ça que fait la communauté.
32:25C'est-à-dire qu'en quelques heures
32:27ou quelques dizaines d'heures GPU,
32:29vous allez avoir une dizaine de milliers de dollars
32:31au grand maximum.
32:33Vous adaptez
32:35votre modèle
32:37à vos données et à votre cas d'usage.
32:39Donc la charge et le coût
32:41d'entraînement est faible.
32:43Ce qui fait que
32:45dans la vie du projet,
32:47il va être complètement lissé.
32:49Ce qui nous ramène au sujet
32:51que l'on évoquait, c'est l'inférence.
32:53Une fois que votre modèle est en production
32:55et que vous le déployez pour
32:5710 000, 50 000, 100 000 utilisateurs,
32:59grand public, etc., c'est là
33:01qu'il faut être malin. Parce que si le modèle
33:03vous a coûté 50 000 dollars à construire
33:05et qu'ensuite il vous coûte 200 000 dollars
33:07par mois, vous ne gagnez pas d'argent.
33:09C'est pour ça que la clé
33:11du succès, ce qu'on voit chez nos clients, c'est
33:13travailler avec le plus petit modèle possible.
33:15Si vous pouvez utiliser un modèle de 8 milliards, allez-y.
33:17Il y a des techniques
33:19pour le réduire encore plus.
33:21Je ne vais pas rentrer dans les détails, mais la quantisation
33:23qui permet de réduire
33:25la taille du modèle x2, x4, etc.,
33:27il y a des accélérateurs.
33:29Si tous les clouds
33:31aujourd'hui font leurs propres accélérateurs
33:33hardware, il y a une raison.
33:35Et nous, on arrive même au point
33:37où on les fait tourner sur CPU.
33:39En particulier
33:41les CPU ARM,
33:43dont je suis très fan.
33:45Et ça tombe bien parce que
33:47on en voit beaucoup.
33:49Donc, il ne faut
33:51vraiment pas se tromper de débat.
33:53Le débat de 99,99%
33:55des utilisateurs
33:57des entreprises,
33:59ce n'est pas tellement l'entraînement
34:01ou le complément d'entraînement,
34:03c'est l'inférence, le déploiement
34:05à l'échelle et l'écrasement des coûts.
34:07Et c'est
34:09ça qui est aussi important
34:11dans les data centers. J'entends bien
34:13que l'industrie data center essaye de capturer
34:15la charge d'entraînement parce que
34:17là, pour le coup, ça peut être des
34:19très gros budgets.
34:21Je suis un peu sceptique.
34:23Par contre, la charge d'inférence
34:25et la charge at the edge,
34:27c'est celle-là qui est intéressante.
34:29Et c'est celle-là
34:31où la combinaison des petits
34:33modèles, des techniques
34:35quantisation, etc.
34:37et de petits accélérateurs
34:39ASIC ou autres, voire même CPU
34:41avec un tout petit peu de hardware dessus
34:43pour l'IA, c'est vraiment
34:45la combinaison gagnante. Nous, c'est ce qu'on voit
34:47et vraiment, j'encourage tout le monde
34:49à bien réfléchir à ces choix techniques
34:51parce que là, le rapport, il n'est effectivement
34:53pas x2, il est x10,
34:55x20, x50.
34:57On n'a pas le temps de faire des démos, mais je pourrais vous montrer des trucs
34:59qui vous feraient tomber les cheveux,
35:01les dents et le reste.
35:03Pour les CPU,
35:05on a eu
35:07à une
35:09FRNC
35:1139 ou 38,
35:13on avait eu Cyperl, ça devait être
35:15la dernière,
35:17et en fait, qui fait exactement ça,
35:19c'est-à-dire des cœurs à armes avec de la HBM
35:21juste à côté pour pouvoir faire
35:23effectivement le futur du run
35:25sur l'inférence uniquement.
35:27Est-ce que
35:29quelqu'un a quelque chose à rajouter sur ce sujet
35:31avant qu'on passe sur la souveraineté ?
35:33Du coup, moi je vais parler un peu
35:35d'NVIDIA, à contraire de la partie
35:37ASICS.
35:39NVIDIA, ce n'est pas uniquement les hardware, c'est aussi
35:41une grosse partie software, c'est
35:43CUDA. CUDA,
35:45c'est un moteur chez Hugging Face qui a passé
35:47le million de modèles hébergés
35:49chez eux. C'est à peu près
35:5190%, peut-être voire plus,
35:53des modèles qui sont basés sur CUDA. Si vous allez
35:55sur les GitHub de chacun de vos modèles,
35:57vous allez voir une ligne de code
35:59qui met du CUDA. Et peut-être
36:01qu'un jour, le ASICS pourra
36:03prendre le pas s'ils arrivent à intégrer,
36:05parce que par exemple, 70, 80%
36:07actuellement du marché est trusté
36:09par NVIDIA, et AMD
36:11doit éduquer ses clients
36:13parce qu'ils arrivent à prendre en charge du TensorFlow,
36:15du CUDA, etc. sur
36:17leur machine. Et c'est ça qui fera
36:19faire la transition vers du ASICS,
36:21vers du LPU,
36:23donc du LLM Processing Unit,
36:25etc. pour optimiser pour l'inférence notamment.
36:27Sachant que la problématique sur CUDA,
36:29c'est notamment que ce n'est pas très open source.
36:31Malheureusement.
36:3710 secondes, je vais faire court.
36:39Alors,
36:41avec tout le respect, je ne suis pas tout à fait d'accord.
36:45J'entends
36:47beaucoup de gens d'NVIDIA dire ça,
36:49et je comprends très bien pourquoi ils disent ça.
36:51Alors, je fais une différence entre CUDA,
36:53on va dire le driver du GPU,
36:55pour ceux qui...
36:57C'est vraiment ce que c'est.
36:59Et puis après, les stack software de NVIDIA,
37:01où NVIDIA peut avoir une offre, on va dire, pour le
37:03high performance computing,
37:05la simulation nucléaire, où là, ok,
37:07ils ont une stack software,
37:09elle n'est pas, elle est sûrement très bien,
37:11et un client qui utilise ça, il est bien loqué à vie sur ce truc-là.
37:13Donc ça, c'est bien.
37:15Comme ça doit l'être, on va dire.
37:17NVIDIA a bien réussi ça.
37:19Sur CUDA,
37:21alors, on va reconnaître à CUDA
37:23le fait d'exister depuis
37:252007-2008.
37:27Une maturité, une stabilité,
37:29un niveau d'optimisation élevé.
37:31Maintenant,
37:33moi je suis dans le deep learning depuis
37:352015.
37:37Vraiment,
37:39sans mentir, j'ai jamais croisé
37:41un développeur qui développait
37:43du deep learning sur CUDA. Zéro.
37:45Tout le monde
37:47utilise Dupiton,
37:49sur TensorFlow, sur PyTorch,
37:51et quelques autres librairies.
37:53On va dire essentiellement PyTorch aujourd'hui.
37:55Et pour parler d'AMD, parce que moi j'ai
37:57beaucoup travaillé avec AMD quand j'étais chez Hugging Face.
37:59Donc AMD
38:01a un SDK équivalent
38:03à CUDA, qui s'appelle RockM,
38:05dont on peut dire
38:07qu'il est sans doute pas aussi mûr
38:09et pas aussi optimisé que CUDA, parce que
38:11lui a 2 ans ou 3 ans, en tout cas pour la partie
38:13deep learning, là où NVIDIA
38:15a au moins 10 ans.
38:17Néanmoins,
38:19en termes de bascule,
38:21en termes de migration, il y a
38:23zéro effort à faire. C'est-à-dire que vous
38:25prenez un modèle PyTorch
38:27qui a été entraîné sur
38:29NVIDIA.
38:31Vous le chargez
38:33sur un GPU AMD
38:37ou autre d'ailleurs
38:39avec PyTorch.
38:41Il n'y a pas à le réentraîner, il n'y a pas
38:43à modifier le code, etc. C'est-à-dire que les
38:45librairies de deep learning aujourd'hui, c'est une couche d'abstraction
38:47complète du hardware.
38:49Et c'est comme ça que ça doit être.
38:51Donc, autant j'entends,
38:53et ça j'accepte complètement le fait
38:55de se dire, les perfs
38:57peuvent être un petit peu supérieurs
38:59sur
39:01CUDA et sur NVIDIA parce qu'effectivement
39:03il y a une base installée, il y a un historique.
39:05Voilà, très bien, une communauté.
39:07Et AMD mettra un petit peu de temps
39:09à arriver là, tout comme d'autres accélérateurs.
39:11Les accélérateurs d'AWS, les accélérateurs
39:13d'autres cloud
39:15mettent aussi un petit peu de temps à arriver.
39:17Autant sur l'expérience de développement,
39:19aujourd'hui, il n'y a pas une grosse différence.
39:21Donc, le discours
39:23d'NVIDIA que j'entends parfois qui est
39:25« Ah mais non, mais si vous changez de GPU
39:27ou vous changez de plateforme hardware, il faut tout refaire. »
39:29C'est vraiment du gros bullshit
39:31digne de Steve Ballmer à la grande époque.
39:33De toute façon,
39:35les plateformes ne peuvent pas changer de GPU comme ça.
39:37Il me semble avoir entendu parler
39:39de contrats à NVIDIA
39:41d'engagement exclusif
39:43sur des durées assez longues.
39:45No comment.
39:49Donc, la question suivante,
39:51sans transition,
39:53c'est sur la souveraineté.
39:55Souveraineté des IA.
39:57Est-ce que
39:59le sujet
40:01de la souveraineté des IA
40:03n'est pas le même
40:05que le sujet
40:07de la souveraineté des données ?
40:11A vous les studios.
40:13Évidemment qu'il y a
40:15un tronc commun puisque
40:17in fine, c'est quand même de la donnée dont on parle.
40:19Il y a le facteur
40:21multiplicatif qui est énorme sur l'IA
40:23pour toutes les raisons dont on parle.
40:25Les milliards d'informations.
40:27Et la manière aussi
40:29dont on doit échanger, partager
40:31des informations propres
40:33à chaque entreprise, à chaque métier
40:35pour pouvoir entraîner
40:37le modèle.
40:39Et donc, je pense
40:41que le problème de souveraineté,
40:43on ne le traitera peut-être pas en France
40:45parce qu'aujourd'hui, on en parle beaucoup
40:47et c'est ceux qui en parlent le plus qui en font le moins
40:49et on en fait partie.
40:51Néanmoins,
40:53il se pose sur la table
40:55encore plus qu'avant.
40:57Je complèterai
40:59juste effectivement sur
41:01le débat de la souveraineté.
41:03On en parle souvent
41:05côté données.
41:07Je pense qu'il est également sur la
41:09supply chain.
41:11Exemple.
41:13Il fut un temps, quand on commandait
41:15un groupe électrogène pour construire un datacenter,
41:17c'était 12 semaines.
41:1913 semaines. Allez, 18 semaines.
41:21C'est du standard.
41:23Les collères, les SDMO, etc.
41:25Aujourd'hui, en France,
41:27pour avoir un groupe électrogène,
41:29on me dit
41:3180 semaines.
41:33Alors, je dis déjà, pourquoi vous parlez en semaines, en fait ?
41:35Non mais,
41:37en fait, pourquoi ils disent semaines ?
41:39Pourquoi ils ne parlent plus en années ?
41:41Et quand on creuse,
41:43ils nous disent, nos factories
41:45sont saturées, c'est du DDoS,
41:47par
41:49des commandes US.
41:51Et donc,
41:53le time to market d'un datacenter
41:55en Europe, aujourd'hui, est retardé
41:57de plusieurs dizaines de semaines,
41:59je vais parler comme eux, pour ne pas parler en années,
42:01à cause de ça.
42:03Je prends le GE comme exemple, il y en a d'autres.
42:05Et donc,
42:07NIS2, maintenant, commence à s'en tenir
42:09un petit peu, cette histoire de supply chain.
42:11NIS2 essaye d'identifier quelles sont les
42:13boucles de supply chain qui permettent de tenir
42:15aussi une certaine
42:17souveraineté
42:19sur une industrie aussi importante.
42:21Mais, plus le time to market
42:23est poussé loin,
42:25c'est-à-dire, plus on a une faible capacité
42:27à mettre un datacenter
42:29en Europe,
42:31à faire tourner du matériel, éventuellement
42:33européen, dessus, ou au moins
42:35avoir une emprise juridique dessus,
42:37plus, effectivement, on aura déjà
42:39entraîné nos modèles, on aura déjà envoyé
42:41nos données ailleurs,
42:43et l'effet locking, il va
42:45se verrouiller derrière
42:47l'ensemble de l'Europe.
42:49Donc, attention au débat de la
42:51souveraineté qui est très juridique,
42:53est-ce que ma donnée
42:55m'appartient ou pas, qui est très respectable,
42:57très important, mais je vous assure
42:59qu'il y a une guerre de la supply chain. Moi, ça me rappelle
43:01les masques en temps de
43:03Covid. On hijack
43:05les GPU, on hijack
43:07les
43:09groupes électrogènes, je ne sais pas comment
43:11ils font ça, mais aujourd'hui, c'est ça qui se passe.
43:13Alban, peut-être ?
43:15Oui, je pense, pour compléter,
43:17en effet, autant parler de supply chain directement,
43:19la vraie question, c'est quand est-ce qu'on
43:21se débarrasse d'NVIDIA, puisque c'est
43:23Jensen lui-même qui décide
43:25qui a le droit. On peut le dire, même
43:27Scalway se bat parce qu'on fait
43:29des commandes, et puis d'un coup, on lui dit, ah,
43:31Jensen a préféré un autre.
43:33Je ne fais pas de commentaires sur
43:35NVIDIA, parce que j'ai déjà suffisamment
43:37mais, oui, oui,
43:39je peux parler d'autres sociétés
43:41très, très, très connues
43:43où les arbitrages de livraison de serveurs
43:45sont faits par le CEO.
43:47C'est 8
43:49chez lui, 4 chez lui,
43:51c'est comme ça que ça se passe.
43:53Généralement, ils sont tous américains.
43:55Supermicro fait ça, mais en ce moment, ils ne vont pas très bien,
43:57donc ce n'est pas une bonne idée. Mais en tout cas,
43:59oui, il y a un vrai sujet de supply chain, mais
44:01ensuite, c'est aussi là où il faut revenir
44:03sur ce que vous disiez à propos d'open source,
44:05c'est que c'est le seul moyen de s'en sortir,
44:07parce qu'en fait, quelque part, les gros sont
44:09déjà ailleurs qu'en France, Mistral est plus open
44:11source et cherche à se vendre aux américains,
44:13à la limite, on a Qtie, vous n'en parlez pas, je suis déçu,
44:15je parle de ma paroisse un peu, il y a Qtie
44:17qui se défend, mais en effet, il n'y a que l'open
44:19source qui nous permettra de nous en sortir, puisque la bataille
44:21est déjà perdue du fait que les américains
44:23investissent en avance, et donc, ils ont la capacité
44:25en avance, alors que nous, on n'investit que quand on a une idée,
44:27et donc, on a les délais de supply chain derrière.
44:29L'analogie des masques est excellente.
44:31D'ailleurs, c'est marrant, j'y pensais.
44:33Je pensais à ça quand tu parlais,
44:35et c'est exactement ça.
44:37Je travaille, j'ai beaucoup
44:39travaillé pour des boîtes américaines, j'y vais souvent,
44:41et il ne faut jamais sous-estimer
44:43le America First, jamais.
44:45C'est-à-dire que les américains
44:47travailleront toujours avec les américains.
44:49Les gens qui pensent que Intel
44:51va couler, se trompent
44:53à un point.
44:55Moi, je n'ai pas de conseils boursiers à vous donner, mais...
44:57Pardon, Philippe, excuse-moi, c'est un mauvais jeu de mots.
44:59Je ne l'ai pas fait exprès.
45:01Je ne l'ai pas fait exprès.
45:03Intel ne coulera pas. Intel est stratégique
45:05pour les américains à un point que vous n'imaginez pas.
45:07TSMC, OK, mais TSMC
45:09est à côté d'un autre pays qui aimerait bien l'envahir.
45:11Donc, c'est compliqué.
45:13Tu shorterais Nvidia, par contre ?
45:17Oui, peut-être.
45:19On va dire comme ça. Je n'ai pas investi dans Nvidia.
45:21J'ai investi dans les autres.
45:23Mais peu importe.
45:25Cette espèce
45:27de conglomérat
45:29ou d'alliance, on va dire,
45:31OpenAI,
45:33OpenAI,
45:35Nvidia, AMD,
45:37Microsoft,
45:39Amazon, Google,
45:41plus l'argent
45:43de la Silicon Valley.
45:45Je suis désolé,
45:47parce que je suis français. Jusqu'à preuve du contraire,
45:49j'habite ici et je travaille ici.
45:51Des fois, ça me fait râler, mais c'est game over.
45:53Le problème de...
45:55Mistral a été hyper malin
45:57en se disant qu'on est français.
45:59Vous avez regardé la liste de leurs investisseurs ?
46:03Bien joué, bravo.
46:05Mais non,
46:07fondamentalement, vous n'êtes pas une boîte française.
46:09C'est un peu le
46:11next Dailymotion en même temps.
46:13Je leur souhaite
46:15de réussir, parce qu'ils sont brillants.
46:17Il ne faut jamais souhaiter
46:19du malheur
46:21à des startups.
46:23Les autres, on peut discuter.
46:25Le problème,
46:27c'est aujourd'hui,
46:29on a tous une super idée
46:31autour d'un verre ce soir,
46:33on veut créer une boîte pour entraîner
46:35un super modèle qui va révolutionner
46:37l'industrie des telcos,
46:39etc.
46:41Le ticket d'entrée,
46:43si vous n'avez pas 100 millions
46:45le premier jour, il n'y a même pas de discussion.
46:47D'accord ? C'est 100 millions
46:49même pour commencer.
46:51Quels investisseurs
46:53en France, j'en parle même pas,
46:55et même en Europe, sont capables
46:57sur une série A d'aligner
46:59100 millions comme ça sans discuter ? Personne.
47:01Personne. D'accord ?
47:03Et ce n'est sûrement pas les gouvernements
47:05et tout ça qui vont le faire.
47:07Quand vous regardez les levées de fonds aux US,
47:09on n'est même plus à 100, on est à 200, 300, 500.
47:11C'est de la folie.
47:13Pourquoi ? Parce que cet argent, il tourne là-bas.
47:15C'est l'argent des VCs
47:17qui va aller chez AMD,
47:19Nvidia, Amazon, Google,
47:21dans lesquels les VCs ont aussi investi.
47:23Cet argent-là, il reste en secure fermée.
47:25Tout le monde en profite.
47:27Leur économie se débrouille plutôt bien.
47:29Donc ils peuvent investir
47:31des sommes démentes parce qu'ils savent que de toute façon,
47:33ça circule dans les mêmes canaux.
47:35Bravo à eux !
47:37Essayer de lutter là-dessus,
47:39c'est compliqué.
47:41Alban, peut-être ?
47:43Rapidement.
47:45J'allais juste dire que j'étais d'accord
47:47sur le principe des fonds.
47:49Je parlais de QTAI tout à l'heure.
47:51On a deux Français,
47:53mais on est quand même allés chercher Eric Schmidt
47:55pour arriver à rassembler les 300 millions d'euros.
47:57Et on est ravis qu'Eric Schmidt,
47:59après sa carrière, ait investi dans QTAI.
48:01Alors,
48:03il reste deux questions.
48:05La dernière, on ira très vite.
48:07Le poids CO2 des IA ?
48:09Oui.
48:15Dans la question qu'il y avait,
48:17je vais aller jusqu'au bout de ta question.
48:19Le poids CO2 par rapport à l'entraînement,
48:21ça dépend, on va le faire.
48:23Pour l'instant,
48:25moi, personnellement, j'ai du mal à y croire
48:27parce qu'on fait des très beaux modèles,
48:29mais il y a très peu d'applicatifs concrets,
48:31hormis les chatbots, comme tu dis,
48:33dans le CAC 40.
48:35Arrivé à savoir quand est-ce qu'on va rentabiliser
48:37des dépenses de CO2
48:39qui sont monstrueuses,
48:41la seule bonne nouvelle,
48:43c'est que les seuls qui ont encore de la capacité électrique,
48:45j'exagère un peu, c'est les Nordics,
48:47et qu'ils ont une énergie renouvelable,
48:49donc à la limite, plus ça va, plus l'entraînement passe au Nord,
48:51donc il n'y a de moins en moins que de CO2 consommé,
48:53c'est déjà ça.
48:55Pour nous, c'est un peu trop tard
48:57pour ouvrir Face Alarm.
48:59On va mettre un petit bémol quand même.
49:01Il y a des acteurs comme
49:03Eclairion qui ouvrent
49:05des centres d'hébergement dédiés
49:07aux machines d'IA,
49:09avec évidemment
49:11la puissance électrique disponible,
49:13je ne peux pas m'étendre là,
49:15il y a plusieurs idées un peu
49:17novatrices. Ce qui est très important
49:19de souligner quand on parle du poids du CO2,
49:21c'est qu'on ne va pas rentrer dans les scopes
49:231, 2 et 3 de l'analyse
49:25de cycle de vie sur l'empreinte
49:27carbone du numérique
49:29en particulier, mais ça s'applique
49:31à plein d'autres industries.
49:33Ce qu'il faut simplement noter,
49:35on a beaucoup parlé des Américains,
49:37je vais enfoncer un peu le clou,
49:39il y a une institution qui s'appelle
49:41l'Uptime Institute qui a défini depuis
49:43plusieurs années maintenant des standards
49:45de conception permettant d'assurer
49:47la disponibilité
49:49des installations, des systèmes
49:51d'information. Et bien sûr,
49:53on essaye toujours de
49:55rester dans sa zone de confort et de ramener
49:57les éléments dans les cas
49:59que l'on connaît bien. Et aujourd'hui,
50:01nous, on doit
50:03faire preuve de beaucoup de pédagogie parce que
50:05tous les gens avec qui nous discutons
50:07ont envie de déployer
50:09leur grille d'IA sur les standards
50:11actuels, qu'on appelle tier 1, tier 2, tier 3,
50:13tier 4, je vous passe les détails techniques.
50:15Bref, c'est de multiplier
50:17les équipements techniques,
50:19on parlait des groupes électrogènes,
50:21on pourrait parler des batteries,
50:23des onduleurs, des alimentations sans
50:25interruption, on pourrait parler de tout
50:27un tas d'autres dispositifs qu'il faut
50:29mettre en double, en triple
50:31parce que la contrainte, c'est
50:33d'éviter
50:35la rupture de service et donc d'assurer
50:37la disponibilité. Dans
50:39les modèles, les cas d'usage
50:41qui nous préoccupent ici, les cartes
50:43sont redistribuées. Il faut arrêter
50:45de penser dans l'ancien temps
50:47avec des systèmes qui adressent
50:49des nouveaux usages, avec des nouveaux acteurs.
50:51Les acteurs dont on parle là,
50:53ils sont plus jeunes que moi,
50:55je rencontre beaucoup
50:57aujourd'hui, ils ont 27, 30, 35
50:59ans, ils brassent des centaines de millions,
51:01parfois des milliards d'euros et
51:03leurs usages
51:05n'ont pas de sens à
51:07répliquer ce qui a été fait depuis 10, 20,
51:0930, 40 ans dans les datacenters,
51:11d'aller doubler les lignes d'alimentation,
51:13d'aller mettre pléthore de groupes
51:15électrogènes avec du fuel
51:17qui est stocké et qui pourrit dans les cuves
51:19parce qu'on ne les fait tourner que
51:214 heures par mois.
51:23Tout ça, il faut le rebalayer
51:25et repenser autrement
51:27les infrastructures techniques,
51:29notamment de l'électricité et du refroidissement
51:31au regard des
51:33usages tels qu'ils sont aujourd'hui.
51:35Il y a des enjeux, il y a des nouveaux
51:37acteurs, vous parliez de centrales
51:39nucléaires, il y a aussi des choses à faire en France,
51:41pas de construire les centrales parce qu'on en a beaucoup,
51:43mais d'exploiter celles qui existent.
51:45Il y a aussi pour l'empreinte carbone
51:47toute une industrie
51:49qui va se déployer, qui est
51:51liée au biogaz, donc c'est du gaz
51:53qui est issu
51:55de systèmes qui permettent de le produire
51:57en local et qui n'est pas du gaz fossile,
51:59de la biométhanisation
52:01et ces systèmes-là vont devoir
52:03se déployer, ça nous évitera d'acheter du gaz
52:05dans des pays qui ne sont pas forcément
52:07nos amis ou alliés avec nous
52:09et ça nous permettra surtout de
52:11décarboner l'industrie du numérique.
52:13Sur l'histoire du poids CO2, moi j'ai
52:15souvent tendance à dire
52:17on nous parle beaucoup de l'impact CO2
52:19en négatif et
52:21qui chiffre aujourd'hui l'impact positif du numérique
52:23en poids CO2
52:25évité ?
52:27C'est ça, l'ADEME, ils sont occupés
52:29à compter les éponges, mais
52:31réellement
52:33le poids positif, par exemple
52:35de la télé
52:37consultation, de la visio
52:39conférence, c'est des choses
52:41réelles sur lesquelles
52:43malheureusement
52:45nos politiques ne s'attardent pas beaucoup
52:47et sont beaucoup plus attachés à
52:49essayer de taper sur le numérique, sur les infrastructures
52:51le data center
52:53il fait du bruit, il pollue, etc.
52:55Rien du tout, en France
52:57l'énergie elle est propre.
52:59Mais dans ton sens, il y a un lien
53:01hypertexte dans tout ça
53:03c'est que l'IA va servir à décarboner
53:05aussi le numérique dans un circuit fermé
53:07on va pouvoir faire travailler des modèles
53:09qui vont pouvoir, plus
53:11industriels que génératifs, mais qui vont pouvoir
53:13assister
53:15les conceptions
53:17pour réduire l'emploi de carbone de l'ensemble
53:19des chaînes et également dans la supply chain.
53:21Très peu de choses à rajouter
53:23sur ce que vous venez de dire, juste un point
53:25il me semble que cette histoire de CO2
53:27est une opportunité pour la France
53:29en particulier. C'est à dire
53:31qu'on va pouvoir vendre des tokens
53:33en coût CO2, je pense, les plus
53:35compétitifs au monde. Ici
53:37en France. En plus
53:39parce qu'Alban a raison, je pense
53:41qu'effectivement le Nord va être
53:43très spécialisé en
53:45entraînement et nous on sera très
53:47inférence. Et on a une
53:49opportunité supplémentaire sur l'inférence
53:51c'est qu'on a un positionnement géographique
53:53imbattable. On a une dorsale
53:55qui fait hémisphère sud, hémisphère nord
53:57Paris-Francfort,
53:59Paris-Londres, Paris-Amsterdam
54:0110 millisecondes, Paris-Marseille
54:039 millisecondes et puis de Marseille
54:05tu fais la périphérique autour de l'Afrique
54:07et je parle même pas du
54:09Marseille-Singapour.
54:11Et donc, point
54:13CO2 extraordinaire, positionnement
54:15géographique extraordinaire,
54:17on a en fait les cartes pour
54:19avoir un outil industriel extraordinaire.
54:21Il faut faire attention sur ce que tu dis, c'est à dire que
54:23ceux qui nous culpabilisent sur le CO2
54:25sont en train de nous désarmer
54:27industriellement. C'est une catastrophe.
54:31Un dernier
54:33petite
54:35question, vraiment
54:37on est plus en mode troll mais on a
54:39dépassé de 4 minutes donc
54:41un avis sur la législation européenne
54:43en matière d'IA.
54:45Allez Julien.
54:47Alors je tenais
54:49à remercier Thierry Breton pour l'ensemble de son oeuvre.
54:51Et on lui souhaite
54:53une longue retraite.
54:57Longue et paisible retraite
54:59à l'écart de tout pouvoir de décision.
55:01Je sais pas s'il y a d'anciens
55:03atos dans la salle.
55:05Salut à vous.
55:07Alors
55:09je garde le troll pour la fin
55:11mais mon avis professionnel
55:13non j'ai commencé en fait.
55:15Je pense que la conséquence
55:17directe de cette régulation
55:19c'est que
55:21c'est public, c'est que
55:23OpenAI et me semble-t-il
55:25Meta
55:27et peut-être Apple
55:29mais je suis pas 100% sûr, ont
55:31déjà annoncé qu'ils ne
55:33déploieraient pas pour des utilisateurs européens
55:35leurs modèles les plus avancés.
55:37Pourquoi ? Parce que ces modèles là
55:39sont considérés par
55:41l'AI Act européen
55:43comme des modèles systémiques
55:45etc.
55:47Donc ils sont soumis à un ensemble
55:49de régulations supplémentaires dont on pourrait
55:51débattre ad nauseum de est-ce que ça a du sens
55:53est-ce que ça a pas de sens.
55:55Eux ont décidé que
55:57ils en avaient rien à carrer
55:59que c'était du travail en plus
56:01pour satisfaire des grades papiers
56:03obscurs
56:05à Bruxelles et ailleurs
56:07et qu'ils le feraient pas.
56:09Et que si l'Europe avait envie de retourner
56:11dans un Moyen-Âge technologique
56:13ça la regardait et que
56:15c'est pas grave, c'est jamais que quelques centaines
56:17de millions d'habitants
56:19c'est pas énorme pour eux, ils peuvent vivre sans.
56:21Et vraiment c'est ça la conséquence directe.
56:23Donc ce que ça veut dire pour les entreprises
56:25bon ça c'est l'aspect philosophique énervant
56:27mais l'aspect business concret, c'est-à-dire si vous êtes
56:29une entreprise française ou européenne aujourd'hui
56:31et que cette hannerie là
56:33se prolonge, vous allez
56:35être limité à l'utilisation de
56:37modèles qui rentrent dans les clous
56:39de l'AI Act quand vos concurrents
56:41singapouriens, brésiliens
56:43et sans parler des américains
56:45eux seront full patate
56:47sur le dernier modèle qui est sorti hier
56:49et que ça finira
56:51par se voir. Là on parlait de supply chain
56:53il y a aussi une supply chain modèle
56:55et là à cause de la régulation
56:57elle est fermée.
56:59Donc juste comme d'habitude
57:01l'Europe commence par
57:03réglementer avant même d'avoir bâti
57:05moi je pense qu'avec tout l'argent
57:07qui a été dépensé pour écrire
57:09ces documents
57:11et pondre une énième
57:13norme, il y avait de quoi faire un beau
57:15projet européen avec les meilleurs
57:17équipes, les meilleurs labos et qu'on aurait
57:19certainement pu passer notre temps, notre
57:21argent et notre énergie à construire
57:23quelque chose de compétitif plutôt qu'à
57:25essayer de réglementer ce que les autres ont fait.
57:27Une fois de plus c'est assez lamentable
57:29et je suis
57:31pas très optimiste
57:33pour la suite.
57:35Et d'ailleurs moi je mettrais un certain
57:37lien entre justement
57:39toute la réglementation
57:41politique sur la CO2
57:43et sur l'IA
57:45ça part un peu
57:47du même philosophie
57:49qui est quand même
57:51le numérique c'est les vilains
57:53etc. et on va taper dessus tant qu'on peut.
57:55Concrètement il y a un peu
57:57quand même cette philosophie
57:59là chez nos politiques
58:01et contre quoi il faut
58:03qu'on soit tous
58:05je dirais communément
58:07amenés à se battre
58:09et ça serait un peu ça
58:11le mot de conclusion sauf si
58:13quelqu'un en a un meilleur.
58:15Par contre on a beaucoup râlé.
58:17Oui on a beaucoup râlé.
58:19Je pense que
58:21bon
58:23en vrai on n'a pas le temps pour des
58:25questions donc je pense que
58:27c'est l'heure de la pause
58:29et donc on se revoit d'ici
58:3130 minutes. Merci
58:33au panel.

Recommandations