SMART TECH - IA et open source : quel avenir ?

B SMART

l’année dernière

Grok-1, le premier grand modèle de langage développé par la start-up xAI d’Elon Musk est enfin disponible. Doté de 314 milliards de paramètres, c’est actuellement le modèle d’intelligence artificielle le plus puissant accessible gratuitement et surtout le rival direct de ChatGPT. Alors qu’Elon Musk fait pression sur OpenAI pour accélérer la libération de ses modèles dans le domaine public, l’IA open source est-elle en passe de dépasser les modèles fermés ?

Catégorie

🗞

News

Transcription

Afficher la transcription complète de la vidéo

00:00 (Générique)

00:04 -Pour commenter l'actualité de l'intelligence artificielle,

00:06 j'ai convié Anne Bretonnière. Bonjour, Anne.

00:08 -Bonjour. -Vous êtes la chef d'Atassia

00:10 en CIA chez Renault.

00:12 Et puis avec vous, Sylvain Duranton, le directeur monde de BCGX.

00:16 C'est l'activité du grand groupe de conseil en stratégie

00:18 qui est vraiment concentré sur la data et l'intelligence artificielle.

00:22 -Exactement.

00:23 -Et également en plateau, Alexandre Zapolsky,

00:26 le cofondateur et président de l'Inagora.

00:28 Bonjour, Alexandre. -Bonjour.

00:30 -Je propose qu'on commence avec...

00:32 C'est une question presque pour Alexandre que j'ai envie de poser,

00:35 avec cette question autour de l'open source

00:37 et de l'intelligence artificielle.

00:39 On a cru, à un moment, que ce serait une façon pour l'Europe

00:42 de se différencier dans ces grands modèles de langage américains

00:46 qui s'imposent,

00:48 avec Mistral qui nous est apparu comme une promesse

00:53 d'un certain leadership européen à travers des modèles open source.

00:57 Et puis là, patatras, ça s'écroule un petit peu, tout ça, quand même.

01:00 Quelle est votre perception de ce qui se passe ?

01:02 Ça s'écroule pas uniquement parce que Mistral a signé un partenariat

01:06 avec Microsoft et a décidé finalement que son modèle de langage large

01:10 serait sous forme propriétaire et payant.

01:12 Ça s'écroule aussi parce qu'on a Elon Musk

01:14 qui sort, gros, en open source, un Américain.

01:18 Meta aussi qui se positionne sur l'open source.

01:20 Finalement, c'est plus ça, le sujet, l'open source et l'Europe ?

01:24 -Oh, ben, comme toujours, il y a open source et open source.

01:27 C'est comme dans le green.

01:28 Tout le monde veut être green et il y a beaucoup de greenwashing.

01:32 Et donc, il y a beaucoup d'open source washing.

01:34 Et donc, il faut faire attention.

01:35 C'est pas parce qu'on met le mot "open",

01:38 voire même "open source", qu'on est open source.

01:41 Et donc, il faut, d'ailleurs, que l'écosystème travaille sur ce sujet-là.

01:45 Nous, on travaille avec l'Open Source Initiative

01:48 pour justement définir ce qu'on va pouvoir appeler open source AI.

01:52 Notre conviction, c'est que...

01:55 -Qu'est-ce que vous voulez dire exactement, Alexandre ?

01:57 Par exemple, le modèle de Meta n'est pas véritablement open source ?

02:01 -C'est clair, ça a été dit. L'Open Source Initiative...

02:03 -On l'a même dit sur ce plateau. -Ben voilà, exactement.

02:05 -C'est une question un peu faussement innocente.

02:07 -C'est une fausse...

02:08 Oui, une fausse question, une fausse interrogation.

02:11 Donc, non, c'est pas open source.

02:13 L'OSI l'a dit.

02:14 -C'est de la science ouverte, en fait.

02:16 -Exactement, c'est de la science ouverte.

02:17 C'est-à-dire que ce que font ces soi-disant modèles LLM,

02:21 soi-disant open source,

02:22 c'est qu'ils permettent, sous certaines conditions,

02:25 et donc ils limitent la possibilité de pouvoir les utiliser,

02:28 sous certaines conditions,

02:29 vous avez le droit d'utiliser, en fait, le logiciel.

02:31 Mais par exemple, vous n'avez pas le droit d'en faire un usage commercial.

02:34 Et puis surtout, ils livrent, certes, le modèle,

02:37 ils livrent les méthodes d'entraînement,

02:39 mais ils ne livrent pas les data sets.

02:40 Et nous, on est très clairs.

02:42 Une IA réellement open source,

02:44 c'est une IA pour laquelle vous avez accès

02:46 au modèle, aux méthodes d'entraînement et aux data sets.

02:50 Et c'est ce qu'on fait avec la communauté Open LLM France.

02:52 - Et gros que 1,

02:54 donc l'IA d'Elon Musk n'est pas totalement open source ?

02:59 - J'étais sûr que vous me poseriez la question,

03:00 donc je suis quand même allé vérifier juste avant de venir,

03:02 et je vous le réponds, non.

03:03 Il ne livre pas, en fait, le data set.

03:05 Alors le data set, d'un autre côté, on le sait, c'est tout Twitter.

03:08 - C'est Twitter.

03:09 - Mais ce qui pose aussi une difficulté,

03:11 c'est que quand vous ne connaissez pas, en fait, votre data set,

03:13 vous ne savez pas ce qu'il y a dedans,

03:14 et vous n'êtes pas certain que ce soit des données de qualité,

03:17 et ça peut poser, en fait, des difficultés.

03:18 Alors je ne vais pas donner les noms de ces moteurs open source,

03:22 d'IA, mais certains, par exemple, quand vous les interrogez

03:24 sur quelle est la capitale de Taïwan,

03:26 leur réponse, naturellement, c'est Pékin.

03:29 Parce que pour un certain nombre de modèles LLM,

03:31 - Ça présente des problèmes géopolitiques.

03:34 - Exactement, la même chose sur le Sahara occidental.

03:37 Certains vous disent que le Sahara occidental, c'est algérien,

03:39 et donc ça peut poser, bien sûr, en fait, des problèmes à d'autres.

03:42 Ou le casse-roues des Toulousains,

03:44 qui existe dans tous les LLM de qualité, on va dire.

03:48 Mais certains, ils ont été entraînés

03:49 sur des datas d'influenceuses américaines,

03:51 et la méthode que vous avez de casse-roues américains,

03:53 c'est celle d'une influenceuse américaine.

03:55 Ça ne ressemble en rien aux casse-roues des Toulousains qu'on connaît.

03:57 - Parce que ce n'est pas l'exemple du casse-roues de l'Extrême.

03:59 - Donc pour respecter les cultures, les civilisations, il faut être clair,

04:02 on a besoin de modèles réellement open source,

04:06 et c'est ça qu'on fait avec cette fameuse communauté Open LLM France,

04:10 qui réunit aujourd'hui plus de 600 chercheurs,

04:12 CNRS, INRIA, et tout un tas de gens du Sud-Est.

04:15 - Je suis quand même allée chercher,

04:18 et on va l'afficher, le tableau des principaux langages,

04:22 grands modèles de langage, les LLM,

04:25 c'est de le dire en français à chaque fois, ça me fait vriller le cerveau.

04:28 Si vous regardez bien, dans cette liste,

04:30 c'est propriétaire, propriétaire, propriétaire, propriétaire.

04:33 Anne, faire de l'IA open source, c'est très compliqué ?

04:37 - C'est possible,

04:42 mais ça nécessite déjà des jeux de données,

04:47 comme on l'a dit, sur lesquels on peut finalement construire,

04:51 parce que finalement, quand on va donner une réponse,

04:53 à partir de ces données, qu'elles ne soient pas trop biaisées,

04:56 et si le biais, il faut qu'on les choisisse,

04:57 qu'ils soient en accord avec nos valeurs.

05:00 Après, construire ces modèles-là

05:04 sur de l'open source et du fine tuning,

05:07 on peut le faire et il faut le faire

05:09 pour qu'on puisse rajouter nos domaines d'expertise.

05:12 Donc est-ce que l'open source, c'est possible ?

05:16 Oui. Après, nous, pour des grands groupes comme Renault,

05:20 on n'a pas vocation à devenir des boîtes créatrices

05:25 de large-language modèles.

05:27 On a des vocations à les utiliser pour créer des nouveaux produits,

05:32 des nouveaux services aux services des gens.

05:36 - Mais cette question du choix, quel modèle on choisit,

05:40 est-ce que l'open source, c'est une question qui se pose ?

05:42 Je vais peut-être me tourner vers Sylvain

05:45 et reprendre ma question au départ.

05:47 On avait cette ambition de créer un modèle européen open source.

05:52 Est-ce que ça s'est totalement abandonné ?

05:54 Est-ce que l'open source peut avoir une place

05:56 dans les grands modèles de langage demain ?

05:58 Quel est votre regard là-dessus ?

05:59 - Vous demandiez sur l'IA. Il faut voir que sur l'IA,

06:02 il y avait beaucoup d'open source qui s'est développé historiquement.

06:05 Quand on a travaillé en machine learning, en deep learning,

06:07 il y avait des bibliothèques open source enrichies par des communautés.

06:10 Donc c'était possible.

06:13 Sur GenEye, je dirais que ce qui rend le modèle open source plus difficile,

06:18 mais pas non moins désirable,

06:20 c'est qu'il y a besoin de puissance de calcul pour l'entraînement

06:23 et que c'est cher et qu'à un moment donné,

06:25 on peut fédérer assez facilement du travail de codeur

06:31 parce que chaque individu peut contribuer.

06:33 Maintenant, avec les coûts d'entraînement, c'est plus compliqué.

06:36 C'est pour ça qu'on n'a pas une émergence évidente d'open source aujourd'hui.

06:40 Il y a plusieurs choses qui peuvent être envisagées.

06:42 Il y a, et ça a été dit, l'exemple de Meta qui dit

06:46 "Moi, je vais mettre à disposition, mais ça coûte très cher".

06:49 Et du coup, il y a la question de savoir

06:50 si c'est du vrai open source ou pas du vrai open source.

06:52 Il y a des modèles qui ne sont pas complètement purs.

06:54 Il y a plusieurs grands modèles sur lesquels on est passé

06:59 d'un discours qui était très open à un discours qui s'est...

07:01 - Par exemple, Mistral et Ise expliquent en disant

07:03 "On n'a jamais dit qu'on ne ferait que de l'open source".

07:06 - C'est des modèles hybrides.

07:07 - Voilà, mais ce grand modèle, il a choisi de le passer en mode propriétaire

07:11 pour une raison économique.

07:13 - Oui, parce qu'en fait, à un moment, c'est dur de le faire tourner.

07:15 Après, ce que je pense, c'est que nous, quand on déploie ces technologies,

07:19 quand on déploie ces technologies, ce n'est pas le pari sur un modèle.

07:25 En général, on en déploie plusieurs à la fois qui se répondent, etc.

07:28 Et je pense qu'il y a plusieurs natures d'enjeu.

07:30 Il y a la course à la puissance.

07:35 Et là-dessus, les modèles les plus génériques, versatiles, etc.

07:39 qui sont la liste que vous montriez là, il y a une course aux armements là-dessus.

07:43 Et sur cette course aux armements, à un moment donné,

07:47 il faut arriver à financer de l'infra.

07:48 Alors, on peut imaginer qu'il y ait des moyens de financer de l'infra

07:51 qui soient fédérés.

07:52 On peut imaginer qu'il y ait des personnes qui soient prêtes

07:56 à contribuer de l'infra.

07:57 Et on peut se dire qu'il y a des modèles puissants qui peuvent émerger

08:00 qui soient en open source.

08:01 Après, il y a aussi tout un tas d'autres modèles qui peuvent être plus spécialisés

08:05 pour certains usages, qui vont requérir beaucoup moins de puissance de caractère

08:09 et de puissance de calcul.

08:10 Ou là, le modèle open source peut marcher à plein.

08:13 Et il n'est pas complètement dit quel est le type de modèle à la fin.

08:17 Je ne pense pas qu'il y ait un type de modèle qui va remporter la mise.

08:20 On aura tout un tas de variétés de types de modèles que les gens vont utiliser.

08:25 Je pense que certains modèles commerciaux vont perdurer.

08:27 Alors que si vous prenez en ML, il n'y a aucun modèle commercial

08:30 qui n'a jamais perduré.

08:31 C'est passé en full open source.

08:33 Je pense qu'il y aura une partie qui sera en open source,

08:35 une partie qui sera commerciale.

08:37 Pour moi, le plus important, c'est de s'assurer qu'il y ait de l'open source.

08:40 Parce que si on est dans un système où il n'y a plus que du commercial

08:43 aux mains de quelques très grosses entreprises de tech

08:47 qui seront probablement américaines pour nous,

08:50 on est un peu en danger quand même.

08:52 Et je ne parle même pas simplement de l'économie.

08:54 C'est juste pour le bon fonctionnement du marché, de la société, etc.

08:58 - Et de notre culture, notre prise de décision.

09:01 - Pour moi, c'est vital.

09:02 Mais là, je pense qu'il y a des enjeux au-delà de la technique

09:04 qui sont des enjeux réglementaires.

09:05 Il y a une bataille de lobbying qui fait rage sur ces sujets.

09:08 Et je pense que tout ce qui peut favoriser l'émergence

09:11 de solutions européennes ou open source et open source,

09:15 je pense que c'est très important.

09:16 - On a essayé de donner un coup de pouce à Mistral et I.

09:18 Mais bon, finalement, ils ont quand même signé

09:20 leur principal accord avec Microsoft, l'américain,

09:22 parce qu'ils ont besoin de cette plateforme numérique gigantesque.

09:26 On n'en a pas en Europe, des géants du numérique, tout simplement.

09:29 Cet argument commercial, parce que c'est Arthur Mench qui nous dit

09:33 "Moi, ce deal commercial va me permettre de financer la recherche".

09:37 - Alors en fait, ils ont besoin de la plateforme de diffusion.

09:42 Ils n'en ont pas besoin de Microsoft pour une question de calcul.

09:45 Ils en ont en fait besoin pour un go-to-market.

09:48 Et donc, ils s'associent...

09:50 Alors c'est vrai qu'en fait, ils ne prennent personne aux dépourvues.

09:54 Le business plan de Mistral était disponible en ligne.

09:57 Il fait 7 pages et ils ont toujours été clairs.

09:59 Ils développent en fait des modèles open source,

10:02 mais ils ont toujours expliqué que leur revenu reviendrait

10:06 en diffusant des modèles qui seraient eux plus open source

10:10 et les modèles les plus puissants seraient propriétaires et payants.

10:13 Donc en réalité, quelque part, si les journalistes avaient fait l'effort

10:17 d'aller regarder et de gratter un temps soit peu...

10:19 - Pas que les journalistes, parce qu'il y a beaucoup de la communauté open source

10:23 qui avait aussi envie d'y croire.

10:24 - Et oui, mais c'est ça.

10:25 - Attention Alexandre.

10:27 - Vous avez raison Delphine.

10:28 Non mais ici, en plus, vous avez toujours fait un travail d'analyse sérieux

10:31 et bien sûr, ce n'était pas une critique vis-à-vis de Smart Tech.

10:34 Mais honnêtement, toute l'information était disponible depuis le départ.

10:37 Donc personne n'aurait dû être surpris.

10:39 - La surprise, c'est le deal avec l'Un Américain.

10:41 - Oui, non, ce n'est pas une surprise parce que naturellement,

10:44 si vous voulez en fait avoir un marché mondial,

10:46 il faut aller voir ces grands acteurs mondiaux.

10:49 Mais par contre, l'erreur, c'est de croire que en mettant

10:53 tous nos oeufs dans le même panier, on va y arriver.

10:56 Et donc, ce qui est essentiel, c'est la biodiversité numérique,

10:59 y compris dans les IA open source.

11:02 Et donc, moi, je suis convaincu que Mistral va avoir en fait

11:05 certainement beaucoup de succès et je leur souhaite beaucoup de succès

11:08 et tant mieux qu'on ait des champions français qui aient des succès.

11:11 Mais ma conviction profonde, c'est que Mistral ne sera pas l'acteur

11:15 champion de la souveraineté numérique dans le domaine de l'IA française

11:19 et européenne. Et pour ça, je pense que moi, il faut casser les codes,

11:22 il faut complètement changer le game.

11:25 Et donc, le seul modèle qui va permettre de s'imposer face aux GA Américains,

11:29 ce sont justement des modèles réellement open source.

11:32 Et c'est pour ça qu'il faut inventer des nouvelles façons.

11:35 - Surtout que là, on est au début de l'histoire, donc il n'est pas trop tard.

11:37 - Exactement. Il faut fabriquer différemment.

11:40 Et donc, ne pas tout attendre d'un seul acteur économique.

11:43 Et c'est là où la coopération entre le public et le privé est essentielle.

11:47 Sur les moyens de calcul, on nous dit toujours, oui, il y a des problèmes,

11:50 ça coûte cher, etc. Mais c'est faux parce que quand vous faites de l'open source,

11:53 vous avez accès en fait à des moyens de calcul qui sont juste gigantesques.

11:57 En France, on a une organisation qui s'appelle le Gen-C,

12:01 qui gère le fameux super cluster Gen-Z,

12:03 qui vient d'ailleurs aujourd'hui, qui a annoncé en fait son extension.

12:06 Il vient d'acheter en fait des clusters supplémentaires auprès de Exebul,

12:10 donc Atos aujourd'hui, évident.

12:13 Et donc, on n'est pas pauvre en moyens de calcul en fait en Europe.

12:17 Et puis surtout, c'est que ça, c'est pour l'entraînement.

12:20 Mais ensuite, sur la partie business commercial,

12:23 sur la partie inférence, fine tuning,

12:25 la réalité, c'est que vous n'avez pas tant besoin de moyens de calcul que ça.

12:29 Et d'ailleurs, on développe de plus en plus des modèles light ou plus léger

12:33 qui permettent d'être inférés ou fine tunés juste sur des CPU.

12:36 Donc tout ça, c'est du blabla.

12:38 La réalité, c'est qu'il y a une troisième voie qui est possible

12:41 et qu'il faut qu'on bosse en fait dans cette direction.

12:43 Et surtout qu'on ne se décourage pas. Il n'y a aucune raison qu'on n'y arrive pas.

12:46 - Allez, il faut qu'on accélère.

12:47 L'autre sujet, c'était sur les perspectives économiques

12:50 liées à l'intelligence artificielle, on va dire de manière générale,

12:53 pas que générative, mais en ce moment, c'est quand même ça l'emballement.

12:56 Comment c'est perçu par exemple au sein d'un grand groupe aujourd'hui,

13:00 l'IA, comme un générateur de nouveaux business ?

13:03 - C'est un générateur... - De croissance, d'emploi ?

13:06 - En fait, l'IA va... - Ou l'inverse.

13:09 - Va s'intégrer.

13:10 Non, on va transformer notre manière de travailler,

13:13 on va transformer aussi nos produits.

13:15 Avant, on vendait des voitures pour aller d'un point à un point B.

13:18 Maintenant, c'est des produits technologiques

13:20 où on va pouvoir pousser des nouveaux services,

13:23 améliorer l'expérience finalement de mobilité.

13:28 Et l'expérience de mobilité, ça ne va pas simplement être

13:30 le moment où vous vous montez dans votre voiture,

13:32 ça va être quand vous êtes chez vous

13:34 et que vous voulez aller vous accompagner vos enfants à l'école.

13:39 Donc on va venir vous suggérer de dégivrer votre voiture à 8h20

13:44 parce qu'il fait -5°C aujourd'hui.

13:45 - Je voulais vous faire réagir, Sylvain, sur le chiffre

13:48 qui est dans le rapport sur l'intelligence artificielle

13:50 qui a été rendu récemment au président Emmanuel Macron

13:53 qui nous parle de 250 à 400 milliards d'euros

13:55 du PIB à horizon 2030-2035, une hausse, pardon.

13:59 De ce niveau-là, vous y croyez, grâce à l'IA ?

14:02 - Alors oui, oui, quand on cumule 1% de croissance

14:05 pendant suffisamment longtemps,

14:06 ça fait des chiffres qui donnent le vertige.

14:08 Donc la question, c'est est-ce que c'est moteur de croissance

14:10 pour les économies ou pas ?

14:11 - Oui.

14:12 - Et la réponse, c'est oui.

14:13 Alors, de deux façons... - Aucun doute.

14:15 - A aucun doute.

14:16 Il y a deux choses qui jouent.

14:18 La première, c'est qu'il y a des gains de productivité

14:21 qui peuvent être faits

14:22 et la productivité, c'est de la croissance.

14:24 C'est un des moteurs de la croissance économique,

14:26 c'est la productivité.

14:27 Et puis ensuite, il y a des gains de revenus,

14:31 ce que vous demandiez.

14:32 Et quand on voit, nous, les entreprises...

14:34 On a fait un sondage, là, en fin d'année dernière,

14:36 pour voir un petit peu le niveau d'avancement

14:39 des entreprises sur l'intelligence artificielle.

14:41 - En France ou dans le monde ?

14:43 - Dans le monde. - OK.

14:44 - Dans le monde, mais on a un échange de données

14:46 et un échantillon français et les messages sont les mêmes.

14:48 Quand on regarde les entreprises qui sont les plus avancées,

14:50 elles travaillent toutes à la fois

14:51 sur des sujets de productivité et des sujets de revenus.

14:54 On est bien sur ces deux choses.

14:55 Alors, la productivité, c'est parfois un peu impalpable

14:59 parce que tout le monde a été frappé par les annonces faites,

15:02 par tel acteur de call center ou telle entreprise...

15:04 - Qui licencie. - ...800 personnes, etc.

15:07 - Il licencie peut-être un peu trop vite, je sais pas.

15:10 - Après, la plupart de la productivité qui vient

15:14 grâce à ces outils, c'est une productivité de faible ampleur

15:19 pour beaucoup de monde.

15:20 Et le déploiement de tous ces outils,

15:22 ça fait qu'il y a beaucoup de gens qui gagnent

15:24 quelques heures par semaine dans leurs travaux, etc.

15:26 Alors, est-ce qu'on se dit, quelques heures par semaine,

15:28 on va arriver à faire des immenses restructurations pour ça ?

15:32 Non, je pense pas, parce qu'une fois que chacun a gagné deux heures,

15:35 on va pas en faire grand-chose.

15:37 En revanche, il va y avoir des gains,

15:39 ces gains de productivité vont se matérialiser

15:41 parce qu'on va faire un peu plus, un peu différent,

15:43 un peu ceci, un peu cela.

15:45 - Moi, je vous suggère qu'on organise un débat

15:48 sur cette question de l'emploi et de la croissance,

15:50 parce que malheureusement, on a déjà écoulé tout le temps

15:52 qu'on avait pour discuter de cette actu de l'IA,

15:54 on aura même pas eu le temps de terminer nos sujets.

15:56 Merci beaucoup, Anne Bretonnière de Renault,

15:59 Sylvain Duranton du BCG, Alexandre Zapolsky de l'Inagora.

16:02 C'est passé très vite, je vous réinvite très bien, évidemment,

16:04 avec grand plaisir.

Recommandations

17:55

À suivre

SMART TECH - ChatGPT, OpenAI… qu’en sait-on réellement ?

B SMART