SMART TECH - IA et open source : quel avenir ?

  • il y a 5 mois
Grok-1, le premier grand modèle de langage développé par la start-up xAI d’Elon Musk est enfin disponible. Doté de 314 milliards de paramètres, c’est actuellement le modèle d’intelligence artificielle le plus puissant accessible gratuitement et surtout le rival direct de ChatGPT. Alors qu’Elon Musk fait pression sur OpenAI pour accélérer la libération de ses modèles dans le domaine public, l’IA open source est-elle en passe de dépasser les modèles fermés ?

Category

🗞
News
Transcript
00:00 (Générique)
00:04 -Pour commenter l'actualité de l'intelligence artificielle,
00:06 j'ai convié Anne Bretonnière. Bonjour, Anne.
00:08 -Bonjour. -Vous êtes la chef d'Atassia
00:10 en CIA chez Renault.
00:12 Et puis avec vous, Sylvain Duranton, le directeur monde de BCGX.
00:16 C'est l'activité du grand groupe de conseil en stratégie
00:18 qui est vraiment concentré sur la data et l'intelligence artificielle.
00:22 -Exactement.
00:23 -Et également en plateau, Alexandre Zapolsky,
00:26 le cofondateur et président de l'Inagora.
00:28 Bonjour, Alexandre. -Bonjour.
00:30 -Je propose qu'on commence avec...
00:32 C'est une question presque pour Alexandre que j'ai envie de poser,
00:35 avec cette question autour de l'open source
00:37 et de l'intelligence artificielle.
00:39 On a cru, à un moment, que ce serait une façon pour l'Europe
00:42 de se différencier dans ces grands modèles de langage américains
00:46 qui s'imposent,
00:48 avec Mistral qui nous est apparu comme une promesse
00:53 d'un certain leadership européen à travers des modèles open source.
00:57 Et puis là, patatras, ça s'écroule un petit peu, tout ça, quand même.
01:00 Quelle est votre perception de ce qui se passe ?
01:02 Ça s'écroule pas uniquement parce que Mistral a signé un partenariat
01:06 avec Microsoft et a décidé finalement que son modèle de langage large
01:10 serait sous forme propriétaire et payant.
01:12 Ça s'écroule aussi parce qu'on a Elon Musk
01:14 qui sort, gros, en open source, un Américain.
01:18 Meta aussi qui se positionne sur l'open source.
01:20 Finalement, c'est plus ça, le sujet, l'open source et l'Europe ?
01:24 -Oh, ben, comme toujours, il y a open source et open source.
01:27 C'est comme dans le green.
01:28 Tout le monde veut être green et il y a beaucoup de greenwashing.
01:32 Et donc, il y a beaucoup d'open source washing.
01:34 Et donc, il faut faire attention.
01:35 C'est pas parce qu'on met le mot "open",
01:38 voire même "open source", qu'on est open source.
01:41 Et donc, il faut, d'ailleurs, que l'écosystème travaille sur ce sujet-là.
01:45 Nous, on travaille avec l'Open Source Initiative
01:48 pour justement définir ce qu'on va pouvoir appeler open source AI.
01:52 Notre conviction, c'est que...
01:55 -Qu'est-ce que vous voulez dire exactement, Alexandre ?
01:57 Par exemple, le modèle de Meta n'est pas véritablement open source ?
02:01 -C'est clair, ça a été dit. L'Open Source Initiative...
02:03 -On l'a même dit sur ce plateau. -Ben voilà, exactement.
02:05 -C'est une question un peu faussement innocente.
02:07 -C'est une fausse...
02:08 Oui, une fausse question, une fausse interrogation.
02:11 Donc, non, c'est pas open source.
02:13 L'OSI l'a dit.
02:14 -C'est de la science ouverte, en fait.
02:16 -Exactement, c'est de la science ouverte.
02:17 C'est-à-dire que ce que font ces soi-disant modèles LLM,
02:21 soi-disant open source,
02:22 c'est qu'ils permettent, sous certaines conditions,
02:25 et donc ils limitent la possibilité de pouvoir les utiliser,
02:28 sous certaines conditions,
02:29 vous avez le droit d'utiliser, en fait, le logiciel.
02:31 Mais par exemple, vous n'avez pas le droit d'en faire un usage commercial.
02:34 Et puis surtout, ils livrent, certes, le modèle,
02:37 ils livrent les méthodes d'entraînement,
02:39 mais ils ne livrent pas les data sets.
02:40 Et nous, on est très clairs.
02:42 Une IA réellement open source,
02:44 c'est une IA pour laquelle vous avez accès
02:46 au modèle, aux méthodes d'entraînement et aux data sets.
02:50 Et c'est ce qu'on fait avec la communauté Open LLM France.
02:52 - Et gros que 1,
02:54 donc l'IA d'Elon Musk n'est pas totalement open source ?
02:59 - J'étais sûr que vous me poseriez la question,
03:00 donc je suis quand même allé vérifier juste avant de venir,
03:02 et je vous le réponds, non.
03:03 Il ne livre pas, en fait, le data set.
03:05 Alors le data set, d'un autre côté, on le sait, c'est tout Twitter.
03:08 - C'est Twitter.
03:09 - Mais ce qui pose aussi une difficulté,
03:11 c'est que quand vous ne connaissez pas, en fait, votre data set,
03:13 vous ne savez pas ce qu'il y a dedans,
03:14 et vous n'êtes pas certain que ce soit des données de qualité,
03:17 et ça peut poser, en fait, des difficultés.
03:18 Alors je ne vais pas donner les noms de ces moteurs open source,
03:22 d'IA, mais certains, par exemple, quand vous les interrogez
03:24 sur quelle est la capitale de Taïwan,
03:26 leur réponse, naturellement, c'est Pékin.
03:29 Parce que pour un certain nombre de modèles LLM,
03:31 - Ça présente des problèmes géopolitiques.
03:34 - Exactement, la même chose sur le Sahara occidental.
03:37 Certains vous disent que le Sahara occidental, c'est algérien,
03:39 et donc ça peut poser, bien sûr, en fait, des problèmes à d'autres.
03:42 Ou le casse-roues des Toulousains,
03:44 qui existe dans tous les LLM de qualité, on va dire.
03:48 Mais certains, ils ont été entraînés
03:49 sur des datas d'influenceuses américaines,
03:51 et la méthode que vous avez de casse-roues américains,
03:53 c'est celle d'une influenceuse américaine.
03:55 Ça ne ressemble en rien aux casse-roues des Toulousains qu'on connaît.
03:57 - Parce que ce n'est pas l'exemple du casse-roues de l'Extrême.
03:59 - Donc pour respecter les cultures, les civilisations, il faut être clair,
04:02 on a besoin de modèles réellement open source,
04:06 et c'est ça qu'on fait avec cette fameuse communauté Open LLM France,
04:10 qui réunit aujourd'hui plus de 600 chercheurs,
04:12 CNRS, INRIA, et tout un tas de gens du Sud-Est.
04:15 - Je suis quand même allée chercher,
04:18 et on va l'afficher, le tableau des principaux langages,
04:22 grands modèles de langage, les LLM,
04:25 c'est de le dire en français à chaque fois, ça me fait vriller le cerveau.
04:28 Si vous regardez bien, dans cette liste,
04:30 c'est propriétaire, propriétaire, propriétaire, propriétaire.
04:33 Anne, faire de l'IA open source, c'est très compliqué ?
04:37 - C'est possible,
04:42 mais ça nécessite déjà des jeux de données,
04:47 comme on l'a dit, sur lesquels on peut finalement construire,
04:51 parce que finalement, quand on va donner une réponse,
04:53 à partir de ces données, qu'elles ne soient pas trop biaisées,
04:56 et si le biais, il faut qu'on les choisisse,
04:57 qu'ils soient en accord avec nos valeurs.
05:00 Après, construire ces modèles-là
05:04 sur de l'open source et du fine tuning,
05:07 on peut le faire et il faut le faire
05:09 pour qu'on puisse rajouter nos domaines d'expertise.
05:12 Donc est-ce que l'open source, c'est possible ?
05:16 Oui. Après, nous, pour des grands groupes comme Renault,
05:20 on n'a pas vocation à devenir des boîtes créatrices
05:25 de large-language modèles.
05:27 On a des vocations à les utiliser pour créer des nouveaux produits,
05:32 des nouveaux services aux services des gens.
05:36 - Mais cette question du choix, quel modèle on choisit,
05:40 est-ce que l'open source, c'est une question qui se pose ?
05:42 Je vais peut-être me tourner vers Sylvain
05:45 et reprendre ma question au départ.
05:47 On avait cette ambition de créer un modèle européen open source.
05:52 Est-ce que ça s'est totalement abandonné ?
05:54 Est-ce que l'open source peut avoir une place
05:56 dans les grands modèles de langage demain ?
05:58 Quel est votre regard là-dessus ?
05:59 - Vous demandiez sur l'IA. Il faut voir que sur l'IA,
06:02 il y avait beaucoup d'open source qui s'est développé historiquement.
06:05 Quand on a travaillé en machine learning, en deep learning,
06:07 il y avait des bibliothèques open source enrichies par des communautés.
06:10 Donc c'était possible.
06:13 Sur GenEye, je dirais que ce qui rend le modèle open source plus difficile,
06:18 mais pas non moins désirable,
06:20 c'est qu'il y a besoin de puissance de calcul pour l'entraînement
06:23 et que c'est cher et qu'à un moment donné,
06:25 on peut fédérer assez facilement du travail de codeur
06:31 parce que chaque individu peut contribuer.
06:33 Maintenant, avec les coûts d'entraînement, c'est plus compliqué.
06:36 C'est pour ça qu'on n'a pas une émergence évidente d'open source aujourd'hui.
06:40 Il y a plusieurs choses qui peuvent être envisagées.
06:42 Il y a, et ça a été dit, l'exemple de Meta qui dit
06:46 "Moi, je vais mettre à disposition, mais ça coûte très cher".
06:49 Et du coup, il y a la question de savoir
06:50 si c'est du vrai open source ou pas du vrai open source.
06:52 Il y a des modèles qui ne sont pas complètement purs.
06:54 Il y a plusieurs grands modèles sur lesquels on est passé
06:59 d'un discours qui était très open à un discours qui s'est...
07:01 - Par exemple, Mistral et Ise expliquent en disant
07:03 "On n'a jamais dit qu'on ne ferait que de l'open source".
07:06 - C'est des modèles hybrides.
07:07 - Voilà, mais ce grand modèle, il a choisi de le passer en mode propriétaire
07:11 pour une raison économique.
07:13 - Oui, parce qu'en fait, à un moment, c'est dur de le faire tourner.
07:15 Après, ce que je pense, c'est que nous, quand on déploie ces technologies,
07:19 quand on déploie ces technologies, ce n'est pas le pari sur un modèle.
07:25 En général, on en déploie plusieurs à la fois qui se répondent, etc.
07:28 Et je pense qu'il y a plusieurs natures d'enjeu.
07:30 Il y a la course à la puissance.
07:35 Et là-dessus, les modèles les plus génériques, versatiles, etc.
07:39 qui sont la liste que vous montriez là, il y a une course aux armements là-dessus.
07:43 Et sur cette course aux armements, à un moment donné,
07:47 il faut arriver à financer de l'infra.
07:48 Alors, on peut imaginer qu'il y ait des moyens de financer de l'infra
07:51 qui soient fédérés.
07:52 On peut imaginer qu'il y ait des personnes qui soient prêtes
07:56 à contribuer de l'infra.
07:57 Et on peut se dire qu'il y a des modèles puissants qui peuvent émerger
08:00 qui soient en open source.
08:01 Après, il y a aussi tout un tas d'autres modèles qui peuvent être plus spécialisés
08:05 pour certains usages, qui vont requérir beaucoup moins de puissance de caractère
08:09 et de puissance de calcul.
08:10 Ou là, le modèle open source peut marcher à plein.
08:13 Et il n'est pas complètement dit quel est le type de modèle à la fin.
08:17 Je ne pense pas qu'il y ait un type de modèle qui va remporter la mise.
08:20 On aura tout un tas de variétés de types de modèles que les gens vont utiliser.
08:25 Je pense que certains modèles commerciaux vont perdurer.
08:27 Alors que si vous prenez en ML, il n'y a aucun modèle commercial
08:30 qui n'a jamais perduré.
08:31 C'est passé en full open source.
08:33 Je pense qu'il y aura une partie qui sera en open source,
08:35 une partie qui sera commerciale.
08:37 Pour moi, le plus important, c'est de s'assurer qu'il y ait de l'open source.
08:40 Parce que si on est dans un système où il n'y a plus que du commercial
08:43 aux mains de quelques très grosses entreprises de tech
08:47 qui seront probablement américaines pour nous,
08:50 on est un peu en danger quand même.
08:52 Et je ne parle même pas simplement de l'économie.
08:54 C'est juste pour le bon fonctionnement du marché, de la société, etc.
08:58 - Et de notre culture, notre prise de décision.
09:01 - Pour moi, c'est vital.
09:02 Mais là, je pense qu'il y a des enjeux au-delà de la technique
09:04 qui sont des enjeux réglementaires.
09:05 Il y a une bataille de lobbying qui fait rage sur ces sujets.
09:08 Et je pense que tout ce qui peut favoriser l'émergence
09:11 de solutions européennes ou open source et open source,
09:15 je pense que c'est très important.
09:16 - On a essayé de donner un coup de pouce à Mistral et I.
09:18 Mais bon, finalement, ils ont quand même signé
09:20 leur principal accord avec Microsoft, l'américain,
09:22 parce qu'ils ont besoin de cette plateforme numérique gigantesque.
09:26 On n'en a pas en Europe, des géants du numérique, tout simplement.
09:29 Cet argument commercial, parce que c'est Arthur Mench qui nous dit
09:33 "Moi, ce deal commercial va me permettre de financer la recherche".
09:37 - Alors en fait, ils ont besoin de la plateforme de diffusion.
09:42 Ils n'en ont pas besoin de Microsoft pour une question de calcul.
09:45 Ils en ont en fait besoin pour un go-to-market.
09:48 Et donc, ils s'associent...
09:50 Alors c'est vrai qu'en fait, ils ne prennent personne aux dépourvues.
09:54 Le business plan de Mistral était disponible en ligne.
09:57 Il fait 7 pages et ils ont toujours été clairs.
09:59 Ils développent en fait des modèles open source,
10:02 mais ils ont toujours expliqué que leur revenu reviendrait
10:06 en diffusant des modèles qui seraient eux plus open source
10:10 et les modèles les plus puissants seraient propriétaires et payants.
10:13 Donc en réalité, quelque part, si les journalistes avaient fait l'effort
10:17 d'aller regarder et de gratter un temps soit peu...
10:19 - Pas que les journalistes, parce qu'il y a beaucoup de la communauté open source
10:23 qui avait aussi envie d'y croire.
10:24 - Et oui, mais c'est ça.
10:25 - Attention Alexandre.
10:27 - Vous avez raison Delphine.
10:28 Non mais ici, en plus, vous avez toujours fait un travail d'analyse sérieux
10:31 et bien sûr, ce n'était pas une critique vis-à-vis de Smart Tech.
10:34 Mais honnêtement, toute l'information était disponible depuis le départ.
10:37 Donc personne n'aurait dû être surpris.
10:39 - La surprise, c'est le deal avec l'Un Américain.
10:41 - Oui, non, ce n'est pas une surprise parce que naturellement,
10:44 si vous voulez en fait avoir un marché mondial,
10:46 il faut aller voir ces grands acteurs mondiaux.
10:49 Mais par contre, l'erreur, c'est de croire que en mettant
10:53 tous nos oeufs dans le même panier, on va y arriver.
10:56 Et donc, ce qui est essentiel, c'est la biodiversité numérique,
10:59 y compris dans les IA open source.
11:02 Et donc, moi, je suis convaincu que Mistral va avoir en fait
11:05 certainement beaucoup de succès et je leur souhaite beaucoup de succès
11:08 et tant mieux qu'on ait des champions français qui aient des succès.
11:11 Mais ma conviction profonde, c'est que Mistral ne sera pas l'acteur
11:15 champion de la souveraineté numérique dans le domaine de l'IA française
11:19 et européenne. Et pour ça, je pense que moi, il faut casser les codes,
11:22 il faut complètement changer le game.
11:25 Et donc, le seul modèle qui va permettre de s'imposer face aux GA Américains,
11:29 ce sont justement des modèles réellement open source.
11:32 Et c'est pour ça qu'il faut inventer des nouvelles façons.
11:35 - Surtout que là, on est au début de l'histoire, donc il n'est pas trop tard.
11:37 - Exactement. Il faut fabriquer différemment.
11:40 Et donc, ne pas tout attendre d'un seul acteur économique.
11:43 Et c'est là où la coopération entre le public et le privé est essentielle.
11:47 Sur les moyens de calcul, on nous dit toujours, oui, il y a des problèmes,
11:50 ça coûte cher, etc. Mais c'est faux parce que quand vous faites de l'open source,
11:53 vous avez accès en fait à des moyens de calcul qui sont juste gigantesques.
11:57 En France, on a une organisation qui s'appelle le Gen-C,
12:01 qui gère le fameux super cluster Gen-Z,
12:03 qui vient d'ailleurs aujourd'hui, qui a annoncé en fait son extension.
12:06 Il vient d'acheter en fait des clusters supplémentaires auprès de Exebul,
12:10 donc Atos aujourd'hui, évident.
12:13 Et donc, on n'est pas pauvre en moyens de calcul en fait en Europe.
12:17 Et puis surtout, c'est que ça, c'est pour l'entraînement.
12:20 Mais ensuite, sur la partie business commercial,
12:23 sur la partie inférence, fine tuning,
12:25 la réalité, c'est que vous n'avez pas tant besoin de moyens de calcul que ça.
12:29 Et d'ailleurs, on développe de plus en plus des modèles light ou plus léger
12:33 qui permettent d'être inférés ou fine tunés juste sur des CPU.
12:36 Donc tout ça, c'est du blabla.
12:38 La réalité, c'est qu'il y a une troisième voie qui est possible
12:41 et qu'il faut qu'on bosse en fait dans cette direction.
12:43 Et surtout qu'on ne se décourage pas. Il n'y a aucune raison qu'on n'y arrive pas.
12:46 - Allez, il faut qu'on accélère.
12:47 L'autre sujet, c'était sur les perspectives économiques
12:50 liées à l'intelligence artificielle, on va dire de manière générale,
12:53 pas que générative, mais en ce moment, c'est quand même ça l'emballement.
12:56 Comment c'est perçu par exemple au sein d'un grand groupe aujourd'hui,
13:00 l'IA, comme un générateur de nouveaux business ?
13:03 - C'est un générateur... - De croissance, d'emploi ?
13:06 - En fait, l'IA va... - Ou l'inverse.
13:09 - Va s'intégrer.
13:10 Non, on va transformer notre manière de travailler,
13:13 on va transformer aussi nos produits.
13:15 Avant, on vendait des voitures pour aller d'un point à un point B.
13:18 Maintenant, c'est des produits technologiques
13:20 où on va pouvoir pousser des nouveaux services,
13:23 améliorer l'expérience finalement de mobilité.
13:28 Et l'expérience de mobilité, ça ne va pas simplement être
13:30 le moment où vous vous montez dans votre voiture,
13:32 ça va être quand vous êtes chez vous
13:34 et que vous voulez aller vous accompagner vos enfants à l'école.
13:39 Donc on va venir vous suggérer de dégivrer votre voiture à 8h20
13:44 parce qu'il fait -5°C aujourd'hui.
13:45 - Je voulais vous faire réagir, Sylvain, sur le chiffre
13:48 qui est dans le rapport sur l'intelligence artificielle
13:50 qui a été rendu récemment au président Emmanuel Macron
13:53 qui nous parle de 250 à 400 milliards d'euros
13:55 du PIB à horizon 2030-2035, une hausse, pardon.
13:59 De ce niveau-là, vous y croyez, grâce à l'IA ?
14:02 - Alors oui, oui, quand on cumule 1% de croissance
14:05 pendant suffisamment longtemps,
14:06 ça fait des chiffres qui donnent le vertige.
14:08 Donc la question, c'est est-ce que c'est moteur de croissance
14:10 pour les économies ou pas ?
14:11 - Oui.
14:12 - Et la réponse, c'est oui.
14:13 Alors, de deux façons... - Aucun doute.
14:15 - A aucun doute.
14:16 Il y a deux choses qui jouent.
14:18 La première, c'est qu'il y a des gains de productivité
14:21 qui peuvent être faits
14:22 et la productivité, c'est de la croissance.
14:24 C'est un des moteurs de la croissance économique,
14:26 c'est la productivité.
14:27 Et puis ensuite, il y a des gains de revenus,
14:31 ce que vous demandiez.
14:32 Et quand on voit, nous, les entreprises...
14:34 On a fait un sondage, là, en fin d'année dernière,
14:36 pour voir un petit peu le niveau d'avancement
14:39 des entreprises sur l'intelligence artificielle.
14:41 - En France ou dans le monde ?
14:43 - Dans le monde. - OK.
14:44 - Dans le monde, mais on a un échange de données
14:46 et un échantillon français et les messages sont les mêmes.
14:48 Quand on regarde les entreprises qui sont les plus avancées,
14:50 elles travaillent toutes à la fois
14:51 sur des sujets de productivité et des sujets de revenus.
14:54 On est bien sur ces deux choses.
14:55 Alors, la productivité, c'est parfois un peu impalpable
14:59 parce que tout le monde a été frappé par les annonces faites,
15:02 par tel acteur de call center ou telle entreprise...
15:04 - Qui licencie. - ...800 personnes, etc.
15:07 - Il licencie peut-être un peu trop vite, je sais pas.
15:10 - Après, la plupart de la productivité qui vient
15:14 grâce à ces outils, c'est une productivité de faible ampleur
15:19 pour beaucoup de monde.
15:20 Et le déploiement de tous ces outils,
15:22 ça fait qu'il y a beaucoup de gens qui gagnent
15:24 quelques heures par semaine dans leurs travaux, etc.
15:26 Alors, est-ce qu'on se dit, quelques heures par semaine,
15:28 on va arriver à faire des immenses restructurations pour ça ?
15:32 Non, je pense pas, parce qu'une fois que chacun a gagné deux heures,
15:35 on va pas en faire grand-chose.
15:37 En revanche, il va y avoir des gains,
15:39 ces gains de productivité vont se matérialiser
15:41 parce qu'on va faire un peu plus, un peu différent,
15:43 un peu ceci, un peu cela.
15:45 - Moi, je vous suggère qu'on organise un débat
15:48 sur cette question de l'emploi et de la croissance,
15:50 parce que malheureusement, on a déjà écoulé tout le temps
15:52 qu'on avait pour discuter de cette actu de l'IA,
15:54 on aura même pas eu le temps de terminer nos sujets.
15:56 Merci beaucoup, Anne Bretonnière de Renault,
15:59 Sylvain Duranton du BCG, Alexandre Zapolsky de l'Inagora.
16:02 C'est passé très vite, je vous réinvite très bien, évidemment,
16:04 avec grand plaisir.

Recommandée