Lundi 15 mai 2023, BE SMART reçoit Mathieu Colas (fondateur, StarZdata)
Category
🗞
NewsTranscription
00:00 Et on termine donc avec Mathieu Collas. Salut Mathieu.
00:08 Salut Stéphane.
00:09 Fondateur de StarZ Data. Tu nous dis un mot, agrège la data de 8000 providers. Tu nous dis un mot de ton aventure StarZ Data.
00:18 Alors c'est une entreprise que j'ai créée il y a bientôt deux ans et demi. Notre métier c'est d'aider les entreprises,
00:23 aujourd'hui plutôt les grandes entreprises, à devenir plus performantes, à créer plus d'impact aussi positif avec des sources de données à haute valeur ajoutée.
00:30 Oui voilà c'est ça. Toi tu apportes de la donnée raffinée alors que beaucoup d'entreprises sont noyées dans le data lake à essayer de chercher.
00:40 Encore ce matin, discussion avec des spécialistes de la conformité bancaire. Et donc la question était comment essayer d'avoir une meilleure approche
00:49 par les risques en utilisant la data. Et ce que disaient les spécialistes de la conformité bancaire c'est mais on n'en est pas là les gars.
00:56 Déjà c'est quelle data est-ce qu'on peut utiliser ? Comment est-ce qu'on est sûr de la qualité de notre data ? Enfin voilà.
01:03 Absolument.
01:04 Pour l'instant ils n'en sont que là quoi. Avant même de savoir si ça pourrait être efficace, que personne ne doute qu'une fois qu'elle est raffinée,
01:10 elle peut être évidemment efficace.
01:12 Il y a eu beaucoup d'investissements qui ont été réalisés sur les data lake et ça ne date pas de 2021, ça date de 2013-2014.
01:19 Oui tout à fait.
01:20 A peu près ça a commencé. Et un de nos enjeux maintenant c'est de transformer la data en produit. Un produit ça a un client, ça a un contexte d'utilisation,
01:27 ça a aussi un prix, ça peut être un prix interne pour des données internes. Nous c'est ce qu'on fait aujourd'hui avec des données externes.
01:33 Et donc on est dans cette démarche de transformer un tableau en un produit.
01:36 Oui mais ton sujet c'est des données externes.
01:38 Absolument.
01:39 Qui sont très très importantes aujourd'hui pour énormément d'entreprises aussi.
01:42 Absolument avec une donne qui a beaucoup changé depuis la création de l'entreprise. Alors déjà il y a eu le Covid, donc l'entreprise a été créée pendant le Covid.
01:50 Et ensuite on a ce que tu connais, tout ce phénomène d'inflation, de rupture des chaînes logistiques et de remise en cause totale des supply chain.
01:57 Donc effectivement tout ce qui concerne le risque aujourd'hui, tout ce qui va concerner aussi l'optimisation des coûts, la fidélisation des clients,
02:04 la traçabilité des supply chain, c'est ce qui génère 90% de notre business.
02:08 Alors tu t'es intéressé à l'IA générative, comme tout le monde tu t'es intéressé à Chad Jipiti et ses amis, puisque tous, enfin ceux qu'on présentait,
02:21 tous les gros acteurs en sont à peu près plus ou moins au même stade. La question est de savoir s'ils communiquent dessus ou pas.
02:29 Et tu dis, on va voir un petit peu la petite publication que tu as produite, on va en voir la couverture, que c'est un choc en fait pour l'écosystème des providers de data.
02:41 Donc raconte-moi un petit peu d'abord de quel écosystème est-ce qu'on parle et raconte-moi un petit peu la teneur de ce choc.
02:46 Alors c'est un vrai challenge parce que l'écosystème des fournisseurs de données et d'informations, c'est un écosystème qui est très complexe de par la nature des données différentes
02:54 qui sont manipulées de par les différents secteurs au cas d'usage. C'est un secteur que peu de personnes en fait adressent aujourd'hui.
03:02 Malgré tout c'est un gros secteur, c'est 250 milliards au niveau mondial. Vous connaissez tous Bloomberg qui est un des premiers acteurs.
03:08 D'autres personnes connaissent IQVIA dans le domaine de la santé. Et ces dix dernières années, les Vichy ont énormément investi dans des sociétés qu'on appelle des SAS, B2B,
03:17 qui aident les entreprises à être plus performantes. Ce qu'on constate aujourd'hui c'est qu'il y a une myriade de fournisseurs de données qui sont disponibles.
03:24 Ils sont totalement inconnus des clients. Et c'est la raison pour laquelle on a lancé ce site starsdata.com qui vise tout simplement à référencer les fournisseurs de données.
03:33 Mais toi tu le dis, tu as eu 8000 providers, c'est ça ?
03:35 Oui, et c'est en fait, pour être clair, ça ne reflète pas la réalité du marché puisque aujourd'hui au niveau mondial on estime que c'est plutôt 150 000 ou 200 000 fournisseurs de données.
03:45 Mais déjà avec 8000 fournisseurs de données, on peut faire des choses très intéressantes. Dans le point de vue que tu as eu la gentillesse de présenter, je prends juste l'exemple des ressources humaines.
03:54 Alors vas-y.
03:55 Alors aujourd'hui, beaucoup de gens, en tout cas aux directions des ressources humaines, connaissent Mercer RH qui est présent sur l'activité de la prévoyance.
04:04 Alors raconte-moi ce que c'est parce que moi je ne connais pas.
04:06 Mercer RH c'est une société qui va accompagner les départements de ressources humaines, qui va les conseiller et qui va notamment prendre en charge toute la relation avec les mutuelles, les programmes de prévoyance, etc.
04:16 Pour apporter ce conseil, ils ont besoin d'en savoir énormément sur les ressources humaines. Ils apportent un éclairage extérieur et à ce titre-là, ils vont se doter d'expertise interne.
04:26 Historiquement, c'était plutôt des individus puisqu'on est dans l'activité du conseil et puis au fil de l'eau, ces individus se sont dotés de solutions sur étagère, donc des solutions SaaS, dont une que je prends en exemple dans le point de vue qui s'appelle RevelioLabs.
04:39 RevelioLabs, c'est une entreprise qui permet de cartographier les flux de collaborateurs entre différentes entreprises et d'avoir une vision très fine sur le marché de l'emploi.
04:48 Cette entreprise est basée aux Etats-Unis. Son logiciel est destiné aux départements de ressources humaines.
04:54 Ce qui est intéressant, c'est de regarder l'amont. Qu'est-ce qui se passe en amont de tous ces logiciels SaaS qui existent sur le marché ?
05:00 Tu as quelques fournisseurs qui existent mais qui sont très peu connus. Très peu connus parce qu'ils n'ont pas de capacité de distribution, qu'ils n'ont pas de marketing et que leur offre est disponible via une API.
05:11 Le gros mot, l'API, c'est quelque chose qui est utilisé par les développeurs pour accéder à des données.
05:15 C'est de la discussion entre systèmes informatiques, les API.
05:19 Les portes d'entrée qui permettent au système numérique de se brancher les uns avec les autres.
05:24 C'est le menu du système d'information. Ce qui est aujourd'hui utilisé par toutes les grandes entreprises du digital auxquelles tu faisais référence tout à l'heure.
05:33 On amonte ça, en amont de RevelioLabs, sur la chaîne de valeur de la data. Tu as une entreprise américaine qui s'appelle People Data Labs.
05:40 Et eux, ils recensent cette matière brute, ils la raffinent pour être sûr qu'il n'y a pas d'erreur. Ensuite, elle est réutilisée par ces fournisseurs de SaaS.
05:47 Qu'est-ce que GPT et l'IA génératif changent pour l'ensemble de cet écosystème aujourd'hui, Mathieu ?
05:56 La première chose, c'est que si on prend l'amont de la chaîne de valeur de la data, j'ai pris l'exemple des ressources humaines tout à l'heure.
06:04 Tu parlais de la conformité tout à l'heure, ou des directions financières. Tu es les fournisseurs d'informations sur les entreprises.
06:10 Connaître les entreprises, c'est un énorme enjeu aujourd'hui, que ce soit pour gérer la facturation digitale qui arrive à la fin de l'année dans les grandes entreprises,
06:18 ou que ce soit simplement pour gérer tes achats. Et l'information sur les entreprises, aujourd'hui, elle est collectée auprès d'organisations comme l'INSEE, l'INPI ou autres.
06:26 Tu as de l'information qui est structurée, c'est-à-dire des chiffres, mais 95% de l'information, elle est textuelle.
06:32 Ce qui est très intéressant avec Chad GPT et OpenAI, c'est que ça démocratise l'accès à des technologies qui vont permettre de lire et d'interpréter du texte.
06:43 Et donc c'est ça qui va changer énormément de choses dans cette chaîne de valeur. C'est qu'on va avoir des opportunités d'optimisation des coûts pour tous ces acteurs
06:51 qui sont en amont de la chaîne de valeur, qui vont pouvoir diversifier les sources de données. Et de l'autre côté, c'est aussi l'opportunité pour les entreprises de se brancher directement aux fournisseurs.
07:00 - Moi, je pensais, est-ce qu'ils ne sont pas menacés, ces acteurs qui sont justement en amont de la chaîne de valeur ? C'est-à-dire qu'aujourd'hui, la donnée...
07:09 Alors, je racontais hier, c'était vraiment exemple du cœur de métier qu'on fait. Aujourd'hui, si je veux savoir définir la classe moyenne en France,
07:20 si je veux savoir combien de salariés en France sont entre 0,75 fois le salaire médian et 2 fois le salaire médian, c'est ça...
07:28 Il faut que je passe une après-midi, en fait, sur le site de l'INSEE. Je ne suis pas sûr de le savoir. J'ai évidemment, comme tout le monde, posé la question à Tchatchépeté en demandant ce que disait l'INSEE.
07:37 Je l'ai eu, évidemment, en quelques dixièmes de seconde. Et je me dis qu'un certain nombre de tes providers vont être menacés par cette efficacité à aller chercher la donnée dont j'ai besoin.
07:50 Je ne vais plus avoir besoin d'eux, d'une certaine manière.
07:52 Alors, en fait, je pense qu'il faut faire la part des choses entre cet accès un peu artificiel à l'information qui est générée, qui en fait, ce sont des suites de mots qui sont générés,
08:02 et l'information, la vraie, celle qui est qualifiée et celle qui a été raffinée. Tu utilisais le terme tout à l'heure. Si je prends Tchatchépeté, comme beaucoup de gens le savent de plus en plus,
08:13 l'information n'a pas été actualisée depuis décembre 2021. Donc, si tu veux avoir de l'information fraîche, ça ne fonctionne pas.
08:21 Par ailleurs, si tu poses une question à Tchatchépeté, c'est très rare, voire impossible qu'il te dise "je ne sais pas".
08:28 En fait, il va inventer une information, il va la délivrer avec une expression qui te donne confiance.
08:34 Donc, aujourd'hui, une des problématiques qu'on a, c'est de certifier qu'une information est valide.
08:40 Et d'où l'enjeu pour tous les acteurs de la chaîne qui sont en amont ou au milieu de s'appuyer sur des sources d'informations qui ont été vérifiées.
08:47 On va avoir une démultiplication aujourd'hui.
08:50 C'est pour ça que dans le cœur de l'exemple que je te donnais, j'ai bien dit "selon l'INSEE", c'est-à-dire je dis "selon l'INSEE" dans la question.
08:58 Je pense qu'effectivement, c'est fondamental.
09:00 Alors peut-être deux perspectives sur chatGPT, ces technologies qui ressemblent à chatGPT qu'on appelle les LLM.
09:08 La première, c'est qu'il n'y a pas que chatGPT.
09:11 Tu as d'autres sociétés qui émergent, dont une très intéressante qui s'appelle Perplexity AI, que j'invite tout le monde à utiliser.
09:20 Ce n'est pas un chatGPT puisque ce n'est pas une conscience autonome.
09:23 Je ne devrais pas dire que c'est une conscience, mais il n'a pas conscience de lui-même.
09:26 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
09:30 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
09:33 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
09:36 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
09:39 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
09:42 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
09:45 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
09:48 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
09:51 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
09:54 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
09:57 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:00 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:03 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:06 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:09 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:12 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:15 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:18 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:21 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:24 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:27 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:30 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:33 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:36 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:39 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:42 Il a une conscience, il a une conscience, mais il n'a pas conscience de lui-même.
10:45 Il a conscience des enjeux, c'est ton job.
10:48 En ayant conscience des enjeux qu'il va y avoir derrière la micro data
10:51 qu'il croit rentrer dans le système sans grande importance, alors qu'en fait,
10:54 une fois agrégée, elle va en avoir énormément.
10:57 Mais c'est très intéressant.
11:00 Et ça, c'est avec des systèmes comparables que tu vas faire ça.
11:03 Quand on suit par système comparable.
11:04 Système comparable à l'IA générative dont on parle avec passion depuis maintenant six mois.
11:07 L'IA générative est juste une brique.
11:10 Nous-mêmes, on réutilise des briques même pour produire du contenu textuel
11:14 puisque, comme tu le sais, on traite une matière sur laquelle il faut faire énormément d'acculturation.
11:19 Donc aujourd'hui, on s'aide de l'outil d'IA générative pour pouvoir générer ces contenus
11:23 et faire en sorte que l'information soit comprise facilement par nos clients et nos utilisateurs.
11:28 Merci Mathieu pour tout ça.
11:31 Mathieu Collat qui nous accompagnait, fondateur de Starz Data.
11:37 Merci à vous de nous avoir suivis.
11:39 Et puis, on se retrouve demain pour à nouveau débattre de l'actualité économique.
11:45 [Musique]