Les 5 étapes clés pour construire sa modern data stack

Cleyrop

Bénéficiez d’un retour d’expérience technique sur les cinq étapes clés pour structurer le cycle de vie de vos données. De l’ingestion à la consommation, donnez à vos équipes techniques comme métiers les meilleurs outils pour augmenter leur efficacité et prendre des décisions éclairées par la donnée !

Transcript

00:00Ok donc pour commencer on va juste mettre quelques petits reminders sur

00:04notamment qu'est-ce que c'est une moderne data stack, on va rentrer un peu plus dans les techniques.

00:10Donc la moderne data stack c'est une architecture technique moderne qui a émergé assez

00:15récemment, il y a une petite dizaine d'années maintenant et qui a émergé suite aux

00:20besoins des entreprises de traiter et de collecter des volumes de données toujours

00:24plus gros, des sources toujours plus variées et les systèmes traditionnels

00:29donc on verra rapidement après comment c'était fait avant, on n'arrivait pas à couvrir ce besoin.

00:34C'est des stacks qui sont designés pour l'analyse et la valorisation des données et elles ont on va

00:40dire deux caractéristiques, elles sont très souvent voire exclusivement en cloud, ce qui

00:46permet aux entreprises d'avoir plus de flexibilité dans leur infra et surtout une scalabilité

00:53quasi infinie, ce qui fait que la puissance de calcul et la puissance des traitements va

00:58s'adapter au volume des données, ce qui est inconvénient négligeable pour les entreprises

01:05et surtout c'est quelque chose d'évolutif, là on voit sur le sur le schéma et Thomas

01:11rentrera dans le détail plus tard, que ce sont des stacks qui sont vraiment partagés

01:19entre on va dire étapes ou services qui sont presque indépendants les uns des autres donc

01:24qui peuvent être mises à jour, adaptées etc donc c'est une stack qui est assez modulaire pour

01:29s'adapter aux besoins des entreprises. A quoi ça sert parce qu'on va rentrer directement dans le

01:35vif du sujet, ça sert surtout à rassembler des données diverses dans un endroit centralisé,

01:41on va avoir vraiment une seule source où on va récupérer les données interne d'organisation,

01:47des données externes etc, ça sert aussi à automatiser et orchestrer les traitements de

01:53données, que ce soit automatiser l'ingestion de ces données là, les pipelines d'ingestion,

01:57les pipelines de transformation pour partir de données brutes à des données analysables et

02:03exploitables et ensuite ça sert à favoriser l'exploitation des données que ce soit avec

02:08l'avis du petit BI on va dire traditionnel, de la data science et même du partage, ça permet

02:14aussi aux différentes personnes d'organisation d'être plus

02:21autonome sur le partage des données et l'exploitation des données. Avant la data stack,

02:28concrètement on était sur des stacks plus fermées et notamment il y avait

02:35énormément, il y en a même toujours, de systèmes on va dire on-premises donc sur sites où les

02:42entreprises géraient elles-mêmes leur infra, ce qui est assez coûteux, les investissements en serveurs

02:51etc, il y a aussi des coûts de maintenance élevés, c'était pas pas flexible et pas scalable,

02:56c'est à dire qu'il y avait un besoin de données et de puissance de traitement supplémentaire,

03:01il fallait rajouter de la puissance de calcul etc, et c'était relativement limité en termes

03:09d'analyse, il y avait peu ou pas de temps réel, il y avait forcément une puissance de serveurs

03:17etc, donc c'était relativement limité. C'est pour ça que la modèle data stack a émergé,

03:25donc qui permet de prendre toutes les données, de les mettre dans un lake house, ça a émergé

03:31grâce au début du cloud computing, ce qui a permis cette flexibilité là, notamment en termes de

03:35puissance de calcul et de capacité de stockage, et notamment de développement de plusieurs

03:40solutions. On a vu brièvement, et Thomas rentrera dans le détail plus tard, que sur chaque étape

03:46de la modèle data stack, il y a eu de plus en plus d'acteurs qui sont venus, hyper spécialisés,

03:49qui sont spécialisés sur un bout du cycle de données, et ce développement de ces technologies

03:55ont permis l'aménagement de ces modèles data stack. Et de l'autre côté, il y avait un besoin

04:00des entreprises de traiter des volumes de données de plus en plus grand, de traiter aussi des données

04:06en temps réel, dans l'industrie, dans le commerce etc, et un besoin aussi de self-service, d'autonomie

04:12d'utilisateurs, un besoin toujours de créer plus de KPI, de partager de la donnée, et d'être moins

04:17sidoté comme c'était avant. Donc les avantages, on va passer rapidement, on a déjà parlé,

04:24c'est des déploiements rapides, comme c'est des solutions qui sont majoritairement en cloud,

04:28ça se déploie rapidement, c'est adaptable, ça s'adapte aux besoins de votre organisation,

04:34aux besoins de vos business, et de l'amélioration continue, comme c'est modulaire, on peut jouer

04:40avec les différentes briques et prendre toujours les solutions les plus adaptées au pays.

04:45Il y a des exemples de cas d'usage, ça c'est connu, mais dans l'industrie, ça va dans l'optimisation

04:55de la chaîne d'approvisionnement, ça va dans le retail, à la personnalisation de l'expérience

05:00client, à faire des indicateurs pour améliorer la prise de décision, il y a vraiment des applications

05:05des cas d'usages concrets qui sont déjà connus, éprouvés et réels.

05:09Après je vais laisser la main à Thomas sur la partie peut-être un peu plus technique.

05:15Alors, on va rentrer en détail dans chaque partie de la modale data stack. On a voulu

05:25découper le suivant, cinq parties, ingestion, stockage avec les data warehouse, lake house,

05:30traitement organisation, la partie exposition et la partie data gouvernance. Pour cette

05:38présentation, je vais partir de gauche à droite, c'est-à-dire qu'on va suivre le parcours de la

05:43donnée, de l'ingestion vers l'exposition, donc data science et BI. Quand on va concevoir une

05:49data plateforme, on part normalement des besoins, des besoins d'entreprise, des besoins des cas

05:54d'usage, des utilisateurs finaux, c'est ce qu'on va faire de la BI, de la data science, on va les

05:59s'intégrer avec des processus métiers, ce qu'on va faire du data sharing, je vais revenir sur

06:04toutes ces notions après, et à partir de ça, ça va nous orienter sur le type de données dont on

06:09va avoir besoin et donc le type de stockage dont on aura besoin. Et ensuite, à partir de ce besoin

06:14de stockage, on pourra décider de quel outil, quelle organisation utiliser pour les parties

06:20ingestion traitement. La couche gouvernance est une couche très transverse, elle concerne donc

06:27toutes les étapes de la moderne data stack, aussi bien sur la gestion de la qualité, de la sécurité,

06:32de l'utilisation des données. Comme je vous ai dit, on va commencer par la partie ingestion. Ce qu'on

06:38va faire, c'est qu'entre chaque étape, on va vous laisser un peu de temps, si vous voulez

06:44poser des questions, n'hésitez pas à les poser dans le chat ou dans le petit espace dédié aux

06:49questions. Entre chaque étape, entre ingestion, data lake, chaos, traitement, etc., je vous laisserai

06:55le temps de poser des questions et il y aura un temps de questions réponses à la fin. Donc, pour

07:01la partie ingestion, l'ingestion des données est le point d'entrée de la moderne data stack. C'est là

07:06où on va aller récupérer les données extérieures et les données internes à l'entreprise. L'objectif

07:12va être en fait, dans la moderne data stack, importer toutes les données dont on va avoir

07:15besoin dans le cas d'usage. Ça peut être des données de l'entreprise, des données qui viennent

07:19de leur système, des bases de données, de leur site internet, de leur ERP, de leur CRM, ça peut

07:24être des données externes comme des données d'open source, des données de partenaires qu'on va acheter

07:29ou alors des données stockées sous forme de fichiers ou sous forme, pour certaines entreprises, sous

07:34forme d'IoT, donc des données d'objets connectés. La grosse complexité de l'ingestion des données

07:40dans une moderne data stack va être de gérer la diversité des sources et des formats de données. On parle

07:46souvent de données semi-structurées, structurées ou non structurées, je reviendrai un tout petit peu

07:50après, mais donc la difficulté de ces étapes d'ingestion va être vraiment de récupérer tous les

07:56types de données nécessaires au développement des cas d'usage. Donc à cette étape-là, on va

08:04retrouver des problématiques et un peu des mots qui ressortent comme ETL, ELT. Alors ETL, ELT, on en entend

08:10souvent parler. ETL, plus vraiment avec les années, c'est un peu une ancienne façon de faire avec les

08:15data warehouse comme en parlait un peu Victor avant sur les anciennes façons de faire. Donc aujourd'hui,

08:26l'ELT. La différence, c'est qu'avant, on ne pouvait pas stocker toutes les données qu'on voulait, donc on les

08:31traitait avant de les importer. Aujourd'hui, comme le stockage est moins cher, on va d'abord importer

08:35des données et ensuite on va les traiter. En plus de tendance sur des notions comme le

08:43CDC, par exemple. Le CDC, c'est le Change Data Capture. Comme aujourd'hui, on importe des gros volumes de données,

08:49certaines entreprises se spécialisent non pas dans le fait de donner la capacité aux utilisateurs, non pas d'importer

08:54toutes leurs bases de données, mais d'importer juste les derniers enregistrements, les dernières

08:59lignes, par exemple, dans une table, dans une base. On va retrouver des problématiques aussi liées au

09:06streaming, donc aux données en temps réel. Donc à ce niveau-là, on va retrouver différents

09:11types d'outils, propriétaires ou open source. Les outils propriétaires actuellement les plus

09:15utilisés vont être TALENT ou Fivetran, principalement Fivetran. Et les outils open source les plus

09:20utilisés vont être Airbyte pour toute la partie ingestion, sans traitement, vraiment la

09:24partie ingestion, EL, Extract and Load, Kafka pour les parties streaming, et Nifi. Nifi, j'y reviendrai, qui peut

09:30aussi servir à d'autres étapes, mais qui est parfois utilisé sur la partie ingestion. On va retrouver

09:35aussi plein d'autres outils à ce niveau-là.

09:39Je laisse voir, je crois qu'il n'y a pas de questions dans la partie chat, c'est peut-être une.

09:47Si, de moi, il y a une question de Julien.

09:52Vas-y, je veux bien que tu me laisses la voir.

09:55ETL versus ELT, est-ce qu'il y a intérêt de faire les traitements après plutôt qu'avant, je suppose,

10:01plutôt qu'après, je pense que c'est...

10:04En fait, la différence va être surtout que, quand on fait les traitements avant l'ingestion, on va perdre

10:11certaines informations, donc on n'aura pas à importer les données dans l'état dans lequel elles sont arrivées.

10:17Mais avant, on était obligé de le faire dans les problématiques de data warehouse, on était obligé de

10:20stocker les données sur une certaine structure définie en amont de l'ingestion.

10:25Et bien, si il y a une nouvelle colonne, par exemple, qui arrivait, on ne pouvait pas l'importer

10:28parce que ça ne correspondait pas à la structure et c'était compliqué de faire évoluer les structures.

10:31Donc aujourd'hui, on essaie de faire les traitements a posteriori, comme ça on est dans une meilleure capacité

10:35de pouvoir changer les traitements et changer les données, changer le résultat en fonction des besoins.

10:42Et on a plus cette problématique de ne pas avoir accès à de la donnée antérieure parce qu'on avait fait la transformation

10:48et donc on avait eu de la perte d'informations.

10:52Comme global chat, Victor, est-ce que tu sais si ça a répondu ou s'il y a d'autres questions ?

10:58Non, ça a répondu, il n'y a pas d'autres questions.

11:01Super, merci Victor, merci Juliette pour la question.

11:04Donc oui, c'est vrai qu'en plus, c'est une bonne transition.

11:06Du coup, avant, on avait les data warehouse qui étaient plus dans les années 80 pour faire tout ce qui était BI.

11:10À ce moment-là, on importait des données avec le ETL et donc il fallait définir une structure en amont,

11:15on avait des data martes et on pouvait faire de l'analytique, ce genre de choses.

11:19Sont apparus dans les années 2010, notamment avec tout ce qui est GAFAM et l'exposition du Cloud Computing, les data lakes.

11:26Donc là, on pouvait stocker des données de tout type de format, des fichiers de log de sites internet, des fichiers non structurés, des images.

11:34Donc beaucoup d'objets, ce qu'on appelle binaires comme des images, des vidéos, qui vont permettre de faire data science.

11:40Et aujourd'hui, depuis quelques années, depuis les années 2020, il y a une nouvelle notion,

11:44lake house, qui regroupe ce que le data warehouse et le data lake faisaient de mieux.

11:49Le but d'un data lake house, c'est de proposer, là où un data lake, par exemple,

11:53permet aussi bien de faire les données structurées et non structurées, mais de façon différente,

11:56parce qu'il reprenait de data lake certaines notions, ce n'était pas les mêmes notions que structurées et non structurées.

12:01Le but de lake house, c'est de proposer une interface et une gestion de gouvernance unique,

12:05aussi bien pour les données structurées et non structurées.

12:09Aujourd'hui, on s'oriente de plus en plus dans les modernes data stacks, encore plus modernes,

12:13vers du lake house plutôt que du data lake.

12:17J'y reviendrai à la fin, parce que c'est un enjeu de toute la moderne data stack,

12:21mais la sécurité et la performance sont aussi un gros enjeu au niveau du stockage.

12:27On va notamment voir des réponses rapides aux requêtes qu'on va pouvoir faire sur le stockage,

12:33chiffrement, parce que là, c'est là où toutes les données sont présentes,

12:36toutes les données sont stockées, donc on va avoir des courses problématiques sur la gestion des accès,

12:40chiffrement des données au repos, avoir des performances élevées, des protections des données sensibles,

12:45suivant en plus vos domaines.

12:48Ce n'est pas la même chose si vous traitez des données de santé, des données de sécurité,

12:52ou ces choses-là, j'y reviendrai dans la partie gouvernance,

12:54mais on va avoir aussi des problèmes de conformité.

12:58Niveau outils, propriétaires, on va retrouver Databricks,

13:01qui était plus historiquement sur la partie Data Lake,

13:03et Snowflake, qui était vraiment le Data Warehouse le plus performant.

13:06Avec les années, les deux s'orientent vers du Lake à OOS,

13:09et donc sont de plus en plus l'un face à l'autre.

13:12C'est vrai qu'aujourd'hui, c'est un peu plus compliqué de les différencier,

13:16de faire son choix, mais chacun est libre de choisir celui qu'il préfère.

13:20En open source, on va retrouver Minayo, cette partie-là,

13:23et Delta Lake et Asberg, qui sont plus des systèmes de stockage,

13:27des façons de stocker qui sont aussi utilisées par Data Lake et Snowflake.

13:30Mais donc, on est en capacité, direct de l'open source,

13:32de faire son Lake à OOS avec Minayo, Asberg et d'autres technologies.

13:40Est-ce que vous avez des questions sur cette partie Data Warehouse,

13:43Lake à OOS, donc stockage ?

13:51Pour l'instant, il n'y a rien dans le chat, Thomas.

13:54J'avance, et si vous avez des questions, n'hésitez pas,

13:56on y reviendra après, il n'y a pas de souci.

13:59Donc, traitement de données, là, on va parler de traitement de données,

14:01et plus largement, toute la couche qu'il y a entre l'exposition en cas d'usage

14:05et le stockage.

14:06Donc là, les données ont été stockées, sont dans notre Lake à OOS.

14:08Comment je vais les traiter et les rendre accessibles

14:11pour ma couche d'exposition et mes use cases, sinon ?

14:14Donc là, on va retrouver la transformation des données.

14:16La transformation des données, ça va être important

14:18pour tout le processus de nettoyage des données,

14:20suppression des valeurs aberrantes, enrichissement des valeurs,

14:24restructuration des données pour correspondre à un template.

14:27On va définir, on va créer ce qu'on appelle des pipelines de données.

14:30Donc c'est là où on va essayer de convertir des données de qualité.

14:34On va retrouver, par exemple, des notions de data set,

14:38de schéma de data set, et de data set avec des niveaux,

14:42bronze, argent, or, assez standard.

14:45Comme aujourd'hui, je vous ai dit, dans un data lake,

14:47on importe beaucoup de types de données.

14:49On va essayer de différencier en disant, ça, c'est de la donnée

14:51de très bonne qualité, ça, c'est de la donnée de mauvaise qualité,

14:53pour savoir où elles en sont et qui pourra les utiliser.

14:58Là, on va retrouver, dans toute la partie orchestration des workflows,

15:02automatisation et gestion des pipelines, on va retrouver

15:04beaucoup de problématiques d'orchestration des pipelines,

15:07c'est-à-dire les pipelines et tous ces traitements de données

15:09pour déplacer les données, parfois ingérer les données,

15:12les rendre propres, les enrichir.

15:16On va retrouver avec ça des notions d'orchestration,

15:19parce que le but aussi, ça va être d'essayer de découpler

15:22l'orchestration et les traitements en eux-mêmes,

15:25pour avoir plus de facilité dans la gestion sur le long terme.

15:28Donc, on va retrouver beaucoup de notions et beaucoup de défis

15:30à ces étapes-là, comme le DataOps, le versionning des traitements

15:33des données, et plein de problématiques liées au code.

15:36C'est beaucoup de code Python, on retrouve là,

15:41Spark, DBT, qui est sorti ces dernières années

15:44et qui est en train de monter en puissance très fortement.

15:47Là, on va avoir de grosses problématiques, gestion de dépendance

15:50entre certaines librairies, de scalabilité.

15:53Ce n'est pas la même chose si je traite un giga ou un tera de fiabilité.

15:56Monitoring, comment je sais que mon traitement a échoué,

15:59qu'est-ce qui se passe s'il a échoué, parce que peut-être je vais avoir

16:02des données qui vont être corrompues en sortie, je ne vais pas avoir

16:05le bon résultat dans mon indicateur.

16:08Il y a beaucoup de problématiques à ce niveau-là.

16:11Sur la partie orchestration, on va trouver des outils comme Prefect,

16:14ou en open source, Airflow, qui est l'outil open source

16:19le plus utilisé sur la partie orchestration.

16:23Et Kestra, qui est sorti ces dernières années,

16:26qui est un logiciel open source français,

16:29qui monte de plus en plus.

16:32Voilà pour cette partie traitement.

16:35Comme je vous l'ai dit, on a d'autres couches que les traitements

16:38entre les cas d'usage et le stockage.

16:42On va pouvoir retrouver, par exemple, différentes capacités.

16:45La data virtualisation, dont on entend moins parler aujourd'hui,

16:49des outils qui permettaient d'aller récupérer,

16:52en disant qu'on avait beaucoup de sources de données,

16:55dans toutes les sources de données de façon unique.

16:58Si on avait 10 différentes bases de données, on pouvait les récupérer

17:01de façon unique. Et une autre notion qui est là aussi très utilisée,

17:04mais qui n'est pas réellement du traitement, mais qui va être

17:07de l'interrogation de données, les distributed SQL query engine,

17:10qui vont être des systèmes de requêtage de données

17:13très performants, très scalables.

17:16Ce qui s'est passé au fil des années avec le cloud computing,

17:19c'est qu'on est passé...

17:22En fait, la volumétrie a augmenté, les techniques aussi,

17:25les paradigmes ont augmenté sur comment on va faire

17:28de la scalabilité, donc améliorer les performances du système.

17:31Là où avant, on rajoutait de la puissance, on rajoutait

17:34des gigas de la RAM dans des ordinateurs toujours plus performants,

17:37aujourd'hui, on va rajouter toujours plus d'ordinateurs

17:40au système, et donc ça pose d'autres problématiques

17:43conceptuelles. Et donc, elles se sont sorties

17:46des outils comme Cresto Trino, qui permettent

17:49de faire passer un peu des anciennes méthodes, donc le SQL,

17:52vers des performances très élevées

17:55et cette forte scalabilité

17:58pour aller requêter les données.

18:01Quand on va requêter un tera de données, plusieurs teras de données,

18:04c'est beaucoup plus performant de passer par ces outils-là

18:07plutôt que de connecter directement ces outils de BI, par exemple,

18:10à nos données.

18:13Il y a une question, Thomas de Pierre,

18:16qui demandait quelles sont les principales différences

18:19entre ces outils, ou les principaux critères de choix,

18:22et c'était sur cette slide.

18:25D'accord. Alors, sur la partie

18:28traitement, entre

18:31Python, Apache, Spark

18:34et DBT, ça va surtout être au niveau des performances.

18:37Spark est très performant sur des gros volumes,

18:40mais il va amener certaines complexités d'usage

18:43car c'est un framework assez particulier.

18:46On va pouvoir en faire dans différents langages, mais malgré tout,

18:49c'est un framework qui est assez problématique, donc c'est très utile

18:52pour des gros volumes. C'est moins utile pour des plus petits volumes.

18:55Là, on va pouvoir faire du Python. DBT, je le connais un peu moins,

18:58donc je pourrais moins dire, mais normalement, lui,

19:01je pourrais moins être spécialisé, mais il est plus adapté

19:04pour des types de

19:07données structurées,

19:10semi-structurées. En fait, ça va ressembler à des traitements SQL

19:13derrière DBT. Et après, sur la partie

19:16orchestration, Airflow, c'est très robuste.

19:19Pour des sociétés qui veulent des choses qui, après, sont robustes

19:22à 10, 20 ans, c'est une communauté énorme.

19:25C'est assez rassurant pour cette entreprise.

19:28Kestra, c'est plus jeune, mais ça répond à d'autres problématiques,

19:31une meilleure découplage entre les traitements et l'orchestration,

19:34donc c'est plus simple à maintenir. Prefect aussi se positionne

19:37là-dessus, mais c'est l'outil propriétaire. Donc, ça va vraiment

19:40dépendre de la quantité de données

19:43pour savoir si on a besoin de très gros volumes

19:46ou de plus petits volumes. Et après, des choses recherchées

19:49par l'entreprise finale sur

19:52est-ce que mes collaborateurs savent mieux

19:55faire du Python que du Java ? Est-ce qu'ils maîtrisent déjà

19:58DBT ? Est-ce que je veux payer Prefect

20:01ou je préfère être chez moi, parce que c'est open source,

20:04donc avec un Airflow ? Ça va plus se jouer

20:07sur ces questions-là.

20:10Je ne sais pas si ça répond à ta question, Pierre.

20:13Oui, et Pierre demande aussi, est-ce qu'une

20:16stack cumule en général plusieurs outils

20:19en même temps ? Oui, ça peut.

20:22Souvent, il y a des problématiques de rationalisation

20:25des outils. Par exemple, un outil d'orchestration, on va éviter

20:28d'en avoir plusieurs, parce que le but, c'est d'avoir un outil vraiment qui orchestre tout.

20:31Mais des outils de traitement, des frameworks

20:34de traitement, des langages de traitement comme Python, Spark ou DBT,

20:37on va souvent retrouver plusieurs. Suivant le cas d'usage,

20:40on ne va pas utiliser les mêmes. Par exemple, des fois, même pour des phases

20:43de développement, on va être sur du Python classique ou sur du Python

20:46PySpark. On peut aussi faire du Spark en Python. Et après,

20:49on va partir sur d'autres langages

20:52pour la production. Donc, sur la partie orchestration,

20:55en général, on essaie d'avoir un seul outil, mais sur les

20:58langages, on en a souvent plusieurs.

21:01Et donc, le but, après, c'est que l'orchestration puisse

21:04orchestrer les différents langages. Enfin, les différents

21:07pipelines qui sont faits, eux, dans différents langages

21:10ou avec différents frameworks.

21:13C'est bon, je crois que Pierre a compris ce que tu as dit, Thomas.

21:16Alors, j'enchaîne sur la dernière partie,

21:20une des parties les plus importantes, et c'est de là dont on part

21:23quand on crée une Modern Data Stack, c'est la partie

21:26exposition. Donc là, on va retrouver,

21:29l'importance de cette

21:32couche-là, c'est lié à

21:35les besoins de l'entreprise. Il faut repartir des besoins de l'entreprise

21:38qui va être consommateur des sorties,

21:41de l'output de la Modern Data Stack. Ça peut être la même chose,

21:44ça peut être des analystes, des data scientists, ça peut être des métiers

21:47qui vont faire de la BI avec leurs outils, ça peut être

21:50d'autres entreprises, d'entreprises partenaires à qui on va faire du data sharing,

21:53à qui on va fournir des API pour aller fournir

21:56des données ou fournir des accès à nos services.

21:59Donc, sur la partie exposition,

22:02on va très souvent retrouver la partie

22:05BI et analysis, donc avec les parties BI classique,

22:08Power BI, Tableau, Self BI, donc c'est donner

22:11des capacités, donner des nouveaux outils qui sortent

22:14de plus en plus pour aider les métiers à faire eux-mêmes

22:17leurs analyses. Le data storytelling,

22:20donc vraiment quelque chose poussé par Toucan Toco, comment on va

22:23raconter une histoire, raconter des choses avec les données.

22:26Les complexités liées à ces domaines-là,

22:29ça va être toujours des problématiques de performance,

22:32mais aussi des dashboards,

22:35des visualisations, des analyses qui sont adaptées

22:38aux utilisateurs finaux. C'est souvent, c'est jamais

22:41la même chose qu'une analyse pour un métier, un analyste, un C-level

22:44dans une entreprise, donc bien savoir adapter son résultat final

22:47à l'utilisateur final.

22:50Et problématique aussi de droit d'accès,

22:53parce qu'un C-level n'a pas les mêmes permissions qu'un analyste,

22:56ni qu'un métier, un responsable régional n'a pas les mêmes permissions

22:59qu'un responsable départemental. Enfin, toute cette problématique

23:02de gestion des accès va se retrouver aussi

23:05beaucoup dans cette boucle-là. La partie data sharing CIA,

23:08c'est comment je vais pouvoir récupérer mes données. En plus, l'avantage

23:11d'aller KO sur lui, c'est d'avoir des données structurées et non structurées,

23:14donc du structuré pour aller par exemple faire de la data science classique,

23:17du non structuré avec des fichiers,

23:20des images, des vidéos pour aller faire

23:23de la reconnaissance d'images, pour aller pourquoi pas faire

23:26du LLM, peu importe, mais en tout cas aller

23:29vers des problématiques de data science.

23:32Là, on va retrouver des outils comme DataIQ, H2O, DataRobot

23:35ou des outils, on va dire, plus simples aussi, comme des fois Jupiter

23:38pour aller faire de la data science, MLflow pour aller

23:41déployer des modèles. Là, on n'en parle que très brièvement,

23:44mais cette partie-là est vraiment très grosse.

23:47Ensuite, c'est presque une plateforme à côté de la plateforme

23:50si on veut aller vers du MLOps, du ModelOps, donc vraiment

23:53donner à nos data scientists des vraies capacités pour aller loin

23:56sur la partie AI Machine Learning.

23:59Le reverse ETL qui est une notion

24:02qui est arrivée aussi ces dernières années,

24:05on récupère les données, on les traite, on les stocke chez nous,

24:08on en fait des analyses, mais ces données peuvent être aussi importantes

24:11de les renvoyer dans d'autres outils de l'entreprise,

24:14dans le CRM, dans la Data Platform,

24:17dans l'ERP, dans des rapports marketing,

24:20mais comment aussi on peut redonner

24:23les données de l'ICAUS,

24:26on peut les repousser vers des applications métiers

24:29pour vraiment tirer des informations

24:32et tirer des conclusions,

24:35aller encore plus loin sur l'utilisation de la donnée

24:38dans l'amélioration des processus métiers,

24:41mieux connaître ses utilisateurs, c'est très utilisé notamment

24:44en marketing pour suivre les comportements utilisateurs

24:47et pour après pousser des recommandations,

24:50ce genre de choses.

24:53Est-ce que vous avez des questions sur la partie

24:56exposition, sachant qu'il existe quasiment autant d'expositions

24:59que de cas d'usage qu'il existe en entreprise ?

25:02Oui, Philippe a une question,

25:05Thomas, quand on parle de sécurité des données,

25:08il demande s'il existe des outils permettant de détecter des corruptions

25:11de données au plus tôt sur la chaîne.

25:14Alors, qu'est-ce que tu entends par corruption ?

25:17Mauvaise qualité ou vraiment ?

25:20Qu'est-ce que tu entends par corruption ?

25:27Il y a deux niveaux.

25:34Il va y avoir une problématique

25:37sur de déjà savoir qui peut lire et écrire les données,

25:40de quel système ça vient,

25:43et ensuite on va utiliser des couches qu'on va après

25:46voir, c'est une question parfaite pour enseigner avec la data governance,

25:49sur les notions de data lineage,

25:52data quality, pour savoir si les données sont

25:55suivant certains seuils, par exemple, que j'ai définis pour savoir

25:58si elles n'ont pas dévié, si je n'ai pas

26:01des choses bêtes, parfois un string à la place d'un int,

26:04une chaîne de caractère à la place d'un nom,

26:07si je n'ai pas des valeurs aberrantes, ou alors vraiment aussi

26:10comprendre pour pouvoir remonter la chaîne, si je vois que j'ai un KPI

26:13qui est défectueux, comprendre qu'il venait de ces données-là,

26:16qui ont eu tel traitement qu'ils venaient elles-mêmes d'autres données,

26:19et ainsi de suite, remonter la chaîne jusqu'à la source pour savoir d'où vient ce potentiel

26:22problème sur mon KPI ou sur mon outil final.

26:25Du coup Thomas, Philippe, ces questions étaient

26:28sur les attaques sur les données,

26:31notamment les insertions de données pour perturber le système.

26:34Oui, ça existe beaucoup, notamment dans toute la partie

26:37IA, on va pouvoir pousser

26:40des fausses données, des données de mauvaise qualité pour essayer,

26:43comme il y a toutes les problématiques de réentraînement,

26:46de brouiller un peu le système IA

26:49et baisser ses capacités futures.

26:52Ce qu'on va pouvoir faire à ce moment-là, ça va être des contrôles,

26:55il va falloir contrôler les données d'entrée, définir des contrats

26:58d'interface sur la typologie

27:01de données, sur la structure qu'elles peuvent avoir,

27:04et ce genre de choses-là aussi.

27:07Par exemple, quand je donne un accès à ma base

27:10pour pouvoir faire de l'ingestion de données, faire des choses nominatives,

27:13savoir qui a pu écrire,

27:16qui a pu lire, on va avoir aussi des problématiques

27:19où on peut donner des gestions de droits temporaires à certains accès,

27:22à certaines bases. En fait, les problématiques

27:25de sécurité, là où elles sont compliquées, c'est qu'elles vont intervenir à chaque niveau,

27:28que ce soit sur l'ingestion, mais aussi sur le stockage,

27:31sur les transformations, si on peut avoir des problèmes à ce niveau-là.

27:34Ce sont des questions qu'il va falloir se poser et auxquelles il va falloir

27:37répondre sur chaque brique

27:40de la Modern Data Stack.

27:44J'enchaîne, on va rapidement parler

27:47de gouvernance et de sécurité.

27:50Justement, on va parler un peu de sécurité. La gouvernance, c'est quoi ?

27:53La gouvernance, ça va être

27:56des process, des rôles

27:59et des technologies adaptées pour la gestion du cycle de vie

28:02de mes données, donc savoir quelle politique,

28:05qui a le droit d'écrire où, quelles données sont présentes,

28:08à quel endroit,

28:11est-ce qu'elle est fraîche ou pas, est-ce qu'elle a été rafraîchie récemment,

28:14qui l'utilise. On a vu aussi

28:17émerger ces dernières années des rôles et même des postes comme

28:20le Data Steward, le Data Owner, qui ont pour rôle de

28:23vraiment prendre en main la donnée

28:26et s'assurer de leur bonne qualité, s'assurer de leur

28:29utilisabilité par d'autres services.

28:32Là, on va aussi avoir toutes les problématiques de sécurité

28:35d'accès aux données.

28:38Et conformité, ça va dépendre des réglementations.

28:41On a tous en tête le RGPD, mais dans

28:44les données de santé, on a le HDS. Si on va aller plus loin, on a aussi du

28:47Secnum Cloud. On va avoir différentes certifications

28:50et réglementations qui vont

28:53nécessiter de se conformer

28:56à certaines règles, certaines règles de sécurité, certaines règles

28:59de gouvernance de la donnée, c'est-à-dire, que ce soit de la technologie,

29:02des process, mais aussi de l'organisation.

29:06Au niveau gouvernance, ce qu'on va souvent retrouver,

29:09c'est la partie Data Catalog, savoir quelles données sont disponibles dans

29:12l'entreprise, qui est responsable de la donnée, qui est son

29:15Data Owner, Data Steward ou qui

29:18l'utilise, de quoi

29:21elle est composée, c'est quoi les colonnes, des informations

29:24orientées autour de l'utilisabilité de la donnée.

29:27Dans Data Catalog, on va retrouver

29:30Data Galaxy, Colibra. Et sur la partie Data Quality,

29:33là, ça sera plus essayer de comprendre si ma donnée est de qualité,

29:36si elle est utilisable, si elle respecte bien certains seuils

29:39que j'aurais définis, notamment certains seuils métiers. On ne peut pas

29:42des âges qui dépassent 120, parce qu'on sait que ce n'est

29:45pas possible. On ne veut pas certaines valeurs, on ne veut pas

29:48si une moyenne dévie trop, s'il y a un écart-type trop grand,

29:51on va pouvoir définir des valeurs et surveiller, en fait, comme aujourd'hui,

29:54on surveille les systèmes, on surveille les IA,

29:57surveiller la bonne qualité de la donnée.

30:03Donc, c'est vraiment des problématiques de maintenance continue

30:06des données. C'est souvent des étapes qui interviennent un peu plus tard

30:09dans la mise en place des cas d'usage ou vente.

30:12C'est vrai que les entreprises commencent par le reste et s'attaquent à ces problématiques

30:15de gouvernance et de sécurité ensuite, mais elles ont des grosses...

30:18Enfin, c'est quand même des gros sujets.

30:21Donc, ça peut prendre beaucoup de temps et c'est aussi beaucoup

30:24de... C'est vraiment pas

30:27que des problématiques technologiques, c'est aussi des problématiques

30:30de connaissance et d'habitude

30:33des employés de ces entreprises à utiliser

30:36ce genre d'outils et de pratiques.

30:39À côté de ça, on va aussi retrouver le data lineage qui est aussi

30:42très important pour la partie RGPD. Le data lineage, ce que vous expliquez

30:45tout à l'heure, par exemple, d'un KPI

30:48final dans un dashboard, on va pouvoir retrouver de quels

30:51datasets il vient, mais quel traitement il a subi. Peut-être il vient de deux autres

30:54datasets eux-mêmes, de trois autres sources dans deux systèmes

30:57pour essayer de comprendre d'où peut venir une potentielle

31:00faille, un potentiel problème dans les données,

31:03des données manquantes, et si on va avoir des problématiques aussi

31:06de droit à l'oubli, par exemple, en tant que capacité de remonter

31:09la chaîne pour appliquer ce droit à l'oubli

31:12à tous les niveaux.

31:17Et donc là,

31:20sujet très global, c'est ce que je disais en réponse à la question

31:23de Philippe, la gouvernance

31:26et aussi la sécurité des données.

31:29C'est quelque chose qu'on va retrouver partout.

31:32Ce qu'il est possible de faire, c'est du chiffrement des données au repos,

31:35en transit, donc on passe d'un système à l'autre. Aujourd'hui, les entreprises

31:38aussi se positionnent pour être en capacité de faire du traitement de données

31:41chiffrées, parce qu'aujourd'hui, la faille, c'est au moment

31:44où on chiffre, on traite les données, on est obligé de les déchiffrer.

31:47Les entreprises travaillent aussi sur le fait d'être en capacité de traiter

31:50des données chiffrées. Après, on va avoir des problématiques de gestion d'accès

31:53avec des politiques d'accès du droit.

31:56Par exemple, dans l'armée, ils ont une problématique qui s'appelle le droit

31:59à en connaître, c'est-à-dire qu'une personne a le droit d'accéder à une donnée

32:02sur un certain temps et pour une certaine raison.

32:05Donc, c'est des droits d'accès temporaires au niveau de, par exemple,

32:08si on imagine un tableau, ils ont le droit d'accéder qu'à certaines colonnes,

32:11qu'à certaines lignes. Donc, on peut aller très loin à ces niveaux-là.

32:14On va retrouver des notions comme la sécurité en profondeur.

32:17Par exemple, si j'ai une partie

32:20de ma stack qui est corrompue, comment je fais

32:23pour protéger les autres ? Par exemple, si j'ai une source qui a un problème,

32:26comment je fais pour que mes autres sources ne soient pas affectées

32:29par un leak de données ou d'autres choses ?

32:32Et donc là, les défis, c'est vraiment protection contre les cybermenaces

32:36et même parfois contre des actes malveillants

32:39ou même dans la sécurité, il peut y avoir des actes malveillants.

32:42C'est vraiment une attaque pour supprimer les données, mais parfois,

32:45ça peut juste être aussi se protéger contre des erreurs humaines.

32:48Une personne qui va se faire une erreur et supprimer potentiellement,

32:52si c'est mal fait, toute ou partie du Data Lake House.

32:56Donc ça, c'est pour augmenter la confiance auprès des utilisateurs

32:59et des clients et après, on peut passer certaines certifications

33:02autour de ces problématiques-là.

33:07Donc voilà, ça fait beaucoup de notions.

33:10J'en ai conscience autour de la Modern Data Stack.

33:12C'est un outil très complet, mais qui est capable de s'adapter

33:15aux problématiques de l'entreprise.

33:17C'est un outil très complet, mais qui peut être aussi très complexe.

33:21Victor, je te repasse la main.

33:23Pour l'instant, il n'y a pas de questions.

33:25J'ai une petite question pour toi quand même, Thomas.

33:27Là, on a vu qu'il y avait cinq étapes, plein d'acteurs, etc.

33:30Mais concrètement, combien de temps ça prendrait ?

33:33Si moi, j'étais une bot et je voulais en développer une,

33:38combien de temps ça me prendrait ?

33:40Ça va dépendre du nombre de cas d'usage finaux,

33:42mais ça peut prendre plusieurs mois et plusieurs ETP.

33:46Même à déployer une Modern Data Stack, c'est une chose.

33:49Après, il faut la maintenir dans le temps.

33:51Avec des technologies qui évoluent très vite,

33:53des besoins aussi qui évoluent très vite,

33:55ça peut prendre plusieurs ETP au sommet de l'entreprise.

34:02Il y a Pierre qui est en train de poser une question.

34:04On va attendre un peu qu'il la pose avant d'avancer.

34:08On parlait aussi tout à l'heure,

34:10mais j'ai une deuxième question pour toi.

34:12On faisait le distinguo entre des solutions propriétaires,

34:15des solutions open source.

34:17Qu'est-ce qui pourrait influencer mon choix ?

34:20À quel moment je peux partir sur de l'open source ?

34:23À quel moment il vaut mieux que je prévienne du prioritaire ?

34:26En fonction de quoi ?

34:28Ça dépend de quoi, en fait ?

34:31Ça va dépendre un peu de ta politique interne.

34:33L'avantage du propriétaire, en général,

34:36c'est des garanties de support.

34:40Certaines entreprises se positionnent

34:42en faisant du support à l'open source,

34:44mais l'open source, on va avoir un coût qui est moindre,

34:46par défaut, par l'open source,

34:48vu que c'est des logiciels gratuits,

34:49mais on va avoir souvent des coûts cachés,

34:51aussi bien pour l'hébergement que pour le déploiement

34:53et l'utilisabilité de ces outils.

34:55C'est vraiment une question de maturité de l'entreprise.

34:58Une entreprise qui a peu de capacités de développement,

35:00mais qui a des fonds,

35:02potentiellement peut aller plus facilement vers du propriétaire

35:05parce qu'elle va déléguer certains enjeux à l'outil,

35:10alors qu'une entreprise qui est très mature techniquement

35:13va pouvoir utiliser et même contribuer à l'open source.

35:19Il y a Pierre qui vient de poser une question hyper intéressante,

35:21qui dit si une partie de sa stack doit rester on-premise,

35:26est-ce que les solutions s'intègrent bien dans ce contexte-là ?

35:33Ça, ça va être problématique.

35:35Enfin, ça ne va pas être problématique,

35:36ça va être des enjeux intéressants plutôt.

35:39On va avoir deux choses.

35:40On va retrouver en plus ces notions d'open source versus propriétaire.

35:44Avec les années, de plus en plus de solutions propriétaires

35:46proposent principalement du SaaS et moins de déploiements on-premise.

35:50Après, avec certaines, c'est toujours possible.

35:53Donc, on va pouvoir dans ces cas-là acheter.

35:55C'est souvent avec des licences qui sont un peu différentes,

35:57pas du paiement à l'usage,

35:58mais on va pouvoir acheter la solution,

36:01la déployer chez soi pour monter sa moderne data stack on-premise.

36:05Et à partir de là,

36:06on va avoir d'autres problématiques qui peuvent arriver.

36:08Est-ce que c'est simplement du on-premise qui est connecté à Internet

36:11ou on peut aussi retrouver des data stack

36:14qui ne sont pas du tout connectés à Internet ?

36:17Donc, on va avoir tous ces problématiques

36:19de comment je vais pouvoir faire vivre et évoluer mon écosystème

36:22en étant le moins possible connecté à Internet.

36:25Donc, bien sûr, il y aura des points d'entrée et de sortie.

36:27Forcément, si on veut bien gérer les données,

36:28on va vouloir parfois se connecter.

36:30Mais sur le on-premise,

36:32c'est globalement les mêmes problématiques,

36:34mais on va être restreint au niveau du choix des outils.

36:38Et aujourd'hui, beaucoup de technologies qu'on va retrouver dans le cloud

36:42qui aussi sont arrivées avec tous ces problématiques-là

36:45sont utilisables pour sa Kubernetes ou d'autres,

36:48peuvent être déployées sur des stacks on-premise.

36:51Donc là, c'est plutôt le choix d'outils qui va être amené à évoluer

36:54parce que certains ne sont pas déployables on-premise,

36:57mais sinon les problématiques restent les mêmes.

37:00Ok, merci.

37:01Plus de maintenant.

37:04Je vais accélérer parce qu'il ne nous reste que 5 minutes.

37:07Donc, un peu pour conclure ta partie un peu technique.

37:11Du coup, c'est intéressant.

37:12On voit qu'il y a plein d'étapes et d'acteurs,

37:14mais c'est vrai qu'il y a même trop d'acteurs

37:19et ce n'est pas facile de s'y retrouver.

37:22Tous les ans, il y a de plus en plus de technologies, etc.,

37:27qui émergent et tous les 2-3 ans,

37:29il y a la nouvelle techno un peu évolutionnaire.

37:31Du coup, je comprends que pour les gens dans les entreprises,

37:34ce n'est pas facile de s'y retrouver.

37:36Et c'est là si tu passes, ça c'est d'après Thomas.

37:45Et c'est là où nous, Clérop, on va justement rentrer en jeu

37:49et on va un peu conclure là-dessus.

37:52C'est que nous, Clérop, on est là pour justement

37:54aider les entreprises à ne pas se poser ces questions-là

37:57de quelle solution est la meilleure,

38:00pour quel prix,

38:02parce que Clérop a justement productisé

38:05en une seule solution,

38:07non, on remonte.

38:08Oui, pardon, je t'en prie.

38:09Cette product Data Stack,

38:12c'est-à-dire qu'on a développé une plateforme

38:14qui va gérer l'ingestion des données,

38:17le flux de transformation,

38:18administrer le stockage

38:20et aussi la partie exposition

38:22ou valorisation des données,

38:24que ce soit en BI ou en Data Science.

38:26Et en SUS,

38:27on a développé aussi des modules diagénératifs

38:30qui permettent de mieux

38:34interférer en langage naturel

38:37avec vos données de cette manière Data Stack.

38:40Et le tout est dans un code de confiance

38:43pour vous garantir les plus hauts standards

38:45de sécurité des données.

38:47Et nous, avant qu'on passe,

38:49et justement qu'on profite des 3-4 dernières minutes

38:52qui nous restent pour se focaliser sur la question,

38:54nous, ce qu'on vous propose à l'issue de ce séminaire,

38:57c'est que vous nous contactiez

38:59et qu'on vous aide à faire votre diagnostic Data Stack

39:02et voir comment on pourrait vous accompagner

39:05sur vos problèmes d'enjeu

39:07et vos problématiques Data.

39:09Et je rebondis,

39:10parce que du coup, il y a Philippe

39:11qui a une question pour toi, Thomas.

39:14Oui.

39:15La question, c'est en choisissant

39:17une ou plusieurs solutions propries aux open source,

39:19le choix peut devenir critique

39:21et notamment sur le domaine de sa plateforme.

39:23Peut-on se prémunir des vies ou morts

39:25des solutions outils, vis-à-vis des normes ?

39:28Non, je n'ai pas de réponse.

39:30Je n'ai pas l'impression qu'aujourd'hui qu'il y en ait.

39:32Certaines entreprises, du coup,

39:33préfèrent aller vers des entreprises très matures

39:36ou vers de l'open source qui est très, très utilisé,

39:38notamment par exemple Airflow

39:40où on va avoir des...

39:41C'est pour ça que certaines entreprises

39:42vont vers encore ces technologies

39:44comme notamment Airflow,

39:45Airflow qui sont un peu anciennes,

39:46qui ne couvrent pas forcément tout,

39:47mais qui ont une très forte communauté

39:49et donc qui ont peu de risques d'aller vers la mort.

39:53Après, quand on voit l'évolution des technologies

39:55et par exemple,

39:56comment les solutions à double sont montées

39:58dans les années 2010

39:59et sont aujourd'hui redescendues assez vite

40:02pour passer justement à la moderne data stack,

40:07j'ai l'impression qu'on est à l'abri de rien à ce niveau-là.

40:11C'est très compliqué comme choix à faire

40:14et il faut voir en fonction de la maturité du marché

40:17et des solutions.

40:22C'est l'avantage aussi de l'open source d'un côté

40:24et d'éviter d'aller chez un...

40:27C'est l'avantage de l'open source,

40:29c'est qu'on peut le garder pour chez soi,

40:30mais après, si on est tout seul

40:31et qu'il y a de la technologie,

40:32ça devient vite inutilisable.

40:39Philippe, je te remercie pour ta réponse, Tom.

40:42Merci.

40:43Et on a encore deux minutes

40:45avant de clôturer le webinaire

40:47si quelqu'un a une dernière question.

40:58Ça arrive, Thomas.

41:00C'est pas encore fini.

41:06Oui, on va pouvoir partager la présentation.

41:09On verra après.

41:10Je pense qu'avec l'Ice Storm,

41:11tu vas recevoir un mail de rappel.

41:15On verra comment mettre la présentation.

41:20Et à Stéphane, Thomas qui demande

41:22quel est le choix final proposé par Clearop ?

41:25C'est-à-dire en termes de technologie ou...

41:31En termes de techno, oui.

41:32Oui, en termes de techno,

41:33nous, on est partis principalement...

41:35Nous, en voulant producter

41:36la moderne data stack,

41:38on s'est principalement partis

41:40avec des technologies open source

41:42en essayant justement

41:44d'être dans le bon niveau

41:48entre des technos modernes

41:50mais aussi des technos utilisées.

41:52Donc, par exemple,

41:53pour la partie de l'iCaos,

41:54on va se retrouver avec du MinIO,

41:57qui est un stockage de type S3

41:59sur lequel on va pouvoir faire de l'iCaos

42:01tout en utilisant un stockage né en IceBear

42:04pour avoir des bonnes performances de stockage.

42:07Et en plus de ça,

42:08ils nous font un catalogue.

42:09Donc, on va essayer

42:10d'allier toujours le meilleur techno

42:12en termes d'open source.

42:13Et après,

42:14on a aussi des partenariats

42:15avec d'autres entreprises,

42:16notamment Toucan Toco,

42:17que vous pouvez retrouver

42:18en marque blanche dans la plateforme.

42:20Mais c'est une vraie question, en fait, Stéphane,

42:22c'est une vraie question

42:23à temps plein de se poser la question

42:25de quelle technologie

42:26on veut inclure dans Clearop.

42:27On en a déjà ajouté et retiré certaines

42:31en changeant de...

42:33au vu des changements

42:34de paradigmes du marché.

42:36Et après, c'est un peu notre rôle

42:37à notre capacité

42:38de pouvoir faire évoluer

42:39les technologies à l'intérieur de Clearop

42:41sans que ça ait d'impact

42:43sur le produit final,

42:44sur les utilisateurs finaux.

42:46Le moins possible, en fait.

42:48Je ne sais pas si ça répond bien

42:49à ta question, Stéphane.

42:57On pourrait faire une liste,

42:58par exemple,

42:59pour retrouver du Apache Park

43:01avec une autre technologie

43:02qui s'appelle Lighter

43:03parce que l'Apache Park

43:04a des très bonnes performances

43:05sur des gros volumes.

43:06Mais justement,

43:07on a des temps de latence très faibles

43:10et aussi des performances

43:11sur des plus petits volumes.

43:14On pourra répondre

43:15à toutes ces questions.

43:17Stéphane, d'ailleurs,

43:18on a plein d'autres questions pour toi.

43:19Donc, à la rigueur,

43:21ce serait peut-être intéressant

43:22que vous échangez tous les deux

43:24tous en coups

43:25à la suite de ces webinaires.

43:28Et du coup, Pierre,

43:29il y a une autre question.

43:30S'il utilise Clearop,

43:32plus besoin d'avoir

43:33les compétences techniques

43:34liées aux différents outils ?

43:36Effectivement, c'est ça aussi

43:37la promesse de Clearop,

43:38c'est que vous avez un outil

43:39tout en main

43:40avec un parcours unifié.

43:41Et donc, les data scientists

43:43peuvent se concentrer

43:46sur le développement des modèles,

43:47les data engineers

43:48sur l'ingestion

43:49et le traitement des données.

43:50Ça, c'est des choses

43:51qu'on n'a pas encore automatisées.

43:53On met vraiment à disposition

43:55tous les outils

43:57pour répondre à ces problématiques.

43:59Donc, plus besoin d'avoir

44:00les compétences techniques

44:01liées aux différents outils,

44:04plus rien.

44:12Je pense que c'était

44:13la dernière question.

44:14Il est 12h16.

44:19Si vous avez d'autres questions,

44:20n'hésitez pas.

44:21C'est vrai qu'on aurait pu mettre

44:22nos adresses mail

44:23ou nos contacts

44:24dans la présentation,

44:25mais n'hésitez pas

44:26à nous les poser

44:27en off et après.

44:29Merci beaucoup,

44:31déjà à Thomas

44:32d'avoir présenté tout ça.

44:35Moi, j'ai trouvé ça très clair.

44:37J'espère que les gens aussi.

44:39Et merci à vous aussi

44:41d'avoir assisté

44:42à ce webinaire

44:44et d'avoir animé

44:45et d'avoir posé

44:46un peu des questions

44:48pour rendre ça un peu plus dynamique.

44:50C'était sympa.

44:52Merci à tous.

44:53Merci beaucoup.

Category

Transcription

Recommandations