Les 5 étapes clés pour construire sa modern data stack

  • avant-hier
Bénéficiez d’un retour d’expérience technique sur les cinq étapes clés pour structurer le cycle de vie de vos données. De l’ingestion à la consommation, donnez à vos équipes techniques comme métiers les meilleurs outils pour augmenter leur efficacité et prendre des décisions éclairées par la donnée !

Category

🤖
Tech
Transcript
00:00Ok donc pour commencer on va juste mettre quelques petits reminders sur
00:04notamment qu'est-ce que c'est une moderne data stack, on va rentrer un peu plus dans les techniques.
00:10Donc la moderne data stack c'est une architecture technique moderne qui a émergé assez
00:15récemment, il y a une petite dizaine d'années maintenant et qui a émergé suite aux
00:20besoins des entreprises de traiter et de collecter des volumes de données toujours
00:24plus gros, des sources toujours plus variées et les systèmes traditionnels
00:29donc on verra rapidement après comment c'était fait avant, on n'arrivait pas à couvrir ce besoin.
00:34C'est des stacks qui sont designés pour l'analyse et la valorisation des données et elles ont on va
00:40dire deux caractéristiques, elles sont très souvent voire exclusivement en cloud, ce qui
00:46permet aux entreprises d'avoir plus de flexibilité dans leur infra et surtout une scalabilité
00:53quasi infinie, ce qui fait que la puissance de calcul et la puissance des traitements va
00:58s'adapter au volume des données, ce qui est inconvénient négligeable pour les entreprises
01:05et surtout c'est quelque chose d'évolutif, là on voit sur le sur le schéma et Thomas
01:11rentrera dans le détail plus tard, que ce sont des stacks qui sont vraiment partagés
01:19entre on va dire étapes ou services qui sont presque indépendants les uns des autres donc
01:24qui peuvent être mises à jour, adaptées etc donc c'est une stack qui est assez modulaire pour
01:29s'adapter aux besoins des entreprises. A quoi ça sert parce qu'on va rentrer directement dans le
01:35vif du sujet, ça sert surtout à rassembler des données diverses dans un endroit centralisé,
01:41on va avoir vraiment une seule source où on va récupérer les données interne d'organisation,
01:47des données externes etc, ça sert aussi à automatiser et orchestrer les traitements de
01:53données, que ce soit automatiser l'ingestion de ces données là, les pipelines d'ingestion,
01:57les pipelines de transformation pour partir de données brutes à des données analysables et
02:03exploitables et ensuite ça sert à favoriser l'exploitation des données que ce soit avec
02:08l'avis du petit BI on va dire traditionnel, de la data science et même du partage, ça permet
02:14aussi aux différentes personnes d'organisation d'être plus
02:21autonome sur le partage des données et l'exploitation des données. Avant la data stack,
02:28concrètement on était sur des stacks plus fermées et notamment il y avait
02:35énormément, il y en a même toujours, de systèmes on va dire on-premises donc sur sites où les
02:42entreprises géraient elles-mêmes leur infra, ce qui est assez coûteux, les investissements en serveurs
02:51etc, il y a aussi des coûts de maintenance élevés, c'était pas pas flexible et pas scalable,
02:56c'est à dire qu'il y avait un besoin de données et de puissance de traitement supplémentaire,
03:01il fallait rajouter de la puissance de calcul etc, et c'était relativement limité en termes
03:09d'analyse, il y avait peu ou pas de temps réel, il y avait forcément une puissance de serveurs
03:17etc, donc c'était relativement limité. C'est pour ça que la modèle data stack a émergé,
03:25donc qui permet de prendre toutes les données, de les mettre dans un lake house, ça a émergé
03:31grâce au début du cloud computing, ce qui a permis cette flexibilité là, notamment en termes de
03:35puissance de calcul et de capacité de stockage, et notamment de développement de plusieurs
03:40solutions. On a vu brièvement, et Thomas rentrera dans le détail plus tard, que sur chaque étape
03:46de la modèle data stack, il y a eu de plus en plus d'acteurs qui sont venus, hyper spécialisés,
03:49qui sont spécialisés sur un bout du cycle de données, et ce développement de ces technologies
03:55ont permis l'aménagement de ces modèles data stack. Et de l'autre côté, il y avait un besoin
04:00des entreprises de traiter des volumes de données de plus en plus grand, de traiter aussi des données
04:06en temps réel, dans l'industrie, dans le commerce etc, et un besoin aussi de self-service, d'autonomie
04:12d'utilisateurs, un besoin toujours de créer plus de KPI, de partager de la donnée, et d'être moins
04:17sidoté comme c'était avant. Donc les avantages, on va passer rapidement, on a déjà parlé,
04:24c'est des déploiements rapides, comme c'est des solutions qui sont majoritairement en cloud,
04:28ça se déploie rapidement, c'est adaptable, ça s'adapte aux besoins de votre organisation,
04:34aux besoins de vos business, et de l'amélioration continue, comme c'est modulaire, on peut jouer
04:40avec les différentes briques et prendre toujours les solutions les plus adaptées au pays.
04:45Il y a des exemples de cas d'usage, ça c'est connu, mais dans l'industrie, ça va dans l'optimisation
04:55de la chaîne d'approvisionnement, ça va dans le retail, à la personnalisation de l'expérience
05:00client, à faire des indicateurs pour améliorer la prise de décision, il y a vraiment des applications
05:05des cas d'usages concrets qui sont déjà connus, éprouvés et réels.
05:09Après je vais laisser la main à Thomas sur la partie peut-être un peu plus technique.
05:15Alors, on va rentrer en détail dans chaque partie de la modale data stack. On a voulu
05:25découper le suivant, cinq parties, ingestion, stockage avec les data warehouse, lake house,
05:30traitement organisation, la partie exposition et la partie data gouvernance. Pour cette
05:38présentation, je vais partir de gauche à droite, c'est-à-dire qu'on va suivre le parcours de la
05:43donnée, de l'ingestion vers l'exposition, donc data science et BI. Quand on va concevoir une
05:49data plateforme, on part normalement des besoins, des besoins d'entreprise, des besoins des cas
05:54d'usage, des utilisateurs finaux, c'est ce qu'on va faire de la BI, de la data science, on va les
05:59s'intégrer avec des processus métiers, ce qu'on va faire du data sharing, je vais revenir sur
06:04toutes ces notions après, et à partir de ça, ça va nous orienter sur le type de données dont on
06:09va avoir besoin et donc le type de stockage dont on aura besoin. Et ensuite, à partir de ce besoin
06:14de stockage, on pourra décider de quel outil, quelle organisation utiliser pour les parties
06:20ingestion traitement. La couche gouvernance est une couche très transverse, elle concerne donc
06:27toutes les étapes de la moderne data stack, aussi bien sur la gestion de la qualité, de la sécurité,
06:32de l'utilisation des données. Comme je vous ai dit, on va commencer par la partie ingestion. Ce qu'on
06:38va faire, c'est qu'entre chaque étape, on va vous laisser un peu de temps, si vous voulez
06:44poser des questions, n'hésitez pas à les poser dans le chat ou dans le petit espace dédié aux
06:49questions. Entre chaque étape, entre ingestion, data lake, chaos, traitement, etc., je vous laisserai
06:55le temps de poser des questions et il y aura un temps de questions réponses à la fin. Donc, pour
07:01la partie ingestion, l'ingestion des données est le point d'entrée de la moderne data stack. C'est là
07:06où on va aller récupérer les données extérieures et les données internes à l'entreprise. L'objectif
07:12va être en fait, dans la moderne data stack, importer toutes les données dont on va avoir
07:15besoin dans le cas d'usage. Ça peut être des données de l'entreprise, des données qui viennent
07:19de leur système, des bases de données, de leur site internet, de leur ERP, de leur CRM, ça peut
07:24être des données externes comme des données d'open source, des données de partenaires qu'on va acheter
07:29ou alors des données stockées sous forme de fichiers ou sous forme, pour certaines entreprises, sous
07:34forme d'IoT, donc des données d'objets connectés. La grosse complexité de l'ingestion des données
07:40dans une moderne data stack va être de gérer la diversité des sources et des formats de données. On parle
07:46souvent de données semi-structurées, structurées ou non structurées, je reviendrai un tout petit peu
07:50après, mais donc la difficulté de ces étapes d'ingestion va être vraiment de récupérer tous les
07:56types de données nécessaires au développement des cas d'usage. Donc à cette étape-là, on va
08:04retrouver des problématiques et un peu des mots qui ressortent comme ETL, ELT. Alors ETL, ELT, on en entend
08:10souvent parler. ETL, plus vraiment avec les années, c'est un peu une ancienne façon de faire avec les
08:15data warehouse comme en parlait un peu Victor avant sur les anciennes façons de faire. Donc aujourd'hui,
08:26l'ELT. La différence, c'est qu'avant, on ne pouvait pas stocker toutes les données qu'on voulait, donc on les
08:31traitait avant de les importer. Aujourd'hui, comme le stockage est moins cher, on va d'abord importer
08:35des données et ensuite on va les traiter. En plus de tendance sur des notions comme le
08:43CDC, par exemple. Le CDC, c'est le Change Data Capture. Comme aujourd'hui, on importe des gros volumes de données,
08:49certaines entreprises se spécialisent non pas dans le fait de donner la capacité aux utilisateurs, non pas d'importer
08:54toutes leurs bases de données, mais d'importer juste les derniers enregistrements, les dernières
08:59lignes, par exemple, dans une table, dans une base. On va retrouver des problématiques aussi liées au
09:06streaming, donc aux données en temps réel. Donc à ce niveau-là, on va retrouver différents
09:11types d'outils, propriétaires ou open source. Les outils propriétaires actuellement les plus
09:15utilisés vont être TALENT ou Fivetran, principalement Fivetran. Et les outils open source les plus
09:20utilisés vont être Airbyte pour toute la partie ingestion, sans traitement, vraiment la
09:24partie ingestion, EL, Extract and Load, Kafka pour les parties streaming, et Nifi. Nifi, j'y reviendrai, qui peut
09:30aussi servir à d'autres étapes, mais qui est parfois utilisé sur la partie ingestion. On va retrouver
09:35aussi plein d'autres outils à ce niveau-là.
09:39Je laisse voir, je crois qu'il n'y a pas de questions dans la partie chat, c'est peut-être une.
09:47Si, de moi, il y a une question de Julien.
09:52Vas-y, je veux bien que tu me laisses la voir.
09:55ETL versus ELT, est-ce qu'il y a intérêt de faire les traitements après plutôt qu'avant, je suppose,
10:01plutôt qu'après, je pense que c'est...
10:04En fait, la différence va être surtout que, quand on fait les traitements avant l'ingestion, on va perdre
10:11certaines informations, donc on n'aura pas à importer les données dans l'état dans lequel elles sont arrivées.
10:17Mais avant, on était obligé de le faire dans les problématiques de data warehouse, on était obligé de
10:20stocker les données sur une certaine structure définie en amont de l'ingestion.
10:25Et bien, si il y a une nouvelle colonne, par exemple, qui arrivait, on ne pouvait pas l'importer
10:28parce que ça ne correspondait pas à la structure et c'était compliqué de faire évoluer les structures.
10:31Donc aujourd'hui, on essaie de faire les traitements a posteriori, comme ça on est dans une meilleure capacité
10:35de pouvoir changer les traitements et changer les données, changer le résultat en fonction des besoins.
10:42Et on a plus cette problématique de ne pas avoir accès à de la donnée antérieure parce qu'on avait fait la transformation
10:48et donc on avait eu de la perte d'informations.
10:52Comme global chat, Victor, est-ce que tu sais si ça a répondu ou s'il y a d'autres questions ?
10:58Non, ça a répondu, il n'y a pas d'autres questions.
11:01Super, merci Victor, merci Juliette pour la question.
11:04Donc oui, c'est vrai qu'en plus, c'est une bonne transition.
11:06Du coup, avant, on avait les data warehouse qui étaient plus dans les années 80 pour faire tout ce qui était BI.
11:10À ce moment-là, on importait des données avec le ETL et donc il fallait définir une structure en amont,
11:15on avait des data martes et on pouvait faire de l'analytique, ce genre de choses.
11:19Sont apparus dans les années 2010, notamment avec tout ce qui est GAFAM et l'exposition du Cloud Computing, les data lakes.
11:26Donc là, on pouvait stocker des données de tout type de format, des fichiers de log de sites internet, des fichiers non structurés, des images.
11:34Donc beaucoup d'objets, ce qu'on appelle binaires comme des images, des vidéos, qui vont permettre de faire data science.
11:40Et aujourd'hui, depuis quelques années, depuis les années 2020, il y a une nouvelle notion,
11:44lake house, qui regroupe ce que le data warehouse et le data lake faisaient de mieux.
11:49Le but d'un data lake house, c'est de proposer, là où un data lake, par exemple,
11:53permet aussi bien de faire les données structurées et non structurées, mais de façon différente,
11:56parce qu'il reprenait de data lake certaines notions, ce n'était pas les mêmes notions que structurées et non structurées.
12:01Le but de lake house, c'est de proposer une interface et une gestion de gouvernance unique,
12:05aussi bien pour les données structurées et non structurées.
12:09Aujourd'hui, on s'oriente de plus en plus dans les modernes data stacks, encore plus modernes,
12:13vers du lake house plutôt que du data lake.
12:17J'y reviendrai à la fin, parce que c'est un enjeu de toute la moderne data stack,
12:21mais la sécurité et la performance sont aussi un gros enjeu au niveau du stockage.
12:27On va notamment voir des réponses rapides aux requêtes qu'on va pouvoir faire sur le stockage,
12:33chiffrement, parce que là, c'est là où toutes les données sont présentes,
12:36toutes les données sont stockées, donc on va avoir des courses problématiques sur la gestion des accès,
12:40chiffrement des données au repos, avoir des performances élevées, des protections des données sensibles,
12:45suivant en plus vos domaines.
12:48Ce n'est pas la même chose si vous traitez des données de santé, des données de sécurité,
12:52ou ces choses-là, j'y reviendrai dans la partie gouvernance,
12:54mais on va avoir aussi des problèmes de conformité.
12:58Niveau outils, propriétaires, on va retrouver Databricks,
13:01qui était plus historiquement sur la partie Data Lake,
13:03et Snowflake, qui était vraiment le Data Warehouse le plus performant.
13:06Avec les années, les deux s'orientent vers du Lake à OOS,
13:09et donc sont de plus en plus l'un face à l'autre.
13:12C'est vrai qu'aujourd'hui, c'est un peu plus compliqué de les différencier,
13:16de faire son choix, mais chacun est libre de choisir celui qu'il préfère.
13:20En open source, on va retrouver Minayo, cette partie-là,
13:23et Delta Lake et Asberg, qui sont plus des systèmes de stockage,
13:27des façons de stocker qui sont aussi utilisées par Data Lake et Snowflake.
13:30Mais donc, on est en capacité, direct de l'open source,
13:32de faire son Lake à OOS avec Minayo, Asberg et d'autres technologies.
13:40Est-ce que vous avez des questions sur cette partie Data Warehouse,
13:43Lake à OOS, donc stockage ?
13:51Pour l'instant, il n'y a rien dans le chat, Thomas.
13:54J'avance, et si vous avez des questions, n'hésitez pas,
13:56on y reviendra après, il n'y a pas de souci.
13:59Donc, traitement de données, là, on va parler de traitement de données,
14:01et plus largement, toute la couche qu'il y a entre l'exposition en cas d'usage
14:05et le stockage.
14:06Donc là, les données ont été stockées, sont dans notre Lake à OOS.
14:08Comment je vais les traiter et les rendre accessibles
14:11pour ma couche d'exposition et mes use cases, sinon ?
14:14Donc là, on va retrouver la transformation des données.
14:16La transformation des données, ça va être important
14:18pour tout le processus de nettoyage des données,
14:20suppression des valeurs aberrantes, enrichissement des valeurs,
14:24restructuration des données pour correspondre à un template.
14:27On va définir, on va créer ce qu'on appelle des pipelines de données.
14:30Donc c'est là où on va essayer de convertir des données de qualité.
14:34On va retrouver, par exemple, des notions de data set,
14:38de schéma de data set, et de data set avec des niveaux,
14:42bronze, argent, or, assez standard.
14:45Comme aujourd'hui, je vous ai dit, dans un data lake,
14:47on importe beaucoup de types de données.
14:49On va essayer de différencier en disant, ça, c'est de la donnée
14:51de très bonne qualité, ça, c'est de la donnée de mauvaise qualité,
14:53pour savoir où elles en sont et qui pourra les utiliser.
14:58Là, on va retrouver, dans toute la partie orchestration des workflows,
15:02automatisation et gestion des pipelines, on va retrouver
15:04beaucoup de problématiques d'orchestration des pipelines,
15:07c'est-à-dire les pipelines et tous ces traitements de données
15:09pour déplacer les données, parfois ingérer les données,
15:12les rendre propres, les enrichir.
15:16On va retrouver avec ça des notions d'orchestration,
15:19parce que le but aussi, ça va être d'essayer de découpler
15:22l'orchestration et les traitements en eux-mêmes,
15:25pour avoir plus de facilité dans la gestion sur le long terme.
15:28Donc, on va retrouver beaucoup de notions et beaucoup de défis
15:30à ces étapes-là, comme le DataOps, le versionning des traitements
15:33des données, et plein de problématiques liées au code.
15:36C'est beaucoup de code Python, on retrouve là,
15:41Spark, DBT, qui est sorti ces dernières années
15:44et qui est en train de monter en puissance très fortement.
15:47Là, on va avoir de grosses problématiques, gestion de dépendance
15:50entre certaines librairies, de scalabilité.
15:53Ce n'est pas la même chose si je traite un giga ou un tera de fiabilité.
15:56Monitoring, comment je sais que mon traitement a échoué,
15:59qu'est-ce qui se passe s'il a échoué, parce que peut-être je vais avoir
16:02des données qui vont être corrompues en sortie, je ne vais pas avoir
16:05le bon résultat dans mon indicateur.
16:08Il y a beaucoup de problématiques à ce niveau-là.
16:11Sur la partie orchestration, on va trouver des outils comme Prefect,
16:14ou en open source, Airflow, qui est l'outil open source
16:19le plus utilisé sur la partie orchestration.
16:23Et Kestra, qui est sorti ces dernières années,
16:26qui est un logiciel open source français,
16:29qui monte de plus en plus.
16:32Voilà pour cette partie traitement.
16:35Comme je vous l'ai dit, on a d'autres couches que les traitements
16:38entre les cas d'usage et le stockage.
16:42On va pouvoir retrouver, par exemple, différentes capacités.
16:45La data virtualisation, dont on entend moins parler aujourd'hui,
16:49des outils qui permettaient d'aller récupérer,
16:52en disant qu'on avait beaucoup de sources de données,
16:55dans toutes les sources de données de façon unique.
16:58Si on avait 10 différentes bases de données, on pouvait les récupérer
17:01de façon unique. Et une autre notion qui est là aussi très utilisée,
17:04mais qui n'est pas réellement du traitement, mais qui va être
17:07de l'interrogation de données, les distributed SQL query engine,
17:10qui vont être des systèmes de requêtage de données
17:13très performants, très scalables.
17:16Ce qui s'est passé au fil des années avec le cloud computing,
17:19c'est qu'on est passé...
17:22En fait, la volumétrie a augmenté, les techniques aussi,
17:25les paradigmes ont augmenté sur comment on va faire
17:28de la scalabilité, donc améliorer les performances du système.
17:31Là où avant, on rajoutait de la puissance, on rajoutait
17:34des gigas de la RAM dans des ordinateurs toujours plus performants,
17:37aujourd'hui, on va rajouter toujours plus d'ordinateurs
17:40au système, et donc ça pose d'autres problématiques
17:43conceptuelles. Et donc, elles se sont sorties
17:46des outils comme Cresto Trino, qui permettent
17:49de faire passer un peu des anciennes méthodes, donc le SQL,
17:52vers des performances très élevées
17:55et cette forte scalabilité
17:58pour aller requêter les données.
18:01Quand on va requêter un tera de données, plusieurs teras de données,
18:04c'est beaucoup plus performant de passer par ces outils-là
18:07plutôt que de connecter directement ces outils de BI, par exemple,
18:10à nos données.
18:13Il y a une question, Thomas de Pierre,
18:16qui demandait quelles sont les principales différences
18:19entre ces outils, ou les principaux critères de choix,
18:22et c'était sur cette slide.
18:25D'accord. Alors, sur la partie
18:28traitement, entre
18:31Python, Apache, Spark
18:34et DBT, ça va surtout être au niveau des performances.
18:37Spark est très performant sur des gros volumes,
18:40mais il va amener certaines complexités d'usage
18:43car c'est un framework assez particulier.
18:46On va pouvoir en faire dans différents langages, mais malgré tout,
18:49c'est un framework qui est assez problématique, donc c'est très utile
18:52pour des gros volumes. C'est moins utile pour des plus petits volumes.
18:55Là, on va pouvoir faire du Python. DBT, je le connais un peu moins,
18:58donc je pourrais moins dire, mais normalement, lui,
19:01je pourrais moins être spécialisé, mais il est plus adapté
19:04pour des types de
19:07données structurées,
19:10semi-structurées. En fait, ça va ressembler à des traitements SQL
19:13derrière DBT. Et après, sur la partie
19:16orchestration, Airflow, c'est très robuste.
19:19Pour des sociétés qui veulent des choses qui, après, sont robustes
19:22à 10, 20 ans, c'est une communauté énorme.
19:25C'est assez rassurant pour cette entreprise.
19:28Kestra, c'est plus jeune, mais ça répond à d'autres problématiques,
19:31une meilleure découplage entre les traitements et l'orchestration,
19:34donc c'est plus simple à maintenir. Prefect aussi se positionne
19:37là-dessus, mais c'est l'outil propriétaire. Donc, ça va vraiment
19:40dépendre de la quantité de données
19:43pour savoir si on a besoin de très gros volumes
19:46ou de plus petits volumes. Et après, des choses recherchées
19:49par l'entreprise finale sur
19:52est-ce que mes collaborateurs savent mieux
19:55faire du Python que du Java ? Est-ce qu'ils maîtrisent déjà
19:58DBT ? Est-ce que je veux payer Prefect
20:01ou je préfère être chez moi, parce que c'est open source,
20:04donc avec un Airflow ? Ça va plus se jouer
20:07sur ces questions-là.
20:10Je ne sais pas si ça répond à ta question, Pierre.
20:13Oui, et Pierre demande aussi, est-ce qu'une
20:16stack cumule en général plusieurs outils
20:19en même temps ? Oui, ça peut.
20:22Souvent, il y a des problématiques de rationalisation
20:25des outils. Par exemple, un outil d'orchestration, on va éviter
20:28d'en avoir plusieurs, parce que le but, c'est d'avoir un outil vraiment qui orchestre tout.
20:31Mais des outils de traitement, des frameworks
20:34de traitement, des langages de traitement comme Python, Spark ou DBT,
20:37on va souvent retrouver plusieurs. Suivant le cas d'usage,
20:40on ne va pas utiliser les mêmes. Par exemple, des fois, même pour des phases
20:43de développement, on va être sur du Python classique ou sur du Python
20:46PySpark. On peut aussi faire du Spark en Python. Et après,
20:49on va partir sur d'autres langages
20:52pour la production. Donc, sur la partie orchestration,
20:55en général, on essaie d'avoir un seul outil, mais sur les
20:58langages, on en a souvent plusieurs.
21:01Et donc, le but, après, c'est que l'orchestration puisse
21:04orchestrer les différents langages. Enfin, les différents
21:07pipelines qui sont faits, eux, dans différents langages
21:10ou avec différents frameworks.
21:13C'est bon, je crois que Pierre a compris ce que tu as dit, Thomas.
21:16Alors, j'enchaîne sur la dernière partie,
21:20une des parties les plus importantes, et c'est de là dont on part
21:23quand on crée une Modern Data Stack, c'est la partie
21:26exposition. Donc là, on va retrouver,
21:29l'importance de cette
21:32couche-là, c'est lié à
21:35les besoins de l'entreprise. Il faut repartir des besoins de l'entreprise
21:38qui va être consommateur des sorties,
21:41de l'output de la Modern Data Stack. Ça peut être la même chose,
21:44ça peut être des analystes, des data scientists, ça peut être des métiers
21:47qui vont faire de la BI avec leurs outils, ça peut être
21:50d'autres entreprises, d'entreprises partenaires à qui on va faire du data sharing,
21:53à qui on va fournir des API pour aller fournir
21:56des données ou fournir des accès à nos services.
21:59Donc, sur la partie exposition,
22:02on va très souvent retrouver la partie
22:05BI et analysis, donc avec les parties BI classique,
22:08Power BI, Tableau, Self BI, donc c'est donner
22:11des capacités, donner des nouveaux outils qui sortent
22:14de plus en plus pour aider les métiers à faire eux-mêmes
22:17leurs analyses. Le data storytelling,
22:20donc vraiment quelque chose poussé par Toucan Toco, comment on va
22:23raconter une histoire, raconter des choses avec les données.
22:26Les complexités liées à ces domaines-là,
22:29ça va être toujours des problématiques de performance,
22:32mais aussi des dashboards,
22:35des visualisations, des analyses qui sont adaptées
22:38aux utilisateurs finaux. C'est souvent, c'est jamais
22:41la même chose qu'une analyse pour un métier, un analyste, un C-level
22:44dans une entreprise, donc bien savoir adapter son résultat final
22:47à l'utilisateur final.
22:50Et problématique aussi de droit d'accès,
22:53parce qu'un C-level n'a pas les mêmes permissions qu'un analyste,
22:56ni qu'un métier, un responsable régional n'a pas les mêmes permissions
22:59qu'un responsable départemental. Enfin, toute cette problématique
23:02de gestion des accès va se retrouver aussi
23:05beaucoup dans cette boucle-là. La partie data sharing CIA,
23:08c'est comment je vais pouvoir récupérer mes données. En plus, l'avantage
23:11d'aller KO sur lui, c'est d'avoir des données structurées et non structurées,
23:14donc du structuré pour aller par exemple faire de la data science classique,
23:17du non structuré avec des fichiers,
23:20des images, des vidéos pour aller faire
23:23de la reconnaissance d'images, pour aller pourquoi pas faire
23:26du LLM, peu importe, mais en tout cas aller
23:29vers des problématiques de data science.
23:32Là, on va retrouver des outils comme DataIQ, H2O, DataRobot
23:35ou des outils, on va dire, plus simples aussi, comme des fois Jupiter
23:38pour aller faire de la data science, MLflow pour aller
23:41déployer des modèles. Là, on n'en parle que très brièvement,
23:44mais cette partie-là est vraiment très grosse.
23:47Ensuite, c'est presque une plateforme à côté de la plateforme
23:50si on veut aller vers du MLOps, du ModelOps, donc vraiment
23:53donner à nos data scientists des vraies capacités pour aller loin
23:56sur la partie AI Machine Learning.
23:59Le reverse ETL qui est une notion
24:02qui est arrivée aussi ces dernières années,
24:05on récupère les données, on les traite, on les stocke chez nous,
24:08on en fait des analyses, mais ces données peuvent être aussi importantes
24:11de les renvoyer dans d'autres outils de l'entreprise,
24:14dans le CRM, dans la Data Platform,
24:17dans l'ERP, dans des rapports marketing,
24:20mais comment aussi on peut redonner
24:23les données de l'ICAUS,
24:26on peut les repousser vers des applications métiers
24:29pour vraiment tirer des informations
24:32et tirer des conclusions,
24:35aller encore plus loin sur l'utilisation de la donnée
24:38dans l'amélioration des processus métiers,
24:41mieux connaître ses utilisateurs, c'est très utilisé notamment
24:44en marketing pour suivre les comportements utilisateurs
24:47et pour après pousser des recommandations,
24:50ce genre de choses.
24:53Est-ce que vous avez des questions sur la partie
24:56exposition, sachant qu'il existe quasiment autant d'expositions
24:59que de cas d'usage qu'il existe en entreprise ?
25:02Oui, Philippe a une question,
25:05Thomas, quand on parle de sécurité des données,
25:08il demande s'il existe des outils permettant de détecter des corruptions
25:11de données au plus tôt sur la chaîne.
25:14Alors, qu'est-ce que tu entends par corruption ?
25:17Mauvaise qualité ou vraiment ?
25:20Qu'est-ce que tu entends par corruption ?
25:27Il y a deux niveaux.
25:34Il va y avoir une problématique
25:37sur de déjà savoir qui peut lire et écrire les données,
25:40de quel système ça vient,
25:43et ensuite on va utiliser des couches qu'on va après
25:46voir, c'est une question parfaite pour enseigner avec la data governance,
25:49sur les notions de data lineage,
25:52data quality, pour savoir si les données sont
25:55suivant certains seuils, par exemple, que j'ai définis pour savoir
25:58si elles n'ont pas dévié, si je n'ai pas
26:01des choses bêtes, parfois un string à la place d'un int,
26:04une chaîne de caractère à la place d'un nom,
26:07si je n'ai pas des valeurs aberrantes, ou alors vraiment aussi
26:10comprendre pour pouvoir remonter la chaîne, si je vois que j'ai un KPI
26:13qui est défectueux, comprendre qu'il venait de ces données-là,
26:16qui ont eu tel traitement qu'ils venaient elles-mêmes d'autres données,
26:19et ainsi de suite, remonter la chaîne jusqu'à la source pour savoir d'où vient ce potentiel
26:22problème sur mon KPI ou sur mon outil final.
26:25Du coup Thomas, Philippe, ces questions étaient
26:28sur les attaques sur les données,
26:31notamment les insertions de données pour perturber le système.
26:34Oui, ça existe beaucoup, notamment dans toute la partie
26:37IA, on va pouvoir pousser
26:40des fausses données, des données de mauvaise qualité pour essayer,
26:43comme il y a toutes les problématiques de réentraînement,
26:46de brouiller un peu le système IA
26:49et baisser ses capacités futures.
26:52Ce qu'on va pouvoir faire à ce moment-là, ça va être des contrôles,
26:55il va falloir contrôler les données d'entrée, définir des contrats
26:58d'interface sur la typologie
27:01de données, sur la structure qu'elles peuvent avoir,
27:04et ce genre de choses-là aussi.
27:07Par exemple, quand je donne un accès à ma base
27:10pour pouvoir faire de l'ingestion de données, faire des choses nominatives,
27:13savoir qui a pu écrire,
27:16qui a pu lire, on va avoir aussi des problématiques
27:19où on peut donner des gestions de droits temporaires à certains accès,
27:22à certaines bases. En fait, les problématiques
27:25de sécurité, là où elles sont compliquées, c'est qu'elles vont intervenir à chaque niveau,
27:28que ce soit sur l'ingestion, mais aussi sur le stockage,
27:31sur les transformations, si on peut avoir des problèmes à ce niveau-là.
27:34Ce sont des questions qu'il va falloir se poser et auxquelles il va falloir
27:37répondre sur chaque brique
27:40de la Modern Data Stack.
27:44J'enchaîne, on va rapidement parler
27:47de gouvernance et de sécurité.
27:50Justement, on va parler un peu de sécurité. La gouvernance, c'est quoi ?
27:53La gouvernance, ça va être
27:56des process, des rôles
27:59et des technologies adaptées pour la gestion du cycle de vie
28:02de mes données, donc savoir quelle politique,
28:05qui a le droit d'écrire où, quelles données sont présentes,
28:08à quel endroit,
28:11est-ce qu'elle est fraîche ou pas, est-ce qu'elle a été rafraîchie récemment,
28:14qui l'utilise. On a vu aussi
28:17émerger ces dernières années des rôles et même des postes comme
28:20le Data Steward, le Data Owner, qui ont pour rôle de
28:23vraiment prendre en main la donnée
28:26et s'assurer de leur bonne qualité, s'assurer de leur
28:29utilisabilité par d'autres services.
28:32Là, on va aussi avoir toutes les problématiques de sécurité
28:35d'accès aux données.
28:38Et conformité, ça va dépendre des réglementations.
28:41On a tous en tête le RGPD, mais dans
28:44les données de santé, on a le HDS. Si on va aller plus loin, on a aussi du
28:47Secnum Cloud. On va avoir différentes certifications
28:50et réglementations qui vont
28:53nécessiter de se conformer
28:56à certaines règles, certaines règles de sécurité, certaines règles
28:59de gouvernance de la donnée, c'est-à-dire, que ce soit de la technologie,
29:02des process, mais aussi de l'organisation.
29:06Au niveau gouvernance, ce qu'on va souvent retrouver,
29:09c'est la partie Data Catalog, savoir quelles données sont disponibles dans
29:12l'entreprise, qui est responsable de la donnée, qui est son
29:15Data Owner, Data Steward ou qui
29:18l'utilise, de quoi
29:21elle est composée, c'est quoi les colonnes, des informations
29:24orientées autour de l'utilisabilité de la donnée.
29:27Dans Data Catalog, on va retrouver
29:30Data Galaxy, Colibra. Et sur la partie Data Quality,
29:33là, ça sera plus essayer de comprendre si ma donnée est de qualité,
29:36si elle est utilisable, si elle respecte bien certains seuils
29:39que j'aurais définis, notamment certains seuils métiers. On ne peut pas
29:42des âges qui dépassent 120, parce qu'on sait que ce n'est
29:45pas possible. On ne veut pas certaines valeurs, on ne veut pas
29:48si une moyenne dévie trop, s'il y a un écart-type trop grand,
29:51on va pouvoir définir des valeurs et surveiller, en fait, comme aujourd'hui,
29:54on surveille les systèmes, on surveille les IA,
29:57surveiller la bonne qualité de la donnée.
30:03Donc, c'est vraiment des problématiques de maintenance continue
30:06des données. C'est souvent des étapes qui interviennent un peu plus tard
30:09dans la mise en place des cas d'usage ou vente.
30:12C'est vrai que les entreprises commencent par le reste et s'attaquent à ces problématiques
30:15de gouvernance et de sécurité ensuite, mais elles ont des grosses...
30:18Enfin, c'est quand même des gros sujets.
30:21Donc, ça peut prendre beaucoup de temps et c'est aussi beaucoup
30:24de... C'est vraiment pas
30:27que des problématiques technologiques, c'est aussi des problématiques
30:30de connaissance et d'habitude
30:33des employés de ces entreprises à utiliser
30:36ce genre d'outils et de pratiques.
30:39À côté de ça, on va aussi retrouver le data lineage qui est aussi
30:42très important pour la partie RGPD. Le data lineage, ce que vous expliquez
30:45tout à l'heure, par exemple, d'un KPI
30:48final dans un dashboard, on va pouvoir retrouver de quels
30:51datasets il vient, mais quel traitement il a subi. Peut-être il vient de deux autres
30:54datasets eux-mêmes, de trois autres sources dans deux systèmes
30:57pour essayer de comprendre d'où peut venir une potentielle
31:00faille, un potentiel problème dans les données,
31:03des données manquantes, et si on va avoir des problématiques aussi
31:06de droit à l'oubli, par exemple, en tant que capacité de remonter
31:09la chaîne pour appliquer ce droit à l'oubli
31:12à tous les niveaux.
31:17Et donc là,
31:20sujet très global, c'est ce que je disais en réponse à la question
31:23de Philippe, la gouvernance
31:26et aussi la sécurité des données.
31:29C'est quelque chose qu'on va retrouver partout.
31:32Ce qu'il est possible de faire, c'est du chiffrement des données au repos,
31:35en transit, donc on passe d'un système à l'autre. Aujourd'hui, les entreprises
31:38aussi se positionnent pour être en capacité de faire du traitement de données
31:41chiffrées, parce qu'aujourd'hui, la faille, c'est au moment
31:44où on chiffre, on traite les données, on est obligé de les déchiffrer.
31:47Les entreprises travaillent aussi sur le fait d'être en capacité de traiter
31:50des données chiffrées. Après, on va avoir des problématiques de gestion d'accès
31:53avec des politiques d'accès du droit.
31:56Par exemple, dans l'armée, ils ont une problématique qui s'appelle le droit
31:59à en connaître, c'est-à-dire qu'une personne a le droit d'accéder à une donnée
32:02sur un certain temps et pour une certaine raison.
32:05Donc, c'est des droits d'accès temporaires au niveau de, par exemple,
32:08si on imagine un tableau, ils ont le droit d'accéder qu'à certaines colonnes,
32:11qu'à certaines lignes. Donc, on peut aller très loin à ces niveaux-là.
32:14On va retrouver des notions comme la sécurité en profondeur.
32:17Par exemple, si j'ai une partie
32:20de ma stack qui est corrompue, comment je fais
32:23pour protéger les autres ? Par exemple, si j'ai une source qui a un problème,
32:26comment je fais pour que mes autres sources ne soient pas affectées
32:29par un leak de données ou d'autres choses ?
32:32Et donc là, les défis, c'est vraiment protection contre les cybermenaces
32:36et même parfois contre des actes malveillants
32:39ou même dans la sécurité, il peut y avoir des actes malveillants.
32:42C'est vraiment une attaque pour supprimer les données, mais parfois,
32:45ça peut juste être aussi se protéger contre des erreurs humaines.
32:48Une personne qui va se faire une erreur et supprimer potentiellement,
32:52si c'est mal fait, toute ou partie du Data Lake House.
32:56Donc ça, c'est pour augmenter la confiance auprès des utilisateurs
32:59et des clients et après, on peut passer certaines certifications
33:02autour de ces problématiques-là.
33:07Donc voilà, ça fait beaucoup de notions.
33:10J'en ai conscience autour de la Modern Data Stack.
33:12C'est un outil très complet, mais qui est capable de s'adapter
33:15aux problématiques de l'entreprise.
33:17C'est un outil très complet, mais qui peut être aussi très complexe.
33:21Victor, je te repasse la main.
33:23Pour l'instant, il n'y a pas de questions.
33:25J'ai une petite question pour toi quand même, Thomas.
33:27Là, on a vu qu'il y avait cinq étapes, plein d'acteurs, etc.
33:30Mais concrètement, combien de temps ça prendrait ?
33:33Si moi, j'étais une bot et je voulais en développer une,
33:38combien de temps ça me prendrait ?
33:40Ça va dépendre du nombre de cas d'usage finaux,
33:42mais ça peut prendre plusieurs mois et plusieurs ETP.
33:46Même à déployer une Modern Data Stack, c'est une chose.
33:49Après, il faut la maintenir dans le temps.
33:51Avec des technologies qui évoluent très vite,
33:53des besoins aussi qui évoluent très vite,
33:55ça peut prendre plusieurs ETP au sommet de l'entreprise.
34:02Il y a Pierre qui est en train de poser une question.
34:04On va attendre un peu qu'il la pose avant d'avancer.
34:08On parlait aussi tout à l'heure,
34:10mais j'ai une deuxième question pour toi.
34:12On faisait le distinguo entre des solutions propriétaires,
34:15des solutions open source.
34:17Qu'est-ce qui pourrait influencer mon choix ?
34:20À quel moment je peux partir sur de l'open source ?
34:23À quel moment il vaut mieux que je prévienne du prioritaire ?
34:26En fonction de quoi ?
34:28Ça dépend de quoi, en fait ?
34:31Ça va dépendre un peu de ta politique interne.
34:33L'avantage du propriétaire, en général,
34:36c'est des garanties de support.
34:40Certaines entreprises se positionnent
34:42en faisant du support à l'open source,
34:44mais l'open source, on va avoir un coût qui est moindre,
34:46par défaut, par l'open source,
34:48vu que c'est des logiciels gratuits,
34:49mais on va avoir souvent des coûts cachés,
34:51aussi bien pour l'hébergement que pour le déploiement
34:53et l'utilisabilité de ces outils.
34:55C'est vraiment une question de maturité de l'entreprise.
34:58Une entreprise qui a peu de capacités de développement,
35:00mais qui a des fonds,
35:02potentiellement peut aller plus facilement vers du propriétaire
35:05parce qu'elle va déléguer certains enjeux à l'outil,
35:10alors qu'une entreprise qui est très mature techniquement
35:13va pouvoir utiliser et même contribuer à l'open source.
35:19Il y a Pierre qui vient de poser une question hyper intéressante,
35:21qui dit si une partie de sa stack doit rester on-premise,
35:26est-ce que les solutions s'intègrent bien dans ce contexte-là ?
35:33Ça, ça va être problématique.
35:35Enfin, ça ne va pas être problématique,
35:36ça va être des enjeux intéressants plutôt.
35:39On va avoir deux choses.
35:40On va retrouver en plus ces notions d'open source versus propriétaire.
35:44Avec les années, de plus en plus de solutions propriétaires
35:46proposent principalement du SaaS et moins de déploiements on-premise.
35:50Après, avec certaines, c'est toujours possible.
35:53Donc, on va pouvoir dans ces cas-là acheter.
35:55C'est souvent avec des licences qui sont un peu différentes,
35:57pas du paiement à l'usage,
35:58mais on va pouvoir acheter la solution,
36:01la déployer chez soi pour monter sa moderne data stack on-premise.
36:05Et à partir de là,
36:06on va avoir d'autres problématiques qui peuvent arriver.
36:08Est-ce que c'est simplement du on-premise qui est connecté à Internet
36:11ou on peut aussi retrouver des data stack
36:14qui ne sont pas du tout connectés à Internet ?
36:17Donc, on va avoir tous ces problématiques
36:19de comment je vais pouvoir faire vivre et évoluer mon écosystème
36:22en étant le moins possible connecté à Internet.
36:25Donc, bien sûr, il y aura des points d'entrée et de sortie.
36:27Forcément, si on veut bien gérer les données,
36:28on va vouloir parfois se connecter.
36:30Mais sur le on-premise,
36:32c'est globalement les mêmes problématiques,
36:34mais on va être restreint au niveau du choix des outils.
36:38Et aujourd'hui, beaucoup de technologies qu'on va retrouver dans le cloud
36:42qui aussi sont arrivées avec tous ces problématiques-là
36:45sont utilisables pour sa Kubernetes ou d'autres,
36:48peuvent être déployées sur des stacks on-premise.
36:51Donc là, c'est plutôt le choix d'outils qui va être amené à évoluer
36:54parce que certains ne sont pas déployables on-premise,
36:57mais sinon les problématiques restent les mêmes.
37:00Ok, merci.
37:01Plus de maintenant.
37:04Je vais accélérer parce qu'il ne nous reste que 5 minutes.
37:07Donc, un peu pour conclure ta partie un peu technique.
37:11Du coup, c'est intéressant.
37:12On voit qu'il y a plein d'étapes et d'acteurs,
37:14mais c'est vrai qu'il y a même trop d'acteurs
37:19et ce n'est pas facile de s'y retrouver.
37:22Tous les ans, il y a de plus en plus de technologies, etc.,
37:27qui émergent et tous les 2-3 ans,
37:29il y a la nouvelle techno un peu évolutionnaire.
37:31Du coup, je comprends que pour les gens dans les entreprises,
37:34ce n'est pas facile de s'y retrouver.
37:36Et c'est là si tu passes, ça c'est d'après Thomas.
37:45Et c'est là où nous, Clérop, on va justement rentrer en jeu
37:49et on va un peu conclure là-dessus.
37:52C'est que nous, Clérop, on est là pour justement
37:54aider les entreprises à ne pas se poser ces questions-là
37:57de quelle solution est la meilleure,
38:00pour quel prix,
38:02parce que Clérop a justement productisé
38:05en une seule solution,
38:07non, on remonte.
38:08Oui, pardon, je t'en prie.
38:09Cette product Data Stack,
38:12c'est-à-dire qu'on a développé une plateforme
38:14qui va gérer l'ingestion des données,
38:17le flux de transformation,
38:18administrer le stockage
38:20et aussi la partie exposition
38:22ou valorisation des données,
38:24que ce soit en BI ou en Data Science.
38:26Et en SUS,
38:27on a développé aussi des modules diagénératifs
38:30qui permettent de mieux
38:34interférer en langage naturel
38:37avec vos données de cette manière Data Stack.
38:40Et le tout est dans un code de confiance
38:43pour vous garantir les plus hauts standards
38:45de sécurité des données.
38:47Et nous, avant qu'on passe,
38:49et justement qu'on profite des 3-4 dernières minutes
38:52qui nous restent pour se focaliser sur la question,
38:54nous, ce qu'on vous propose à l'issue de ce séminaire,
38:57c'est que vous nous contactiez
38:59et qu'on vous aide à faire votre diagnostic Data Stack
39:02et voir comment on pourrait vous accompagner
39:05sur vos problèmes d'enjeu
39:07et vos problématiques Data.
39:09Et je rebondis,
39:10parce que du coup, il y a Philippe
39:11qui a une question pour toi, Thomas.
39:14Oui.
39:15La question, c'est en choisissant
39:17une ou plusieurs solutions propries aux open source,
39:19le choix peut devenir critique
39:21et notamment sur le domaine de sa plateforme.
39:23Peut-on se prémunir des vies ou morts
39:25des solutions outils, vis-à-vis des normes ?
39:28Non, je n'ai pas de réponse.
39:30Je n'ai pas l'impression qu'aujourd'hui qu'il y en ait.
39:32Certaines entreprises, du coup,
39:33préfèrent aller vers des entreprises très matures
39:36ou vers de l'open source qui est très, très utilisé,
39:38notamment par exemple Airflow
39:40où on va avoir des...
39:41C'est pour ça que certaines entreprises
39:42vont vers encore ces technologies
39:44comme notamment Airflow,
39:45Airflow qui sont un peu anciennes,
39:46qui ne couvrent pas forcément tout,
39:47mais qui ont une très forte communauté
39:49et donc qui ont peu de risques d'aller vers la mort.
39:53Après, quand on voit l'évolution des technologies
39:55et par exemple,
39:56comment les solutions à double sont montées
39:58dans les années 2010
39:59et sont aujourd'hui redescendues assez vite
40:02pour passer justement à la moderne data stack,
40:07j'ai l'impression qu'on est à l'abri de rien à ce niveau-là.
40:11C'est très compliqué comme choix à faire
40:14et il faut voir en fonction de la maturité du marché
40:17et des solutions.
40:22C'est l'avantage aussi de l'open source d'un côté
40:24et d'éviter d'aller chez un...
40:27C'est l'avantage de l'open source,
40:29c'est qu'on peut le garder pour chez soi,
40:30mais après, si on est tout seul
40:31et qu'il y a de la technologie,
40:32ça devient vite inutilisable.
40:39Philippe, je te remercie pour ta réponse, Tom.
40:42Merci.
40:43Et on a encore deux minutes
40:45avant de clôturer le webinaire
40:47si quelqu'un a une dernière question.
40:58Ça arrive, Thomas.
41:00C'est pas encore fini.
41:06Oui, on va pouvoir partager la présentation.
41:09On verra après.
41:10Je pense qu'avec l'Ice Storm,
41:11tu vas recevoir un mail de rappel.
41:15On verra comment mettre la présentation.
41:20Et à Stéphane, Thomas qui demande
41:22quel est le choix final proposé par Clearop ?
41:25C'est-à-dire en termes de technologie ou...
41:31En termes de techno, oui.
41:32Oui, en termes de techno,
41:33nous, on est partis principalement...
41:35Nous, en voulant producter
41:36la moderne data stack,
41:38on s'est principalement partis
41:40avec des technologies open source
41:42en essayant justement
41:44d'être dans le bon niveau
41:48entre des technos modernes
41:50mais aussi des technos utilisées.
41:52Donc, par exemple,
41:53pour la partie de l'iCaos,
41:54on va se retrouver avec du MinIO,
41:57qui est un stockage de type S3
41:59sur lequel on va pouvoir faire de l'iCaos
42:01tout en utilisant un stockage né en IceBear
42:04pour avoir des bonnes performances de stockage.
42:07Et en plus de ça,
42:08ils nous font un catalogue.
42:09Donc, on va essayer
42:10d'allier toujours le meilleur techno
42:12en termes d'open source.
42:13Et après,
42:14on a aussi des partenariats
42:15avec d'autres entreprises,
42:16notamment Toucan Toco,
42:17que vous pouvez retrouver
42:18en marque blanche dans la plateforme.
42:20Mais c'est une vraie question, en fait, Stéphane,
42:22c'est une vraie question
42:23à temps plein de se poser la question
42:25de quelle technologie
42:26on veut inclure dans Clearop.
42:27On en a déjà ajouté et retiré certaines
42:31en changeant de...
42:33au vu des changements
42:34de paradigmes du marché.
42:36Et après, c'est un peu notre rôle
42:37à notre capacité
42:38de pouvoir faire évoluer
42:39les technologies à l'intérieur de Clearop
42:41sans que ça ait d'impact
42:43sur le produit final,
42:44sur les utilisateurs finaux.
42:46Le moins possible, en fait.
42:48Je ne sais pas si ça répond bien
42:49à ta question, Stéphane.
42:57On pourrait faire une liste,
42:58par exemple,
42:59pour retrouver du Apache Park
43:01avec une autre technologie
43:02qui s'appelle Lighter
43:03parce que l'Apache Park
43:04a des très bonnes performances
43:05sur des gros volumes.
43:06Mais justement,
43:07on a des temps de latence très faibles
43:10et aussi des performances
43:11sur des plus petits volumes.
43:14On pourra répondre
43:15à toutes ces questions.
43:17Stéphane, d'ailleurs,
43:18on a plein d'autres questions pour toi.
43:19Donc, à la rigueur,
43:21ce serait peut-être intéressant
43:22que vous échangez tous les deux
43:24tous en coups
43:25à la suite de ces webinaires.
43:28Et du coup, Pierre,
43:29il y a une autre question.
43:30S'il utilise Clearop,
43:32plus besoin d'avoir
43:33les compétences techniques
43:34liées aux différents outils ?
43:36Effectivement, c'est ça aussi
43:37la promesse de Clearop,
43:38c'est que vous avez un outil
43:39tout en main
43:40avec un parcours unifié.
43:41Et donc, les data scientists
43:43peuvent se concentrer
43:46sur le développement des modèles,
43:47les data engineers
43:48sur l'ingestion
43:49et le traitement des données.
43:50Ça, c'est des choses
43:51qu'on n'a pas encore automatisées.
43:53On met vraiment à disposition
43:55tous les outils
43:57pour répondre à ces problématiques.
43:59Donc, plus besoin d'avoir
44:00les compétences techniques
44:01liées aux différents outils,
44:04plus rien.
44:12Je pense que c'était
44:13la dernière question.
44:14Il est 12h16.
44:19Si vous avez d'autres questions,
44:20n'hésitez pas.
44:21C'est vrai qu'on aurait pu mettre
44:22nos adresses mail
44:23ou nos contacts
44:24dans la présentation,
44:25mais n'hésitez pas
44:26à nous les poser
44:27en off et après.
44:29Merci beaucoup,
44:31déjà à Thomas
44:32d'avoir présenté tout ça.
44:35Moi, j'ai trouvé ça très clair.
44:37J'espère que les gens aussi.
44:39Et merci à vous aussi
44:41d'avoir assisté
44:42à ce webinaire
44:44et d'avoir animé
44:45et d'avoir posé
44:46un peu des questions
44:48pour rendre ça un peu plus dynamique.
44:50C'était sympa.
44:52Merci à tous.
44:53Merci beaucoup.

Recommandée