top of page

Want to generate your own video summary in seconds?

Explorer l'intelligence des données : Perspectives du webinaire Databricks

Découvrez les points clés du webinaire Databricks sur l'intelligence des données, avec des informations sur la plateforme Databricks, la gouvernance des données et la modélisation prédictive.

Video Summary

Lors d'un récent webinaire, Tangi et Ali de Comit Technologie et Databricks ont pris la parole pour présenter le concept innovant d'Intelligence des Données aux côtés de la plateforme Databricks. Alim Dumer, co-fondateur de Comit Technologie, a souligné l'engagement de l'entreprise envers les services de données, mettant en avant leur partenariat avec Databricks qui s'est épanoui depuis la création de l'entreprise. Fondée par trois partenaires, Comit Technologie s'est développée pour compter plus de 30 employés et sert actuellement environ 40 clients actifs, principalement dans des secteurs tels que l'énergie, la finance et la fabrication. Leurs collaborations s'étendent à de grands fournisseurs de cloud, notamment AWS, Azure et GCP, et ils utilisent une variété d'outils de données tels que Talend, Snowflake et Power BI.

Databricks, fondée en 2013, a pour objectif de démocratiser l'accès aux données pour les entreprises, avec une base de clients de plus de 10 000. L'entreprise a été reconnue comme un leader dans l'industrie des données par des entreprises prestigieuses telles que Gartner et Forrester. Avec un accent sur des projets open-source tels que Delta Lake et MLflow, Databricks a été pionnière du concept de Lakehouse, qui intègre de manière transparente les entrepôts de données et les lacs de données en une plateforme cohérente.

La discussion a abordé les défis auxquels les organisations sont confrontées pour atteindre la démocratisation des données, en particulier les incohérences dans la manière dont différentes entreprises exploitent les données. Alors que des géants de la technologie comme Apple et Google excellent dans l'utilisation des données pour la modélisation prédictive et la prise de décision éclairée, de nombreuses organisations rencontrent des difficultés en raison de leur dépendance à des systèmes disparates pour gérer les données structurées et non structurées. Cela entraîne souvent une duplication des données et une gouvernance fragmentée, ce qui peut considérablement entraver la productivité et compromettre la sécurité.

Pour relever ces défis, Databricks plaide en faveur d'une plateforme unifiée qui permet la gestion des données structurées et non structurées sous un seul modèle de gouvernance. L'architecture Lakehouse combine les avantages des entrepôts de données et des lacs de données, facilitant le traitement et la gouvernance efficaces des données grâce à des outils tels que Unity Catalog. La session s'est conclue par une démonstration de la plateforme d'Intelligence des Données, mettant en avant ses capacités à améliorer l'utilisation des données à travers diverses fonctions commerciales.

La transcription a mis en avant la plateforme d'Intelligence des Données de Databricks, qui intègre plusieurs outils pour l'entreposage de données, l'ingénierie des données et l'apprentissage automatique. Les composants clés incluent Delta Lake, une couche de stockage de données unifiée qui renforce la fiabilité des données et la gestion des transactions, et Unity Catalog, qui supervise les métadonnées et la gouvernance des données. La plateforme utilise l'IA pour optimiser le stockage des données, automatiser le catalogage des données et améliorer les performances des requêtes grâce à dbSQL, un service d'analyse SQL évolutif. De plus, elle dispose de capacités d'orchestration pour automatiser les pipelines de données et détecter les anomalies. Le cadre Mosaïque AI soutient le développement et le déploiement de modèles d'apprentissage automatique, améliorant leur précision et leur efficacité. Conçue pour démocratiser l'accès aux données, la plateforme vise à améliorer la productivité tout en garantissant la sécurité des données.

Un cas d'utilisation convaincant a été présenté, axé sur l'identification des clients à risque de désabonnement. Cela a impliqué divers rôles, y compris des ingénieurs de données, des responsables de données, des scientifiques des données et des analystes de données. La discussion a souligné la capacité de la plateforme à réduire les coûts et à accélérer le développement de projets tout en maintenant l'intégrité et la sécurité des données. Au cours de la session, un utilisateur a exprimé des préoccupations concernant les limitations des Tables Delta Lake (DLT) en ce qui concerne l'historique des données et les capacités de modification. La conversation a clarifié que, bien que DLT gère la qualité des données et le point de contrôle, les utilisateurs peuvent toujours accéder aux données historiques via Unity Catalog ou Hive Metastore.

La plateforme dispose d'un espace de travail équipé de notebooks, d'éditeurs SQL et de flux de travail d'orchestration, classés pour l'analyse des données, l'ingénierie et l'apprentissage automatique. John, un ingénieur de données, a partagé des informations sur son rôle dans l'intégration des données provenant de diverses sources et a démontré comment créer un pipeline de données en utilisant SQL. Il a souligné l'importance des vues matérialisées et de la capacité à interroger les données efficacement. La discussion a ensuite évolué vers l'analyse des données, où un analyste de données a récupéré des données clients pour identifier les tendances en matière d'annulations de clients. Notamment, 12 000 clients en France et en Espagne avaient annulé par rapport à 18 000 aux États-Unis. Des visualisations ont été créées pour représenter ces données, qui ont ensuite été ajoutées à un tableau de bord pour les parties prenantes. L'analyste a souligné la facilité d'utilisation de l'éditeur SQL pour agréger les données et créer des visualisations qui informent les décisions commerciales.

Le rôle d'un scientifique des données a également été mentionné, axé sur la modélisation pour identifier les clients à risque pour des stratégies de rétention. La session a mis en avant la nature collaborative des rôles liés aux données et l'importance de l'accès aux données pour une prise de décision éclairée. Dans cette présentation, un utilisateur a expliqué comment utiliser la fonctionnalité AutoML de Databricks pour développer des modèles prédictifs. L'objectif était de classer les clients susceptibles de mettre fin à leurs services. L'utilisateur a sélectionné un cluster, défini le problème comme une classification et choisi les données disponibles dans le catalogue. Les résultats des expériences précédentes étaient accessibles via le module d'expérimentation, qui permettait de visualiser les opérations effectuées par AutoML, décrit comme une 'boîte de verre' pour sa transparence. Les utilisateurs pouvaient modifier le code pour répondre à leurs besoins spécifiques. Une fois le modèle développé et enregistré, il pouvait être déployé pour identifier les clients à risque de désabonnement.

La démonstration a mis en avant l'intégration des données provenant de diverses sources (CRM, ERP, applications) par un ingénieur de données, permettant à un analyste de données et à un scientifique des données de mener leurs analyses et modélisations sur une seule plateforme. Des questions ont été posées à la fin, y compris des demandes d'informations sur l'intégration des visualisations dans Power BI, la fonctionnalité de l'IA dans SQL et la possibilité de déployer des applications. La démonstration est déjà disponible sur le site Web de Databricks, ainsi que des informations sur les unités de calcul (DBU). Le webinaire a couvert plusieurs fonctionnalités de Databricks, y compris le système de facturation basé sur les DBU, qui varie en fonction des produits utilisés. Une nouvelle fonctionnalité, nommée 'Génie', a été introduite, permettant aux utilisateurs de poser des questions en langage naturel sur leurs données. Actuellement en 'aperçu privé', elle sera bientôt accessible aux clients d'Abrix. Les participants ont également posé des questions sur l'automatisation des notifications par e-mail et l'intégration avec des outils comme Teams et Slack. En ce qui concerne AutoML, il a été expliqué que les utilisateurs doivent fournir les caractéristiques nécessaires pour la modélisation, tandis qu'AutoML gère le processus de modélisation lui-même. Des cas d'utilisation tels que la classification, le clustering et la prévision ont été mentionnés. Les participants ont cherché des éclaircissements sur les définitions de cluster par défaut pour les notebooks et la mise en œuvre des pipelines CI/CD. Il a été noté que, bien que Databricks ne soit pas un outil CI/CD à proprement parler, il est possible d'utiliser des outils comme Databricks Asset Bundles pour le déploiement de code. Enfin, une fonctionnalité en développement pour le partage de tableaux de bord avec des utilisateurs non-Databricks a été discutée, et les participants ont été encouragés à poser d'autres questions ou à demander des informations par e-mail. Le webinaire s'est conclu par des remerciements et une invitation à explorer les fonctionnalités de Databricks.

Click on any timestamp in the keypoints section to jump directly to that moment in the video. Enhance your viewing experience with seamless navigation. Enjoy!

Keypoints

00:00:02

Introduction au webinaire

Le webinaire est présenté par Tangi et Ali de Comit Technologie et Databricks, respectivement. Alim Dumer, co-fondateur de Comit Technologie, accueille les participants et donne un bref aperçu de l'entreprise, en soulignant sa spécialisation dans les services de données et son partenariat avec Databricks.

Keypoint ads

00:00:56

Aperçu de la Technologie Comit

Comit Technologie, fondée par trois partenaires, emploie actuellement plus de 30 personnes et sert environ 40 clients actifs. L'entreprise détient environ 40 certifications et opère sur l'ensemble de la chaîne de valeur des données, y compris la stratégie, la gouvernance, la gestion des données et l'agilité des projets. Ils se concentrent sur la construction de plateformes de données pour les clients, principalement de grandes entreprises, des entreprises de taille intermédiaire et des PME notables dans des secteurs tels que l'industrie, l'énergie et la finance. Comit est indépendant et collabore avec de grands fournisseurs de cloud tels qu'AWS, Azure et GCP, en utilisant des outils comme Talend, Databricks, Snowflake, DBT, Starburst, Tableau, Power BI et Looker.

Keypoint ads

00:02:39

Introduction à Databricks

Databricks, fondée en 2013, vise à démocratiser les données au sein des entreprises, comptant plus de 10 000 clients. L'entreprise a été reconnue comme un leader en analyse de données par Gartner et Forrester. Databricks est fortement impliquée dans des projets open-source, y compris Delta Lake pour le stockage, MLflow pour la gestion des modèles d'apprentissage automatique, Apache Spark pour le traitement des données, et plus récemment, DBR et Unity Catalog pour la gouvernance des données. Ces initiatives ont contribué au développement du concept de Lakehouse et de la plateforme d'intelligence des données.

Keypoint ads

00:04:02

Agenda du webinaire

Les présentateurs exposent l'ordre du jour du webinaire, qui comprend la discussion des défis de la démocratisation des données dans les entreprises, la présentation de la plateforme d'intelligence des données, et se termine par une démonstration de cas d'utilisation axée sur la conservation et la démocratisation des données.

Keypoint ads

00:04:30

Défis de l'explosion des données

Les présentateurs soulignent l'augmentation significative de la création de données et de l'explosion au cours de la dernière décennie au sein des entreprises. Cependant, ils notent que toutes les entreprises ne sont pas également équipées pour gérer cette montée en charge de données, indiquant une disparité dans les capacités de gestion des données entre les différentes organisations.

Keypoint ads

00:04:47

Utilisation des données

Des entreprises comme Apple, Google et Amazon ont réussi à tirer parti des données non seulement pour analyser les performances passées, mais aussi pour anticiper les tendances commerciales futures. Cette approche est encapsulée dans le concept de la courbe de maturité, qui reflète la capacité d'une organisation à utiliser les données de manière efficace. À mesure que les entreprises progressent le long de cette courbe, elles passent d'une utilisation des données simplement comme source d'information à leur emploi pour la modélisation prédictive et la prise de décision automatisée.

Keypoint ads

00:06:10

Défis dans la gestion des données

De nombreuses organisations ont du mal à naviguer sur la courbe de maturité en raison de l'utilisation traditionnelle de deux systèmes distincts : un entrepôt de données pour l'intelligence d'affaires (BI) et un lac de données pour la modélisation prédictive et l'intelligence artificielle (IA). L'entrepôt de données gère généralement des données structurées dans un environnement plus fermé, tandis que le lac de données accueille à la fois des données structurées et non structurées, ce qui entraîne des défis en matière de duplication des données et de gouvernance.

Keypoint ads

00:08:20

Problèmes de gouvernance et de collaboration

Le modèle de gouvernance fragmenté résultant de la gestion à la fois d'un entrepôt de données et d'un lac de données complique la supervision des données. La gouvernance de l'entrepôt de données se concentre sur les tables, tandis que la gouvernance du lac de données est basée sur des fichiers. Cette division entrave la collaboration entre les équipes travaillant sur différents systèmes, limitant finalement la productivité. Les entreprises ont reconnu que le maintien de ces deux systèmes est complexe, coûteux et pose des risques de sécurité en raison d'un manque de visibilité complète sur l'utilisation des données.

Keypoint ads

00:08:52

Plateforme Unifiée

Databricks a développé un concept de plateforme unifiée pour relever les défis de la gestion des données structurées et non structurées. Cette plateforme vise à éliminer le besoin de systèmes séparés en fournissant un modèle de gouvernance unique pour tous les types de données, permettant divers usages des données tels que l'entreposage de données, l'ingénierie des données et l'apprentissage automatique sur la même plateforme.

Keypoint ads

00:09:38

Concept de Lakehouse

Le concept de Lakehouse de Databricks intègre un format de stockage unifié appelé Delta Lake, qui prend en charge à la fois les données structurées et non structurées. Cette plateforme est conçue pour être efficace et performante, facilitant diverses opérations de données grâce à des composants tels que Unity Catalog pour la gouvernance des données, et des outils spécifiques pour différents flux de travail, y compris DB SQL pour l'entreposage de données et les flux de travail d'orchestration.

Keypoint ads

00:10:51

Intégration de l'apprentissage automatique

Databricks intègre Mosaïque AI pour la gestion des modèles d'apprentissage automatique, en utilisant MLflow pour le déploiement des modèles. Cette intégration souligne la capacité de la plateforme à unifier les pipelines de streaming et de traitement par lots, améliorant le développement des pipelines de données et soutenant diverses tâches liées aux données.

Keypoint ads

00:11:45

Solutions Open Source

Le Lakehouse de Databricks est construit sur des technologies open-source telles que Delta Lake et Unity Catalog, ce qui le rend accessible sur les principales plateformes cloud, y compris AWS, Azure et GCP. Cette ouverture favorise la collaboration et l'innovation au sein de la communauté des données.

Keypoint ads

00:12:03

Plateforme d'intelligence des données

La plateforme d'intelligence des données de Databricks est conçue pour améliorer la compréhension des données et optimiser l'utilisation des ressources. Elle vise à démocratiser l'accès aux données, à améliorer la productivité et à garantir la qualité et la sécurité des données, tout en réduisant les coûts. Cette plateforme s'appuie sur une couche de stockage unifiée fondamentale, Delta Lake, qui améliore la fiabilité des données et la gestion des transactions.

Keypoint ads

00:12:56

Fonctionnalités de Delta Lake

Delta Lake, une couche de stockage open-source, améliore les lacs de données en fournissant des capacités de transactions ACID et en optimisant le stockage des données. Il utilise des algorithmes d'apprentissage automatique pour organiser dynamiquement les données en clusters en fonction des modèles d'utilisation, réduisant ainsi considérablement les temps de requête et améliorant les performances d'analyse.

Keypoint ads

00:13:38

Gestion des données de commerce électronique

L'application de commerce électronique adapte ses modèles d'accès aux données en fonction des changements saisonniers, ajustant automatiquement la structure de stockage pour garantir des performances optimales. Cela est complété par le Unity Catalog, un service de gestion des métadonnées et de gouvernance des données dans Databricks, qui centralise et sécurise les données, facilitant la conformité réglementaire et l'audit. L'intégration de l'IA améliore cette gouvernance en automatisant le catalogage, la classification et la traçabilité des données grâce au traitement du langage naturel et aux algorithmes d'apprentissage automatique. Par exemple, dans une entreprise financière, le Unity Catalog peut détecter et classer automatiquement des informations sensibles telles que les numéros de carte de crédit, garantissant une traçabilité complète de l'accès aux données.

Keypoint ads

00:15:00

Services d'entrepôt de données

Databricks SQL (dbsql) est introduit comme un service d'entrepôt de données qui permet des analyses SQL rapides et évolutives sur des ensembles de données massifs. Il améliore l'optimisation des requêtes et la prévision des ressources en utilisant des modèles d'apprentissage automatique pour analyser les modèles de requêtes passées, réduisant ainsi les temps de réponse. Les fonctionnalités sont conçues pour simplifier l'exploitation des données pour les utilisateurs sans expertise SQL, tels que les analystes marketing cherchant des informations sur le comportement des clients. dbsql utilise l'IA pour ajuster automatiquement les ressources informatiques, accélérant ainsi les analyses complexes.

Keypoint ads

00:16:06

Orchestration des données

L'orchestration des flux de travail dans Databricks automatise les pipelines de données de la collecte à la transformation et à l'analyse. L'IA améliore l'orchestration en anticipant les pannes potentielles et en suggérant des ajustements proactifs. Les modèles d'apprentissage automatique peuvent détecter des anomalies dans les flux de données et recommander des modifications pour prévenir les interruptions, garantissant ainsi le bon fonctionnement des opérations de données.

Keypoint ads

00:16:39

Tables de flux Delta

Delta Live Tables (DLT) est un service géré pour créer des pipelines de données unifiés pour le traitement en continu et par lots. L'IA facilite les processus ETL en automatisant la transformation des données et en optimisant les flux de travail. Elle peut détecter des modèles de données en temps réel et ajuster les transformations pour maintenir l'intégrité et la qualité des données. Par exemple, lors de l'intégration de nouvelles sources de données, DLT peut automatiquement mapper les champs et appliquer les transformations nécessaires sans intervention humaine, réduisant ainsi considérablement le temps de mise en production.

Keypoint ads

00:17:38

Outils d'IA Mosaic

Mosaic AI comprend une suite d'outils et de cadres intégrés pour le développement, l'entraînement et le déploiement de modèles d'apprentissage automatique sur la plateforme Databricks. L'IA contribue à automatiser et à optimiser toutes les étapes du cycle de vie du modèle, de l'expérimentation au déploiement, en utilisant MLflow pour la gestion des modèles. Par exemple, un data scientist travaillant sur la prévision de la demande peut recevoir des recommandations pour des architectures de modèles optimisées et des ajustements de paramètres afin d'améliorer la précision des prévisions.

Keypoint ads

00:18:29

Plateforme d'intelligence des données

La plateforme d'intelligence des données se caractérise par la démocratisation de l'accès aux données, le rendant simple et accessible à tous. Son intégration du traitement du langage naturel permet aux utilisateurs d'interagir avec les données de manière intuitive. La plateforme est décrite comme intelligente en raison de son intégration omniprésente de l'IA, qui accélère et optimise les processus de données à travers diverses applications.

Keypoint ads

00:18:48

Sécurité des données

La discussion souligne la nécessité d'utiliser la plateforme pour la sécurité des données, en mettant en avant que des modèles peuvent être construits sur des données propriétaires sans avoir besoin d'exfiltration de données. Cela garantit que la construction de modèles ne présente pas de risques pour la sécurité, rendant le processus simple 'prêt à l'emploi'.

Keypoint ads

00:19:20

Présentation du cas d'utilisation

Le webinaire présente un cas d'utilisation intéressant visant à identifier les clients à risque de désabonnement. L'objectif est de proposer des actions de fidélisation, telles que des offres promotionnelles, pour prévenir le départ des clients. La discussion souligne l'importance de réduire les coûts et d'accélérer le développement des projets grâce à l'utilisation de la plateforme.

Keypoint ads

00:20:20

Rôles de données

La présentation décrit diverses personas impliquées dans le processus de données. John, l'ingénieur des données, est responsable de la collecte et du nettoyage des données. Émilie, l'agent des données, gère la gouvernance des données et l'accès à la sécurité. Marc, le scientifique des données, modélise pour identifier les clients à risque, tandis qu'Alice, l'analyste de données, analyse les données pour calculer des indicateurs clés.

Keypoint ads

00:22:03

Préoccupations concernant la qualité des données

Une question se pose concernant les limitations de la Transformation des Données (TD) en relation avec les données historiques, l'audit et la qualité des données. L'enquête reflète une préoccupation des nouveaux utilisateurs au sujet de la gouvernance des données, en particulier concernant l'incapacité à modifier certaines étapes de données et le manque d'accès aux données historiques.

Keypoint ads

00:23:52

Défis de la gouvernance des données

La discussion révèle les défis auxquels sont confrontés les utilisateurs en matière de gouvernance des données, en particulier avec l'utilisation du suivi de l'origine des données (DLT). Les utilisateurs expriment le souhait d'avoir des descriptions plus claires des étapes des données et la possibilité d'accéder à des données historiques, qu'ils estiment limitées avec l'utilisation actuelle des vues matérialisées.

Keypoint ads

00:24:02

Stockage de données

La discussion commence par l'explication du stockage des données dans les tables de streaming. Il est noté que lors de l'utilisation de Unity Catalog, les tables y sont stockées, tandis que si l'on utilise H Metastore, elles sont stockées dans le H Metastore. Quel que soit le méthode, l'accès aux données et aux données historiques est maintenu. Les tables Delta Lake gèrent le point de contrôle et le suivi de la qualité des données au sein du pipeline, garantissant un accès continu aux données.

Keypoint ads

00:24:48

Aperçu de la plateforme

Un aperçu bref de la plateforme est fourni, mettant en avant l'espace de travail, qui est organisé en carnets et en répertoires. Le conférencier s'excuse pour la version française de l'espace de travail. La plateforme permet l'accès aux données via Unity Catalog et inclut des flux de travail pour l'orchestration. Trois catégories de fonctionnalités sont mentionnées : Analyse de données avec éditeur SQL et tableaux de bord, Ingénierie des données avec des tables de données, et Apprentissage automatique pour les praticiens avec des expériences et des modèles.

Keypoint ads

00:26:07

Rôle d'ingénierie des données

Le conférencier, John, s'identifie comme un ingénieur des données qui passe beaucoup de temps à coder manuellement. Il souligne l'importance d'intégrer des données provenant de plusieurs sources et de les rendre disponibles. Il prévoit d'explorer le catalogue et d'accéder aux répertoires contenant des fichiers CSV déposés par des sources fiables, indiquant une approche systématique de la gestion des données.

Keypoint ads

00:27:00

Interrogation SQL

John démontre son intention d'interroger des données en utilisant SQL dans un carnet. Il copie le chemin d'accès à partir du catalogue et se prépare à exécuter une requête SQL. Il exprime le souhait d'interagir avec l'assistant en anglais pour éviter d'éventuels problèmes pendant la démonstration, indiquant une approche réfléchie de l'utilisation des fonctionnalités de la plateforme.

Keypoint ads

00:29:06

Exécution de la requête

Alors que John tente d'exécuter la requête SQL, il note que les réponses de l'assistant peuvent être stochastiques, ce qui signifie qu'elles ne donnent pas toujours les mêmes résultats. Il réfléchit à la performance de l'assistant, indiquant qu'il fournit parfois une complexité inattendue lorsque la simplicité est souhaitée. Malgré les défis, il réussit à lister le contenu de ses fichiers en utilisant une requête SQL, démontrant ainsi les capacités de la plateforme.

Keypoint ads

00:30:10

Construction de pipeline

Le conférencier discute de la construction d'un pipeline de données utilisant Python et SQL pour DLT (Technologie de Data Lake). Il décrit le processus de création d'un pipeline qui comprend une couche bronze pour l'ingestion de données provenant de diverses sources, qui est ensuite nettoyée et transformée en vues matérialisées. Cette approche structurée permet une gestion et un accès efficaces aux données.

Keypoint ads

00:32:00

Analyse des données clients

En tant qu'analyste de données, le conférencier récupère des données pour analyser le taux de désabonnement des clients en exécutant une requête SQL qui regroupe les clients par pays. Ils identifient qu'environ 12 000 clients en France et en Espagne ont désabonné, contre 18 000 aux États-Unis. Cette analyse vise à visualiser la répartition des clients qui ont annulé leurs abonnements, soulignant que 43 % des clients désabonnés proviennent des États-Unis et 52 % d'Europe.

Keypoint ads

00:34:00

Intégration du tableau de bord

Le conférencier souligne l'importance de consolider les informations dans un tableau de bord unique. Ils ajoutent les visualisations créées à partir de l'analyse du départ des clients à un tableau de bord nommé 'départ des clients'. Ce tableau de bord inclut également des KPI précédemment calculés, tels que le total de 45 000 clients qui ont quitté, dont 67 % sont des hommes. L'intégration de ces visualisations permet aux parties prenantes d'accéder à des informations complètes sur les données.

Keypoint ads

00:36:00

Rôle en science des données

En transition vers le rôle de data scientist, le conférencier prévoit d'utiliser les données analysées pour développer un modèle visant à identifier les clients à risque de désabonnement. Cette initiative s'inscrit dans une stratégie plus large visant à partager des informations avec les équipes commerciales, leur permettant de prendre des mesures ciblées pour fidéliser les clients. Le conférencier souligne la nature collaborative de l'analyse de données et de la modélisation pour relever les défis commerciaux.

Keypoint ads

00:36:14

Récupération des données client

La discussion commence par la capacité d'identifier et de récupérer les informations des clients, en se concentrant particulièrement sur les clients qui pourraient annuler leurs services. L'intervenant mentionne la mise en œuvre d'actions de fidélisation, en soulignant l'urgence en raison du temps limité disponible pour la démonstration.

Keypoint ads

00:36:28

Utilisation d'AutoML

Le conférencier présente l'utilisation de la fonctionnalité AutoML de Databricks pour développer automatiquement un modèle de classification des clients en fonction de leur probabilité d'annulation. Il explique le processus de sélection du cluster approprié et de spécification du problème de classification, en soulignant l'objectif d'identifier les clients susceptibles d'annuler par rapport à ceux qui resteront.

Keypoint ads

00:37:22

Résultats de l'expérimentation

Le conférencier note que le processus AutoML prend beaucoup de temps, mais qu'il a préalablement exécuté des expériences et est prêt à partager les résultats. Il navigue vers le module d'expérimentation pour examiner les résultats de diverses expériences AutoML, en soulignant la transparence du processus AutoML en tant que 'boîte de verre' par rapport aux systèmes traditionnels de 'boîte noire'.

Keypoint ads

00:38:28

Modification et déploiement du modèle

Le conférencier souligne la capacité d'accéder et de modifier les carnets de modélisation générés par AutoML, permettant une personnalisation basée sur des connaissances commerciales spécifiques. Une fois le modèle développé et enregistré, il peut être déployé sur Databricks pour la prédiction d'annulation des clients, s'intégrant parfaitement dans les flux de travail existants.

Keypoint ads

00:39:45

Intégration des données et insights

La discussion se déplace vers les efforts collaboratifs de John, l'ingénieur des données, et de l'analyste de données, qui ont réussi à récupérer et à nettoyer des données provenant de diverses sources, y compris des systèmes CRM et ERP. L'analyste de données a utilisé ces données pour réaliser des analyses et en tirer des insights, améliorant ainsi leur compréhension du contexte commercial.

Keypoint ads

00:40:17

Conclusion et préparation aux questions-réponses

À la fin de la démonstration, le conférencier résume les réalisations collaboratives de l'ingénieur des données, de l'analyste des données et du scientifique des données sur une plateforme unifiée. Ils se préparent à d'éventuelles questions, indiquant un passage vers l'engagement du public dans une session de questions-réponses.

Keypoint ads

00:40:53

Modélisation des données

John a fourni des données sur une plateforme qui a permis la création d'un modèle pour identifier les clients à risque pour des actions de fidélisation. Cette démonstration a utilisé des tables Delta, AutoML et DBSQL pour traiter efficacement le cas d'utilisation.

Keypoint ads

00:41:24

Séance de questions-réponses

Lors de la séance de questions-réponses, trois questions ont été posées. La première question portait sur l'ajout de vues aux tableaux de bord Power BI. Il a été précisé qu'actuellement, les visualisations dans Databricks sont limitées aux tableaux de bord, et il n'est pas possible d'envoyer des visualisations à Databricks depuis Power BI, bien que des résultats similaires puissent être obtenus via des tables Golden.

Keypoint ads

00:42:36

Fonctions d'IA

La deuxième question portait sur la fonctionnalité des fonctions d'IA dans DBSQL. Il a été expliqué que ces fonctions permettent aux analystes de données d'utiliser des modèles d'apprentissage automatique directement dans SQL, y compris des modèles linguistiques et des fonctions de classification, rendant l'analyse avancée accessible.

Keypoint ads

00:43:35

Déploiement d'application

La troisième question portait sur la disponibilité des applications Streamlit. Il a été noté que les applications Lakehouse sont actuellement en aperçu privé, ce qui permettra bientôt le développement et le déploiement d'applications directement sur Databricks.

Keypoint ads

00:44:11

Disponibilité de la démo

En réponse à une question sur la disponibilité de la démo sur YouTube, il a été confirmé que la démo utilisée est déjà accessible. La démo peut être trouvée sur Databricks.com dans le Centre de démo, présentant divers cas d'utilisation et des démos spécifiques axées sur le produit qui sont faciles à configurer avec juste une ligne de code.

Keypoint ads

00:45:12

Installation de paquet

Le webinaire aborde l'installation du package Tptimo, qui peut être réalisée avec une seule ligne de code. La démonstration utilisée pendant la session est disponible sur une page web spécifique qui répertorie diverses démonstrations, y compris celles axées sur le marketing, la finance et la fabrication.

Keypoint ads

00:45:50

Tarification DBU

Un participant nommé Mich se renseigne sur le calcul des unités Databricks (DBUs) et leur tarification. Les DBUs sont définies comme une unité de calcul utilisée dans Databricks, et les utilisateurs sont facturés en fonction des DBUs consommées lors de leurs tâches de calcul. Pour des informations tarifaires détaillées, les participants sont dirigés vers la page de tarification de Databricks.

Keypoint ads

00:47:20

Fonctionnalité Genie

La discussion se déplace vers la fonctionnalité Genie, qui permet aux utilisateurs d'interagir avec leurs données en utilisant des requêtes en langage naturel. Actuellement en aperçu privé, Genie sera bientôt disponible pour les clients Databricks intéressés. Cette fonctionnalité est décrite comme un modèle de langage qui facilite l'analyse des données à travers les requêtes des utilisateurs.

Keypoint ads

00:48:30

Notifications par e-mail

Mariam soulève une question sur l'envoi automatique des résultats de requêtes Databricks vers Outlook sans authentification répétée. La réponse indique que, bien que cela dépende du type d'information, les workflows Databricks peuvent notifier les utilisateurs par email ou via des plateformes comme Teams et Slack lorsque des tâches sont lancées ou échouent, ou lorsque certains seuils sont atteints dans les tableaux.

Keypoint ads

00:49:36

Demande AutoML

La session se termine par une question d'un participant concernant l'AutoML, indiquant un intérêt continu à explorer les capacités d'apprentissage automatique automatisé au sein de la plateforme Databricks.

Keypoint ads

00:49:49

Fonctionnalités AutoML

La discussion commence par un accent sur l'importance de comprendre la structure des tables de données pour des prédictions efficaces. Il est précisé qu'AutoML ne s'occupe pas de l'ingénierie des caractéristiques ; les utilisateurs doivent fournir les caractéristiques nécessaires pour le modélisation. Le rôle d'AutoML est de créer un modèle sur la base des caractéristiques fournies, tout en gérant des tâches de traitement des données telles que la gestion des données déséquilibrées et des valeurs manquantes. L'intervenant note qu'AutoML est principalement utilisé pour des tâches de classification, de segmentation, de regroupement et de prévision, et qu'il peut également effectuer un ajustement fin pour des cas d'utilisation spécifiques.

Keypoint ads

00:51:46

Configuration de cluster

Une question se pose concernant la définition d'un cluster par défaut pour les nouveaux notebooks. L'intervenant explique qu'il est possible de définir des politiques pour les clusters par défaut, généralement en assignant un cluster par défaut personnel à chaque utilisateur. Si un cluster est défini au niveau de l'espace de travail, il sera le par défaut pour tous les notebooks. Une fois qu'un cluster est attaché à un notebook, il restera le par défaut pour les sessions futures, sauf s'il est modifié.

Keypoint ads

00:52:47

CI/CD sur Databricks

La conversation se déplace vers le sujet de CI/CD sur Databricks. Il est précisé que Databricks lui-même n'est pas un outil CI/CD mais une plateforme de données. Cependant, les utilisateurs peuvent mettre en œuvre des pipelines CI/CD en utilisant des outils qui s'intègrent à Databricks pour déployer du code dans différents environnements, tels que la mise en scène. L'intervenant recommande d'utiliser les Databricks Asset Bundles pour empaqueter les projets et les déployer efficacement, ce qui permet également d'exécuter des tests unitaires et d'intégration. Cette approche est comparée à un wrapper Terraform, simplifiant la gestion de l'infrastructure sans avoir besoin d'écrire manuellement du code Terraform.

Keypoint ads

00:54:44

Partage de tableau de bord

Cédric Axel s'est renseigné sur la possibilité de partager un tableau de bord créé sur Databricks avec des utilisateurs qui n'utilisent pas Databricks, comme des clients. La réponse a indiqué qu'une fonctionnalité de partage de tableaux de bord avec des utilisateurs non-Databricks est actuellement en aperçu privé et en cours de développement. Les parties intéressées ont été encouragées à se manifester pour obtenir plus d'informations et des opportunités de test, la fonctionnalité devant être disponible bientôt.

Keypoint ads

00:55:34

Conclusion du webinaire

L'hôte a exprimé sa gratitude pour la participation au webinaire aux côtés de son partenaire privilégié, Databricks. Il a invité les participants à le contacter directement pour toute question ou projet en cours nécessitant une expertise liée à Databricks ou à des partenaires Databricks qualifiés. L'hôte a souligné sa volonté d'aider et a encouragé les participants à tester Databricks s'ils n'étaient pas familiers avec.

Keypoint ads

00:56:37

Prochaines étapes

L'hôte a annoncé que les participants recevraient un lien YouTube vers la présentation pour référence future, garantissant que le contenu reste accessible. Ils ont également mentionné la disponibilité des diapositives PowerPoint et ont encouragé les participants à les contacter pour des demandes spécifiques, promettant de répondre aux questions au cas par cas. La session s'est terminée par des vœux de passer un agréable week-end.

Keypoint ads

Did you like this Youtube video summary? 🚀

Try it for FREE!

bottom of page