O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !

706 visualizações

Publicada em

Présentation du talk de Frederic Petit.

Mettre en place un Datalab, c'est simple, il suffit d'installer un cluster Hadoop ! Et bien non : 3 mois après le lancement de projet, toujours pas d'Hadoop mais des data-scientists heureux et productifs !
La recette d'un bon datalab : étudier les données, assurer leur qualité et qualifier des use cases métier précis.

Publicada em: Tecnologia
  • Seja o primeiro a comentar

La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !

  1. 1. @Madgicweb #LaDuckConf Initier un Datalab : rien à voir avec ce que j’imaginais ! La Duck Conf – 29/01 #LaDuckConf
  2. 2. @Madgicweb #LaDuckConf 2 Frédéric @Madgicweb Responsable du département ARCHITECTURE & DONNEES @mutuelleMNT @Groupe_VYV D’ENTREPRISED’ENTREPRISE
  3. 3. @Madgicweb #LaDuckConf 3 Intelligence artificielle BIG DATA DataLake
  4. 4. @Madgicweb #LaDuckConf 4 Des indicateurs « Rétroviseur » au « prédictif » Ordonnancé (Mensuel / Hebdomadaire) Extract-Transform-Load Intelligence Biologique Temps réel (Indicateur / Calcul) Extract-Load-Transform Intelligence Artificielle
  5. 5. @Madgicweb #LaDuckConf #OnPremise Réponses à l’Appel d’offre
  6. 6. @Madgicweb #LaDuckConf 6 Sponsoring #DataLake #Ingestion #Cluster #IA #DataViz #API #Streaming ??? MOI SPONSOR
  7. 7. @Madgicweb #LaDuckConf 7 Le maillon faible Pourquoi ? Quoi ? Quel but ? Avec qui ? Quelles données ? Quelle valeur ? En phase avec la stratégie ? Le ROI ? … Comment ?
  8. 8. @Madgicweb #LaDuckConf 8 Back to basic Des bases à maitriser ! MACHINE LEARNING (Apprentissage) DATA GOUVERNANCE Data Mining (Corrélation) Data Analysis (Analyse) Data Analyitics (Collecte) BIG DATA (Passage à l’échelle) DATA SCIENCE
  9. 9. @Madgicweb #LaDuckConf 9 C’est parti !!! Ihssane RSA Anne-Marie Décisionnel Wiame Data Scientiste Brieuc Data Scientist Patrice Décisionnel Philippe RDE DATALAB …
  10. 10. @Madgicweb #LaDuckConf 10 Définir les fondamentaux du Datalab Former : Se familiariser avec les outils de « Data Science » proposés par la communauté Opensource. Explorer les algorithmes. Coder. Expérimenter : Collecter, analyser et estimer l’effort de traitement des données de l’entreprise (Accès, qualité, utilité…). Evaluer leurs potentiels. Valoriser : Communiquer régulièrement sur la valeur apportée par nos travaux et nos initiatives. Développer : Fonder une communauté pluridisciplinaire autour de cas concrets estampillés « Data Driven ». 1 Quel but ? Quoi ? Avec qui ? Quelle valeur ?
  11. 11. @Madgicweb #LaDuckConf 11 Identifier des cas d’usage stratégiques Offres MNT Recommandation Attrition Fraude 2
  12. 12. @Madgicweb #LaDuckConf 12 Obtenir l’outillage minimum nécessaire 256 GO RAM 1 To Disque 32 vCPU R Studio Jupyter Spark CSV Connecteur BDD 3
  13. 13. @Madgicweb #LaDuckConf 13 Le grand principe GO Sources Big Matrice Algorithme Machine learning Matrice de normalité et détection d’atypisme Local Outlier Factor (Unspervised / Dimensionality Reduction) Variationnal Auto-Encoder (Supervised / Regression) Isolation Forest (Supervised /Classification) Spectral Ranking Anomaly (Unsupervised / Clusturing)
  14. 14. @Madgicweb #LaDuckConf 14 Premières difficultés • Accessibilité des données (BASES PROGICIEL, DÉMATÉRIALISATION, RÉGLEMENTATION, …) • Qualité des données (GARDAGE IN – GARBAGE OUT) • Véracité de la donnée (NON MISE À JOUR, SYSTÈME AUTORITAIRE) • Historiser les changements des modèles de donnée (SAVOIR FAIRE UN LIEN D’UNE DONNÉE SUR PLUSIEURS ANNÉES D’HISTORIQUE) • Disponibilité des intervenants (LE DATALAB N’EST PAS UN PROJET MAIS UNE EXPÉRIMENTATION) • Consommer des « Data Set » de plus en plus volumineux (NOTRE SIMPLE SERVEUR N’EST PAS PÉRENNE)
  15. 15. @Madgicweb #LaDuckConf 15 Premiers échecs enseignements Recommandation Attrition Fraude Choix des algorithmes Qualité de la donnée L’intelligence artificielle ne fait pas tout
  16. 16. @Madgicweb #LaDuckConf 16 • Identifier les données de chaque système applicatif. • Corréler une même donnée présente dans plusieurs systèmes applicatifs. • Analyser les traitements intra-système applicatif afin d'estimer la fraîcheur de la donnée et l’autorité du système applicatif sur cette donnée. Lier les données brutes aux informations générées. • Estampiller les données (métadonnées) afin de cadrer leurs utilisations (Ex : RGPD). • Déterminer les règles d’accès suivant l’appelant et le traitement. S’appuyer sur la gouvernance de donnée Initiative 1
  17. 17. @Madgicweb #LaDuckConf 17 Se focaliser sur un seul sujet : LA FRAUDE S’appuyer sur les règles de gestion existantes Augmenter les performances à l’aide d’intelligence Artificielle Interpréter les résultats, adapter les processus d’investigation et améliorer le dispositif global 1 2 3 > > > Initiative 2
  18. 18. @Madgicweb #LaDuckConf 18 Bilan Former : Lancement de la Datalab Academy et formation des équipes aux fondamentaux de la « Data Science ». Expérimenter : Identification des sources utiles, application d’une gouvernance de la donnée. Création d’algorithmes d’extraction, de raffinage et de traitement de la donnée. Valoriser : L’outil facilite l’identification d’atypisme part la cellule de fraude. Le taux de détection, de comportements abusifs avérés, augmente. Développer : Collaboration forte avec les métiers. (Itératif) Sensibilisation au travers de présentations. Quel but ? Quoi ? Avec qui ? Quelle valeur ?
  19. 19. @Madgicweb #LaDuckConf 19 Timeline Juin Juillet Août Septembre Octobre Novembre Décembre Janvier < Sensibilisation au BigData Equipe Décisionnel motivée COMEX Approche #DALAKE (Data-Platform) Appel d’offre BigData Projet de gouvernance de donnée débuté COMEX Approche #DATALAB Lancement du DATALAB Identification des besoins métiers Livraison du serveur Extraction et raffinage des données identifiées pour les cas d’usage POC Churn V2 Etude d’algorithme de Data-Science & Datalab Academy Focaliser sur la Fraude Premier succès. Présentation COMEXArrêts Lancement de la Data-Platform DIVE Gouvernance de donnée Session spécifique
  20. 20. @Madgicweb #LaDuckConf 20 Création de la Data Platform Restitution DataMart Services Processing Jobs Datalake Services Extraction Sources Gouvernance DataLab HDFS DIVE* * Données et indicateurs de la vie de l’entreprise Dictionnaire des données ?
  21. 21. @Madgicweb #LaDuckConf 21 Une approche Data-Centric malgré nous Data is the center of the universe; applications are ephemeral. Réétudier la conception : • Formaliser la structure d’un objet métier (création d’un modèle unique partagé VERSUS un modèle spécifique à chaque système applicatif). • Identifier chaque fonctionnalité et le système applicatif en charge du traitement de cette règle métier. Assurer l’intégrité : • Gouverner des sources de données faisant autorités sur l’information afin d’établir une source unique de vérité. Augmenter sa part de responsabilité : • Sécuriser l’accès à la donnée. • Être en capacité de se justifier. Adapter ses interfaces de restitution : • Donner l'accès à la donnée sous plusieurs formats et méthodes (Pull, Push, Evènementiel, Extraction par fichier) http://datacentricmanifesto.org/
  22. 22. @Madgicweb #LaDuckConf 22 Take Away Si je pouvais conseiller le Frédéric que j’étais ! • La plateforme n’est pas la priorité (Mais sans, ça va être compliqué) • Fait le avec le métier • Identifie rapidement la matière première dont tu disposes et sa complexité de raffinage en t’appuyant sur la gouvernance de la donnée • Focalise-toi sur un seul sujet afin d’éviter de transformer tes « data-set » en « data-swamp » • Ne t’attends pas à un miracle, la data-science c’est pas magique • Utilise des méthodes pragmatique car par définition le « Datalab » expérimente et se trompe@Madgicweb

×