présentation faite dans la bibliothèque de Bénin Excellence le 05/01/2020. thème abordé : la définition de la Data science, du machine learning et de la valeur ajoutée du data scientist
2. Sommaire
Mon Parcours Prêts bancaires Data science Machine Learning
Valeur ajoutée du
Data scientist
Développement de
modèle
Points à retenir Incitation à l’action A vos agendas!
3. Brian
° Je suis statisticien spécialisé
en risques financiers
° Je développe des modèles de
machine learning pour des
institutions financières
° J’élabore des
recommendations sur des
modèles déjà développés
Enseignement
secondaire
• Bac C au collège catholique Notre Dame
de Lourdes
• Bourse scolaire de la Fondation Vallet
Enseignement
supérieur
• Classes préparatoires en Mathématiques,
Physique
• ENSAE: école d’ingénieurs spécialisée en
statistiques, économie, programmation
• Université Paris VII: ingénierie financière,
diffusion probabiliste
• Institut des Actuaires
Monparcours
5. Prêts bancaires
Les prêts sont caractérisés par un
montant financé, une maturité, un
échéancier de remboursement
La banque est ici l’intermédiaire entre
les emprunteurs et les prêteurs
Quels sont les emprunteurs risqués?
Quelles variables il faut contrôler chez
l’emprunteur avant de lui prêter?
Quelles sont les catégories de
prêts/d’emprunteurs/de prêteurs?
6. Data Science
La data science est la science de traitement
des données pour en retirer une
information, une structure ou un plan
d’action
Il existe deux types de données: soit elles sont
structurelles soit elles sont non-structurelles
L’objectif est d’extraire les relations entre les
différentes variables (cf. prêts bancaires)
Quelle sont les compétences/connaissances
nécessaires ?
7. Les composantes
de la Data Science
Programmation –
gestion de base de
données
Statistique -
Mathématiques
Machine Learning Connaissance du
domaine
Communication –
data visualisation
8. L'apprentissage automatique (Machine Learning)
estunedisciplinedelaDataSciencequipermet
aux systèmes conçus pour réaliser une tâche,
d'apprendreetdes'améliorerautomatiquement
à partir de l'expérience sans être explicitement
programmés
Machine Learning
Apprentissage
Supervisé
Régression
Classification
Apprentissage
Non-Supervisé
Clustering
Réduction de
dimension
Apprentissage
renforcé
9. La valeur ajoutée du data scientist
° Analyse descriptive
• Quel est l’état des lieux actuels?
• Le statisticien apporte une compréhension quantitative de la base de données avec des techniques simples (moyenne,
quantile, distribution empirique)
° Automatisation des reporting
• Comment réduire les erreurs dans les rapports reproductibles?
° Analyse predictive
• Quel sera la situation dans un horizon de temps donnés?
° Analyse prescriptive
• Quel est le meilleur plan d’action à mener?
10. Processus de
développement de modèle
Collecte des
données
Calibration du
modèle (ou des
modèles)
EvaluationInterprétation
Déploiement
1. Collecte des données:
• Identification des sources
• Collecte des variables d’intérêt en cohérence avec la problématique
• Exploration et nettoyage de la base
2. Calibration du modèle (ou des modèles)
• Construction de la base d’apprentissage
• Création de nouvelles variables
• Sélection des variables
• Calcul des paramètres
• Sélection du modèle
• Définition des indicateurs de performance
3. Evaluation
• Construction de la base de test
• Estimation de l’erreur de généralisation
4. Interprétation
• Compréhension du modèle et des interactions des variables
5. Déploiement
• Pour une nouvelle observation, quelle est la prédiction du modèle?
• Création d’outils pour permettre utilisation du modèle
• Monitoring des performances du modèles en continu
11. Points à retenir
UN:
Garbage in, Garbage out
DEUX:
La maîtrise d’un langage de
programmation est
primordiale
TROIS:
il faut maîtriser les
hypothèses sous-jacentes
des modèles
QUATRE:
Contrôler le sur-
apprentissage
CINQ:
Garder un œil sur
l’interprétation du modèle
et la cohérence avec le
domaine d’activité