SlideShare uma empresa Scribd logo
1 de 34
Baixar para ler offline
Forêts (uniformément) aléatoires et
détection des irrégularités aux
Institut des actuaires. 04/2014.
détection des irrégularités aux
cotisations sociales
Saïp CISS
Modal’X. Université Paris Ouest Nanterre.
saip.ciss@wanadoo.fr
Apprentissage statistique
(Statistical learning)
• Plusieurs types : supervisé, non supervisé, par
renforcement, …
• Paradigme du cas supervisé : apprendre à
généraliser à partir d’exemples du phénomènegénéraliser à partir d’exemples du phénomène
observé
• Fondements : théorie de Vapnik-Chervonenkis
• Application : machine learning (apprentissage
automatique par des algorithmes) pour la
classification, la régression, le « ranking », …
Apprentissage statistique
• Domaines d’application : moteurs de recherche,
diagnostic médical, génétique, systèmes de
recommandation, reconnaissance de formes, analyse
financière, détection d’anomalies, d’irrégularités, …
• Principaux algorithmes en deux vagues :• Principaux algorithmes en deux vagues :
Avant 1995 : régressions linéaire, logistique, arbres
de décision, k plus proches voisins, réseaux de
neurones, …
Depuis 1995 : SVM, (gradient) Boosting, Bagging,
forêts aléatoires, …
Apprentissage statistique
Les exemples du phénomène observé sont
représentés par un échantillon d’apprentissage :
est à valeurs continues (régression) ou àest à valeurs continues (régression) ou à
valeurs catégorielles (classification)
On suppose qu’il existe une relation entre et
On souhaite faire « apprendre » à l’algorithme cette
relation, puis la généraliser (prédiction de ) à des
occurrences inconnues (du modèle) de
Apprentissage automatique
(machine learning)
Apprentissage : l’échantillon d’apprentissage est divisé en
deux sous-échantillons (entraînement et validation)
• L’algorithme « apprend » sur le sous-échantillon
d’entraînement
Généralisation : l’algorithme est testé (et recalibré) sur leGénéralisation : l’algorithme est testé (et recalibré) sur le
sous-échantillon de validation
Automatisation : prédictions sur de nouvelles données,
actualisation du modèle, …
Capacité de généralisation : erreurs de prédiction,
bornes de risque, …
Algorithmes d’apprentissage
automatique
Avantages : bonnes performances, peu ou pas
d’hypothèses sur le phénomène observé, tirent
profit de l’augmentation du volume des données, …
Inconvénients : interprétation des variables,
modèles plus complexes, risque de sur-
apprentissage, temps de calcul, apprentissage
difficile sur les très grands volumes de données
Big data et apprentissage automatique
• Big data (définition sommaire) : données qui ne
peuvent pas être traitées en une passe et dans un
temps raisonnable sur une station de travail
Deux époques : avant 2005, ordinateurs 32-bit.Deux époques : avant 2005, ordinateurs 32-bit.
Données avec n > 107 , p > 100 = 8 Go = Big data
Après 2005, ordinateurs 64-bit : beaucoup plus de
mémoire physique, mais unités de calcul limitées
Deux tendances : descriptive et prédictive
Deux aspects : spatial (volume) et temporel (flux)
Big data et apprentissage automatique
Paradigme : big data = ensemble de « small » data
Stratégie : diviser les données en K paquets,
appliquer le modèle sur chaque paquet, combiner les
K modèlesK modèles
• Plus complexe dans le cas prédictif : données non
nécessairement identiquement distribuées,
inférence des paramètres et réassemblage des
modèles, perte de précision, temps de calcul, …
Big data et apprentissage automatique
Stratégie alternative : apprentissage incrémental
• apprentissage sur le paquet 1, prédiction sur le
paquet 2, apprendre les exemples mal prédits du
paquet 2paquet 2
• Actualiser le modèle et recommencer la prédiction et
l’apprentissage sur les paquets suivants
Objectif : « apprendre » et « mémoriser »
Bien adapté aux modèles ensemblistes non
paramétriques
Modèles ensemblistes
• Ensemble de modèles (« classifieurs ») de base qui
combinent leurs prédictions (vote majoritaire,
moyenne, …) pour prendre une décision
• Deux algorithmes majeurs : Boosting (Freund et
Schapire, 1997), Bagging (Breiman, 1996)Schapire, 1997), Bagging (Breiman, 1996)
Une variante avancée du Bagging : les forêts
aléatoires (Breiman, 2001)
Une variante des forêts aléatoires : les forêts
uniformément aléatoires (2013)
Classifieur de base : un arbre de décision
Arbre de décision
Structure algorithmique: partition de l’espace des
données en 2 régions. « Récursion » jusqu’à l’atteinte
d’une ou plusieurs conditions d’arrêt. Décision.
Plusieurs types: CART, ID3, C4.5, …Plusieurs types: CART, ID3, C4.5, …
Problématiques: définition d’une région, conditions
d’arrêt, règle de décision
Avantages : non linéaire, peu ou pas de biais, non
paramétrique (peu de réglages)
Inconvénients : instabilité
Arbre de décision uniformément
aléatoire
un vecteur d’observations
est une région de la partition couranteest une région de la partition courante
si
A chaque étape du partitionnement, tirer, avec
remise, variables, > 0, et construire autant de
régions :
avec
Arbre de décision uniformément
aléatoire
La région qui maximise un certain critère est
retenue :
• Soit
etet
Région aléatoire optimale :
Règle de décision (vote majoritaire) :
Forêt uniformément aléatoire
• Algorithme : construire B arbres de décision
uniformément aléatoires en tirant, avec remise,
n exemples de (pour chaque arbre).
Règle de décision de la forêt (pour la classification) :Règle de décision de la forêt (pour la classification) :
Même principe que les forêts aléatoires de Breiman :
arbres peu corrélés de biais minimal
La forêt ne change pas le biais et réduit la variance
Forêt uniformément aléatoire
incrémentale
Apprendre au fur et à mesure que les données
arrivent.
Règle de décision :
• Constitution d’une mémoire, temps de calcul
constants, un sous-ensemble du modèle peut aussi
prendre une décision, …
• Mais « pre-processing » important des données
Applications : classification sur des
données synthétiques
Applications : classification sur des
données synthétiques
• Plateforme logicielle : R (www.r-project.org)
Libre et gratuit, 64-bit, nombreux packages (>
5000), calcul vectoriel et parallèle, langage de5000), calcul vectoriel et parallèle, langage de
programmation, prototypage rapide, …
Package R : randomUniformForest (04/2014)
Applications : classification sur des
données synthétiques
• n = 1000; p = 10. Echantillon d’entraînement 50%
Sortie standard :
Out-of-bag (OOB) evaluation
OOB estimate of error rate: 8.4%
OOB confusion matrix:
Reference
Prediction 0 1 class.errorPrediction 0 1 class.error
0 188 14 0.0693
1 28 270 0.0940
Theorical (Breiman) bounds
Prediction error (expected to be lower than): 8.41%
Upper bound of prediction error: 20.61%
Average correlation between trees: 0.0626
Strength (margin): 0.6532
Standard deviation of strength: 0.2966
Applications : classification sur des
données synthétiques
Test set
Error rate: 7%
Confusion matrix:
Reference
Prediction 0 1 class.error
0 211 17 0.07460 211 17 0.0746
1 18 254 0.0662
Area Under ROC Curve: 0.9293
F1 score: 0.9355
Geometric mean: 0.9293
visualisation : importance des variables,
interactions, dépendance partielle, …
Applications : classification sur des
données synthétiques
12.5
Partial dependence over predictor
V4
V3
V2
V1
Variable importance based on information gain
5.0
7.5
10.0
Class 0 Class 1
V2
Class
Class 0
Class 1
V8
V6
V9
V5
V7
V10
V4
Relative influence (%)
0 5 10 15
Applications : classification sur des
données synthétiques
Variable importance over labels
Class 0 Class 1
V2
Variables interactions over observations
Mostimportantvariablesat2ndorder
V2 V1 V3 V4 V5 Other features
V1
V2
V3
V1
V3
V4
V5
Most important variables at 1rst order
Mostimportantvariablesat2ndorder
V4
V7
Other features
Détection des irrégularités aux
cotisations sociales
• URSSAF d’Île-de-France
Recouvrement des cotisations sociales (versées par
les salariés et employeurs) d’Île-de-France
« Régime Général » (principal régime de cotisations)« Régime Général » (principal régime de cotisations)
IdF: > 80 Mds d’€ annuels
Recouvrement sur une base déclarative
Législation complexe : { > 900 catégories
déclaratives} x {assiette, taux, effectif, conditions}
Contrôle des cotisations (2011) :
30 000 entreprises (1 entreprise sur 13).
14 Mds € contrôlés. 170 millions d’€ redressés.
Détection des irrégularités aux
cotisations sociales
• Problématiques :
Taux de détection des irrégularités : < 55%
Rendement : 40% des redressements rapportent
moins de 1 000 €/redressementmoins de 1 000 €/redressement
Asymétrie : 250 contrôles = 100 millions d’€
redressés
Contrôle exhaustif impossible : coût prohibitif
Ensemble des irrégularités non estimable :
consensus (sur la fraude) > 8-10 Mds/an.
Détection des irrégularités aux
cotisations sociales
Objectif : pour un même nombre de contrôles, réduire le
nombre de faux-positifs et augmenter les montants
redressés. On ne s’intéresse qu’aux irrégularités, pas à la
fraude volontaire.
• Données : 400 000 entreprises, > 1000 variables.
Beaucoup de zéros (> 89%)
• Données non big data mais même problématique
temporelle: flux annuels, changements de législation,
nouvelles variables, …
Détection des irrégularités aux
cotisations sociales
Dans la pratique
« Pre-processing » important : invariance d’échelle,
pas de données nominatives, transformation et
création de variables, filtrage, …création de variables, filtrage, …
On privilégie la « précision » (ressources pour le
contrôle limitées)
Echantillon d’apprentissage : contrôles des années
précédentes
Bases de données Matrice Modèle Décision
Détection des irrégularités aux
cotisations sociales
Algorithme : forêts uniformément aléatoires
(incrémentales), paramètres par défaut
Apprentissage et validation :
4069 contrôles de l’année 2011 (après filtrage)
1065 variables
1698 irrégularités (cas positifs)
tirage aléatoire : 10% entraînement, 90% validation
(conformité à la réalité opérationnelle) répété
plusieurs fois
Détection des irrégularités aux
cotisations sociales
• Résultats en laboratoire (paramètres par défaut):
Erreur de test Précision (écart-type) AUC
randomForest 0.2729 72.55% (0.0374) 0.7319
Sto.GradientBoosting 0.2473 70.08% (0.0191) 0.7467
randomUniformForest 0.2419 70.44% (0.0235) 0.7534randomUniformForest 0.2419 70.44% (0.0235) 0.7534
randomUniformForest (incr) 0.2324 79.03% (-) 0.7737
La version incrémentale utilise un historique de données sur 5
années
Optimisation des paramètres pour le Boosting
Détection des irrégularités aux
cotisations sociales
• Expérimentation réelle (2012, URSSAF d’IdF) :
167 contrôles (entreprises de moins de 150 salariés)
réalisés sur la base des recommandations du modèle
(non incrémental)(non incrémental)
Pas de biais de sélection (pre-processing)
Taux de détection des irrégularités (précision) : 69%
rendement moyen : 5 300€/contrôle
Montant total net redressé : 885 000 €.
Détection des irrégularités aux
cotisations sociales
• Phase industrielle : En 2013, en Île-de-France…
Évaluation OOB :
Out-of-bag (OOB) evaluationOut-of-bag (OOB) evaluation
OOB estimate of error rate: 20.79%
OOB estimate of AUC: 0.7917
OOB confusion matrix:
Reference
Prediction 0 1 class.error
0 1883 358 0.1598
1 488 1340 0.2670
Détection des irrégularités aux
cotisations sociales
• Phase industrielle : En 2013, en Île-de-France…
Détection des irrégularités aux
cotisations sociales
• Phase industrielle : En 2013, en Île-de-France…
Détection des irrégularités aux
cotisations sociales
• Phase industrielle : En 2013, en Île-de-France…
> 50 000 irrégularités estimées.
25 000 recommandations de contrôle fournies
Faux positifs estimés : < 30%Faux positifs estimés : < 30%
Rendement moyen estimé : > 5 000 €/contrôle
Montant total net estimé des redressements:
> 250 millions €, < 1 500 millions €.
Phase industrielle abandonnée par l’URSSAF
après le départ de l’ex équipe dirigeante.
Merci.
Sources et références
• URSSAF d’île-de-France. Service statistique.
• Biau, Devroye, Lugosi, 2008. « Consistency of Random Forests and Others
Averaging Classifiers »
• Breiman, Friedman, Olshen, Stone, 1984. « Classification And Regression
Trees » (CART)
• Breiman, 1996. « Bagging Predictors »
• Breiman, 2001. « Random Forests »• Breiman, 2001. « Random Forests »
• Breiman web site :
http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
• Devroye, Györfi, Lugosi, 1996. « A Probabilistic Theory of Pattern
Recognition »
• Friedman, 1999. « Stochastic Gradient Boosting »
• Friedman, 2001. « Greedy function approximation : A gradient boosting
machine »
• Vapnik, 1995. « The nature of statistical learning theory ».

Mais conteúdo relacionado

Destaque

Placa base. última práctica
Placa base. última prácticaPlaca base. última práctica
Placa base. última prácticasusatecn
 
Rundschau_Afgh_final
Rundschau_Afgh_finalRundschau_Afgh_final
Rundschau_Afgh_finalWilhelm Kruse
 
Sommerkurse für kinder
Sommerkurse für kinderSommerkurse für kinder
Sommerkurse für kinderBright-School
 
Tout ce quil voudra 1 pdf telecharger
Tout ce quil voudra 1 pdf telechargerTout ce quil voudra 1 pdf telecharger
Tout ce quil voudra 1 pdf telechargerbhupendrasukriti9980
 
La Galerie Daniel Besseiche présente Patrick Chelli Portraits Cachés - Expo...
La Galerie Daniel Besseiche présente Patrick Chelli   Portraits Cachés - Expo...La Galerie Daniel Besseiche présente Patrick Chelli   Portraits Cachés - Expo...
La Galerie Daniel Besseiche présente Patrick Chelli Portraits Cachés - Expo...Solène Richard
 
La fiscalité vue par philippe labro
La fiscalité vue par philippe labroLa fiscalité vue par philippe labro
La fiscalité vue par philippe labroDenis Papy
 
LA MODE HIPPIE (1968)
LA MODE HIPPIE (1968)LA MODE HIPPIE (1968)
LA MODE HIPPIE (1968)AsiaYoon
 
Live-Podcasting: Zwischen Podcast und Webradio
Live-Podcasting: Zwischen Podcast und WebradioLive-Podcasting: Zwischen Podcast und Webradio
Live-Podcasting: Zwischen Podcast und Webradioltsavar
 
Barnehageassistent
BarnehageassistentBarnehageassistent
BarnehageassistentIselinHLH
 
Chucks opening shots final
Chucks opening shots finalChucks opening shots final
Chucks opening shots finaltcf40
 
Présentation Partenaires Conf'SharePoint
Présentation Partenaires Conf'SharePointPrésentation Partenaires Conf'SharePoint
Présentation Partenaires Conf'SharePointConf'SharePoint 2013
 
Azure SQL Database, approche et retours d'expérience
Azure SQL Database, approche et retours d'expérienceAzure SQL Database, approche et retours d'expérience
Azure SQL Database, approche et retours d'expérienceMicrosoft Décideurs IT
 

Destaque (18)

Community managers
Community managersCommunity managers
Community managers
 
Placa base. última práctica
Placa base. última prácticaPlaca base. última práctica
Placa base. última práctica
 
SMG
SMGSMG
SMG
 
Rundschau_Afgh_final
Rundschau_Afgh_finalRundschau_Afgh_final
Rundschau_Afgh_final
 
Sommerkurse für kinder
Sommerkurse für kinderSommerkurse für kinder
Sommerkurse für kinder
 
Tout ce quil voudra 1 pdf telecharger
Tout ce quil voudra 1 pdf telechargerTout ce quil voudra 1 pdf telecharger
Tout ce quil voudra 1 pdf telecharger
 
La Galerie Daniel Besseiche présente Patrick Chelli Portraits Cachés - Expo...
La Galerie Daniel Besseiche présente Patrick Chelli   Portraits Cachés - Expo...La Galerie Daniel Besseiche présente Patrick Chelli   Portraits Cachés - Expo...
La Galerie Daniel Besseiche présente Patrick Chelli Portraits Cachés - Expo...
 
Dystopie
DystopieDystopie
Dystopie
 
La fiscalité vue par philippe labro
La fiscalité vue par philippe labroLa fiscalité vue par philippe labro
La fiscalité vue par philippe labro
 
Lec5
Lec5Lec5
Lec5
 
LA MODE HIPPIE (1968)
LA MODE HIPPIE (1968)LA MODE HIPPIE (1968)
LA MODE HIPPIE (1968)
 
Live-Podcasting: Zwischen Podcast und Webradio
Live-Podcasting: Zwischen Podcast und WebradioLive-Podcasting: Zwischen Podcast und Webradio
Live-Podcasting: Zwischen Podcast und Webradio
 
Barnehageassistent
BarnehageassistentBarnehageassistent
Barnehageassistent
 
Chucks opening shots final
Chucks opening shots finalChucks opening shots final
Chucks opening shots final
 
Essai fab
Essai fabEssai fab
Essai fab
 
Présentation Partenaires Conf'SharePoint
Présentation Partenaires Conf'SharePointPrésentation Partenaires Conf'SharePoint
Présentation Partenaires Conf'SharePoint
 
Coutume
CoutumeCoutume
Coutume
 
Azure SQL Database, approche et retours d'expérience
Azure SQL Database, approche et retours d'expérienceAzure SQL Database, approche et retours d'expérience
Azure SQL Database, approche et retours d'expérience
 

Semelhante a Forêts uniformément aléatoires - Saïp CISS

Marketing et Big Data
Marketing et Big DataMarketing et Big Data
Marketing et Big DataJeremy Greze
 
Comment définir et optimiser ses hypothèses en utilisant le machine learning
Comment définir et optimiser ses hypothèses en utilisant le machine learningComment définir et optimiser ses hypothèses en utilisant le machine learning
Comment définir et optimiser ses hypothèses en utilisant le machine learningPredicSis
 
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelSéminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelMahdi Zarg Ayouna
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdfOuailChoukhairi
 
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...ENSET, Université Hassan II Casablanca
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataData2B
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfnesrinetaamallah
 
Présentation Françoise Soulié Fogelman
Présentation Françoise Soulié FogelmanPrésentation Françoise Soulié Fogelman
Présentation Françoise Soulié FogelmanKezhan SHI
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 
Bigdata, small decision and smart organisation
Bigdata, small decision and smart organisationBigdata, small decision and smart organisation
Bigdata, small decision and smart organisationChristophe Benavent
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfNajlaAllouche
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Ch8 - maîtrise statistique des procédés (MSP)
Ch8 - maîtrise statistique des procédés (MSP)Ch8 - maîtrise statistique des procédés (MSP)
Ch8 - maîtrise statistique des procédés (MSP)TesoroHon
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueDidier Girard
 
PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?Marc Bojoly
 

Semelhante a Forêts uniformément aléatoires - Saïp CISS (20)

Marketing et Big Data
Marketing et Big DataMarketing et Big Data
Marketing et Big Data
 
Comment définir et optimiser ses hypothèses en utilisant le machine learning
Comment définir et optimiser ses hypothèses en utilisant le machine learningComment définir et optimiser ses hypothèses en utilisant le machine learning
Comment définir et optimiser ses hypothèses en utilisant le machine learning
 
test
testtest
test
 
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelSéminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
 
Data Mining
Data MiningData Mining
Data Mining
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
Présentation Françoise Soulié Fogelman
Présentation Françoise Soulié FogelmanPrésentation Françoise Soulié Fogelman
Présentation Françoise Soulié Fogelman
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Bigdata, small decision and smart organisation
Bigdata, small decision and smart organisationBigdata, small decision and smart organisation
Bigdata, small decision and smart organisation
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Ch8 - maîtrise statistique des procédés (MSP)
Ch8 - maîtrise statistique des procédés (MSP)Ch8 - maîtrise statistique des procédés (MSP)
Ch8 - maîtrise statistique des procédés (MSP)
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
 
PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?
 

Mais de Kezhan SHI

Big data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septBig data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septKezhan SHI
 
Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Kezhan SHI
 
Big data ads gouvernance ads v2[
Big data ads   gouvernance ads v2[Big data ads   gouvernance ads v2[
Big data ads gouvernance ads v2[Kezhan SHI
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septKezhan SHI
 
B -technical_specification_for_the_preparatory_phase__part_ii_
B  -technical_specification_for_the_preparatory_phase__part_ii_B  -technical_specification_for_the_preparatory_phase__part_ii_
B -technical_specification_for_the_preparatory_phase__part_ii_Kezhan SHI
 
A -technical_specification_for_the_preparatory_phase__part_i_
A  -technical_specification_for_the_preparatory_phase__part_i_A  -technical_specification_for_the_preparatory_phase__part_i_
A -technical_specification_for_the_preparatory_phase__part_i_Kezhan SHI
 
20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standardKezhan SHI
 
20140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-201420140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-2014Kezhan SHI
 
20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilanKezhan SHI
 
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_Kezhan SHI
 
Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Kezhan SHI
 
Directive solvabilité 2
Directive solvabilité 2Directive solvabilité 2
Directive solvabilité 2Kezhan SHI
 
Directive omnibus 2
Directive omnibus 2Directive omnibus 2
Directive omnibus 2Kezhan SHI
 
Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Kezhan SHI
 
Optimal discretization of hedging strategies rosenbaum
Optimal discretization of hedging strategies   rosenbaumOptimal discretization of hedging strategies   rosenbaum
Optimal discretization of hedging strategies rosenbaumKezhan SHI
 
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Kezhan SHI
 
Détection de profils, application en santé et en économétrie geissler
Détection de profils, application en santé et en économétrie   geisslerDétection de profils, application en santé et en économétrie   geissler
Détection de profils, application en santé et en économétrie geisslerKezhan SHI
 
Loi hamon sébastien bachellier
Loi hamon sébastien bachellierLoi hamon sébastien bachellier
Loi hamon sébastien bachellierKezhan SHI
 
Eurocroissance arnaud cohen
Eurocroissance arnaud cohenEurocroissance arnaud cohen
Eurocroissance arnaud cohenKezhan SHI
 
From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...Kezhan SHI
 

Mais de Kezhan SHI (20)

Big data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septBig data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-sept
 
Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Big data fiche data science 15 09 14
Big data fiche data science 15 09 14
 
Big data ads gouvernance ads v2[
Big data ads   gouvernance ads v2[Big data ads   gouvernance ads v2[
Big data ads gouvernance ads v2[
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-sept
 
B -technical_specification_for_the_preparatory_phase__part_ii_
B  -technical_specification_for_the_preparatory_phase__part_ii_B  -technical_specification_for_the_preparatory_phase__part_ii_
B -technical_specification_for_the_preparatory_phase__part_ii_
 
A -technical_specification_for_the_preparatory_phase__part_i_
A  -technical_specification_for_the_preparatory_phase__part_i_A  -technical_specification_for_the_preparatory_phase__part_i_
A -technical_specification_for_the_preparatory_phase__part_i_
 
20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard
 
20140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-201420140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-2014
 
20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan
 
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
 
Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Qis5 technical specifications-20100706
Qis5 technical specifications-20100706
 
Directive solvabilité 2
Directive solvabilité 2Directive solvabilité 2
Directive solvabilité 2
 
Directive omnibus 2
Directive omnibus 2Directive omnibus 2
Directive omnibus 2
 
Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2
 
Optimal discretization of hedging strategies rosenbaum
Optimal discretization of hedging strategies   rosenbaumOptimal discretization of hedging strategies   rosenbaum
Optimal discretization of hedging strategies rosenbaum
 
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
 
Détection de profils, application en santé et en économétrie geissler
Détection de profils, application en santé et en économétrie   geisslerDétection de profils, application en santé et en économétrie   geissler
Détection de profils, application en santé et en économétrie geissler
 
Loi hamon sébastien bachellier
Loi hamon sébastien bachellierLoi hamon sébastien bachellier
Loi hamon sébastien bachellier
 
Eurocroissance arnaud cohen
Eurocroissance arnaud cohenEurocroissance arnaud cohen
Eurocroissance arnaud cohen
 
From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...
 

Forêts uniformément aléatoires - Saïp CISS

  • 1. Forêts (uniformément) aléatoires et détection des irrégularités aux Institut des actuaires. 04/2014. détection des irrégularités aux cotisations sociales Saïp CISS Modal’X. Université Paris Ouest Nanterre. saip.ciss@wanadoo.fr
  • 2. Apprentissage statistique (Statistical learning) • Plusieurs types : supervisé, non supervisé, par renforcement, … • Paradigme du cas supervisé : apprendre à généraliser à partir d’exemples du phénomènegénéraliser à partir d’exemples du phénomène observé • Fondements : théorie de Vapnik-Chervonenkis • Application : machine learning (apprentissage automatique par des algorithmes) pour la classification, la régression, le « ranking », …
  • 3. Apprentissage statistique • Domaines d’application : moteurs de recherche, diagnostic médical, génétique, systèmes de recommandation, reconnaissance de formes, analyse financière, détection d’anomalies, d’irrégularités, … • Principaux algorithmes en deux vagues :• Principaux algorithmes en deux vagues : Avant 1995 : régressions linéaire, logistique, arbres de décision, k plus proches voisins, réseaux de neurones, … Depuis 1995 : SVM, (gradient) Boosting, Bagging, forêts aléatoires, …
  • 4. Apprentissage statistique Les exemples du phénomène observé sont représentés par un échantillon d’apprentissage : est à valeurs continues (régression) ou àest à valeurs continues (régression) ou à valeurs catégorielles (classification) On suppose qu’il existe une relation entre et On souhaite faire « apprendre » à l’algorithme cette relation, puis la généraliser (prédiction de ) à des occurrences inconnues (du modèle) de
  • 5. Apprentissage automatique (machine learning) Apprentissage : l’échantillon d’apprentissage est divisé en deux sous-échantillons (entraînement et validation) • L’algorithme « apprend » sur le sous-échantillon d’entraînement Généralisation : l’algorithme est testé (et recalibré) sur leGénéralisation : l’algorithme est testé (et recalibré) sur le sous-échantillon de validation Automatisation : prédictions sur de nouvelles données, actualisation du modèle, … Capacité de généralisation : erreurs de prédiction, bornes de risque, …
  • 6. Algorithmes d’apprentissage automatique Avantages : bonnes performances, peu ou pas d’hypothèses sur le phénomène observé, tirent profit de l’augmentation du volume des données, … Inconvénients : interprétation des variables, modèles plus complexes, risque de sur- apprentissage, temps de calcul, apprentissage difficile sur les très grands volumes de données
  • 7. Big data et apprentissage automatique • Big data (définition sommaire) : données qui ne peuvent pas être traitées en une passe et dans un temps raisonnable sur une station de travail Deux époques : avant 2005, ordinateurs 32-bit.Deux époques : avant 2005, ordinateurs 32-bit. Données avec n > 107 , p > 100 = 8 Go = Big data Après 2005, ordinateurs 64-bit : beaucoup plus de mémoire physique, mais unités de calcul limitées Deux tendances : descriptive et prédictive Deux aspects : spatial (volume) et temporel (flux)
  • 8. Big data et apprentissage automatique Paradigme : big data = ensemble de « small » data Stratégie : diviser les données en K paquets, appliquer le modèle sur chaque paquet, combiner les K modèlesK modèles • Plus complexe dans le cas prédictif : données non nécessairement identiquement distribuées, inférence des paramètres et réassemblage des modèles, perte de précision, temps de calcul, …
  • 9. Big data et apprentissage automatique Stratégie alternative : apprentissage incrémental • apprentissage sur le paquet 1, prédiction sur le paquet 2, apprendre les exemples mal prédits du paquet 2paquet 2 • Actualiser le modèle et recommencer la prédiction et l’apprentissage sur les paquets suivants Objectif : « apprendre » et « mémoriser » Bien adapté aux modèles ensemblistes non paramétriques
  • 10. Modèles ensemblistes • Ensemble de modèles (« classifieurs ») de base qui combinent leurs prédictions (vote majoritaire, moyenne, …) pour prendre une décision • Deux algorithmes majeurs : Boosting (Freund et Schapire, 1997), Bagging (Breiman, 1996)Schapire, 1997), Bagging (Breiman, 1996) Une variante avancée du Bagging : les forêts aléatoires (Breiman, 2001) Une variante des forêts aléatoires : les forêts uniformément aléatoires (2013) Classifieur de base : un arbre de décision
  • 11. Arbre de décision Structure algorithmique: partition de l’espace des données en 2 régions. « Récursion » jusqu’à l’atteinte d’une ou plusieurs conditions d’arrêt. Décision. Plusieurs types: CART, ID3, C4.5, …Plusieurs types: CART, ID3, C4.5, … Problématiques: définition d’une région, conditions d’arrêt, règle de décision Avantages : non linéaire, peu ou pas de biais, non paramétrique (peu de réglages) Inconvénients : instabilité
  • 12. Arbre de décision uniformément aléatoire un vecteur d’observations est une région de la partition couranteest une région de la partition courante si A chaque étape du partitionnement, tirer, avec remise, variables, > 0, et construire autant de régions : avec
  • 13. Arbre de décision uniformément aléatoire La région qui maximise un certain critère est retenue : • Soit etet Région aléatoire optimale : Règle de décision (vote majoritaire) :
  • 14. Forêt uniformément aléatoire • Algorithme : construire B arbres de décision uniformément aléatoires en tirant, avec remise, n exemples de (pour chaque arbre). Règle de décision de la forêt (pour la classification) :Règle de décision de la forêt (pour la classification) : Même principe que les forêts aléatoires de Breiman : arbres peu corrélés de biais minimal La forêt ne change pas le biais et réduit la variance
  • 15. Forêt uniformément aléatoire incrémentale Apprendre au fur et à mesure que les données arrivent. Règle de décision : • Constitution d’une mémoire, temps de calcul constants, un sous-ensemble du modèle peut aussi prendre une décision, … • Mais « pre-processing » important des données
  • 16. Applications : classification sur des données synthétiques
  • 17. Applications : classification sur des données synthétiques • Plateforme logicielle : R (www.r-project.org) Libre et gratuit, 64-bit, nombreux packages (> 5000), calcul vectoriel et parallèle, langage de5000), calcul vectoriel et parallèle, langage de programmation, prototypage rapide, … Package R : randomUniformForest (04/2014)
  • 18. Applications : classification sur des données synthétiques • n = 1000; p = 10. Echantillon d’entraînement 50% Sortie standard : Out-of-bag (OOB) evaluation OOB estimate of error rate: 8.4% OOB confusion matrix: Reference Prediction 0 1 class.errorPrediction 0 1 class.error 0 188 14 0.0693 1 28 270 0.0940 Theorical (Breiman) bounds Prediction error (expected to be lower than): 8.41% Upper bound of prediction error: 20.61% Average correlation between trees: 0.0626 Strength (margin): 0.6532 Standard deviation of strength: 0.2966
  • 19. Applications : classification sur des données synthétiques Test set Error rate: 7% Confusion matrix: Reference Prediction 0 1 class.error 0 211 17 0.07460 211 17 0.0746 1 18 254 0.0662 Area Under ROC Curve: 0.9293 F1 score: 0.9355 Geometric mean: 0.9293 visualisation : importance des variables, interactions, dépendance partielle, …
  • 20. Applications : classification sur des données synthétiques 12.5 Partial dependence over predictor V4 V3 V2 V1 Variable importance based on information gain 5.0 7.5 10.0 Class 0 Class 1 V2 Class Class 0 Class 1 V8 V6 V9 V5 V7 V10 V4 Relative influence (%) 0 5 10 15
  • 21. Applications : classification sur des données synthétiques Variable importance over labels Class 0 Class 1 V2 Variables interactions over observations Mostimportantvariablesat2ndorder V2 V1 V3 V4 V5 Other features V1 V2 V3 V1 V3 V4 V5 Most important variables at 1rst order Mostimportantvariablesat2ndorder V4 V7 Other features
  • 22. Détection des irrégularités aux cotisations sociales • URSSAF d’Île-de-France Recouvrement des cotisations sociales (versées par les salariés et employeurs) d’Île-de-France « Régime Général » (principal régime de cotisations)« Régime Général » (principal régime de cotisations) IdF: > 80 Mds d’€ annuels Recouvrement sur une base déclarative Législation complexe : { > 900 catégories déclaratives} x {assiette, taux, effectif, conditions} Contrôle des cotisations (2011) : 30 000 entreprises (1 entreprise sur 13). 14 Mds € contrôlés. 170 millions d’€ redressés.
  • 23. Détection des irrégularités aux cotisations sociales • Problématiques : Taux de détection des irrégularités : < 55% Rendement : 40% des redressements rapportent moins de 1 000 €/redressementmoins de 1 000 €/redressement Asymétrie : 250 contrôles = 100 millions d’€ redressés Contrôle exhaustif impossible : coût prohibitif Ensemble des irrégularités non estimable : consensus (sur la fraude) > 8-10 Mds/an.
  • 24. Détection des irrégularités aux cotisations sociales Objectif : pour un même nombre de contrôles, réduire le nombre de faux-positifs et augmenter les montants redressés. On ne s’intéresse qu’aux irrégularités, pas à la fraude volontaire. • Données : 400 000 entreprises, > 1000 variables. Beaucoup de zéros (> 89%) • Données non big data mais même problématique temporelle: flux annuels, changements de législation, nouvelles variables, …
  • 25. Détection des irrégularités aux cotisations sociales Dans la pratique « Pre-processing » important : invariance d’échelle, pas de données nominatives, transformation et création de variables, filtrage, …création de variables, filtrage, … On privilégie la « précision » (ressources pour le contrôle limitées) Echantillon d’apprentissage : contrôles des années précédentes Bases de données Matrice Modèle Décision
  • 26. Détection des irrégularités aux cotisations sociales Algorithme : forêts uniformément aléatoires (incrémentales), paramètres par défaut Apprentissage et validation : 4069 contrôles de l’année 2011 (après filtrage) 1065 variables 1698 irrégularités (cas positifs) tirage aléatoire : 10% entraînement, 90% validation (conformité à la réalité opérationnelle) répété plusieurs fois
  • 27. Détection des irrégularités aux cotisations sociales • Résultats en laboratoire (paramètres par défaut): Erreur de test Précision (écart-type) AUC randomForest 0.2729 72.55% (0.0374) 0.7319 Sto.GradientBoosting 0.2473 70.08% (0.0191) 0.7467 randomUniformForest 0.2419 70.44% (0.0235) 0.7534randomUniformForest 0.2419 70.44% (0.0235) 0.7534 randomUniformForest (incr) 0.2324 79.03% (-) 0.7737 La version incrémentale utilise un historique de données sur 5 années Optimisation des paramètres pour le Boosting
  • 28. Détection des irrégularités aux cotisations sociales • Expérimentation réelle (2012, URSSAF d’IdF) : 167 contrôles (entreprises de moins de 150 salariés) réalisés sur la base des recommandations du modèle (non incrémental)(non incrémental) Pas de biais de sélection (pre-processing) Taux de détection des irrégularités (précision) : 69% rendement moyen : 5 300€/contrôle Montant total net redressé : 885 000 €.
  • 29. Détection des irrégularités aux cotisations sociales • Phase industrielle : En 2013, en Île-de-France… Évaluation OOB : Out-of-bag (OOB) evaluationOut-of-bag (OOB) evaluation OOB estimate of error rate: 20.79% OOB estimate of AUC: 0.7917 OOB confusion matrix: Reference Prediction 0 1 class.error 0 1883 358 0.1598 1 488 1340 0.2670
  • 30. Détection des irrégularités aux cotisations sociales • Phase industrielle : En 2013, en Île-de-France…
  • 31. Détection des irrégularités aux cotisations sociales • Phase industrielle : En 2013, en Île-de-France…
  • 32. Détection des irrégularités aux cotisations sociales • Phase industrielle : En 2013, en Île-de-France… > 50 000 irrégularités estimées. 25 000 recommandations de contrôle fournies Faux positifs estimés : < 30%Faux positifs estimés : < 30% Rendement moyen estimé : > 5 000 €/contrôle Montant total net estimé des redressements: > 250 millions €, < 1 500 millions €. Phase industrielle abandonnée par l’URSSAF après le départ de l’ex équipe dirigeante.
  • 34. Sources et références • URSSAF d’île-de-France. Service statistique. • Biau, Devroye, Lugosi, 2008. « Consistency of Random Forests and Others Averaging Classifiers » • Breiman, Friedman, Olshen, Stone, 1984. « Classification And Regression Trees » (CART) • Breiman, 1996. « Bagging Predictors » • Breiman, 2001. « Random Forests »• Breiman, 2001. « Random Forests » • Breiman web site : http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm • Devroye, Györfi, Lugosi, 1996. « A Probabilistic Theory of Pattern Recognition » • Friedman, 1999. « Stochastic Gradient Boosting » • Friedman, 2001. « Greedy function approximation : A gradient boosting machine » • Vapnik, 1995. « The nature of statistical learning theory ».