SlideShare uma empresa Scribd logo
1 de 22
Baixar para ler offline
Data Sciences pour l'Actuariat
Françoise Soulié Fogelman
Formation Actuaire Data Scientist
Leçon inaugurale
Paris, 16 mars 2015
2F. Soulié Fogelman. Data Sciences pour l'Actuariat
Agenda
• Big Data & Assurance
• Le process du projet Big Data
• Data Science pour les actuaires
Big Data & Assurance
4F. Soulié Fogelman. Data Sciences pour l'Actuariat
Une définition classique
Introduite par Gartner en 2001
Nombre de
variables
Nombre
d’événements /
seconde
Nombre d’observations
x Nombre de variables
Largeur
Profondeur
5F. Soulié Fogelman. Data Sciences pour l'Actuariat
Les sources de données – Volume & Variété
http://vesselhead.com/hadoop-is-a-very-disruptive-technology
6F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le Big Data est possible aujourd’hui
1. Grâce aux améliorations exponentielles du hardware …
L’avènement du Big Data
http://radar.oreilly.com/2011/08/building-data-startups.html
7F. Soulié Fogelman. Data Sciences pour l'Actuariat
L’avènement du Big Data
2. … et un marché d’outils logiciels Big Data très complet
http://www.slideshare.net/mjft01/big-data-
big-deal-a-big-data-101-presentation
8F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le Big Data dans l’Assurance
• Un potentiel de valeur
– Important & accessible
• McKinsey 2011
• … grâce à un métier basé sur l
– Des données
– & des compétences
– adaptées
• … mais nécessitant des évolutions significatives
– Ex: P&C
• Deloitte 2015
http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation
http://www2.deloitte.com/us/en/pages/financial-services/articles/2015-property-and-casualty-insurance-outlook.html
9F. Soulié Fogelman. Data Sciences pour l'Actuariat
Quelques exemples d’applications dans l’assurance
• Améliorer le ciblage des campagnes marketing
– Développer les marchés de niche
• Produire de meilleurs modèles
– Prévision de sinistralité, de pricing, de détection de la fraude
• Développer les nouvelles plateformes de distribution
– Améliorer l’interaction client (NBA, temps réel)
• Concevoir de nouveaux produits
– Usage-based-insurance
• Connected xx (car, health, home)
– Risques climatiques
http://www.data-business.fr/opportunites-applications-big-
data-assurance/ http://www.lesechos.fr/idees-debats/sciences-prospective/0204190147952-pourquoi-les-
objets-connectes-font-rever-les-compagnies-dassurances-1098284.php
Le process du projet
Big Data
11F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le process du projet Big Data
• Les étapes sont familières aux actuaires
• Mais avec quelques grosses différences
– La génération de features (variables)
– L’approche Machine Learning
– La construction du modèle
– L’utilisation d’infrastructures différentes (Hadoop, Spark)
– La programmation en plus des statistiques
Collecte de
données
Préparation
des données
Feature
engineering
Construction
du modèle
Evaluation Déploiement
12F. Soulié Fogelman. Data Sciences pour l'Actuariat
La génération de features
• Augmenter la variété
– Calculer, à partir des variables existantes, de nouvelles variables
• Significatives pour le métier mais difficiles à apprendre par un modèle
– Difficile : coûteux en données, temps de calcul, complexité du modèle
• Exemples : ratios, agrégats sur fenêtres glissantes temporelles,
géographiques…
– Obtenir des variables supplémentaires de sources externes
• Open data, partenaires, data providers
– La variété augmente (et donc le volume)
• Plus les sources sont différentes, mieux c’est
• Différentes en sémantique/type (texte, réseau…)
• C’est le facteur de succès le plus important
– Cela permet de produire des modèles plus simples & plus performants
Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf
13F. Soulié Fogelman. Data Sciences pour l'Actuariat
La génération de features
• Attention: quand le nombre de features augmente
– Le nombre d’observations nécessaires pour apprendre le modèle
augmente
– Le temps de calcul augmente aussi
Bottou : http://bigdata2013.sciencesconf.org/conference/bigdata2013/pages/bottou.pdf
14F. Soulié Fogelman. Data Sciences pour l'Actuariat
L’approche Machine Learning
• Construire un modèle
– L’ensemble d’apprentissage: le modèle apprend (précision)
– L’ensemble de validation : le modèle généralise (robustesse)
• Le modèle doit être simple
Facile
Difficile
15F. Soulié Fogelman. Data Sciences pour l'Actuariat
La construction du modèle
• Il existe de très nombreux algorithmes de Machine Learning
– Il vaut toujours mieux choisir un algorithme simple
• “Invariably, simple models and a lot of data trump more elaborate models
based on less data”
• Il vaut mieux passer du temps sur la génération de variables
• Note : les variables générées sont toujours corrélées
– L’algorithme choisi doit dont être insensible aux corrélations
• Questions importantes
– Scalabilité, Explicabilité, Performance
– Résistance au bruit / données manquantes (sparsité) / données
corrélées
– Temps de calcul : Apprentissage / Scoring (généralisation)
– Le plus important : les données
• Les données ne sont pas produites pour les besoins de l’analyste
– Problèmes de représentativité
16F. Soulié Fogelman. Data Sciences pour l'Actuariat
L’utilisation d’infrastructures différentes
• La plate-forme Big Data
– Couche Analyses
• Librairies open-source Scikit-learn; MLlib
– Couche données : bases NoSQL
– Infrastructure
• Serveur In-memory
• Cluster hadoop/Spark
• Importance de la
sécurité / privacy /
protection des
données personnelles
17F. Soulié Fogelman. Data Sciences pour l'Actuariat
La programmation
• La programmation est très massivement nécessaire
pour les étapes de préparation des données (80% du
temps passé dans un projet)
– La collecte des données
– Le nettoyage des données
– L’alignement des référentiels
– Le feature engineering
• Souvent en R ou en Python
“First-timers are often surprised by how little time in a machine
learning project is spent actually doing machine learning”
Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf
Data Science pour les
actuaires
19F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
• Ces compétences sont très demandées
20F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
• Les compétences requises
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
21F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
• Le but de cette formation
– Appui sur l’expertise métier
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
22F. Soulié Fogelman. Data Sciences pour l'Actuariat
Le data scientist
“People rarely succeed
unless they have fun in what they are doing”
Dale Carnegie
&
à soulie-francoise@orange.fr

Mais conteúdo relacionado

Destaque (13)

Slides ads ia
Slides ads iaSlides ads ia
Slides ads ia
 
IA-advanced-R
IA-advanced-RIA-advanced-R
IA-advanced-R
 
Slides econ-lm
Slides econ-lmSlides econ-lm
Slides econ-lm
 
Exercices act2121-session1
Exercices act2121-session1Exercices act2121-session1
Exercices act2121-session1
 
Pricing Game, 100% Data Sciences
Pricing Game, 100% Data SciencesPricing Game, 100% Data Sciences
Pricing Game, 100% Data Sciences
 
Slides ensae-2016-4
Slides ensae-2016-4Slides ensae-2016-4
Slides ensae-2016-4
 
Slides ensae-2016-5
Slides ensae-2016-5Slides ensae-2016-5
Slides ensae-2016-5
 
Slides ensae-2016-7
Slides ensae-2016-7Slides ensae-2016-7
Slides ensae-2016-7
 
Slides ensae-2016-8
Slides ensae-2016-8Slides ensae-2016-8
Slides ensae-2016-8
 
Slides ensae-2016-6
Slides ensae-2016-6Slides ensae-2016-6
Slides ensae-2016-6
 
Slides ensae-2016-9
Slides ensae-2016-9Slides ensae-2016-9
Slides ensae-2016-9
 
Slides ensae-2016-10
Slides ensae-2016-10Slides ensae-2016-10
Slides ensae-2016-10
 
Slides ensae-2016-11
Slides ensae-2016-11Slides ensae-2016-11
Slides ensae-2016-11
 

Semelhante a 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Prez ia big_data_bruno_v3_finale
Prez ia big_data_bruno_v3_finalePrez ia big_data_bruno_v3_finale
Prez ia big_data_bruno_v3_finaleBruno Seznec
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...Paris Open Source Summit
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationDenodo
 
SplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunk
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
1 pourquoi le big data aujourdhui
1 pourquoi le big data aujourdhui1 pourquoi le big data aujourdhui
1 pourquoi le big data aujourdhuiRomain Jouin
 
Webinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfrescoWebinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfrescoJean Francois DONIKIAN
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 
Gestion organisationnelle données géospatiales
Gestion organisationnelle données géospatialesGestion organisationnelle données géospatiales
Gestion organisationnelle données géospatialesGeomap GIS America
 

Semelhante a 15 03 16_data sciences pour l'actuariat_f. soulie fogelman (20)

Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
introduction bigdata
introduction bigdataintroduction bigdata
introduction bigdata
 
Prez ia big_data_bruno_v3_finale
Prez ia big_data_bruno_v3_finalePrez ia big_data_bruno_v3_finale
Prez ia big_data_bruno_v3_finale
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Introduction au Plan de Gestion de Données
Introduction au Plan de Gestion de DonnéesIntroduction au Plan de Gestion de Données
Introduction au Plan de Gestion de Données
 
ML Ops a Survey
ML Ops a SurveyML Ops a Survey
ML Ops a Survey
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
 
Big data
Big dataBig data
Big data
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Pj hug 07_04_2016
Pj hug 07_04_2016Pj hug 07_04_2016
Pj hug 07_04_2016
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
SplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data In
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
1 pourquoi le big data aujourdhui
1 pourquoi le big data aujourdhui1 pourquoi le big data aujourdhui
1 pourquoi le big data aujourdhui
 
Webinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfrescoWebinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfresco
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 
Gestion organisationnelle données géospatiales
Gestion organisationnelle données géospatialesGestion organisationnelle données géospatiales
Gestion organisationnelle données géospatiales
 

Mais de Arthur Charpentier (20)

Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
ACT6100 introduction
ACT6100 introductionACT6100 introduction
ACT6100 introduction
 
Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)
 
Control epidemics
Control epidemics Control epidemics
Control epidemics
 
STT5100 Automne 2020, introduction
STT5100 Automne 2020, introductionSTT5100 Automne 2020, introduction
STT5100 Automne 2020, introduction
 
Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
Machine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & InsuranceMachine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & Insurance
 
Reinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and FinanceReinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and Finance
 
Optimal Control and COVID-19
Optimal Control and COVID-19Optimal Control and COVID-19
Optimal Control and COVID-19
 
Slides OICA 2020
Slides OICA 2020Slides OICA 2020
Slides OICA 2020
 
Lausanne 2019 #3
Lausanne 2019 #3Lausanne 2019 #3
Lausanne 2019 #3
 
Lausanne 2019 #4
Lausanne 2019 #4Lausanne 2019 #4
Lausanne 2019 #4
 
Lausanne 2019 #2
Lausanne 2019 #2Lausanne 2019 #2
Lausanne 2019 #2
 
Lausanne 2019 #1
Lausanne 2019 #1Lausanne 2019 #1
Lausanne 2019 #1
 
Side 2019 #10
Side 2019 #10Side 2019 #10
Side 2019 #10
 
Side 2019 #11
Side 2019 #11Side 2019 #11
Side 2019 #11
 
Side 2019 #12
Side 2019 #12Side 2019 #12
Side 2019 #12
 
Side 2019 #9
Side 2019 #9Side 2019 #9
Side 2019 #9
 
Side 2019 #8
Side 2019 #8Side 2019 #8
Side 2019 #8
 
Side 2019 #7
Side 2019 #7Side 2019 #7
Side 2019 #7
 

Último

ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxHadJer61
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 

Último (6)

ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptx
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 

15 03 16_data sciences pour l'actuariat_f. soulie fogelman

  • 1. Data Sciences pour l'Actuariat Françoise Soulié Fogelman Formation Actuaire Data Scientist Leçon inaugurale Paris, 16 mars 2015
  • 2. 2F. Soulié Fogelman. Data Sciences pour l'Actuariat Agenda • Big Data & Assurance • Le process du projet Big Data • Data Science pour les actuaires
  • 3. Big Data & Assurance
  • 4. 4F. Soulié Fogelman. Data Sciences pour l'Actuariat Une définition classique Introduite par Gartner en 2001 Nombre de variables Nombre d’événements / seconde Nombre d’observations x Nombre de variables Largeur Profondeur
  • 5. 5F. Soulié Fogelman. Data Sciences pour l'Actuariat Les sources de données – Volume & Variété http://vesselhead.com/hadoop-is-a-very-disruptive-technology
  • 6. 6F. Soulié Fogelman. Data Sciences pour l'Actuariat Le Big Data est possible aujourd’hui 1. Grâce aux améliorations exponentielles du hardware … L’avènement du Big Data http://radar.oreilly.com/2011/08/building-data-startups.html
  • 7. 7F. Soulié Fogelman. Data Sciences pour l'Actuariat L’avènement du Big Data 2. … et un marché d’outils logiciels Big Data très complet http://www.slideshare.net/mjft01/big-data- big-deal-a-big-data-101-presentation
  • 8. 8F. Soulié Fogelman. Data Sciences pour l'Actuariat Le Big Data dans l’Assurance • Un potentiel de valeur – Important & accessible • McKinsey 2011 • … grâce à un métier basé sur l – Des données – & des compétences – adaptées • … mais nécessitant des évolutions significatives – Ex: P&C • Deloitte 2015 http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation http://www2.deloitte.com/us/en/pages/financial-services/articles/2015-property-and-casualty-insurance-outlook.html
  • 9. 9F. Soulié Fogelman. Data Sciences pour l'Actuariat Quelques exemples d’applications dans l’assurance • Améliorer le ciblage des campagnes marketing – Développer les marchés de niche • Produire de meilleurs modèles – Prévision de sinistralité, de pricing, de détection de la fraude • Développer les nouvelles plateformes de distribution – Améliorer l’interaction client (NBA, temps réel) • Concevoir de nouveaux produits – Usage-based-insurance • Connected xx (car, health, home) – Risques climatiques http://www.data-business.fr/opportunites-applications-big- data-assurance/ http://www.lesechos.fr/idees-debats/sciences-prospective/0204190147952-pourquoi-les- objets-connectes-font-rever-les-compagnies-dassurances-1098284.php
  • 10. Le process du projet Big Data
  • 11. 11F. Soulié Fogelman. Data Sciences pour l'Actuariat Le process du projet Big Data • Les étapes sont familières aux actuaires • Mais avec quelques grosses différences – La génération de features (variables) – L’approche Machine Learning – La construction du modèle – L’utilisation d’infrastructures différentes (Hadoop, Spark) – La programmation en plus des statistiques Collecte de données Préparation des données Feature engineering Construction du modèle Evaluation Déploiement
  • 12. 12F. Soulié Fogelman. Data Sciences pour l'Actuariat La génération de features • Augmenter la variété – Calculer, à partir des variables existantes, de nouvelles variables • Significatives pour le métier mais difficiles à apprendre par un modèle – Difficile : coûteux en données, temps de calcul, complexité du modèle • Exemples : ratios, agrégats sur fenêtres glissantes temporelles, géographiques… – Obtenir des variables supplémentaires de sources externes • Open data, partenaires, data providers – La variété augmente (et donc le volume) • Plus les sources sont différentes, mieux c’est • Différentes en sémantique/type (texte, réseau…) • C’est le facteur de succès le plus important – Cela permet de produire des modèles plus simples & plus performants Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf
  • 13. 13F. Soulié Fogelman. Data Sciences pour l'Actuariat La génération de features • Attention: quand le nombre de features augmente – Le nombre d’observations nécessaires pour apprendre le modèle augmente – Le temps de calcul augmente aussi Bottou : http://bigdata2013.sciencesconf.org/conference/bigdata2013/pages/bottou.pdf
  • 14. 14F. Soulié Fogelman. Data Sciences pour l'Actuariat L’approche Machine Learning • Construire un modèle – L’ensemble d’apprentissage: le modèle apprend (précision) – L’ensemble de validation : le modèle généralise (robustesse) • Le modèle doit être simple Facile Difficile
  • 15. 15F. Soulié Fogelman. Data Sciences pour l'Actuariat La construction du modèle • Il existe de très nombreux algorithmes de Machine Learning – Il vaut toujours mieux choisir un algorithme simple • “Invariably, simple models and a lot of data trump more elaborate models based on less data” • Il vaut mieux passer du temps sur la génération de variables • Note : les variables générées sont toujours corrélées – L’algorithme choisi doit dont être insensible aux corrélations • Questions importantes – Scalabilité, Explicabilité, Performance – Résistance au bruit / données manquantes (sparsité) / données corrélées – Temps de calcul : Apprentissage / Scoring (généralisation) – Le plus important : les données • Les données ne sont pas produites pour les besoins de l’analyste – Problèmes de représentativité
  • 16. 16F. Soulié Fogelman. Data Sciences pour l'Actuariat L’utilisation d’infrastructures différentes • La plate-forme Big Data – Couche Analyses • Librairies open-source Scikit-learn; MLlib – Couche données : bases NoSQL – Infrastructure • Serveur In-memory • Cluster hadoop/Spark • Importance de la sécurité / privacy / protection des données personnelles
  • 17. 17F. Soulié Fogelman. Data Sciences pour l'Actuariat La programmation • La programmation est très massivement nécessaire pour les étapes de préparation des données (80% du temps passé dans un projet) – La collecte des données – Le nettoyage des données – L’alignement des référentiels – Le feature engineering • Souvent en R ou en Python “First-timers are often surprised by how little time in a machine learning project is spent actually doing machine learning” Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf
  • 18. Data Science pour les actuaires
  • 19. 19F. Soulié Fogelman. Data Sciences pour l'Actuariat Le data scientist • Ces compétences sont très demandées
  • 20. 20F. Soulié Fogelman. Data Sciences pour l'Actuariat Le data scientist • Les compétences requises http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
  • 21. 21F. Soulié Fogelman. Data Sciences pour l'Actuariat Le data scientist • Le but de cette formation – Appui sur l’expertise métier http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
  • 22. 22F. Soulié Fogelman. Data Sciences pour l'Actuariat Le data scientist “People rarely succeed unless they have fun in what they are doing” Dale Carnegie & à soulie-francoise@orange.fr