SlideShare uma empresa Scribd logo
1 de 43
Baixar para ler offline
CHAPITRE 0
MACHINE LEARNING
OVERVIEW MATHS
Copyright Franck Bardol 2016 2
CV
Franck	Bardol	
+33	6	24	30	92	59	
bardolfranck@gmail.com	
@bardolfranck	
		
	
	
¡  Consultant	in	Machine	Learning	
	
¡  Jury	–	organizer	hackathons		
	
¡  Trainer	in	machine	learning	
¡  co-organiser		
meetup	Paris	Machine	Learning
¡  Fondements
“We are living the age of information and entering the age of
recommendation”
The Long tail - Chris Anderson
Copyright Franck Bardol 2016 3
PARADOX OF CHOICE
MORE IS LESS
¡  Fondements
§  “The web is leaving the era of search and entering one of discovery”
§  “Race to create a smart GOOGLE” – CNN –
Copyright Franck Bardol 2016 4
FROM SEARCH TO DISCOVERY
SEARCH
DISCOVERY
users
users
idea
idea
👧‍ 👨‍
👦
👩‍
👧‍ 👨‍
👦
👩‍
💡
🔮
❤️‍
💡
🔮
❤️‍
Copyright Franck Bardol 2016 5
FROM SEARCH TO DISCOVERY
“you may
also like” “people
you may
know”
“people
to
follow”
reco in
stealth
mode
👧‍ 👨‍
👦
👩‍
👩‍
👩‍
👮
80%
watch
via
RECO
¡  Quels sont les secteurs qui l’utilisent ?
§  Sites de streaming video
§  Sites marchands
§  Opérateur télécom
§  Formation & MOOC
Copyright Franck Bardol 2016 6
FROM SEARCH TO DISCOVERY
CA
+35%
click
+40%
¡  Apprentissage
Définition : Modification du comportement par l’expérience
¡  Machine learning
définition : Programmes executables qui :
ü apprennent les données
ü s’adaptent aux données
ü s’améliorent au cours du temps
Copyright Franck Bardol 2016 7
DATA-SCIENCE
QU’EST-CE-QUE C’EST ?
¡ Apprendre ?
comment ?
par l’exemple !!
les couleurs
Copyright Franck Bardol 2016 8
QU’EST-CE QUE C’EST ?
Copyright Franck Bardol 2016 9
QU’EST-CE QUE C’EST ?
Apprendre Généraliser
quoi ?
un concept
quand ?
sur nouvelles
données
comment ?
par l’exemple
pourquoi ?
généraliser
Copyright Franck Bardol 2016 10
COMMENT ÇA FONCTIONNE ?
Intuition
Hypothèses
Connaissances
Modèle /
programme Données
Données
Détecteur
schémas
cachés
Modèle/
programme
informatique
traditionnelle
informatique data
driven
X , Yf
X , Y f
fX Y
PRODUCTION
input decision predict
COMMENT ÇA FONCTIONNE ?
DESCRIPTEURS / FEATURES
nb_appel duree_
min
appel
internation
age categorie
_socio
type_
forfait
3 46 6 98 86 11
4 33 0 8 6 12
PREDICTION
reste_client
part
PREDICTION
part
reste_client
DESCRIPTEURS / FEATURES
nb_
appel
duree_
min
appel
internatio
n
age categori
e_socia
type_
forfait
3 46 6 98 86 11
4 33 0 8 6 12
1 - TRAIN
2 - TEST
34 7 56 2 3 - PREDICT
?
NOUVELLE DATA
BASE
D’APPRENTISSAGE
BASE DE TEST
PREDICTION
?
Copyright Franck Bardol 2016 11
GENERALIZATION VS. OVERFITTING
MEMORIZING VS. LEARNING
généraliser
Apprendre Généraliser
données d’apprentissage
STRUCTURE
DETAILS & BRUITS
nouvelles données
Copyright Franck Bardol 2016 12
Supervisé = exemples étiquettés
ü Régression
prédire des chiffres continus
ü Classification
prédire des étiquettes / classes / label
Copyright Franck Bardol 2016 13
APPRENTISSAGE
SUPERVISÉ
COMBIEN ?
EST-CE QUE ?
Supervisé = exemples étiquettés
ü Régression
prédire des chiffres continus
ü Classification
prédire des étiquettes / classes / label
Copyright Franck Bardol 2016 14
APPRENTISSAGE
SUPERVISÉ
big /
little ?
temperature
pressure stock markets
petit moyen grand très
grand ?
COMBIEN ?
EST-CE QUE ?
Non supervisé = pas d’étiquettes
ü Clustering
trouver des familles naturelles
ü Moteur de recommandation
Introduire de la sérendipité controllable
Copyright Franck Bardol 2016 15
APPRENTISSAGE
NON SUPERVISÉ
RESUME ?
Non supervisé = exemples non étiquettés
ü Clustering – anomaly detection – recommender system
§  Comprendre, explorer, simplifier les données, trouver des structures
cachées invisibles à l’oeil
Copyright Franck Bardol 2016 16
APPRENTISSAGE
NON SUPERVISÉ
CARTE TOPOLOGIQUE
300 variables économiques
(PIB/hab, accès eau, ….)
ANOMALY
DETECTION
RECOMMENDER SYSTEM
RESUME ?
Copyright Franck Bardol 2016 17
EXEMPLES
web log
text
text langue ?
EEG
web
log
who ?
epilepsy ?
bot?
gender ?
churn?
CRIME
where ?
when ?
predpol.com
deepinstinct.com
Malicious Code & Attacks ?
age?
click pub ?
¡  Règles écrites “à la main” èapproche peu performante
¡  Pas de règles / absence d’expertise humaine
§  bio informatique
¡  Trop de règles
§  Difficulté à poser les règles, les expliquer…
§  La solution évolue
§  Reconnaissance artificielle (vision, parole, signes gestes …)
§  Voiture autonome
§  Ranking, Tracking, poursuite
§  routing computer networks
§  pub temps réel
Copyright Franck Bardol 2016 18
C’EST EFFICACE QUAND ?
pedestrian detection
Automatic questions – answering
Requirement :
ü never seen these words before
ü comprehension
ü time element (« before », « after », …)
ü action (« go », « pick up », …)
Copyright Franck Bardol 2016 19
EXEMPLES
www.github.com/vinhkhuc/MemN2N-babi-python
Copyright Franck Bardol 2016 20
EXEMPLES
HEP@LHC-CERN
boson?
100 million events / sec
CA +30%
buy ?
hire?
sign ?
success ?
70% accuracy
Copyright Franck Bardol 2016 21
DATA
Scrapping = extract info
from web sites
opendata.cern.ch
data.gov
data.gouv.fr
www = thousand more
Open Data
Scrapping
Copyright Franck Bardol 2016 22
DATA, BECAUSE …
A
C
C
U
R
A
C
Y
DATA
Copyright Franck Bardol 2016 23
DATA, BECAUSE …
P
E
R
F
DATA
MORE
DATA !
¡  Pourquoi ?
Copyright Franck Bardol 2016 24
BUT ….
BE CAREFUL
¡  De quoi parle-t-on ?
Copyright Franck Bardol 2016 25
BEWARE OF THE DIMENSION
p features
(descripteurs - variables explicatives)
DIMENSION = p
V
O
L
U
M
E DATA
n
S
A
M
P
L
E
S
¡  De quoi parle-t-on ?
Copyright Franck Bardol 2016 26
DIMENSION ?
DIMENSION
V
O
L
U
M
E
TECHNO
BIG DATA
STATISTICS &
MACHINE
LEARNING
ACP
ACC
SOM
n
S
A
M
P
L
E
S
¡  é dimension du problème èRISQUE de …
§  é corrélation fallacieuses - spurious correlations – potentielles
Tendance aléatoire fortuite commune
http://www.tylervigen.com/spurious-correlations
§  é combinaisons fallacieuses - spurious combinations – potentielles
Combinaisons fallacieuses qui peuvent “prédire” un phénomène
é exponentielle du nombre de combinaisons entre les colonnes
§  é données nécessaires pour l’apprentissage
§  é exponentielle du nombre de lignes (samples) pour apprendre
convenablement
§  Curse of dimensionality
§  En très grande dimension, les données se trouvent toutes à égales distance.
§  Les méthode basées sur le voisinage (kNN…) échouent
Copyright Franck Bardol 2016 27
RÉDUCTION DIMENSION
DIMENSION
¡  é dimension du problème èRISQUE de …
§  é complexité de la solution
§  é complexité
§  Kolmogoroff
§  MDL : Minimum Description Length
§  Occam Razor “l’explication la plus simple est toujours la meilleure”
§  nb : simple ≠ simpliste
§  ê pouvoir explicatif de la solution
§  nb : pouvoir explicatif ≠ pouvoir prédictif
§  é sur-apprentissage – over fitting (par coeur vs. généralisation)
§  é difficulté de visualiser le problème (êintuition)
Copyright Franck Bardol 2016 28
RÉDUCTION DIMENSION
DIMENSION
¡  é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
Exemple inspiré de
Copyright Franck Bardol 2016 29
RÉDUCTION DIMENSION
DIMENSION
¡  é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
§  Exemple en bio-informatique - génomique :
§  Quelques centaines de lignes (les patients - samples) vs. 100 millions de
descripteurs (les gènes extraits - features)
Copyright Franck Bardol 2016 30
RÉDUCTION DIMENSION
DIMENSION
contexte
¡  é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
Copyright Franck Bardol 2016 31
RÉDUCTION DIMENSION
DIMENSION
problème !
¡  Pourquoi ê dimension du problème ?
Vision d’ensemble donnée par 2 des plus grands spécialistes
§  Interview de Michael Jordan
§  Interview de Vladimir Vapnik
§  fichier “interview Vapnik”
Copyright Franck Bardol 2016 32
RÉDUCTION DIMENSION
Copyright Franck Bardol 2016 33
METHOD
KEY SKILL = FAST PROTOTYPING
AVOID
COMPLEXITY
N
O
O
K
N
O
SIMPLEST
SOLUTION
Copyright Franck Bardol 2016 34
COMPETE AGAINST OTHER DATA
SCIENTIST
Key figures:
•  400K data scientists
•  2 million machine learning models
Lessons learned from previous contest :
•  Top methods
•  XgBoost models : for structured problems
•  Deep Learning : for unstructured problems (sounds, visual, texts)
-  source : Anthony Goldbloom, CEO Kaggle – www.kaggle.com
Copyright Franck Bardol 2016 35
COMPETE AGAINST OTHER DATA SCIENTIST
www.datascience.net
www.challengedata.ens.fr
Copyright Franck Bardol 2016 36
DATA-SCIENCE + PYTHON = DREAM TEAM
¡  Python : langage de programmation
¡  Avantages :
§  Très vaste choix de librairies gratuites
§  Courbe d’apprentissage faible
§  Communauté d’utilisateurs actifs gigantesque
§  Le langage favori des data-scientists
§  Elimine la ré-écriture complète du code prototypé par data-scientist
§  langage interprété – prototyping rapide (pas de compilation – link)
§  lisibilité du code (via identation)
¡  Inconvénients :
§  langage interprété (pas d’étape compilation – link)
§  vitesse d’exécution
Copyright Franck Bardol 2016 37
DATA-SCIENCE AVEC PYTHON
Copyright Franck Bardol 2016 38
OPEN SOURCE TOOLS
vision langage
general purpose
machine learningvisualization
data management
optimization …
package
thousand other tools
Copyright Franck Bardol 2016 39
API
portails
API
www.mashape.com
www.programmableweb.com
www.mloss.org
thousand other tools
ULTRA FAST PROTOTYPING
#chargement des données
—  1 import pandas as pd
—  data = pd.read_csv(‘data_to_read.csv’)
#chargement d’une librairie
—  2 from sklearn import model
#chargement d’un algorithme de prédiction
—  3 clf = model.algo()
#ENTRAINEMENT sur les données d’apprentissage
—  4 clf.fit(data_train , out_train)
#TEST sur les données non vues
—  5 predict = clf.predict(data_test)
Copyright Franck Bardol 2016 40
 
Copyright Franck Bardol 2016
41
BIBLIO
ainews.posthaven.com/16-free-ebooks-on-machine-learning
 
Copyright Franck Bardol 2016
42
Internet ressources : MOOC
(massive onLine open courses)
Udacity.com
coursera.org
Edx.org
france-universite-numerique.fr
moocs.epfl.ch
...
Copyright Franck Bardol 2016
43
 
•  duplique le savoir d’experts
•  construit des programmes exécutables de décision
•  augmente la boite à outils des analystes
Prediction
TAKE HOME
Machine
Learning
Algo
Hidden
Pattern
Detector
DataTRAINING
PROD
Data
Hidden
Pattern
Detector

Mais conteúdo relacionado

Semelhante a Data science a machine learning tour

Fondement et biaism Machine Learning Deep Learning
Fondement et biaism Machine Learning Deep LearningFondement et biaism Machine Learning Deep Learning
Fondement et biaism Machine Learning Deep LearningRichard Pawlowsky
 
Fondement et biais du Machine Learning et du Deep Learning
Fondement et biais du Machine Learning et du Deep LearningFondement et biais du Machine Learning et du Deep Learning
Fondement et biais du Machine Learning et du Deep LearningRichard Pawlowsky
 
Utilisation du big data en entreprise
Utilisation du big data en entrepriseUtilisation du big data en entreprise
Utilisation du big data en entreprisePierrick Thébault
 
Conférence Big data en Nouvelle-Calédonie
Conférence Big data en Nouvelle-CalédonieConférence Big data en Nouvelle-Calédonie
Conférence Big data en Nouvelle-CalédonieFrancois Cazals
 
Usable software design - code utilisable
Usable software design - code utilisableUsable software design - code utilisable
Usable software design - code utilisablemartinsson
 
Blockchain introduction créathon - 8 juillet 2016 - sajida zouarhi
Blockchain   introduction créathon - 8 juillet 2016 - sajida zouarhiBlockchain   introduction créathon - 8 juillet 2016 - sajida zouarhi
Blockchain introduction créathon - 8 juillet 2016 - sajida zouarhiSajida ZOUARHI
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
What's Next Contenus : Et si on parlait Performance ?
What's Next Contenus : Et si on parlait Performance ? What's Next Contenus : Et si on parlait Performance ?
What's Next Contenus : Et si on parlait Performance ? DigitasLBi Paris
 
OWASP Québec - octobre 2016 - présentation sur les mots de passe
OWASP Québec - octobre 2016 - présentation sur les mots de passeOWASP Québec - octobre 2016 - présentation sur les mots de passe
OWASP Québec - octobre 2016 - présentation sur les mots de passePatrick Leclerc
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
Sciences cognitives et design UX : quels (r)apports ?
Sciences cognitives et design UX : quels (r)apports ?Sciences cognitives et design UX : quels (r)apports ?
Sciences cognitives et design UX : quels (r)apports ?Akiani
 
Conférence Paris Retail Week : sur la voix d'un futur moins digital ?
Conférence Paris Retail Week : sur la voix d'un futur moins digital ?Conférence Paris Retail Week : sur la voix d'un futur moins digital ?
Conférence Paris Retail Week : sur la voix d'un futur moins digital ?Fabernovel
 
Amélioration de la productivité par les outils TIC/Internet - Recherche d'inf...
Amélioration de la productivité par les outils TIC/Internet - Recherche d'inf...Amélioration de la productivité par les outils TIC/Internet - Recherche d'inf...
Amélioration de la productivité par les outils TIC/Internet - Recherche d'inf...Karim ATTOUMANI MOHAMED
 
Optimisez vos Recherches, Formez-vous sur Expernova !
Optimisez vos Recherches, Formez-vous sur Expernova !Optimisez vos Recherches, Formez-vous sur Expernova !
Optimisez vos Recherches, Formez-vous sur Expernova !Expernova
 
Lettre d'information | Septembre 2018 | Transtech
 Lettre d'information | Septembre 2018 | Transtech  Lettre d'information | Septembre 2018 | Transtech
Lettre d'information | Septembre 2018 | Transtech Transtech Aquitaine
 
LUXEMBOURG CREATIVE 2019 : l'intelligence artificielle
LUXEMBOURG CREATIVE 2019 : l'intelligence artificielleLUXEMBOURG CREATIVE 2019 : l'intelligence artificielle
LUXEMBOURG CREATIVE 2019 : l'intelligence artificielleLUXEMBOURG CREATIVE
 
Les algorithmes génétiques dans tous leurs états
Les algorithmes génétiques dans tous leurs étatsLes algorithmes génétiques dans tous leurs états
Les algorithmes génétiques dans tous leurs étatsGeneticIO
 

Semelhante a Data science a machine learning tour (20)

Fondement et biaism Machine Learning Deep Learning
Fondement et biaism Machine Learning Deep LearningFondement et biaism Machine Learning Deep Learning
Fondement et biaism Machine Learning Deep Learning
 
Fondement et biais du Machine Learning et du Deep Learning
Fondement et biais du Machine Learning et du Deep LearningFondement et biais du Machine Learning et du Deep Learning
Fondement et biais du Machine Learning et du Deep Learning
 
Utilisation du big data en entreprise
Utilisation du big data en entrepriseUtilisation du big data en entreprise
Utilisation du big data en entreprise
 
Conférence Big data en Nouvelle-Calédonie
Conférence Big data en Nouvelle-CalédonieConférence Big data en Nouvelle-Calédonie
Conférence Big data en Nouvelle-Calédonie
 
Usable software design - code utilisable
Usable software design - code utilisableUsable software design - code utilisable
Usable software design - code utilisable
 
Blockchain introduction créathon - 8 juillet 2016 - sajida zouarhi
Blockchain   introduction créathon - 8 juillet 2016 - sajida zouarhiBlockchain   introduction créathon - 8 juillet 2016 - sajida zouarhi
Blockchain introduction créathon - 8 juillet 2016 - sajida zouarhi
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
What's Next Contenus : Et si on parlait Performance ?
What's Next Contenus : Et si on parlait Performance ? What's Next Contenus : Et si on parlait Performance ?
What's Next Contenus : Et si on parlait Performance ?
 
Ihedn 110318 fr_v1.0
Ihedn 110318 fr_v1.0Ihedn 110318 fr_v1.0
Ihedn 110318 fr_v1.0
 
OWASP Québec - octobre 2016 - présentation sur les mots de passe
OWASP Québec - octobre 2016 - présentation sur les mots de passeOWASP Québec - octobre 2016 - présentation sur les mots de passe
OWASP Québec - octobre 2016 - présentation sur les mots de passe
 
Oeinria
OeinriaOeinria
Oeinria
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
Saisie et exploitation des données cliniques
Saisie et exploitation des données cliniquesSaisie et exploitation des données cliniques
Saisie et exploitation des données cliniques
 
Sciences cognitives et design UX : quels (r)apports ?
Sciences cognitives et design UX : quels (r)apports ?Sciences cognitives et design UX : quels (r)apports ?
Sciences cognitives et design UX : quels (r)apports ?
 
Conférence Paris Retail Week : sur la voix d'un futur moins digital ?
Conférence Paris Retail Week : sur la voix d'un futur moins digital ?Conférence Paris Retail Week : sur la voix d'un futur moins digital ?
Conférence Paris Retail Week : sur la voix d'un futur moins digital ?
 
Amélioration de la productivité par les outils TIC/Internet - Recherche d'inf...
Amélioration de la productivité par les outils TIC/Internet - Recherche d'inf...Amélioration de la productivité par les outils TIC/Internet - Recherche d'inf...
Amélioration de la productivité par les outils TIC/Internet - Recherche d'inf...
 
Optimisez vos Recherches, Formez-vous sur Expernova !
Optimisez vos Recherches, Formez-vous sur Expernova !Optimisez vos Recherches, Formez-vous sur Expernova !
Optimisez vos Recherches, Formez-vous sur Expernova !
 
Lettre d'information | Septembre 2018 | Transtech
 Lettre d'information | Septembre 2018 | Transtech  Lettre d'information | Septembre 2018 | Transtech
Lettre d'information | Septembre 2018 | Transtech
 
LUXEMBOURG CREATIVE 2019 : l'intelligence artificielle
LUXEMBOURG CREATIVE 2019 : l'intelligence artificielleLUXEMBOURG CREATIVE 2019 : l'intelligence artificielle
LUXEMBOURG CREATIVE 2019 : l'intelligence artificielle
 
Les algorithmes génétiques dans tous leurs états
Les algorithmes génétiques dans tous leurs étatsLes algorithmes génétiques dans tous leurs états
Les algorithmes génétiques dans tous leurs états
 

Último

Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxbahija babzine
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 

Último (6)

Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptx
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 

Data science a machine learning tour

  • 2. Copyright Franck Bardol 2016 2 CV Franck Bardol +33 6 24 30 92 59 bardolfranck@gmail.com @bardolfranck ¡  Consultant in Machine Learning ¡  Jury – organizer hackathons ¡  Trainer in machine learning ¡  co-organiser meetup Paris Machine Learning
  • 3. ¡  Fondements “We are living the age of information and entering the age of recommendation” The Long tail - Chris Anderson Copyright Franck Bardol 2016 3 PARADOX OF CHOICE MORE IS LESS
  • 4. ¡  Fondements §  “The web is leaving the era of search and entering one of discovery” §  “Race to create a smart GOOGLE” – CNN – Copyright Franck Bardol 2016 4 FROM SEARCH TO DISCOVERY SEARCH DISCOVERY users users idea idea 👧‍ 👨‍ 👦 👩‍ 👧‍ 👨‍ 👦 👩‍ 💡 🔮 ❤️‍ 💡 🔮 ❤️‍
  • 5. Copyright Franck Bardol 2016 5 FROM SEARCH TO DISCOVERY “you may also like” “people you may know” “people to follow” reco in stealth mode 👧‍ 👨‍ 👦 👩‍ 👩‍ 👩‍ 👮
  • 6. 80% watch via RECO ¡  Quels sont les secteurs qui l’utilisent ? §  Sites de streaming video §  Sites marchands §  Opérateur télécom §  Formation & MOOC Copyright Franck Bardol 2016 6 FROM SEARCH TO DISCOVERY CA +35% click +40%
  • 7. ¡  Apprentissage Définition : Modification du comportement par l’expérience ¡  Machine learning définition : Programmes executables qui : ü apprennent les données ü s’adaptent aux données ü s’améliorent au cours du temps Copyright Franck Bardol 2016 7 DATA-SCIENCE QU’EST-CE-QUE C’EST ?
  • 8. ¡ Apprendre ? comment ? par l’exemple !! les couleurs Copyright Franck Bardol 2016 8 QU’EST-CE QUE C’EST ?
  • 9. Copyright Franck Bardol 2016 9 QU’EST-CE QUE C’EST ? Apprendre Généraliser quoi ? un concept quand ? sur nouvelles données comment ? par l’exemple pourquoi ? généraliser
  • 10. Copyright Franck Bardol 2016 10 COMMENT ÇA FONCTIONNE ? Intuition Hypothèses Connaissances Modèle / programme Données Données Détecteur schémas cachés Modèle/ programme informatique traditionnelle informatique data driven X , Yf X , Y f fX Y PRODUCTION input decision predict
  • 11. COMMENT ÇA FONCTIONNE ? DESCRIPTEURS / FEATURES nb_appel duree_ min appel internation age categorie _socio type_ forfait 3 46 6 98 86 11 4 33 0 8 6 12 PREDICTION reste_client part PREDICTION part reste_client DESCRIPTEURS / FEATURES nb_ appel duree_ min appel internatio n age categori e_socia type_ forfait 3 46 6 98 86 11 4 33 0 8 6 12 1 - TRAIN 2 - TEST 34 7 56 2 3 - PREDICT ? NOUVELLE DATA BASE D’APPRENTISSAGE BASE DE TEST PREDICTION ? Copyright Franck Bardol 2016 11
  • 12. GENERALIZATION VS. OVERFITTING MEMORIZING VS. LEARNING généraliser Apprendre Généraliser données d’apprentissage STRUCTURE DETAILS & BRUITS nouvelles données Copyright Franck Bardol 2016 12
  • 13. Supervisé = exemples étiquettés ü Régression prédire des chiffres continus ü Classification prédire des étiquettes / classes / label Copyright Franck Bardol 2016 13 APPRENTISSAGE SUPERVISÉ COMBIEN ? EST-CE QUE ?
  • 14. Supervisé = exemples étiquettés ü Régression prédire des chiffres continus ü Classification prédire des étiquettes / classes / label Copyright Franck Bardol 2016 14 APPRENTISSAGE SUPERVISÉ big / little ? temperature pressure stock markets petit moyen grand très grand ? COMBIEN ? EST-CE QUE ?
  • 15. Non supervisé = pas d’étiquettes ü Clustering trouver des familles naturelles ü Moteur de recommandation Introduire de la sérendipité controllable Copyright Franck Bardol 2016 15 APPRENTISSAGE NON SUPERVISÉ RESUME ?
  • 16. Non supervisé = exemples non étiquettés ü Clustering – anomaly detection – recommender system §  Comprendre, explorer, simplifier les données, trouver des structures cachées invisibles à l’oeil Copyright Franck Bardol 2016 16 APPRENTISSAGE NON SUPERVISÉ CARTE TOPOLOGIQUE 300 variables économiques (PIB/hab, accès eau, ….) ANOMALY DETECTION RECOMMENDER SYSTEM RESUME ?
  • 17. Copyright Franck Bardol 2016 17 EXEMPLES web log text text langue ? EEG web log who ? epilepsy ? bot? gender ? churn? CRIME where ? when ? predpol.com deepinstinct.com Malicious Code & Attacks ? age? click pub ?
  • 18. ¡  Règles écrites “à la main” èapproche peu performante ¡  Pas de règles / absence d’expertise humaine §  bio informatique ¡  Trop de règles §  Difficulté à poser les règles, les expliquer… §  La solution évolue §  Reconnaissance artificielle (vision, parole, signes gestes …) §  Voiture autonome §  Ranking, Tracking, poursuite §  routing computer networks §  pub temps réel Copyright Franck Bardol 2016 18 C’EST EFFICACE QUAND ? pedestrian detection
  • 19. Automatic questions – answering Requirement : ü never seen these words before ü comprehension ü time element (« before », « after », …) ü action (« go », « pick up », …) Copyright Franck Bardol 2016 19 EXEMPLES www.github.com/vinhkhuc/MemN2N-babi-python
  • 20. Copyright Franck Bardol 2016 20 EXEMPLES HEP@LHC-CERN boson? 100 million events / sec CA +30% buy ? hire? sign ? success ? 70% accuracy
  • 21. Copyright Franck Bardol 2016 21 DATA Scrapping = extract info from web sites opendata.cern.ch data.gov data.gouv.fr www = thousand more Open Data Scrapping
  • 22. Copyright Franck Bardol 2016 22 DATA, BECAUSE … A C C U R A C Y DATA
  • 23. Copyright Franck Bardol 2016 23 DATA, BECAUSE … P E R F DATA MORE DATA !
  • 24. ¡  Pourquoi ? Copyright Franck Bardol 2016 24 BUT …. BE CAREFUL
  • 25. ¡  De quoi parle-t-on ? Copyright Franck Bardol 2016 25 BEWARE OF THE DIMENSION p features (descripteurs - variables explicatives) DIMENSION = p V O L U M E DATA n S A M P L E S
  • 26. ¡  De quoi parle-t-on ? Copyright Franck Bardol 2016 26 DIMENSION ? DIMENSION V O L U M E TECHNO BIG DATA STATISTICS & MACHINE LEARNING ACP ACC SOM n S A M P L E S
  • 27. ¡  é dimension du problème èRISQUE de … §  é corrélation fallacieuses - spurious correlations – potentielles Tendance aléatoire fortuite commune http://www.tylervigen.com/spurious-correlations §  é combinaisons fallacieuses - spurious combinations – potentielles Combinaisons fallacieuses qui peuvent “prédire” un phénomène é exponentielle du nombre de combinaisons entre les colonnes §  é données nécessaires pour l’apprentissage §  é exponentielle du nombre de lignes (samples) pour apprendre convenablement §  Curse of dimensionality §  En très grande dimension, les données se trouvent toutes à égales distance. §  Les méthode basées sur le voisinage (kNN…) échouent Copyright Franck Bardol 2016 27 RÉDUCTION DIMENSION DIMENSION
  • 28. ¡  é dimension du problème èRISQUE de … §  é complexité de la solution §  é complexité §  Kolmogoroff §  MDL : Minimum Description Length §  Occam Razor “l’explication la plus simple est toujours la meilleure” §  nb : simple ≠ simpliste §  ê pouvoir explicatif de la solution §  nb : pouvoir explicatif ≠ pouvoir prédictif §  é sur-apprentissage – over fitting (par coeur vs. généralisation) §  é difficulté de visualiser le problème (êintuition) Copyright Franck Bardol 2016 28 RÉDUCTION DIMENSION DIMENSION
  • 29. ¡  é dimension du problème èRISQUE de … § faire ECHOUER les méthodes statistiques et mathématiques Exemple inspiré de Copyright Franck Bardol 2016 29 RÉDUCTION DIMENSION DIMENSION
  • 30. ¡  é dimension du problème èRISQUE de … § faire ECHOUER les méthodes statistiques et mathématiques §  Exemple en bio-informatique - génomique : §  Quelques centaines de lignes (les patients - samples) vs. 100 millions de descripteurs (les gènes extraits - features) Copyright Franck Bardol 2016 30 RÉDUCTION DIMENSION DIMENSION contexte
  • 31. ¡  é dimension du problème èRISQUE de … § faire ECHOUER les méthodes statistiques et mathématiques Copyright Franck Bardol 2016 31 RÉDUCTION DIMENSION DIMENSION problème !
  • 32. ¡  Pourquoi ê dimension du problème ? Vision d’ensemble donnée par 2 des plus grands spécialistes §  Interview de Michael Jordan §  Interview de Vladimir Vapnik §  fichier “interview Vapnik” Copyright Franck Bardol 2016 32 RÉDUCTION DIMENSION
  • 33. Copyright Franck Bardol 2016 33 METHOD KEY SKILL = FAST PROTOTYPING AVOID COMPLEXITY N O O K N O SIMPLEST SOLUTION
  • 34. Copyright Franck Bardol 2016 34 COMPETE AGAINST OTHER DATA SCIENTIST Key figures: •  400K data scientists •  2 million machine learning models Lessons learned from previous contest : •  Top methods •  XgBoost models : for structured problems •  Deep Learning : for unstructured problems (sounds, visual, texts) -  source : Anthony Goldbloom, CEO Kaggle – www.kaggle.com
  • 35. Copyright Franck Bardol 2016 35 COMPETE AGAINST OTHER DATA SCIENTIST www.datascience.net www.challengedata.ens.fr
  • 36. Copyright Franck Bardol 2016 36 DATA-SCIENCE + PYTHON = DREAM TEAM
  • 37. ¡  Python : langage de programmation ¡  Avantages : §  Très vaste choix de librairies gratuites §  Courbe d’apprentissage faible §  Communauté d’utilisateurs actifs gigantesque §  Le langage favori des data-scientists §  Elimine la ré-écriture complète du code prototypé par data-scientist §  langage interprété – prototyping rapide (pas de compilation – link) §  lisibilité du code (via identation) ¡  Inconvénients : §  langage interprété (pas d’étape compilation – link) §  vitesse d’exécution Copyright Franck Bardol 2016 37 DATA-SCIENCE AVEC PYTHON
  • 38. Copyright Franck Bardol 2016 38 OPEN SOURCE TOOLS vision langage general purpose machine learningvisualization data management optimization … package thousand other tools
  • 39. Copyright Franck Bardol 2016 39 API portails API www.mashape.com www.programmableweb.com www.mloss.org thousand other tools
  • 40. ULTRA FAST PROTOTYPING #chargement des données —  1 import pandas as pd —  data = pd.read_csv(‘data_to_read.csv’) #chargement d’une librairie —  2 from sklearn import model #chargement d’un algorithme de prédiction —  3 clf = model.algo() #ENTRAINEMENT sur les données d’apprentissage —  4 clf.fit(data_train , out_train) #TEST sur les données non vues —  5 predict = clf.predict(data_test) Copyright Franck Bardol 2016 40
  • 41.   Copyright Franck Bardol 2016 41 BIBLIO ainews.posthaven.com/16-free-ebooks-on-machine-learning
  • 42.   Copyright Franck Bardol 2016 42 Internet ressources : MOOC (massive onLine open courses) Udacity.com coursera.org Edx.org france-universite-numerique.fr moocs.epfl.ch ...
  • 43. Copyright Franck Bardol 2016 43   •  duplique le savoir d’experts •  construit des programmes exécutables de décision •  augmente la boite à outils des analystes Prediction TAKE HOME Machine Learning Algo Hidden Pattern Detector DataTRAINING PROD Data Hidden Pattern Detector