3. ¡ Fondements
“We are living the age of information and entering the age of
recommendation”
The Long tail - Chris Anderson
Copyright Franck Bardol 2016 3
PARADOX OF CHOICE
MORE IS LESS
4. ¡ Fondements
§ “The web is leaving the era of search and entering one of discovery”
§ “Race to create a smart GOOGLE” – CNN –
Copyright Franck Bardol 2016 4
FROM SEARCH TO DISCOVERY
SEARCH
DISCOVERY
users
users
idea
idea
👧 👨
👦
👩
👧 👨
👦
👩
💡
🔮
❤️
💡
🔮
❤️
5. Copyright Franck Bardol 2016 5
FROM SEARCH TO DISCOVERY
“you may
also like” “people
you may
know”
“people
to
follow”
reco in
stealth
mode
👧 👨
👦
👩
👩
👩
👮
6. 80%
watch
via
RECO
¡ Quels sont les secteurs qui l’utilisent ?
§ Sites de streaming video
§ Sites marchands
§ Opérateur télécom
§ Formation & MOOC
Copyright Franck Bardol 2016 6
FROM SEARCH TO DISCOVERY
CA
+35%
click
+40%
7. ¡ Apprentissage
Définition : Modification du comportement par l’expérience
¡ Machine learning
définition : Programmes executables qui :
ü apprennent les données
ü s’adaptent aux données
ü s’améliorent au cours du temps
Copyright Franck Bardol 2016 7
DATA-SCIENCE
QU’EST-CE-QUE C’EST ?
9. Copyright Franck Bardol 2016 9
QU’EST-CE QUE C’EST ?
Apprendre Généraliser
quoi ?
un concept
quand ?
sur nouvelles
données
comment ?
par l’exemple
pourquoi ?
généraliser
10. Copyright Franck Bardol 2016 10
COMMENT ÇA FONCTIONNE ?
Intuition
Hypothèses
Connaissances
Modèle /
programme Données
Données
Détecteur
schémas
cachés
Modèle/
programme
informatique
traditionnelle
informatique data
driven
X , Yf
X , Y f
fX Y
PRODUCTION
input decision predict
11. COMMENT ÇA FONCTIONNE ?
DESCRIPTEURS / FEATURES
nb_appel duree_
min
appel
internation
age categorie
_socio
type_
forfait
3 46 6 98 86 11
4 33 0 8 6 12
PREDICTION
reste_client
part
PREDICTION
part
reste_client
DESCRIPTEURS / FEATURES
nb_
appel
duree_
min
appel
internatio
n
age categori
e_socia
type_
forfait
3 46 6 98 86 11
4 33 0 8 6 12
1 - TRAIN
2 - TEST
34 7 56 2 3 - PREDICT
?
NOUVELLE DATA
BASE
D’APPRENTISSAGE
BASE DE TEST
PREDICTION
?
Copyright Franck Bardol 2016 11
13. Supervisé = exemples étiquettés
ü Régression
prédire des chiffres continus
ü Classification
prédire des étiquettes / classes / label
Copyright Franck Bardol 2016 13
APPRENTISSAGE
SUPERVISÉ
COMBIEN ?
EST-CE QUE ?
14. Supervisé = exemples étiquettés
ü Régression
prédire des chiffres continus
ü Classification
prédire des étiquettes / classes / label
Copyright Franck Bardol 2016 14
APPRENTISSAGE
SUPERVISÉ
big /
little ?
temperature
pressure stock markets
petit moyen grand très
grand ?
COMBIEN ?
EST-CE QUE ?
15. Non supervisé = pas d’étiquettes
ü Clustering
trouver des familles naturelles
ü Moteur de recommandation
Introduire de la sérendipité controllable
Copyright Franck Bardol 2016 15
APPRENTISSAGE
NON SUPERVISÉ
RESUME ?
16. Non supervisé = exemples non étiquettés
ü Clustering – anomaly detection – recommender system
§ Comprendre, explorer, simplifier les données, trouver des structures
cachées invisibles à l’oeil
Copyright Franck Bardol 2016 16
APPRENTISSAGE
NON SUPERVISÉ
CARTE TOPOLOGIQUE
300 variables économiques
(PIB/hab, accès eau, ….)
ANOMALY
DETECTION
RECOMMENDER SYSTEM
RESUME ?
17. Copyright Franck Bardol 2016 17
EXEMPLES
web log
text
text langue ?
EEG
web
log
who ?
epilepsy ?
bot?
gender ?
churn?
CRIME
where ?
when ?
predpol.com
deepinstinct.com
Malicious Code & Attacks ?
age?
click pub ?
18. ¡ Règles écrites “à la main” èapproche peu performante
¡ Pas de règles / absence d’expertise humaine
§ bio informatique
¡ Trop de règles
§ Difficulté à poser les règles, les expliquer…
§ La solution évolue
§ Reconnaissance artificielle (vision, parole, signes gestes …)
§ Voiture autonome
§ Ranking, Tracking, poursuite
§ routing computer networks
§ pub temps réel
Copyright Franck Bardol 2016 18
C’EST EFFICACE QUAND ?
pedestrian detection
19. Automatic questions – answering
Requirement :
ü never seen these words before
ü comprehension
ü time element (« before », « after », …)
ü action (« go », « pick up », …)
Copyright Franck Bardol 2016 19
EXEMPLES
www.github.com/vinhkhuc/MemN2N-babi-python
21. Copyright Franck Bardol 2016 21
DATA
Scrapping = extract info
from web sites
opendata.cern.ch
data.gov
data.gouv.fr
www = thousand more
Open Data
Scrapping
25. ¡ De quoi parle-t-on ?
Copyright Franck Bardol 2016 25
BEWARE OF THE DIMENSION
p features
(descripteurs - variables explicatives)
DIMENSION = p
V
O
L
U
M
E DATA
n
S
A
M
P
L
E
S
26. ¡ De quoi parle-t-on ?
Copyright Franck Bardol 2016 26
DIMENSION ?
DIMENSION
V
O
L
U
M
E
TECHNO
BIG DATA
STATISTICS &
MACHINE
LEARNING
ACP
ACC
SOM
n
S
A
M
P
L
E
S
27. ¡ é dimension du problème èRISQUE de …
§ é corrélation fallacieuses - spurious correlations – potentielles
Tendance aléatoire fortuite commune
http://www.tylervigen.com/spurious-correlations
§ é combinaisons fallacieuses - spurious combinations – potentielles
Combinaisons fallacieuses qui peuvent “prédire” un phénomène
é exponentielle du nombre de combinaisons entre les colonnes
§ é données nécessaires pour l’apprentissage
§ é exponentielle du nombre de lignes (samples) pour apprendre
convenablement
§ Curse of dimensionality
§ En très grande dimension, les données se trouvent toutes à égales distance.
§ Les méthode basées sur le voisinage (kNN…) échouent
Copyright Franck Bardol 2016 27
RÉDUCTION DIMENSION
DIMENSION
28. ¡ é dimension du problème èRISQUE de …
§ é complexité de la solution
§ é complexité
§ Kolmogoroff
§ MDL : Minimum Description Length
§ Occam Razor “l’explication la plus simple est toujours la meilleure”
§ nb : simple ≠ simpliste
§ ê pouvoir explicatif de la solution
§ nb : pouvoir explicatif ≠ pouvoir prédictif
§ é sur-apprentissage – over fitting (par coeur vs. généralisation)
§ é difficulté de visualiser le problème (êintuition)
Copyright Franck Bardol 2016 28
RÉDUCTION DIMENSION
DIMENSION
29. ¡ é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
Exemple inspiré de
Copyright Franck Bardol 2016 29
RÉDUCTION DIMENSION
DIMENSION
30. ¡ é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
§ Exemple en bio-informatique - génomique :
§ Quelques centaines de lignes (les patients - samples) vs. 100 millions de
descripteurs (les gènes extraits - features)
Copyright Franck Bardol 2016 30
RÉDUCTION DIMENSION
DIMENSION
contexte
31. ¡ é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
Copyright Franck Bardol 2016 31
RÉDUCTION DIMENSION
DIMENSION
problème !
32. ¡ Pourquoi ê dimension du problème ?
Vision d’ensemble donnée par 2 des plus grands spécialistes
§ Interview de Michael Jordan
§ Interview de Vladimir Vapnik
§ fichier “interview Vapnik”
Copyright Franck Bardol 2016 32
RÉDUCTION DIMENSION
33. Copyright Franck Bardol 2016 33
METHOD
KEY SKILL = FAST PROTOTYPING
AVOID
COMPLEXITY
N
O
O
K
N
O
SIMPLEST
SOLUTION
34. Copyright Franck Bardol 2016 34
COMPETE AGAINST OTHER DATA
SCIENTIST
Key figures:
• 400K data scientists
• 2 million machine learning models
Lessons learned from previous contest :
• Top methods
• XgBoost models : for structured problems
• Deep Learning : for unstructured problems (sounds, visual, texts)
- source : Anthony Goldbloom, CEO Kaggle – www.kaggle.com
35. Copyright Franck Bardol 2016 35
COMPETE AGAINST OTHER DATA SCIENTIST
www.datascience.net
www.challengedata.ens.fr
37. ¡ Python : langage de programmation
¡ Avantages :
§ Très vaste choix de librairies gratuites
§ Courbe d’apprentissage faible
§ Communauté d’utilisateurs actifs gigantesque
§ Le langage favori des data-scientists
§ Elimine la ré-écriture complète du code prototypé par data-scientist
§ langage interprété – prototyping rapide (pas de compilation – link)
§ lisibilité du code (via identation)
¡ Inconvénients :
§ langage interprété (pas d’étape compilation – link)
§ vitesse d’exécution
Copyright Franck Bardol 2016 37
DATA-SCIENCE AVEC PYTHON
38. Copyright Franck Bardol 2016 38
OPEN SOURCE TOOLS
vision langage
general purpose
machine learningvisualization
data management
optimization …
package
thousand other tools
39. Copyright Franck Bardol 2016 39
API
portails
API
www.mashape.com
www.programmableweb.com
www.mloss.org
thousand other tools
40. ULTRA FAST PROTOTYPING
#chargement des données
— 1 import pandas as pd
— data = pd.read_csv(‘data_to_read.csv’)
#chargement d’une librairie
— 2 from sklearn import model
#chargement d’un algorithme de prédiction
— 3 clf = model.algo()
#ENTRAINEMENT sur les données d’apprentissage
— 4 clf.fit(data_train , out_train)
#TEST sur les données non vues
— 5 predict = clf.predict(data_test)
Copyright Franck Bardol 2016 40
42.
Copyright Franck Bardol 2016
42
Internet ressources : MOOC
(massive onLine open courses)
Udacity.com
coursera.org
Edx.org
france-universite-numerique.fr
moocs.epfl.ch
...
43. Copyright Franck Bardol 2016
43
• duplique le savoir d’experts
• construit des programmes exécutables de décision
• augmente la boite à outils des analystes
Prediction
TAKE HOME
Machine
Learning
Algo
Hidden
Pattern
Detector
DataTRAINING
PROD
Data
Hidden
Pattern
Detector