Contenu connexe Similaire à Datasio - Big Data : Enjeux et technologies (20) Datasio - Big Data : Enjeux et technologies1. Big Data
Enjeux et technologies
© Datasio 2012
3. Big Data et Data Science dans la presse
© Datasio 2012
4. Nous parlerons ...
ad'opportunités de création de valeur
ade retours d'expériences
ade technologies “hot”
ade mise en oeuvre et d'approches pratiques
ad'aspects humains
© Datasio 2012
5. Nous éviterons ...
rde casser l'existant
rle catalogue d'outils
rles aspects théoriques du Big Data
© Datasio 2012
6. Agenda
1 Big Data & Data Mining – les enjeux
2 Hadoop, poids lourd du Big Data
3 Profession: Data Scientist
© Datasio 2012
7. Agenda
1 Big Data & Data Mining
© Datasio 2012
9. Autres sources
de données
Données
intra-entreprise
métier
(logs web, CRM ...)
© Datasio 2012
10. Autres sources
Données
Données
de données
intra-entreprise
externes
métier
(logs web, CRM ...)
© Datasio 2012
17. Applications Big Data
Estimer la production d'iPhones
d'après les numéros de série ...
© Datasio 2012
18. Déduplication de données
2 rue de Grenelle
2 rue de Grenelle 75007
75007 2 avenue du Lauragais
2 avenue du Lauragais 31000
31000
Paris
Paris Toulouse
Toulouse
Avène
Avène
hasAddress hasZipcode hasAddress hasZipcode
hasNom hasCity Maurice Avène
Avène hasCity Maurice
Maurice
Maurice
hasPrenom hasNom hasPrenom
SAAS_clients_20120304_45lhsd
SAAS_clients_20120304_45lhsd CRM_2012_72
CRM_2012_72
© Datasio 2012
19. Déduplication de données
2 rue de Grenelle
2 rue de Grenelle 75007
75007 2 avenue du Lauragais
2 avenue du Lauragais 31000
31000
Paris
Paris Toulouse
Toulouse
Avène
Avène
hasAddress hasZipcode hasAddress hasZipcode
hasNom hasCity Maurice Avène
Avène hasCity Maurice
Maurice
Maurice
hasPrenom hasNom hasPrenom
sameAs
SAAS_clients_20120304_45lhsd
SAAS_clients_20120304_45lhsd CRM_2012_72
CRM_2012_72
© Datasio 2012
20. Applications Big Data
●
Optimisation A/B
●
Corrélation usage du site web
+ transactions
●
Suivi de l'engagement et
monitoring du churn
Logs web server
In-game events
© Datasio 2012
21. Quelles données, quelle croissance?
Logs Graphes d'interaction
Croissance linéaire + paliers Croissance exponentielle !!
© Datasio 2012
23. Optimisation
Prédiction
Business insight
Analytique
Traitements
distribués
Stockage
distribué
© Datasio 2012
25. Réseaux d'interaction Influence entre utilisateurs
Affinité / réponse aux campagnes marketing
Sensibilité aux variations de prix
E-réputation
Monitoring de la satisfaction client Statistiques des vols et d'opérations au sol
(forums ...) historiques et temps réel
(retards, grèves, pertes de bagage ...)
FUSION DE DONNEES
Stats vols,
Prix billets
web logs
social networks...
Monitoring WEB
Réponse de l'usager à la qualité de service
Données CRM et marketing
20100916 130748 Economy Incoming 18
20100916 client
Historique 131131 Economy Outgoing 99
20100916 131324 Economy Incoming 214
20100916 131735 Economy Outgoing 72
20100916 183403 Economy Overbooked 0
© Datasio 2012
26. Flightcaster et la prédiction de retards
●
Pourquoi ne pas utiliser les alertes de la
compagnie aérienne?
●
Pourquoi attend-on si longtemps sur la
piste?
●
Pourquoi y-a-t'il écrit “à l'heure” alors
que l'avion n'est toujours pas arrivé?
●
Qu'est-ce qui cause les retards?
●
Quelles les sont les compagnies les plus
ponctuelles?
Apprentissage machine – architecture sous Amazon Web Services
Basé sur l'historique des retards, la météo ...
© Datasio 2012
27. General Electrics et la maintenance prédictive
●
GE Aviations Integrated Vehicle Health
Management
●
“Preventive maintenance” basée sur les
mesures collectées en vol et au sol
●
Calcule les probabilités de panne avant
leur occurrence et diminue les coûts de
maintenance
© Datasio 2012
29. Agenda
2 Hadoop, poids lourd du Big Data
Qui l'utilise?
Comment ça marche?
© Datasio 2012
30. Qui utilise Hadoop? Data mining sur click stream
Analyse d'image
Production d'index
Moteur d'enchères
Conversion de 11 millions
d'articles en PDF
Spam screening
(> 20 milliards de msg / jour)
Entrepôt de données
> 30 PetaOctets (2011)
© Datasio 2012
31. 03
20
Google Filesystem
© Datasio 2012
32. 03
04
20
20
Publication de
MapReduce
Google Filesystem
© Datasio 2012
33. 06
03
04
20
20
20
Publication de
MapReduce
Google Filesystem
© Datasio 2012 Création du projet Apache
34. 06
08
03
04
20
20
20
Publication de 20
MapReduce 10000 machines
@ Yahoo!
Google Filesystem
© Datasio 2012 Création du projet Apache
35. 06
12
03
04
08
20
20
20
20
Publication de 20
MapReduce 10000 machines Cluster 100 PB
@ Yahoo! @ Facebook
Google Filesystem
© Datasio 2012 Ouverture du code source
36. HDFS
(Hadoop Distributed Filesystem)
© Datasio 2012
37. (Resource management)
Zookeeper
Map/Reduce
(Distributed processing)
HDFS
(Hadoop Distributed Filesystem)
© Datasio 2012
38. Pig Hive
(Resource management)
(Data DSL) (SQL)
Zookeeper
Cascading
(Data flow)
Map/Reduce
(Distributed processing)
HDFS
(Hadoop Distributed Filesystem)
© Datasio 2012
39. Cascalog
(Data flow)
(Distributed Key Value)
Pig Hive
(Resource management)
(Data DSL) (SQL)
Hbase
Zookeeper
Cascading
(Data flow)
Map/Reduce
(Distributed processing)
HDFS
(Hadoop Distributed Filesystem)
© Datasio 2012
40. HDFS = système de fichier distribué
CLUSTER
CPU Traitement
DISK Stockage
© Datasio 2012
41. Rack-awareness + data locality
CLUSTER
Rack Rack Rack
Noeud Noeud Noeud Noeud Noeud
CPU Traitement
DISK Stockage
© Datasio 2012
42. Fichiers distribués en blocs, avec facteur de
réplication N (ici, N=3)
CLUSTER
Rack Rack Rack
Noeud Noeud Noeud Noeud Noeud
bloc1 bloc1 bloc1
bloc2 bloc2 bloc2
bloc3 bloc3 bloc3
bloc4 bloc4 bloc4
© Datasio 2012
43. Map/Reduce = “diviser pour régner”
CLUSTER
Rack Rack Rack
Noeud Noeud Noeud Noeud Noeud
Map Map Map Map Map
Reduce Reduce Reduce
© Datasio 2012
46. Au-delà de Map/Reduce
●
Requête sur données structurées
et semi-structurées
●
Jobs Map/Reduce à l'exécution
●
Syntaxe “SQL”
●
Extensible (types, UDFs)
●
Metadonnées en BD (MySQL)
●
Join, Group By, Nesting
hive> SELECT a.IP FROM logs a where a.tstamp = '<DATE>';
© Datasio 2012
47. Mahout – “intelligence artificielle” à grande échelle
●
Règles d'association et Frequent
Itemsets
●
Recommendation d'articles
●
Clustering et K-means
●
Arbres de décision …
●
PageRank
© Datasio 2012
48. Mahout – “intelligence artificielle” à grande échelle
●
Règles d'association et Frequent
Itemsets
●
Recommendation d'articles
●
Clustering et K-means
●
Arbres de décision …
{
●
PageRank
Millions et + de transactions
© Datasio 2012
49. Agenda
3 Profession: Data Scientist
Son rôle dans l'entreprise
Comment le recruter? Comment le former?
Journée type d'un Data Scientist
© Datasio 2012
50. “The sexiest job in the next 10 years will be statistician”
Hal Varian, Chief Economist at Google
© Datasio 2012
55. CV du Data Scientist
Docteur es-sciences ...
Informaticien ...
Consultant ...
Statisticien ...
“Data hacker” ...
Java, Scala, Clojure
Python, Perl
R, Matlab, SAS
Machine learning
© Datasio 2012
56. Boîte à outils
Postgres
MySQL Pig
Logs
Logs
Logs cascalog
Hadoop / HDFS
© Datasio 2012
57. Mode opératoire
Nettoyage Choix
Tuning
de données du modèle
●
Scatterplots ●
K-Means ●
Descente de gradient
●
Kernel smoothing ●
Clustering ●
Maximum de vraisemblance
●
Robust EM ●
Régression logistique ●
Meta-optimisation
●
SVM ●
Méthodes d'ensemble
●
Réseaux de neurones
●
Naive Bayes
●
Random Forest
●
Survival modeling
© Datasio 2012
59. Merci
froyer@datasio.com
© Datasio 2012