Mais conteúdo relacionado Semelhante a Baina bigdata le futur eldorado (20) Baina bigdata le futur eldorado1. Les Big Data
Le nouvel Eldorado
Prof. Karim Baïna
karim.baina@gmail.com
Professeur d'Enseignement Supérieur
ENSIAS,
Université Mohammed V de Rabat, Maroc
Co-responsable du Diplôme Universitaire « Big Data Scientist »
Chef du Département Génie Logiciel
Chef de Service de Coopération
Première rencontre du
Digital Smart Systems Førum
autour de
« Big Data : Nouvelles voies de R&D et
d’Innovation »
Mercredi 01 Juin 2016, ENSIAS
2. © Karim Baïna 2016 2
Big Data – Introduction
Première rencontre du
Digital Smart Systems Førum
autour de
« Big Data : Nouvelles voies de R&D et
d’Innovation »
Mercredi 01 Juin 2016, ENSIAS
3. © Karim Baïna 2016 3
Big Data 4 V
● VOLUME
– 90% des données universelles ont été créées durant les 5 dernières années
– de 2013 à 2020, la taille de l'univers digital sera multipliée par 10 de 4.4 trillion (10**12) GB à 44 trillion
– La taille de l'univers digital plus que double chaque 2 ans
● VELOCITY (Fréquence de production de la donnée)
– 6 Milliard de téléphones portables dans le monde (sur 8 Milliard de population)
– Une voiture moderne embarque plus de 100 capteurs
– 200 Million de compteurs intelligents, 30 Billion (10**12) Tag RFID, 420 Million de capteurs médicaux
– 2,3 Trillion (10**12) GB de données sont générées chaque jours dans le monde
● VARIETY
● 80% des données universelles sont non-structurées (inexploitables par les systèmes traditionnels)
● VERACITY
● Données incertaines, entre 30 % – 80 % followers fictifs sur twitter (selon la popularité du compte)
– La circulation des hoax (canulars), spam, fake post est reprise (retwittée) plus que les démentis.
Doug Laney, « 3D Data Management: Controlling Data Volume, Velocity, and Variety. », 2001 research report, META Group (now Gartner)
Samsung 16TB
(Technologie SSD)
Le plus large HD
4. © Karim Baïna 2016 4
Big Data – étude d'opportunité de
Recherche (index de volume de
recherche google)
https://www.google.com/trends/
Le marché du Big Data s'élèverait à 40 milliards de dollars pour l'année 2015
et il connaitra, selon les prévisions, une croissance de 14% chaque année jusqu'en 2020
5. © Karim Baïna 2016 5
Big Data -
Un domaine au carrefour
de plusieurs disciplines et d'expertises
IoT/IoE
Digital Humanities
Social Networking
Information
Systems
6. © Karim Baïna 2016 6
Big Data -
Un domaine au carrefour
de plusieurs disciplines et d'expertises
IoT/IoE
Digital Humanities
Social Networking
Grid
Computing
Information
Systems
Cloud
Computing
7. © Karim Baïna 2016 7
Big Data -
Un domaine au carrefour
de plusieurs disciplines et d'expertises
IoT/IoE
Digital Humanities
Social Networking
Grid
Computing
Information
Systems
Cloud
Computing
Computational
Linguistics
KM
Data
Management
8. © Karim Baïna 2016 8
Big Data -
Un domaine au carrefour
de plusieurs disciplines et d'expertises
IoT/IoE
Digital Humanities
Social Networking
Grid
Computing
Information
Systems
Maths &
Statistics
Cloud
Computing
Computational
Linguistics
KM
Data
Management
Operational
Research
9. © Karim Baïna 2016 9
Big Data -
Un domaine au carrefour
de plusieurs disciplines et d'expertises
IoT/IoE
Digital Humanities
Social Networking
Grid
Computing
Software
engineering
Information
Systems
Cloud
Computing
Computational
Linguistics
KM
Software
programming
Data
Management
Operational
ResearchMaths &
Statistics
10. © Karim Baïna 2016 10
Vue globale de l'Architecture et
des Processus Big Data
Real Time Processing
Big Data Zone
ata
ke
© Amir Gandomi, et al. 2015, International Journal of Information Management
11. © Karim Baïna 2016 11
Démarche Big
Data
●
Démarche INDUCTIVE/INFERENTIELLE (typique dans les Big Data) :
Les données (observations) sont collectées sans formuler préalablement
d'hypothèse et les explications sont dérivées de ces données par
généralisation des faits observés pour produire un modèle scientifique de la
réalité dit prévisionnel.
– alias : observationnelle, corrélative, régressive
● Démarche DÉDUCTIVE : Le chercheur a une vue théorique du monde
naturel, basée sur des concepts et théories acceptés, et cherche à vérifier
certaines hypothèses quant aux causes d'un phénomène. Ces hypothèses
sont ensuite testées au cours de l'analyse, et c'est par le jeu de leurs
acceptations/rejets que se construisent les théories explicatives. Les
scientifiques qui pratiquent cette approche sont qualifiés de rationalistes.
– alias : expérimentale
12. © Karim Baïna 2016 12
Big Data – Paradigm Shift
Première rencontre du
Digital Smart Systems Førum
autour de
« Big Data : Nouvelles voies de R&D et
d’Innovation »
Mercredi 01 Juin 2016, ENSIAS
13. Big Data – L'univers digital devient de
plus en plus large et interconnecté
© IBM
(10^12)
14. © Karim Baïna 2016 14
Big Data – Perception du Volume
de l'univers digital
Lune
Terre
2/3 6,6x
TeraB (10**12 B) → PetaB (10**15 B) → ExaB (10**18 B) → ZetaB (10**21 B)
15. © Karim Baïna 2016 15
Volume - Big Data « data-intensive »
Paradigm shift : Data Locality
Principle 1 : spread data across a cluster of computers
Principle 2 : keep work physically close to the data
(partition/fragmentation)
Pour le Grid Computing « computing-intensive »
les serveurs de traitements sont fixés et la datlocality n'est pas la priorité !
● Le volume des données (en PétaOctets 10^15 Octets) et la complexité
des calculs sont plus importants que la fréquence des calculs (en
milliers). Et les traitements parallèles ne partagent pas les données
initiales seulement des résultats intermédiaires.
Data at Rest
16. © Karim Baïna 2016 16
Volume - Big Data Paradigm shift :
Synchronous batch processing
Le Grid Computing « computing-intensive » est defacto asynchrone !
Data at Rest
17. © Karim Baïna 2016 17
Variété - Big Data :
multitude des formats de données
OLAP
non-structuré semi-structuré structuré
18. © Karim Baïna 2016 18
Varieté - Big Data Paradigme shift :
Schema on Run/Read (aka ELT)
● Avec le Big Data - Schema on Run/Read (aka ELT) :
– Collecte des données non ou semi-structurées depuis les sources
– Stockage les données brutes sans structures explicites
– Compatible avec la démarche inductive (zéro hypothèse)
– Exploration et Analyse les données « programmatoirement » le
programme s'adapte au format et pas l'inverse !!
– Stockage dans une structure cible pour de futures analyses
– Cycle de vie court et flexible
La Business Intelligence suit le paradigme « Schema on Load/Write » (aka ETL).
L'Objet & les dimensions d'analyse sont pré-organisées selon l’utilisation envisagée,
Collecte des données de production structurées selon un format intial et Stockage dans
un hyper-cube structuré. A chaque fois que les données évoluent, il y a nécessité de
mise à niveau du datawarehouse et remise en question de la stratégie d’organisation
de l’information (Cycle de vie très long et rigide)
19. © Karim Baïna 2016 19
Vélocité - Big Data paradigm shift :
Real Time Analysis Processing (RTAP)
● Les données (événements) arrivent vers les calculs et sont traitées
à la volée avant même d'être stockées
● Les traitements peuvent accueillir plusieurs millions d'événements
par seconde.
Pattern recognition/correlation/scoring rules
Data in Motion
20. © Karim Baïna 2016 20Recommandation
de services/produits
Prévision Catastrophes naturelles
...
Prévision des évolution des épidémies
Traitement des échanges boursiers
Sécurité territoriale
Mesure de la Perception du citoyen
Mesure de la Satisfaction du client
Anticiper les pics
de la circulation
Sécurité du citoyen
21. © Karim Baïna 2016 21
Exemple pratique : Calcul de la
carte du bonheur par pays
Un échantillon
Json de Tweeter
Un dictionnaire
d'émotion
22. © Karim Baïna 2016 22
Exemple pratique : Calcul de la carte du
bonheur par pays (en 7 mini-requêtes HiveQL)
I) Charger Dictionnaire d'émotion
create table dictionary (word string, rating int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY 't';
LOAD DATA LOCAL INPATH '/home/hadoop/AFINN.txt' into TABLE dictionary;
II) Charger Tweets depuis stockage flume
create external table load_tweets(id BIGINT, text STRING, country STRING)
ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe' LOCATION '/user/flume/tweets'
Tokeniser les tweets
create table split_words as select id as id, split(text,' ') as words, country from load_tweets;
Applatir les mots des tweets
create table tweet_word as
select id as id, word, location from split_words LATERAL VIEW explode(words) w as word;
III) Croiser Tweets & Dictionnaire
create table tweet_word_join as
select tweet_word.id, tweet_word.word, country, dictionary.rating
from tweet_word LEFT OUTER JOIN dictionary ON(tweet_word.word =dictionary.word);
Calculer moyenne score de chaque Tweet
create table tweet_rating_avg as
select id, country, AVG(rating) as rating from tweet_word_join GROUP BY id, country order by rating
DESC;
Calculer moyenne score de chaque Pays
create table location_rating_avg as
select country, AVG(rating) as rating from tweet_rating_avg GROUP BY country order by rating DESC;
-Like
23. © Karim Baïna 2016 23
Big Data &
visualisation « Dataviz »
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
24. © Karim Baïna 2016 24
Big Data &
visualisation « Dataviz »
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
25. © Karim Baïna 2016 25
Big Data &
visualisation « Dataviz »
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
26. © Karim Baïna 2016 26
Big Data &
visualisation « Dataviz »
http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
27. © Karim Baïna 2016 27
Big Data &
visualisation « Dataviz »
http://www.theguardian.com/world/interactive/2011/mar/22/middle-east-protest-interactive-timeline
28. © Karim Baïna 2016 28
Big Data &
visualisation « Dataviz »
Not all Arab tweeters agreed with Mona Eltahawy views of feminism in the Arab world
Visualizing Big Data:
Social Network Analysis
by Michael Lieberman, 2014
29. © Karim Baïna 2016 29
Big Data – un écosystème de
nouveaux concepts et technologies
30. © Karim Baïna 2016 30
Dev Ops Engineer
Builds the cluster
Data Analyst
SQL & NoSQL guru
Big Data Developer/
Insight Developer
Insight Developer,
Productise insight
Data Scientist
Data Manager,
Machine learning expert
Data Innovator
Business Analyst,
Data Value services
INFRA DATA ENGINEERING DATA SCIENCE DATA INNOVATION
Big Data – Quels Profils et
Compétences ?
31. © Karim Baïna 2016 31
● Pour devenir Spécialiste de Big Data
– Un Statisticien devra apprendre à manipuler des données
distribuées et qui ne tiennent pas en mémoire RAM d'une
seule machine
– Un analyste métier ingénieur BI (ou analyste d'affaires -
Business Analyst) devra apprendre à écrire et exécuter
des algorithmes décisionnels à l'échelle et faire du
reporting sur des données stockées en format brute
– Un DBA devra apprendre à manipuler des données non-
structurées
– Un ingénieur Génie Logiciel devra apprendre la
modélisation statistique et la communication des résultats
© Bill Howe
Big Data – Quels Profils et
Compétences ?
32. © Karim Baïna 2016 32
Big Data – Eldorado pour la
R&D et l'Innovation
Première rencontre du
Digital Smart Systems Førum
autour de
« Big Data : Nouvelles voies de R&D et
d’Innovation »
Mercredi 01 Juin 2016, ENSIAS
33. © Karim Baïna 2016 33
Nuage des topics liés à 15
conférences sur le Big Data de 2016
Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total
34. © Karim Baïna 2016 34
Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total
cloud 50 2,96%
computing/tation 39 2,30%
analysis/tics 36 2,13%
application(s) 36 2,13%
system(s) 28 1,65%
semantic(s) 26 1,54%
architecture(s)/al 24 1,42%
management/ing 24 1,42%
learning 23 1,36%
service 23 1,36%
network/ing 21 1,24%
web/2 21 1,24%
business 20 1,18%
model/lling 20 1,18%
security 17 1,00%
social 17 1,00%
privacy 16 0,95%
enterprise 15 0,89%
method/ologies 15 0,89%
knowledge 14 0,83%
smart 13 0,77%
recommendations/der 9 0,53%
virtual/isation 7 0,41%
iot 6 0,35%
sensor/itive 6 0,35%
trust/ed/worthy 6 0,35%
interoperability 2 0,12%
Topics liées à 15
conférences sur le Big
Data de 2016 – top 30
35. © Karim Baïna 2016 35
Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total
data enterprise
applications
learning
model/lling techniques/logy
mobile
scale/able
0
20
40
60
80
100
120
0,00%
1,00%
2,00%
3,00%
4,00%
5,00%
6,00%
7,00%
Distribution des apparitions de mots dans les CFP
mot
fréquenced'apparition
science/tist 13 0,77%
bioinformatics/logical/logy/medical/metrics 12 0,71%
health 8 0,47%
market/ing 8 0,47%
transport/ation8 0,47%
energy 7 0,41%
home 7 0,41%
ehealth 5 0,30%
governance 5 0,30%
healthcare 5 0,30%
cities 3 0,18%
econometrics/nomics 3 0,18%
human 3 0,18%
medical 3 0,18%
banking 2 0,12%
hospitals 2 0,12%
industrial 2 0,12%
Topics liées à 15 conférences sur le
Big Data de 2016 – par domaine
36. © Karim Baïna 2016 36
Top 20 des topics liées à 10 études
d'opportunités Big Data (282 pages,
115.623 mots)
service(s)
value/able/ed
computation/al/ally
tool/kit
0,00%
1,00%
2,00%
3,00%
4,00%
5,00%
6,00%
distribution des apparitions des mots dans les études d'opportunité Bi
mots
fréquenced'apparition
privacy/vate/tivally 554 4,91%
governance/nment 392 3,48%
analytic/al/ze.. 370 3,28%
social/itycs/etal/etally/ities/economic/logical/ethnical311 2,76%
global/ization/lly/world 287 2,54%
decision/ding/cisive 283 2,51%
individual/lized 251 2,23%
usability/er/sable/age/ed/ful/fulness220 1,95%
policy/maker/making 213 1,89%
science/tific/tifically 208 1,84%
protection/tected/tecting/tective 2011,78%
system/ic/ematic/emacally 1881,67%
computation/al/ally 167 1,48%
secure/ly/ing/ities 167 1,48%
acces/ssibility/ssible 164 1,45%
digital/lisation/tally/tised 163 1,45%
Marketing 159 1,41%
predict/able/ted/ting/tive/tion/tor 154 1,37%
Mobile 125 1,11%
Analyse de 11280 occurrences de 229 mots du domaine (sans doublons) au total
37. © Karim Baïna 2016 37
Big Data Opportunité 1 - Services
(446 occurrences)
risk
price/cing/stats/discrimination
production/ve/ivity
smart/er/erplanet/meter/phone
devices
bank/ing
transport/ation/ing
car/automtive/mobile
telecom
interoperability
interconnect/ed/ting/tivity
0 10 20 30 40 50 60 70 80 90 100
Nombre d'occurrences dans les études d'opportunité Big Data
Apparition
OpportunitéBigData
38. © Karim Baïna 2016 38
Big Data Opportunité 2 - Security
(396 occurrences )
risk
crime/minal
fraud/ulent
surveillance
account/ability/ant
prevent/tion/ting/tive
anomalies
anonymise/sation
trust/ed/ing/ees
terrorism/ist
cameras
0 10 20 30 40 50 60 70 80 90 100
Nombre d'occurrences dans les études d'opportunité Big Data
Apparition
OpportrunitéBigData
39. © Karim Baïna 2016 39
Big Data Opportunité 3 - Smart
Governement (350 occurrences)
citizen
population
civil/ian/ized/rights
regulatate/lation/lating/lator/latory
popular/rity/rly
democracy/tic/tization/tized
political/ciations/tics
vote/r
0 10 20 30 40 50 60 70 80
Nombre d'occurrences dans les études d'opportunité Big Data
Apparition
OpportunitéBigData
40. © Karim Baïna 2016 40
Big Data Opportunité 4 - Health
(176 occurrences)
medical
genome/tic/ticist/alogy/e
bioinformatics/logical/logy/med/medical/metric/tech
senior
clinical/cian
epicentre/demic/demics/miologic/logical
pharmacy/ceutical/cogenomics
doctor
cancer
0 5 10 15 20 25 30 35 40 45
Nombre d'occurrences dans les études d'opportunité Big Data
Opportunité Big Data
Apparition
41. 41
Opportunités Big Data – Améliorer
le quotidien du citoyen Marocain
Améliorer la Sécurité
Routière – plus de
campagnes et de
signalisation dans les
régions/véhicules à haut
risque
Améliorer la qualité
du transport – mieux
desservir la demande
en période de pic
Améliorer les services
sociaux – mieux desservir les
régions selon les spécialités
manquantes
Réduire le chômage et
augmenter l'employabilité –
mieux connecter offreurs et
demandeurs d'emploi, anticiper
les besoins du marché d'emploi
Améliorer l'éducation –
mieux servir les régions
marginalisées
42. 42
Big Data – Sans oublier bien
évidemment de Préparer le Maroc de
demain
Énergies
Desertec
Développement durable
& Économie verte
Développement humain
& Économie équitable
Environnement
Logistique
Industrie & Services