2. Plan
- Big Data?
- Statistiques
- Les 3V de Big Data
- Enjeux à venir
- Comment exploiter ces Big Data?
- Hadoop & ses alternatives
- Exemple d’utilisation
3. Big Data, Qu'est-ce que c'est ?
Big Data = 7 lettres …
Il s'agit d'une problématique engendrée par la
grande quantité de données publiées sur Internet :
des profils, ebooks, videos, musique, conversations
en ligne, des flux de sites d'actualités…
Aujourd’hui, Internet est fait de tous les types de
données.
4. Qu'est-ce que c'est maintenant ?
Autrement que les 7 lettres, Big Data est la
combinaison de l'infrastructure, les algorithmes et
les méthodes de visualisations utilisées pour
donner un sens sur l'utilisateur et les données
générées d’une machine ou un système.
5. D'où les Big Data proviennent-elles?
Social data : Tweets, upload de vidéos sur Youtube
et images sur Flickr..
Transactional data : paiement en ligne, factures,
enregistrements de livraison …
Machine data : données recueillies à partir des
équipements industriel (journalisation et
surveillance) …
6. Les formes de Big Data?
- Générée par l’utilisateur
- Générée par une machine ou une application
- Structurée (XML/ JSON/ Tabulations ….)
- Non structuré (texte brute)
7. Stats
1971 : le premier email est envoyé ‘QUERTYUIO’
en 10 octets.
1972 : Internet est présenté au grand public.
2010 : près de 1000 milliards Go sur Internet.
2015 : Estimation de 8 Zo, ~ 8000 milliards Go, ~
250 milliards de DVD.
9. Que peuvent les Big Data engendrer ?
- Dans un réseau, on peut surveiller et voir le trafic
mais aussi qui veut attaquer notre SI...
- Qui ont acheté un tel produit d’un e-Shop, mais
aussi des stats sur leurs profils ()...
- Les erreurs d’une application, mais aussi les
vraies causes (qui/ pourquoi/ quand)? ..
- Les effets d’un utilisateur dans une application…
10. Quels enjeux à venir ?
Comment exploiter au mieux cet immense potentiel
?
>>>> Créer des outils pour analyser, trier puis
exploiter ces données au quotidien.
Et ce en temps réel du futur d'Internet.
C'est probablement l'un des plus grands défis
informatiques des prochaines années.
11. Comment exploiter ces Big Data?
La notion de Big Data est intimement lié à la
capacité de traitement de gros volume.
C’est pourquoi Google a inventé l’algorithme de
MapReduce en 2004 afin de distribuer des
traitements sur un ensemble de machines et faire
face aux problèmes d’exploitation de Big Data.
12. Hadoop : Naissance
Les leader du Web Facebook, Twitter et Yahoo ont
confronté le même problème que Google. Ils ont
choisi alors de contribuer au développement de
MapReduce, d’où le framework Hadoop vient d’être
crée, sous la gouvernance de la fondation Apache
en 2008.
13. Hadoop : Concept
HDFS(Hadoop Distributed File
System) un système de fichiers
virtuel sous forme de noeuds de
données.
MapReduce (map tasks then
reduction by grouping)
un modèle de programmation
parallèle permettant de traiter de
grands volumes de données.
14. Les alternatives de Hadoop
LINQ/Dryad de Microsoft utilisé par Bing
Pig de Yahoo
HBase de Facebook
Azkaban LinkedIn
Cassandra
15. Big Data : Exemple d’application
- Ford analyse les données d’interaction au cours
de la conduite pour plus de confort.
- Konami utilise des Zeta de Go requis par internet
pour analyser et améliorer la réalité du jeux.
- Walmart utilise les données des clients (achats et
profile) pour améliorer les campagnes de marketing
et le ciblage produit-client.
16. Big Data : Exemple d’application
- Facebook utilisent les Social Data pour la
recomendation et la categorisation des ads.
- Google de même utilise les données collectées
des machines via les Cookies du navigateur pour
améliorer le ciblage ads/user.
- Obama a réussi sa campagne électorale 2012 à l’
aide d’une équipe spécialisée en Big Data.