Conférence présentée par BEY Mickaël et FELLET Tony
Dans cette conférence nous allons parler d’un sujet qui nous concerne tous : l’exploitation des données produites en permanence par toutes les technologies numériques. Elles peuvent provenir de réseaux sociaux, de votre téléphone, de différents capteurs, de l’utilisation de votre carte bancaire. Comment ce volume de données peut-it être traité ? Quelles en sont les différentes utilisations ?
7. Le data deluge
7 To de données par jours
10 To de données par jours
100 h de vidéos chaque minute
Internautes : 2.3 Milliards 2014 4 Milliards en 2020
Objets connectés : 12 Milliards 2014 50 Milliards e
8. Le data deluge
Tous les 2 ans : Création d’autant de données que depuis le début de l’humanité.
2014 : Exaoctets 2020 : Zettaoctet
1 Gigaoctet Un film
1 Téraoctet 1 000 Go
1 Pétaoctet 1 000 000 Go
1 Exaoctet 1 000 000 000 Go
1 Zettaoctet 1 000 000 000 000 Go
Dans le cadre de notre approfondissement technique réalisé au sein de l’exia, nous allons vous présenter le sujet suivant :
Le Big Data est un ensemble de d’outils qui permettent de traiter et d’analyser de larges quantités de données et d’en extraire les informations pertinentes à un coût accessible.
Faire face à l’explosion du volume de données en proposant une alternative aux BDD devenues obsolètes.
L’histoire du Big Data est intimement liée à l’évolution des données et à la façon dont nous les collectons.
19ème : Récolte de données chaque année et plusieurs mois pour pouvoir extraire des statistiques.
20ème : Récolte plus régulière des données, échantillonnage des données considéré comme représentative
1990 : Avec l’’informatique. Stocke les informations dans une BDD. Requête SQL. Limitation technique par sa rapidité d’exécution et par sa centralisation Couteux
Volume: Ensemble des données collectés, traités et analysés.
Variété: Différents types de données
Vitesse (Vélocité): Fréquence de récupération des données
Le data déluge c’est un nouveau phénomène qui représente l’accroissement des données collectées, puisque la quantité de donnée qui augmente exponentiellement
Infra : machines physiques ou dans le cloud, cluster
Stockage : Gère le stockage des données sur les disques
Interrogation : Organisation des données et réponse aux requêtes
Visualisation : Affichage graphique des résultats
Hadoop : Framework libre écrit en java destiné à accueillir des appli distribuées et scalables
(utilisé par Facebook, Microsoft, eBay...)
HDFS : Système de fichier distribué, tolérant à la panne
Map Reduce : Algorithme de distribution de calculs
Spark : Composant très populaire qui veut remplacer map reduce, permet le stockage en ram
Hive : Requêtage des données avec un langage très proche du SQL (select only) (Facebook)
Pig : Outil de manipulation de données avec langage spécifique (Yahoo)
Hbase : Base de données orientée colonnes
ZooKeeper : Coordination des services sur un cluster hadoop
Sqoop : SQl to hadOOP, transfert de données entre BDDR et Hadoop (Hive)
Mongo : BDD orientée document, facilement scalable, stocke du json
Neo4j : BDD orienté graphe, utile pour stocker les réseaux sociaux, réseaux routiers et internet, etc.)(Utilisé par Viadeo)
Plus de détails dans la conférence suivante
Pour conclure, ce qu’il faudra retenir c’est que le Big Data est un ensemble d’outil qui interagissent entre eux et qui permettent de passer de données brutes à des indices pertinent, c’est-à-dire créer de la valeur à partir de vos données. De plus, avec la quantité de données qui ne cesse d’augmenter, le Big Data va devenir un élément incontournable dans les prochaines années.
C’est la fin de notre présentation sur le Big Data. Nous espérons que cela vous aura permis de mieux cerner ce qu’est concrètement le Big Data ainsi que les usages que l’ont peut en faire et les enjeux qui en découlent.
Si vous avez des questions, nous seront ravis d’y répondre. Merci de votre attention.