SlideShare uma empresa Scribd logo
1 de 33
Big Data
Mouna TORJMEN KHEMAKHEM
Ecole Nationale d’Ingénieurs de Sfax (ENIS)
2017-2018
Chapitre 1
Introduction à Big Data
Mouna TORJMEN KHEMAKHEM
Historique du Big Data
Définition du Big Data
Les 5Vs du Big Data
Plan du chapitre
Les 5Vs du Big Data
Spécificités du Big Data
Les domaines d’application du Big Data
Mouna TORJMEN KHEMAKHEM
BIG DATA Landscape (2012)
4444
Mouna TORJMEN KHEMAKHEM
BIG DATA Landscape Version 3.0 (2016)
5555
Mouna TORJMEN KHEMAKHEM
Big Data est plus qu’un logiciel, c’est un domaine d’activité!
6666
Mouna TORJMEN KHEMAKHEM
Google : Le système de fichier GFS
• Problème de stockage de l’index volumineux du moteur de
recherche Google.
1. Utilisation d’un SGBDR ?
BIG DATA: Historique
1. Utilisation d’un SGBDR ?
Problème de distribution des données
Problème du nombre d’utilisateurs
Problème de vitesse du moteur de recherche
2. Invention d’un nouveau système propriétaire : GFS ( Google File
Système) en 2003
7777
Mouna TORJMEN KHEMAKHEM
Google : Le système de fichier GFS
BIG DATA: Historique
8888
https://fr.wikipedia.org/wiki/Google_File_System
Mouna TORJMEN KHEMAKHEM
Google : Le système de fichier GFS
-MapReduce : Simplified Data Processing on Large Clusters
- -algorithme inventé par Google Inc permettant la distribution des traitements
sur un ensemble de machines avec le système GFS.
- Google possède aujourd'hui plus de 1 000 000 de serveurs interconnectés
BIG DATA: Historique
- Google possède aujourd'hui plus de 1 000 000 de serveurs interconnectés
dans le monde.
9999
Mouna TORJMEN KHEMAKHEM
BIG DATA: Définition
Données massives
Données incertaines
Visualisation de
donnéesBig
Data
Big
Data
Traitements parallèles
Données distribuées
Données non
structurées
Flux de données Fouille de données
Machine Learning
Prédiction et Prévision
10101010
DataData
Mouna TORJMEN KHEMAKHEM
Big Data = données massives
Facilité d’acquisition des données: capteurs, télescopes, cartes de
fidélité, réseaux sociaux, …
BIG DATA: Définition
fidélité, réseaux sociaux, …
Baisse des prix des supports de stockage
11111111
Mouna TORJMEN KHEMAKHEM
Big data = données distribuées
Quantités de données énormes
BIG DATA: Définition
Utilisation d’une seule machine impossible
Acquisition des données à des endroits différents
Transfert couteux en terme de temps
12121212
Mouna TORJMEN KHEMAKHEM
Big data = données incertaines
Imprécision des capteurs
BIG DATA: Définition
– Les images transmises par un télescope sont altérées
Fausses données sur les réseaux sociaux
– Les données des réseaux sociaux sont souvent incomplètes et
bruitées
13131313
Mouna TORJMEN KHEMAKHEM
Big Data = données non/peu structurées
Non structurées: vidéo
Peu structurées: tweets
BIG DATA: Définition
Peu structurées: tweets
Très structurées: tickets de caisse
Les systèmes NoSQL permettent une structuration lâche
14141414
Mouna TORJMEN KHEMAKHEM
Big Data = flux de données
Arrivé des données en continu (stream data)
Traitement efficace=prise en charge des données au moment d’arrivée
BIG DATA: Définition
Traitement efficace=prise en charge des données au moment d’arrivée
Proposition des algorithmes ne nécessitant pas plusieurs passes sur les
données
15151515
Mouna TORJMEN KHEMAKHEM
Big Data = Traitement parallèle
Stockage des données d’une manière distribuée traitement
parallèle autant que possible
BIG DATA: Définition
Remarque: Un traitement parallèle n’est pas forcément plus
rapide qu’un traitement séquentiel.
16161616
Mouna TORJMEN KHEMAKHEM
Big Data = Visualisation de données
Données massives Résultats massifs
Comment analyser et comprendre ces résultats énormes?
BIG DATA: Définition
Comment analyser et comprendre ces résultats énormes?
Visualisation: représentation graphique de données
17171717
Mouna TORJMEN KHEMAKHEM
Big Data = Fouille de données
Data Mining à partir de gros volumes de données
Extraction d'un savoir ou d'une connaissance
BIG DATA: Définition
Extraction d'un savoir ou d'une connaissance
18181818
Mouna TORJMEN KHEMAKHEM
Big Data = Prédiction et Prévision
Explication de phénomènes
Prévision des conséquences Réduire les risques
Analyse prédictif du futur Aide à la prise de décisions
BIG DATA: Définition
Analyse prédictif du futur Aide à la prise de décisions
19191919
Mouna TORJMEN KHEMAKHEM
Big Data = Machine Learning
Grâce aux grosses quantités de données
BIG DATA: Définition
Extraction des modèles au lieu de valeurs précises
Ces modèles sont
– plus précis grâce à la disponibilité de données
– plus difficiles à réaliser à cause de la quantité des données
20202020
Mouna TORJMEN KHEMAKHEM
Gartner (2001) – 3Vs
Les 5 Vs de BIG DATA
21212121
IBM (2012) – 4Vs
Mouna TORJMEN KHEMAKHEM
2015: 5 Vs
Les 5 Vs de BIG DATA
22222222
Mouna TORJMEN KHEMAKHEM
Volume
Quantité de données croissante (teraoctets et même petaoctets).
En 1 minute Internet (30h vidéos, 204 millions emails, 300 milles tweets…)
Estimation d’une croissance de 800% des quantités de données à traiter dans 5
ans.
Les 5 Vs de BIG DATA
23232323
Mouna TORJMEN KHEMAKHEM
Variété
Données structurées (20%) :bases de données structurée, feuilles de calcul de
tableur, …
Données non structurées (80%) : textes, sons, photos, vidéos, emails ,
messages réseaux sociaux, …
Les 5 Vs de BIG DATA
Diversité des données
Variété
24242424
Mouna TORJMEN KHEMAKHEM
Vélocité : rapidité des flux de données
Données en temps réel (internet of things, détection de fraudes, …).
Analyse de ces données au moment de leur génération sans les stocker en
bases de données.
Les 5 Vs de BIG DATA
Exemple :
- Streaming Data: caméra de surveillance
- 100 Capteurs / voiture moderne pour la surveillance
25252525
Mouna TORJMEN KHEMAKHEM
Véracité
Qualité de la fiabilité des données.
Données bruitées, imprécises, …
Exemple:
Les 5 Vs de BIG DATA
Exemple:
-Faux profils sur les réseaux sociaux
-Fausses informations et faux avis des consommateurs sur un
produit.
-Capteurs défectueux.
Smart Data26262626
Mouna TORJMEN KHEMAKHEM
Valeur
Utilisation des stratégie adéquates pour une création de valeur
des données disponibles
apport de la valeur ajoutée et de nouvelles connaissances.
Les 5 Vs de BIG DATA
apport de la valeur ajoutée et de nouvelles connaissances.
27272727
Mouna TORJMEN KHEMAKHEM
• Distribution des données
Les spécificités du BIG DATA
Nœud 1
Nœud 2
Nœud 3
•Traitement en parallèle
28282828
Nœud 3
Mouna TORJMEN KHEMAKHEM
• Tolérance aux pannes
Les spécificités du BIG DATA
Fichier
29292929 Nœud 1 Nœud 2 Nœud 3 Nœud n
Mouna TORJMEN KHEMAKHEM
• Utilisation de matériel standard
• Flexibilité, évolutivité et scalabilité
Les spécificités du BIG DATA
RAID
• Flexibilité, évolutivité et scalabilité
30303030
Mouna TORJMEN KHEMAKHEM
Santé
• Dépister de manière précoce la maladie d’un individu grâce aux
requêtes qu’il a effectuées sur les moteurs de recherche en ligne
• Médecine personnalisée: choisir le traitement en fonction des
meilleures prédictions faites grâce au big data, prenant en compte
Domaines d’application de BIG DATA
meilleures prédictions faites grâce au big data, prenant en compte
un ensemble de critères variés allant de la génétique au mode
d’alimentation .
• Analyser les données de santé d’une population pour prévoir les
maladies et les épidémies, savoir les causes environnementales et
prendre les préventions nécessaires.
31313131
Mouna TORJMEN KHEMAKHEM
Marketing
• Analyse prédictive : prédiction de ce que cherche le client en
analysant l’historique de ses achats et proposition d’achat sur les
zones des offres et des publicités afin d’augmenter les achats.
• Analyse des sentiments : détection de satisfaction ou de
Domaines d’application de BIG DATA
• Analyse des sentiments : détection de satisfaction ou de
mécontentement des clients envers un produit en analysant leurs
posts sur les réseaux sociaux.
Analyse de tweets en temps réel
•Identification des terroristes par leurs tweets publiés
•Identification des thèmes les plus abordées en temps réel
•Analyse de sentiments
32323232
Mouna TORJMEN KHEMAKHEM
Politique
• L’analyse de Big Data a joué un rôle important dans la
campagne de ré-élection de Barack Obama, notamment
pour analyser les opinions politiques de la population.
Domaines d’application de BIG DATA
• En 2014, SIGMA conseil a utilisé le Big Data pour
donner l’estimation du résultat de vote préliminaire en
Tunisie.
33333333
Mouna TORJMEN KHEMAKHEM

Mais conteúdo relacionado

Mais procurados

Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big dataAbdelghani Azri
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5Amal Abid
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesJean-Michel Franco
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingLilia Sfaxi
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesLilia Sfaxi
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 
Introduction à la Business Intelligence
Introduction à la Business Intelligence Introduction à la Business Intelligence
Introduction à la Business Intelligence Cynapsys It Hotspot
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehousenzuguem
 

Mais procurados (20)

Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Chapitre 3 spark
Chapitre 3 sparkChapitre 3 spark
Chapitre 3 spark
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
Hadoop
HadoopHadoop
Hadoop
 
Resume de BI
Resume de BIResume de BI
Resume de BI
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Introduction à la Business Intelligence
Introduction à la Business Intelligence Introduction à la Business Intelligence
Introduction à la Business Intelligence
 
Histoire du big data
Histoire du big dataHistoire du big data
Histoire du big data
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Présentation bi 1.0
Présentation bi 1.0Présentation bi 1.0
Présentation bi 1.0
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehouse
 

Semelhante a Chapitre1 introduction

Baina bigdata introduction 2016
Baina bigdata introduction 2016Baina bigdata introduction 2016
Baina bigdata introduction 2016Karim Baïna
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015IBM France Lab
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleMedhi Corneille Famibelle*
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Micropole Group
 
Blend conference 2013 bigdata 4
Blend conference 2013   bigdata 4Blend conference 2013   bigdata 4
Blend conference 2013 bigdata 4lmugnier
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big DataAlain KHEMILI
 
Baina bigdata le futur eldorado
Baina bigdata le futur eldoradoBaina bigdata le futur eldorado
Baina bigdata le futur eldoradoKarim Baïna
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
Festival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousFestival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousAlexandra Loria
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceExcelerate Systems
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATAISACA Chapitre de Québec
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxExcelerate Systems
 
Big Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entrepriseBig Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entrepriseGenève Lab
 

Semelhante a Chapitre1 introduction (20)

Big data
Big dataBig data
Big data
 
Baina bigdata introduction 2016
Baina bigdata introduction 2016Baina bigdata introduction 2016
Baina bigdata introduction 2016
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017
 
Blend conference 2013 bigdata 4
Blend conference 2013   bigdata 4Blend conference 2013   bigdata 4
Blend conference 2013 bigdata 4
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data
 
Introduction
IntroductionIntroduction
Introduction
 
Baina bigdata le futur eldorado
Baina bigdata le futur eldoradoBaina bigdata le futur eldorado
Baina bigdata le futur eldorado
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node
 
Festival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousFestival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tous
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems France
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATA
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
 
Big Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entrepriseBig Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entreprise
 

Mais de Mouna Torjmen

POO Java Introduction
POO Java IntroductionPOO Java Introduction
POO Java IntroductionMouna Torjmen
 
POO Java Chapitre 6 Exceptions
POO Java  Chapitre 6 ExceptionsPOO Java  Chapitre 6 Exceptions
POO Java Chapitre 6 ExceptionsMouna Torjmen
 
POO Java Chapitre 4 Heritage et Polymorphisme
POO Java Chapitre 4 Heritage et PolymorphismePOO Java Chapitre 4 Heritage et Polymorphisme
POO Java Chapitre 4 Heritage et PolymorphismeMouna Torjmen
 
POO Java Chapitre 3 Collections
POO Java Chapitre 3 CollectionsPOO Java Chapitre 3 Collections
POO Java Chapitre 3 CollectionsMouna Torjmen
 
POO Java Chapitre 2 Encapsulation
POO Java Chapitre 2 EncapsulationPOO Java Chapitre 2 Encapsulation
POO Java Chapitre 2 EncapsulationMouna Torjmen
 
POO Java Chapitre 1 Classe & Objet
POO Java Chapitre 1 Classe & ObjetPOO Java Chapitre 1 Classe & Objet
POO Java Chapitre 1 Classe & ObjetMouna Torjmen
 
Apprentissage Par Projet APP
Apprentissage Par Projet APPApprentissage Par Projet APP
Apprentissage Par Projet APPMouna Torjmen
 

Mais de Mouna Torjmen (9)

POO Java Introduction
POO Java IntroductionPOO Java Introduction
POO Java Introduction
 
POO Java Chapitre 6 Exceptions
POO Java  Chapitre 6 ExceptionsPOO Java  Chapitre 6 Exceptions
POO Java Chapitre 6 Exceptions
 
POO Java Chapitre 4 Heritage et Polymorphisme
POO Java Chapitre 4 Heritage et PolymorphismePOO Java Chapitre 4 Heritage et Polymorphisme
POO Java Chapitre 4 Heritage et Polymorphisme
 
POO Java Chapitre 3 Collections
POO Java Chapitre 3 CollectionsPOO Java Chapitre 3 Collections
POO Java Chapitre 3 Collections
 
POO Java Chapitre 2 Encapsulation
POO Java Chapitre 2 EncapsulationPOO Java Chapitre 2 Encapsulation
POO Java Chapitre 2 Encapsulation
 
POO Java Chapitre 1 Classe & Objet
POO Java Chapitre 1 Classe & ObjetPOO Java Chapitre 1 Classe & Objet
POO Java Chapitre 1 Classe & Objet
 
TIC & E-Learning
TIC & E-LearningTIC & E-Learning
TIC & E-Learning
 
Apprentissage Par Projet APP
Apprentissage Par Projet APPApprentissage Par Projet APP
Apprentissage Par Projet APP
 
Chapitre 4 no sql
Chapitre 4 no sqlChapitre 4 no sql
Chapitre 4 no sql
 

Chapitre1 introduction

  • 1. Big Data Mouna TORJMEN KHEMAKHEM Ecole Nationale d’Ingénieurs de Sfax (ENIS) 2017-2018
  • 2. Chapitre 1 Introduction à Big Data Mouna TORJMEN KHEMAKHEM
  • 3. Historique du Big Data Définition du Big Data Les 5Vs du Big Data Plan du chapitre Les 5Vs du Big Data Spécificités du Big Data Les domaines d’application du Big Data Mouna TORJMEN KHEMAKHEM
  • 4. BIG DATA Landscape (2012) 4444 Mouna TORJMEN KHEMAKHEM
  • 5. BIG DATA Landscape Version 3.0 (2016) 5555 Mouna TORJMEN KHEMAKHEM
  • 6. Big Data est plus qu’un logiciel, c’est un domaine d’activité! 6666 Mouna TORJMEN KHEMAKHEM
  • 7. Google : Le système de fichier GFS • Problème de stockage de l’index volumineux du moteur de recherche Google. 1. Utilisation d’un SGBDR ? BIG DATA: Historique 1. Utilisation d’un SGBDR ? Problème de distribution des données Problème du nombre d’utilisateurs Problème de vitesse du moteur de recherche 2. Invention d’un nouveau système propriétaire : GFS ( Google File Système) en 2003 7777 Mouna TORJMEN KHEMAKHEM
  • 8. Google : Le système de fichier GFS BIG DATA: Historique 8888 https://fr.wikipedia.org/wiki/Google_File_System Mouna TORJMEN KHEMAKHEM
  • 9. Google : Le système de fichier GFS -MapReduce : Simplified Data Processing on Large Clusters - -algorithme inventé par Google Inc permettant la distribution des traitements sur un ensemble de machines avec le système GFS. - Google possède aujourd'hui plus de 1 000 000 de serveurs interconnectés BIG DATA: Historique - Google possède aujourd'hui plus de 1 000 000 de serveurs interconnectés dans le monde. 9999 Mouna TORJMEN KHEMAKHEM
  • 10. BIG DATA: Définition Données massives Données incertaines Visualisation de donnéesBig Data Big Data Traitements parallèles Données distribuées Données non structurées Flux de données Fouille de données Machine Learning Prédiction et Prévision 10101010 DataData Mouna TORJMEN KHEMAKHEM
  • 11. Big Data = données massives Facilité d’acquisition des données: capteurs, télescopes, cartes de fidélité, réseaux sociaux, … BIG DATA: Définition fidélité, réseaux sociaux, … Baisse des prix des supports de stockage 11111111 Mouna TORJMEN KHEMAKHEM
  • 12. Big data = données distribuées Quantités de données énormes BIG DATA: Définition Utilisation d’une seule machine impossible Acquisition des données à des endroits différents Transfert couteux en terme de temps 12121212 Mouna TORJMEN KHEMAKHEM
  • 13. Big data = données incertaines Imprécision des capteurs BIG DATA: Définition – Les images transmises par un télescope sont altérées Fausses données sur les réseaux sociaux – Les données des réseaux sociaux sont souvent incomplètes et bruitées 13131313 Mouna TORJMEN KHEMAKHEM
  • 14. Big Data = données non/peu structurées Non structurées: vidéo Peu structurées: tweets BIG DATA: Définition Peu structurées: tweets Très structurées: tickets de caisse Les systèmes NoSQL permettent une structuration lâche 14141414 Mouna TORJMEN KHEMAKHEM
  • 15. Big Data = flux de données Arrivé des données en continu (stream data) Traitement efficace=prise en charge des données au moment d’arrivée BIG DATA: Définition Traitement efficace=prise en charge des données au moment d’arrivée Proposition des algorithmes ne nécessitant pas plusieurs passes sur les données 15151515 Mouna TORJMEN KHEMAKHEM
  • 16. Big Data = Traitement parallèle Stockage des données d’une manière distribuée traitement parallèle autant que possible BIG DATA: Définition Remarque: Un traitement parallèle n’est pas forcément plus rapide qu’un traitement séquentiel. 16161616 Mouna TORJMEN KHEMAKHEM
  • 17. Big Data = Visualisation de données Données massives Résultats massifs Comment analyser et comprendre ces résultats énormes? BIG DATA: Définition Comment analyser et comprendre ces résultats énormes? Visualisation: représentation graphique de données 17171717 Mouna TORJMEN KHEMAKHEM
  • 18. Big Data = Fouille de données Data Mining à partir de gros volumes de données Extraction d'un savoir ou d'une connaissance BIG DATA: Définition Extraction d'un savoir ou d'une connaissance 18181818 Mouna TORJMEN KHEMAKHEM
  • 19. Big Data = Prédiction et Prévision Explication de phénomènes Prévision des conséquences Réduire les risques Analyse prédictif du futur Aide à la prise de décisions BIG DATA: Définition Analyse prédictif du futur Aide à la prise de décisions 19191919 Mouna TORJMEN KHEMAKHEM
  • 20. Big Data = Machine Learning Grâce aux grosses quantités de données BIG DATA: Définition Extraction des modèles au lieu de valeurs précises Ces modèles sont – plus précis grâce à la disponibilité de données – plus difficiles à réaliser à cause de la quantité des données 20202020 Mouna TORJMEN KHEMAKHEM
  • 21. Gartner (2001) – 3Vs Les 5 Vs de BIG DATA 21212121 IBM (2012) – 4Vs Mouna TORJMEN KHEMAKHEM
  • 22. 2015: 5 Vs Les 5 Vs de BIG DATA 22222222 Mouna TORJMEN KHEMAKHEM
  • 23. Volume Quantité de données croissante (teraoctets et même petaoctets). En 1 minute Internet (30h vidéos, 204 millions emails, 300 milles tweets…) Estimation d’une croissance de 800% des quantités de données à traiter dans 5 ans. Les 5 Vs de BIG DATA 23232323 Mouna TORJMEN KHEMAKHEM
  • 24. Variété Données structurées (20%) :bases de données structurée, feuilles de calcul de tableur, … Données non structurées (80%) : textes, sons, photos, vidéos, emails , messages réseaux sociaux, … Les 5 Vs de BIG DATA Diversité des données Variété 24242424 Mouna TORJMEN KHEMAKHEM
  • 25. Vélocité : rapidité des flux de données Données en temps réel (internet of things, détection de fraudes, …). Analyse de ces données au moment de leur génération sans les stocker en bases de données. Les 5 Vs de BIG DATA Exemple : - Streaming Data: caméra de surveillance - 100 Capteurs / voiture moderne pour la surveillance 25252525 Mouna TORJMEN KHEMAKHEM
  • 26. Véracité Qualité de la fiabilité des données. Données bruitées, imprécises, … Exemple: Les 5 Vs de BIG DATA Exemple: -Faux profils sur les réseaux sociaux -Fausses informations et faux avis des consommateurs sur un produit. -Capteurs défectueux. Smart Data26262626 Mouna TORJMEN KHEMAKHEM
  • 27. Valeur Utilisation des stratégie adéquates pour une création de valeur des données disponibles apport de la valeur ajoutée et de nouvelles connaissances. Les 5 Vs de BIG DATA apport de la valeur ajoutée et de nouvelles connaissances. 27272727 Mouna TORJMEN KHEMAKHEM
  • 28. • Distribution des données Les spécificités du BIG DATA Nœud 1 Nœud 2 Nœud 3 •Traitement en parallèle 28282828 Nœud 3 Mouna TORJMEN KHEMAKHEM
  • 29. • Tolérance aux pannes Les spécificités du BIG DATA Fichier 29292929 Nœud 1 Nœud 2 Nœud 3 Nœud n Mouna TORJMEN KHEMAKHEM
  • 30. • Utilisation de matériel standard • Flexibilité, évolutivité et scalabilité Les spécificités du BIG DATA RAID • Flexibilité, évolutivité et scalabilité 30303030 Mouna TORJMEN KHEMAKHEM
  • 31. Santé • Dépister de manière précoce la maladie d’un individu grâce aux requêtes qu’il a effectuées sur les moteurs de recherche en ligne • Médecine personnalisée: choisir le traitement en fonction des meilleures prédictions faites grâce au big data, prenant en compte Domaines d’application de BIG DATA meilleures prédictions faites grâce au big data, prenant en compte un ensemble de critères variés allant de la génétique au mode d’alimentation . • Analyser les données de santé d’une population pour prévoir les maladies et les épidémies, savoir les causes environnementales et prendre les préventions nécessaires. 31313131 Mouna TORJMEN KHEMAKHEM
  • 32. Marketing • Analyse prédictive : prédiction de ce que cherche le client en analysant l’historique de ses achats et proposition d’achat sur les zones des offres et des publicités afin d’augmenter les achats. • Analyse des sentiments : détection de satisfaction ou de Domaines d’application de BIG DATA • Analyse des sentiments : détection de satisfaction ou de mécontentement des clients envers un produit en analysant leurs posts sur les réseaux sociaux. Analyse de tweets en temps réel •Identification des terroristes par leurs tweets publiés •Identification des thèmes les plus abordées en temps réel •Analyse de sentiments 32323232 Mouna TORJMEN KHEMAKHEM
  • 33. Politique • L’analyse de Big Data a joué un rôle important dans la campagne de ré-élection de Barack Obama, notamment pour analyser les opinions politiques de la population. Domaines d’application de BIG DATA • En 2014, SIGMA conseil a utilisé le Big Data pour donner l’estimation du résultat de vote préliminaire en Tunisie. 33333333 Mouna TORJMEN KHEMAKHEM