SlideShare une entreprise Scribd logo
1  sur  124
Formation Big Data
Initiation, concepts, architectures,
administration et développements
pour architecte et consultant
✘ Veuillez vous présenter :
✗ Vôtre nom et prénom
✗ Fonction, société
✗ Avez vous une expérience Big Data? Qu’avez vous fait ?
✗ Quelles sont vos attentes de ce cours ?
Tour de table
TOUR DE TABLE
Mehdi TAZI
✘ Architecte BigData
✘ Freelancer, ex OCTO
✘AXA, BNP, EDF, LA
POSTE, AL BARID BANK,
✘ ARCHI, DEV, ADMIN,
ORGA...
Contact :
> slack : slack.itinsight.fr
> web : tazimehdi.com / itinsight.fr
> mail : mehdi@tazimehdi.com / mehdi.tazi@itinsight.fr
✘ Communication interactive par
thème
Déroulement
✘ Osez poser vos questions de façon interactive
> des termes utilisés, sujets non compris
> des problématiques liées à votre travail
> des questions d’ordre générale par thème
Technologique, Méthodologique, Organisationnelle…
Outils nécessaires
Cassandra Server : http://cassandra.apache.org/download/
Cassandra Dev Center : http://www.datastax.com/what-we-offer/products-services/devcenter
MongoDB server : https://www.mongodb.com/download-center#community
Horntonworks HDP : http://hortonworks.com/downloads/
Cloudera CDH : https://www.cloudera.com/downloads/quickstart_vms/5-10.html
VirtualBox
https://www.virtualbox.org/wiki/Downloads
Programme
Programme
Concepts technologique
Commun
Hadoo
p
NoSQ
L
Spark ELK
Historique + RappelConsultant(Accompagnement)
Entretient
Vue d’ensemble
Architectes, Développeurs,
Administrateurs, Consultants,
Accompagnement
Spécialisation
Architectes, Développeurs,
Administrateurs, Consultants,
Accompagnement
Programme
✘ Introduction à la Big Data
✘ Vue d’ensemble
✘ Concepts architecturaux
✘ Couches et technologies
✘ Le NoSQL
✘ Datalake & Datalab
✘ Information generales & Atelier questions/reponses
Introduction
Big data is like teenage sex : everyone talks about it, nobody
really knows how to do it, everyone thinks everyone else is
doing it, so everyone claims they are doing it...
Dan Ariely
C’est quoi selon vous le big data ?
Introduction à la Big Data
✘ Traitement et stockage massives des gros volumes de données
✘ Explosion quantitative des données numériques
C’est quoi la Big Data? (1/2)
Introduction à la Big Data
✘ Données provenant de plusieurs sources :
✗ Capteurs : température, pression…
✗ IOT : montres connectées, balances, Smartphones…
✗ Messages sur les réseaux sociaux : tweet, posts…
✗ Transactions et logs : banques, e-commerce…
✗ Images, vidéos et sons : instagram, youtube, snapchat, deezer, spotify…
✗ Autres : GPS, email, sms…
C’est quoi la Big Data? (2/2)
Introduction à la Big Data
Qu’est ce qui se passe chaque minute sur Internet?
Source : Qmee
log
Storage
RT Processing
ex : pic tag, batch concu
adds
RT Processing
Introduction à la Big Data
✘ Les solutions actuelles coûtent cher : archivage et traitement
✘ Répondre à des problématiques métiers avec plus de précision et de
rapidité.
✘ Améliorer la prise de décision basée sur l’analyse de très gros volumes de
données.
✘ Tirer un avantage concurrentiel à travers la collecte, l’analyse, la prédiction
et l’exploitation des données sur de grandes profondeurs. ( DDC )
✘ La création de nouveaux cas d’usages et de valeurs business basées sur la
données et la technologie. ( cloud , données …)
✘ Un outil au service du métier  Une offre de service à part entière (AXA/ ERDF)
Quel est l’intérêt d’adopter le big data?
Introduction à la Big Data
✘ Au début c’était destiné aux gros acteurs du web et les grandes
multinationales :
✗ Facebook, Google, Amazon…
✗ Fedex, Walmart, Citi…
✘ Maintenant de plus en plus de monde y est concerné :
✗ De gros Acteurs : Axa, BNP Paribas, La Poste, EDF…
✗ Des nouveaux : Snapchat, whatsapp, pokemon go …
✗ Vous ?
Pour qui ?
Introduction à la Big Data
✘ Energie
✗ Amélioration de la production et distribution d’énergie
✗ Information en temps réel sur les débits et la qualité
✗ Détection des problèmes de réseaux
✗ Automatisation du processus de collecte de données
✘ Transport et distribution
✗ Optimisation des trajets et réductions des coûts
✗ Ajustement d’offre et de demande par zone géographique
✘ Produits de Luxe et grandes consommations
✗ Analyse de sentiments et retour produits *
✗ Amélioration de la satisfaction des clients
✗ Identification de nouveaux besoins et désirs *
✗ Recommandations
Cas d’usage réel (1/2)
Introduction à la Big Data
✘ E-Commerce
✗ Amélioration des stocks et de l’expérience clients.
✗ Gestion plus fine et dynamique des prix de vente
✗ Personnalisation des offres
✗ Pricing dynamique *
✗ Marketing ciblé
✘ Services publics et banques
✗ Archivage et données publiques
✗ Lute contre la fraude et abus *
✗ Amélioration des processus
✗ Sécurité
✘ Autres
✗ Fidéliser les clients des casinos en intervenant avant que les pertes des joueurs
ne soit trop élevées
✗ Détecter les potentiel futures boxs en pannes : météo, géolocalisation, état box.. *
Cas d’usage réel (2/2)
Buzzwords
Introduction à la Big Data
Big Data, Fast Data, Smart Data et Open Data
Big Data
Fast Data
Smart
Data
Open
Data
Quiz Time !
Questions / Réponses
> Comment définir le Big data en une seule phrase ?
> Pourquoi adopter le Big data ?
> Qu’est ce que la smart data ?
> Qu’est ce que le fast data ?
> Qu’est ce que l’open data ?
> A quelles problématiques répond le big data ?
> A quelles problématiques répond le fast data ?
J’entend souvent parler des 3V, mais c’est
quoi exactement ?
Introduction à la Big Data
Les 3V
Variété
File
Json, CSV, Texte,
Png, Log ...
Vélocité
Batch
Periodic
Near RT
RealTime
100 ms, 30 min, 7h, 1j, 30000
events/time unit …
Volume
Mb
Gb
Tb
Pb
10Gb, 10Tb, 2Pb …
Et c’est quoi cette histoire de
5V ?
Introduction à la Big Data
Propriété d’un Système big data - Les 5V
Variété
File
Json, CSV, Texte,
Png, Log ...
Vélocité
Batch
Periodic
Near RT
RealTime
100 ms, 30 min, 7h, 1j, 30000
events/time unit …
Volume
Mb
Gb
Tb
Pb
10Gb, 10Tb, 2Pb …
Véracité
31
2
Valeur
Quiz Time !
Questions / Réponses
> Citez les 3 principales propriétés d’un systèmes big data
> Citez deux autres propriétés
> Qu’elles sont les problématiques liées à la volumétries ?
> Qu’elles sont les problématiques liée à la vélocité ?
> Qu’elles sont les problématiques liée à véracité ?
Big Picture
Vue d’ensemble
VUE D’ENSEMBLE – ARCHITECTURE FONCTIONELLE
Processing
Exchange
Storage
Data
Management
Consume
VUE D’ENSEMBLE – ARCHITECTURE TECHNIQUE
Operational
databases
Datalake
Ingestion / ETL / ELT / Integration
Datawarehouse DataLab
Reporting &
DataViz
Monitoring APIs
Quiz Time !
Questions / Réponses
> Quelles sont les 5 grandes briques fonctionnelles d’un système bigdata ?
> Quelles sont les 4 grandes fonctionnalités que gère la brique de stockage
?
> Quelles sont les 3 grandes fonctionnalités que gère la brique de
traitement ?
> Quelles sont les 3 grandes fonctionnalités que gère la brique de sécurité
?
> Où se positionne un système Big Data par rapport au reste du SI ?
Concepts architecturaux
Concepts architecturaux
✘ Besoin : Traitement et stockage massif des gros volumes de données
✘ Limites : Ajouter plus de puissance aux machines :
✗ Stockage: Disque dur, mémoire …
✗ Traitement: CPU, parallélisme …
✘ Solution : Archiver et traiter l’information de façon distribuée afin de
bénéficier de plus de capacité de puissance
✘ Le Big data repose principalement sur les notions des systèmes
distribués!
Limitations & Besoin
Scalabilité horizontale
vs
Scalabilité verticale
Concepts architecturaux
Scalabilité verticale vs Scalabilité horizontale
16 GB
8 CPU
32 GB
16 CPU
Hardware
limitation !Scale-up Scale-up
Augmenter la puissance d’un système en ajoutant du matériels plus puissants
Concepts architecturaux
Scalabilité verticale vs Scalabilité horizontale
16 GB
8 CPU Scale out
24 CPU, 48 GO
Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
Scale out
X CPU, Y GO
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
Concepts architecturaux
Scalabilité verticale vs Scalabilité horizontale
16 GB
8 CPU
32 GB
16 CPU
Limit !
16 GB
8 CPU
Scale-up
Scale-out Scale-out
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
Scale-up
24 CPU, 48 GO X CPU, Y GO
Augmenter la puissance d’un système en ajoutant du matériels plus puissants
Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines
Partitionnement
--
Distribution
--
Réplication
Concepts architecturaux
Partitionnement
Collection A
File
File1
TB
Nœud 1 Nœud 2 Nœud 3 Nœud 4
256
GB
256
GB
256
GB
256
GB
✘ Répartir les données et traitements sur de multiples serveurs sur un cluster
✘ Le partitionnement permet d’absorber la charge (de stockage ou de
traitement).
Serveur logique
Cluster
Concepts architecturaux
Réplication
Collection A
BA C
Nœud 1 Nœud 2 Nœud 3
CA BA B C
Nœud 4
BA C
RF = 3
✘ Copier la donnée en de multiples exemplaires sur plusieurs nœuds du cluster
✘ Permet de garantir la disponibilité de l’ensemble des données même quand
un nœud du cluster disparaît (maintenance, crash, …)
✘ La probabilité de perte d’un nœud croît avec la taille du cluster
✘ Meilleur performance et sécurité.
Concepts architecturaux
Partitionnement et Réplication
Collection A
BA
Nœud 1 Nœud 2 Nœud 3
A2A1 A2B2 B1 A1
Nœud 4
B3B1 A3
RF = 3
B3 B3 B3
A2B2B1 A1A3 A3 B2
A = A1+A2+A3
B = B1+B2+B3
Architecture des disques
Concepts architecturaux
Architecture des disques (1/3)
✘ JBOD vs RAID
✗ JBOD : Just a Bunch Of Disks (3 disques de 1T = 3To de stockage)
✗ RAID : Redundant Array of Independent Disks (réplication physique)
✘ Quand utiliser quoi ?
✗ JBOD : Système avec redondance  nœuds worker et de données
✗ RAID : Système sans redondance  Nœuds Master, gestion du système
✘ Avantage :
✗ JBOD : Gagner de l‘espace disque, facile a mettre en place…
✗ RAID : Fiabilité de données, mais coûte plus cher...
Concepts architecturaux
Architecture des disques (2/3)
striping mirroring
single parity double parity
distribution réplication
Concepts architecturaux
Architecture des disques (3/3)
Architecture des nœuds
Concepts architecturaux
Architecture des nœuds - Master / Slave – Sans HA
Nœud Master
Nœud Slave Nœud Slave
Application
Driver
writeread
SPOF
✘ Les nœuds master sont soit impliquer dans les opérations, soit ils ont
simplement un rôle mendiant d’acheminement, d’orchestration des opérations
read
> peut s’occuper du sharding/replication
> A connaissance de la topologies
Concepts architecturaux
Architecture des nœuds - Master / Slave avec HA
Master
active
Slave
Slave
Application
Driver
writeread
Standby Master
passive
Copie des données
On failover
✘ Reprise automatique
✘ Lag  perte de messages lors d’un crash
Concepts architecturaux
Architecture des nœuds - Multi-Master
Master
active
Slave
Slave
Master
active
Slave
Slave
Master
active
SlaveSlave
Synchronisation
Concepts architecturaux
Architecture des nœuds - Peer to Peer / En noeuds
Nœud 1
Nœud 2
Nœud 3
Nœud 4
✘ Tout les nœuds sont égaux
✘ Topologie connu par chaque nœud et non par le master
0-24
25-49
75-99
50-74
Masterless architecture
Application
Driver
R/W
Technologies basé sur des systèmes distribuées
Systèmes distribuées
Election des nœuds
Concepts architecturaux
Election des nœuds (1/4)
Nœud Primaire
Master
Nœud Secondaire
Slave
Nœud Secondaire
Slave
Réplication Réplication
Heartbeats
Election d’un nouveau nœud primaire
Concepts architecturaux
Election des nœuds (2/4)
Nœud Primaire
Master
Nœud Secondaire
Slave
Heartbeats
Réplication
Concepts architecturaux
Election des nœuds (3/4)
Nœud Primaire
Master
Nœud Secondaire
Slave
Arbiter
Réplication
Heartbeat
Election d’un nouveau nœud primaire Utilisé simplement pour le vote
Concepts architecturaux
Election des nœuds (4/4)
Nœud Primaire
Master
Arbiter
Heartbeat
Théorème de CAP
Concepts architecturaux
Théorème de CAP
Consistency
The data is the same across
the cluster, at the same given
time
X X
X
Concepts architecturaux
Théorème de CAP
Consistency
The data is the same across
the cluster, at the same given
time
Most
P2P
Couches et technologies
Concepts architecturaux
Cartographie des technologies par couches
REALTIME & BATCH PROCESSING
SECURITY,&GOUVERNANCE
CNavigator
ApacheRanger
QUERYING, ANALYTICS & DATASCIENCE
USER PRESENTATION & REPORTING
MANAGEMENT&ADMINISTRATION
Clouderamanager
EXTERNAL INPUTS : FS / WS
STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINES
DATA ACQUISITION, INGESTION & INTEGRATION
MESSAGING, BROKERS & COORDINATION
Concepts architecturaux
Cartographie des technologies par couches
DATA ACQUISITION, INGESTION & INTEGRATION
REALTIME & BATCH PROCESSING
SECURITY,
&
GOUVERNA
NCE
C Navigator
QUERYING, ANALYTICS & DATASCIENCE
USER PRESENTATION & REPORTING MANAGEME
NT &
ADMINISTRA
TION
Cloudera manager
STORAGE : FILE SYSTEMS, DATABASES, FILETYPES &
SEARCH ENGINE
MESSAGING, BROKERS & COORDINATION
Spark Flume Hadoop Sqoop Talend Scala Java
Kafka RabbitMQ ActiveMQ IronMQ Zookeeper
TalendNifiFlinkStormHadoopSpark
HBaseHadoop MongoDB
CouchBase RedisNeo4J CassandraTitan
Parquet Orc Avro
Elastic search
Teradata
Solr
Spark Jupyter Zepplin R Phyton HAWQ Teradata Hive Impala
PolymapsHTML/CSSExcelQlik TableauHue
Sentry
Falcon
Atlas
Knox
Ranger
Ambari
Ganglia
Oozie
Nagios
AMQ
Pentaho
Le NoSQL
Déjà le NoSQL n’est pas :
Datalake
Datalake
Introduction
Définition, Natures et types des données,
schema on read/write
Datalake
Définition
Réseaux sociaux et
streaming
Fichiers et logs
Bases de Données
DATA LAKE
Données structurées
Données semi-structurées
Données non structurées
STAGING
ARCHIVING
TRANSFORMING
HISTORISATION
Capteurs
ANALYTICS
PREDICTIONS
Pas performante pour du
traitement opérationnel
Hadoop
Introduction à Hadoop
Batch processing
RealTime processing
Hadoop
Distribution et technologies
3 grandes distributions sur le marché :
> Hortonworks : Expedia, ebay, Samsung, Spotify,...
> Cloudera : Cisco, Mastercard, Siemens, WesterUnion…
> MapR : HP , American express, Beats music, Ericsson...
BNP Parisbas La Poste
Credit
agricole
Hadoop
Distribution et technologies
Hortonworks : Stack technologique HDP
Datalake
Cartographie logique / technologique HDP
Datalake
Services (accès aux données, traitements…)
Traitements ( ETL, ELT, …)
Données brutes, temporaires, à valeurs ajoutées
Gouvernance,Securité…
Pointsd’accèsPointd’Expositions
Falcon
Atlas
HDFS HBase Phoenix
MapReduce
Spark Hive
Pig
Hive
Solr
Ranger
Storm
Zeppelin
Ambari views
WS
Hive
SparkKnox
Spark SQL
Avro
ORC
Hadoop
Kafka
Sqoop
Yarn
Tez
Hadoop
Distribution et technologies
Hortonworks : version des technologies de la stack
Hadoop
Distribution et technologies
Cloudera: Stack technologique CDH
Datalake
Cartographie logique / technologique CDH
Polyglot-persistenceDonnées de référence
Datalake
Services (accès aux données, traitements…)
Traitements ( ETL, ELT, …)
Données brutes, temporaires, à valeurs ajoutées
Gouvernance, sécurité, catalogue, métadata, traçabilité, cycle de vie…
Gouvernance,Securité…
Pointsd’accès
Ingestion, Accès données :
temps réel, batch,
MicroBatch
Pointd’Expositions
Webservices, API
Record service
Cloudera navigator
HDFS HBase Kudu
MapReduce
Spark Hive/Impala
Pig
Hive/Impala
Solr
Sentry
Storm
Zeppelin
Hue
WS
Knox
Spark SQL
Avro
Parquet
Hadoop
Hive/Impala
Spark
Kafka
Sqoop
Yarn
Tez
Hadoop
Hadoop Core – Master / Slave
Master nodes
NameNode
Secondary
NameNode
Ressource
Manager
Worker nodes
DataNode
Node
Manager
✘Objective global
INGEST
(db+files)
STORE & TRANSFORM
ENGRESS
(jdbc)
AUTOMATION ( DEV & ADMIN )
DEVADMIN
Lab Hadoop
Getting started with Hadoop
1. Installation
2. Hadoop Services overview ( using Cloudera Manager )
3. Cloudera Manager : board, services, configurations ( role & services )
TP Cloudera Manager
MAP REDUCE
MapReduce
Hadoop
✘ Designe a la fois le Framework et l’algorithme
✘ MapReduce est un framework pour traiter les données en parallèle sur
plusieurs machines  algorithme distribués
✘ Les programmes MapReduce scalent sur des milliers de machines.
Hadoop
MapReduceFILEA
split #1
SPLITSDATA
<k,v> paire
RESULT
split #2
split #3
<k,v> paire
<k,v> paire
map
map
map
reduce
reduce
reduce
MAPPERS SHUFFLING
SORTING
REDUCERS RESULT
Lab Hadoop
Getting started with HDFS
1. opérations de base via UI
2. opérations de base via la command line
Commands :
https://hadoop.apache.org/docs/current/hadoop-project-
dist/hadoop-common/FileSystemShell.html
Lab Hadoop
TP HDFS - Industrialisation des
requêtes standards
1. Création de « Container » pour des entités
2. Création de Projet au sein de l’entité
3. Création Compte pour les nouveaux arrivant
4. Changement Droit pour les utilisateurs
1. Mode classique
2. Mode avancé ( optionnel )
Lab Hadoop
Administration HDFS
1. Changer RF par default
2. Générer et analyser un rapport
3. Impérsonnification
Lab Hadoop
Lab Yarn & MR
1. Administration : Scheduler & IHM
2. Arrêter job qui tourne.
3. Implémentation MR sur java pour comprendre (Paradigme)
PIG & HIVE
Hadoop
• Langage SQL Like
• Catalog Métadonnée
• Différents drivers
• Se base sur Yarn
✘ Requêtes SQL Like  traitements logiques et analytiques
✘ Hive fournit plusieurs modes d’interaction : Console CLI (beeline), Interface
Web UI, Drivers ODBC et JDBC
WebUI
(x)DBC
CLI
Beeline
HiveServer2
metastore
YARN
HDFS
MapReduce / Tez
user
Hadoop Core
Hive
Hadoop
Lab Hadoop
LAB Hive
1. Exemple table interne
2. Exemple table externe
3. Suppression des tables
4. Vos remarques sur les données et le schéma
Lab Hadoop
TP Hive
1. Créer script ingestion plusieurs fichiers vers table
2. Créer table externe associée
3. Donner les droits sur le répertoire de base de donnée pour l’entité de la racine
Lab Hadoop
LAB Hive
1. Administrer les jobs MR exécuté par HIVE
2. Tuer le job
3. Vérifier base de donnée Metastore
4. Activation Hive on Spark
Lab Hadoop
LAB Impala
1. Exemple table interne
2. Exemple table externe
3. Suppression des tables
4. Remarques
Lab Hadoop
TP Impala
1. Créer un script ingestion de plusieurs fichiers vers une table
2. Créer table externe associée
3. Donner les droits sur le répertoire de base de donnée pour l’entité de la racine
Lab MongoDB
Lab MongoDB - Introduction
sources : https://docs.mongodb.com et https://www.mongodb.com/mongodb-architecture
✘ Analyse de la solution :
> Section Introduction
> Technologie de stockage BigData (Database)
> Scalable horizontalement
> Section DataModel
> Schema design Orienté document
> Format BSON
> Section Réplication :
> Architecture Master/Slave
> Élection des nœuds avec/sans Arbiter
> Section Sharding
> Distribution par élément (Document)
> Distribution aléatoire et ordonnée (RangeBased/HashBased)
> Section MongoDB CRUD Operations
> Le write level est paramétrable (write concen)
> Architecture + Web CAP Théorème
> MongoDB est « CA » et « CP » si on utilise le safe=true ( besoin de creuser )
Lab MongoDB - Introduction
✘ Base de données open-source
✘ Base de données orientée documents
✘ Répond aux besoins de volumétries et de performances
✘ Réplication et Failover pour une haute disponibilité
✘ Auto Sharding pour une scalabilité horizontale
✘ Accepte le paradigme Map/Reduce
✘ Gestion facile des données géo-spatiales
Lab MongoDB – Qui l’utilise
Lab MongoDB – Connecteurs
Lab MongoDB
RDBMS MongoDB
Database Database
Table, View Collection
Row Document (JSON, BSON)
Column Field
Index Index
Primary Key Row Key / Partion Key
Foreign Key Reference
Partition Shard
Table de correspondence
Lab MongoDB
Document JSON / BSON
LAB MongoDB
Hands on Query Language
CRUD Operations
Lab MongoDB
✘ CLI : exercices
// 1
CREATE TABLE users
(
id varchar(5),
age int,
name varchar(100),
status varchar(10)
);
INSERT INTO users(id,age,name)
VALUES (”usr001”,30,”Mehdi");
// 2
ALTER TABLE users
DROP COLUMN status
// 3
SELECT *
FROM users
WHERE name != "Mehdi"
// 4 index asc
CREATE INDEX idx_name ON users(name)
// 5
SELECT name, age
FROM users
// 6
SELECT *
FROM users
WHERE name = "Omar" OR age > 50
// 7
SELECT *
FROM users
LIMIT 5
SKIP 10
// 8
EXPLAIN SELECT *
FROM users
WHERE name = "Mehdi"
// 9
UPDATE users
SET age = age + 3
WHERE age < 20
// 10
DELETE
FROM users
WHERE age < 18
Lab MongoDB
La correction sera envoyé par mail afin
d’éviter d’avoir les réponses.
LAB MongoDB
Hands on Schema Design
Application design
La correction sera envoyé par mail afin
d’éviter d’avoir les réponses.
LAB MongoDB
Hands on Java Driver
Application programming
Lab MongoDB
✘ Alimentation de la table people
> Créer une fonction qui permet d’ajouter une personne
> Créer une fonction qui permet de supprimer toutes les personnes n’ayant aucune
compétence
> Créer une fonction qui permet de lister toutes les personnes plus âgé que 35ans et
ayant plus de 2 compétences
> Créer une fonction qui permet d’afficher toutes les personnes ayant au moins 30ans
ou travaillant chez la BNP
> Créer une Une page HTML qui permet de lister toutes les personnes par unité de 10
<dependencies>
<dependency>
<groupId>org.mongodb</groupId>
<artifactId>mongodb-
driver</artifactId>
<version>3.2.2</version>
</dependency>
</dependencies>
MongoClient mongoClient = new MongoClient();
MongoDatabase db =
mongoClient.getDatabase("mydb");
MongoCollection<Document> people =
db.getCollection("people");
Document document = new
Document("lastname","TAZI");
FindIterable<Document> documents =
people.find(document);
Lab MongoDB
Lecture dans MongoDB
Lab MongoDB
Absence de la
Shard Key
Lecture dans MongoDB
Lab MongoDB
Write level/concern
Unacknowledged
Ecriture dans MongoDB
Lab MongoDB
Sharding et replication
MongoD
Lab Cassandra
Lab Cassandra - Introduction
✘ Base de données open-source
✘ Base de données orientée colonnes
✘ Répond aux besoins de volumétrie et de performance
✘ Réplication et Failover pour une haute disponibilité
✘ Auto Sharding pour une scalabilité horizontale
✘ Gestion automatique de la réplication des Datacenter
✘ Gestion facile des données timeseries
Lab Cassandra – Qui l’utilise?
Lab Cassandra – Connecteurs
Lab Casssandra
RDBMS Cassandra
Schema/Database Schema/Keyspace
Table Table/Column Family
Row Row
Column Column(name,value)
Index Index
Table de correspondance
LAB Cassandra
Impact de créations des tables
sur l’architecture technique
Points critiques, performances et limitations
LAB Cassandra
Hands on CQL
Application design/Schema design,
Querying and design by query
La correction sera envoyé par mail afin
d’éviter d’avoir les réponses.
LAB Cassandra
What really happened
Read/Write Path, Write level, nodes elections,
data distribution

Contenu connexe

Tendances

Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleLilia Sfaxi
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingLilia Sfaxi
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesLilia Sfaxi
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystèmeKhanh Maudoux
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Base de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreBase de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreMICHRAFY MUSTAFA
 
TP2 Big Data HBase
TP2 Big Data HBaseTP2 Big Data HBase
TP2 Big Data HBaseAmal Abid
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduceAmal Abid
 
Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -IliasAEA
 

Tendances (20)

Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
Big data
Big dataBig data
Big data
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Hadoop
HadoopHadoop
Hadoop
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Base de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvreBase de données graphe, Noe4j concepts et mise en oeuvre
Base de données graphe, Noe4j concepts et mise en oeuvre
 
Big data
Big dataBig data
Big data
 
TP2 Big Data HBase
TP2 Big Data HBaseTP2 Big Data HBase
TP2 Big Data HBase
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduce
 
Data Mining
Data MiningData Mining
Data Mining
 
Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -Les Base de Données NOSQL -Presentation -
Les Base de Données NOSQL -Presentation -
 

Similaire à Introduction à la big data v3

Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
Webinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesWebinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesOVHcloud
 
Cours de Vente Grands Comptes Compaq - Gv06 (2001)
Cours de Vente Grands Comptes Compaq - Gv06 (2001)Cours de Vente Grands Comptes Compaq - Gv06 (2001)
Cours de Vente Grands Comptes Compaq - Gv06 (2001)Eric Herschkorn
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - LilleSoft Computing
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015IBM France Lab
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxExcelerate Systems
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Excelerate Systems
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computingsenejug
 
Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique Microsoft Ideas
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationDenodo
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Denodo
 
Neo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 

Similaire à Introduction à la big data v3 (20)

Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Webinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesWebinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud Databases
 
Cours de Vente Grands Comptes Compaq - Gv06 (2001)
Cours de Vente Grands Comptes Compaq - Gv06 (2001)Cours de Vente Grands Comptes Compaq - Gv06 (2001)
Cours de Vente Grands Comptes Compaq - Gv06 (2001)
 
Mon Stockage a la Cloud Attitude
Mon Stockage a la Cloud Attitude Mon Stockage a la Cloud Attitude
Mon Stockage a la Cloud Attitude
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - Lille
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
 
Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique Virtualisation? Convergence? Cloud? Soyons pragmatique
Virtualisation? Convergence? Cloud? Soyons pragmatique
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 
Neo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métierNeo4j - Cas d'usages pour votre métier
Neo4j - Cas d'usages pour votre métier
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 

Dernier

Bow 2024 - Plein air à l'intérieur des bâtiments d'élevage de ruminants
Bow 2024 - Plein air à l'intérieur des bâtiments d'élevage de ruminantsBow 2024 - Plein air à l'intérieur des bâtiments d'élevage de ruminants
Bow 2024 - Plein air à l'intérieur des bâtiments d'élevage de ruminantsidelewebmestre
 
BOW 2024 - Logement des veaux laitiers en plein air
BOW 2024 - Logement des veaux laitiers en plein airBOW 2024 - Logement des veaux laitiers en plein air
BOW 2024 - Logement des veaux laitiers en plein airidelewebmestre
 
BOW 2024 - Jardins d'hiver en poulets de chair
BOW 2024 - Jardins d'hiver en poulets de chairBOW 2024 - Jardins d'hiver en poulets de chair
BOW 2024 - Jardins d'hiver en poulets de chairidelewebmestre
 
BOW 2024 - 3 1 - Les infrastructures équestres et le changement climatique
BOW 2024 - 3 1 - Les infrastructures équestres et le changement climatiqueBOW 2024 - 3 1 - Les infrastructures équestres et le changement climatique
BOW 2024 - 3 1 - Les infrastructures équestres et le changement climatiqueidelewebmestre
 
BOW 2024 -3-9 - Matelas de logettes à eau refroidie VL
BOW 2024 -3-9 - Matelas de logettes à eau refroidie VLBOW 2024 -3-9 - Matelas de logettes à eau refroidie VL
BOW 2024 -3-9 - Matelas de logettes à eau refroidie VLidelewebmestre
 
BOW 2024 - 3-5 - Des solutions numériques pour se préparer aux pics de chaleur
BOW 2024 - 3-5 - Des solutions numériques pour se préparer aux pics de chaleurBOW 2024 - 3-5 - Des solutions numériques pour se préparer aux pics de chaleur
BOW 2024 - 3-5 - Des solutions numériques pour se préparer aux pics de chaleuridelewebmestre
 
BOW 2024 - 3-6 - Adaptation climat chaud Porcs
BOW 2024 - 3-6 - Adaptation climat chaud PorcsBOW 2024 - 3-6 - Adaptation climat chaud Porcs
BOW 2024 - 3-6 - Adaptation climat chaud Porcsidelewebmestre
 
BOW 2024 - Dedans/Dehors quand voir ne suffit pas
BOW 2024 - Dedans/Dehors quand voir ne suffit pasBOW 2024 - Dedans/Dehors quand voir ne suffit pas
BOW 2024 - Dedans/Dehors quand voir ne suffit pasidelewebmestre
 
BOW 2024 - 3-8 - Adaptation des bâtiments d'élevages de volailles au changeme...
BOW 2024 - 3-8 - Adaptation des bâtiments d'élevages de volailles au changeme...BOW 2024 - 3-8 - Adaptation des bâtiments d'élevages de volailles au changeme...
BOW 2024 - 3-8 - Adaptation des bâtiments d'élevages de volailles au changeme...idelewebmestre
 
Agrivoltaïsme et filière ovine en Dordogne
Agrivoltaïsme et filière ovine en DordogneAgrivoltaïsme et filière ovine en Dordogne
Agrivoltaïsme et filière ovine en Dordogneidelewebmestre
 
BOW 2024 -3-7- Impact bâtiment stress thermique Vaches laitières
BOW 2024 -3-7- Impact bâtiment stress thermique Vaches laitièresBOW 2024 -3-7- Impact bâtiment stress thermique Vaches laitières
BOW 2024 -3-7- Impact bâtiment stress thermique Vaches laitièresidelewebmestre
 
BOW 24 - De la réflexion de groupe à l'immersion dans des bâtiments porcins
BOW 24 - De la réflexion de groupe à l'immersion dans des bâtiments porcinsBOW 24 - De la réflexion de groupe à l'immersion dans des bâtiments porcins
BOW 24 - De la réflexion de groupe à l'immersion dans des bâtiments porcinsidelewebmestre
 
BOW 2024-3-10 - Batcool Petits ruminants
BOW 2024-3-10 - Batcool Petits ruminantsBOW 2024-3-10 - Batcool Petits ruminants
BOW 2024-3-10 - Batcool Petits ruminantsidelewebmestre
 
BOW 2024 - L'enrichissement du milieu des chèvres laitières
BOW 2024 - L'enrichissement du milieu des chèvres laitièresBOW 2024 - L'enrichissement du milieu des chèvres laitières
BOW 2024 - L'enrichissement du milieu des chèvres laitièresidelewebmestre
 
BOW 2024 - Le bâtiment multicritère porcin
BOW 2024 - Le bâtiment multicritère porcinBOW 2024 - Le bâtiment multicritère porcin
BOW 2024 - Le bâtiment multicritère porcinidelewebmestre
 
Accompagnement de l'agrivoltaïsme dans le département de la Nièvre
Accompagnement de l'agrivoltaïsme dans le département de la NièvreAccompagnement de l'agrivoltaïsme dans le département de la Nièvre
Accompagnement de l'agrivoltaïsme dans le département de la Nièvreidelewebmestre
 
Accompagnement de l'agrivoltaisme - Focus sur l'étude système en Merthe et Mo...
Accompagnement de l'agrivoltaisme - Focus sur l'étude système en Merthe et Mo...Accompagnement de l'agrivoltaisme - Focus sur l'étude système en Merthe et Mo...
Accompagnement de l'agrivoltaisme - Focus sur l'étude système en Merthe et Mo...idelewebmestre
 
BOW 2024 - L'écurie ouverte : un concept inspirant pour la filière équine
BOW 2024 - L'écurie ouverte : un concept inspirant pour la filière équineBOW 2024 - L'écurie ouverte : un concept inspirant pour la filière équine
BOW 2024 - L'écurie ouverte : un concept inspirant pour la filière équineidelewebmestre
 
Cours polymère presentation powerpoint 46 pages
Cours polymère presentation powerpoint 46 pagesCours polymère presentation powerpoint 46 pages
Cours polymère presentation powerpoint 46 pagesPierreFournier32
 
BOW 2024 - 3-2 - Stress thermique impact vaches laitières
BOW 2024 - 3-2 - Stress thermique impact vaches laitièresBOW 2024 - 3-2 - Stress thermique impact vaches laitières
BOW 2024 - 3-2 - Stress thermique impact vaches laitièresidelewebmestre
 

Dernier (20)

Bow 2024 - Plein air à l'intérieur des bâtiments d'élevage de ruminants
Bow 2024 - Plein air à l'intérieur des bâtiments d'élevage de ruminantsBow 2024 - Plein air à l'intérieur des bâtiments d'élevage de ruminants
Bow 2024 - Plein air à l'intérieur des bâtiments d'élevage de ruminants
 
BOW 2024 - Logement des veaux laitiers en plein air
BOW 2024 - Logement des veaux laitiers en plein airBOW 2024 - Logement des veaux laitiers en plein air
BOW 2024 - Logement des veaux laitiers en plein air
 
BOW 2024 - Jardins d'hiver en poulets de chair
BOW 2024 - Jardins d'hiver en poulets de chairBOW 2024 - Jardins d'hiver en poulets de chair
BOW 2024 - Jardins d'hiver en poulets de chair
 
BOW 2024 - 3 1 - Les infrastructures équestres et le changement climatique
BOW 2024 - 3 1 - Les infrastructures équestres et le changement climatiqueBOW 2024 - 3 1 - Les infrastructures équestres et le changement climatique
BOW 2024 - 3 1 - Les infrastructures équestres et le changement climatique
 
BOW 2024 -3-9 - Matelas de logettes à eau refroidie VL
BOW 2024 -3-9 - Matelas de logettes à eau refroidie VLBOW 2024 -3-9 - Matelas de logettes à eau refroidie VL
BOW 2024 -3-9 - Matelas de logettes à eau refroidie VL
 
BOW 2024 - 3-5 - Des solutions numériques pour se préparer aux pics de chaleur
BOW 2024 - 3-5 - Des solutions numériques pour se préparer aux pics de chaleurBOW 2024 - 3-5 - Des solutions numériques pour se préparer aux pics de chaleur
BOW 2024 - 3-5 - Des solutions numériques pour se préparer aux pics de chaleur
 
BOW 2024 - 3-6 - Adaptation climat chaud Porcs
BOW 2024 - 3-6 - Adaptation climat chaud PorcsBOW 2024 - 3-6 - Adaptation climat chaud Porcs
BOW 2024 - 3-6 - Adaptation climat chaud Porcs
 
BOW 2024 - Dedans/Dehors quand voir ne suffit pas
BOW 2024 - Dedans/Dehors quand voir ne suffit pasBOW 2024 - Dedans/Dehors quand voir ne suffit pas
BOW 2024 - Dedans/Dehors quand voir ne suffit pas
 
BOW 2024 - 3-8 - Adaptation des bâtiments d'élevages de volailles au changeme...
BOW 2024 - 3-8 - Adaptation des bâtiments d'élevages de volailles au changeme...BOW 2024 - 3-8 - Adaptation des bâtiments d'élevages de volailles au changeme...
BOW 2024 - 3-8 - Adaptation des bâtiments d'élevages de volailles au changeme...
 
Agrivoltaïsme et filière ovine en Dordogne
Agrivoltaïsme et filière ovine en DordogneAgrivoltaïsme et filière ovine en Dordogne
Agrivoltaïsme et filière ovine en Dordogne
 
BOW 2024 -3-7- Impact bâtiment stress thermique Vaches laitières
BOW 2024 -3-7- Impact bâtiment stress thermique Vaches laitièresBOW 2024 -3-7- Impact bâtiment stress thermique Vaches laitières
BOW 2024 -3-7- Impact bâtiment stress thermique Vaches laitières
 
BOW 24 - De la réflexion de groupe à l'immersion dans des bâtiments porcins
BOW 24 - De la réflexion de groupe à l'immersion dans des bâtiments porcinsBOW 24 - De la réflexion de groupe à l'immersion dans des bâtiments porcins
BOW 24 - De la réflexion de groupe à l'immersion dans des bâtiments porcins
 
BOW 2024-3-10 - Batcool Petits ruminants
BOW 2024-3-10 - Batcool Petits ruminantsBOW 2024-3-10 - Batcool Petits ruminants
BOW 2024-3-10 - Batcool Petits ruminants
 
BOW 2024 - L'enrichissement du milieu des chèvres laitières
BOW 2024 - L'enrichissement du milieu des chèvres laitièresBOW 2024 - L'enrichissement du milieu des chèvres laitières
BOW 2024 - L'enrichissement du milieu des chèvres laitières
 
BOW 2024 - Le bâtiment multicritère porcin
BOW 2024 - Le bâtiment multicritère porcinBOW 2024 - Le bâtiment multicritère porcin
BOW 2024 - Le bâtiment multicritère porcin
 
Accompagnement de l'agrivoltaïsme dans le département de la Nièvre
Accompagnement de l'agrivoltaïsme dans le département de la NièvreAccompagnement de l'agrivoltaïsme dans le département de la Nièvre
Accompagnement de l'agrivoltaïsme dans le département de la Nièvre
 
Accompagnement de l'agrivoltaisme - Focus sur l'étude système en Merthe et Mo...
Accompagnement de l'agrivoltaisme - Focus sur l'étude système en Merthe et Mo...Accompagnement de l'agrivoltaisme - Focus sur l'étude système en Merthe et Mo...
Accompagnement de l'agrivoltaisme - Focus sur l'étude système en Merthe et Mo...
 
BOW 2024 - L'écurie ouverte : un concept inspirant pour la filière équine
BOW 2024 - L'écurie ouverte : un concept inspirant pour la filière équineBOW 2024 - L'écurie ouverte : un concept inspirant pour la filière équine
BOW 2024 - L'écurie ouverte : un concept inspirant pour la filière équine
 
Cours polymère presentation powerpoint 46 pages
Cours polymère presentation powerpoint 46 pagesCours polymère presentation powerpoint 46 pages
Cours polymère presentation powerpoint 46 pages
 
BOW 2024 - 3-2 - Stress thermique impact vaches laitières
BOW 2024 - 3-2 - Stress thermique impact vaches laitièresBOW 2024 - 3-2 - Stress thermique impact vaches laitières
BOW 2024 - 3-2 - Stress thermique impact vaches laitières
 

Introduction à la big data v3

  • 1. Formation Big Data Initiation, concepts, architectures, administration et développements pour architecte et consultant
  • 2. ✘ Veuillez vous présenter : ✗ Vôtre nom et prénom ✗ Fonction, société ✗ Avez vous une expérience Big Data? Qu’avez vous fait ? ✗ Quelles sont vos attentes de ce cours ? Tour de table TOUR DE TABLE
  • 3. Mehdi TAZI ✘ Architecte BigData ✘ Freelancer, ex OCTO ✘AXA, BNP, EDF, LA POSTE, AL BARID BANK, ✘ ARCHI, DEV, ADMIN, ORGA... Contact : > slack : slack.itinsight.fr > web : tazimehdi.com / itinsight.fr > mail : mehdi@tazimehdi.com / mehdi.tazi@itinsight.fr
  • 4. ✘ Communication interactive par thème Déroulement ✘ Osez poser vos questions de façon interactive > des termes utilisés, sujets non compris > des problématiques liées à votre travail > des questions d’ordre générale par thème Technologique, Méthodologique, Organisationnelle…
  • 5. Outils nécessaires Cassandra Server : http://cassandra.apache.org/download/ Cassandra Dev Center : http://www.datastax.com/what-we-offer/products-services/devcenter MongoDB server : https://www.mongodb.com/download-center#community Horntonworks HDP : http://hortonworks.com/downloads/ Cloudera CDH : https://www.cloudera.com/downloads/quickstart_vms/5-10.html VirtualBox https://www.virtualbox.org/wiki/Downloads
  • 7. Programme Concepts technologique Commun Hadoo p NoSQ L Spark ELK Historique + RappelConsultant(Accompagnement) Entretient Vue d’ensemble Architectes, Développeurs, Administrateurs, Consultants, Accompagnement Spécialisation Architectes, Développeurs, Administrateurs, Consultants, Accompagnement
  • 8. Programme ✘ Introduction à la Big Data ✘ Vue d’ensemble ✘ Concepts architecturaux ✘ Couches et technologies ✘ Le NoSQL ✘ Datalake & Datalab ✘ Information generales & Atelier questions/reponses
  • 10. Big data is like teenage sex : everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it... Dan Ariely
  • 11. C’est quoi selon vous le big data ?
  • 12.
  • 13. Introduction à la Big Data ✘ Traitement et stockage massives des gros volumes de données ✘ Explosion quantitative des données numériques C’est quoi la Big Data? (1/2)
  • 14. Introduction à la Big Data ✘ Données provenant de plusieurs sources : ✗ Capteurs : température, pression… ✗ IOT : montres connectées, balances, Smartphones… ✗ Messages sur les réseaux sociaux : tweet, posts… ✗ Transactions et logs : banques, e-commerce… ✗ Images, vidéos et sons : instagram, youtube, snapchat, deezer, spotify… ✗ Autres : GPS, email, sms… C’est quoi la Big Data? (2/2)
  • 15. Introduction à la Big Data Qu’est ce qui se passe chaque minute sur Internet? Source : Qmee log Storage RT Processing ex : pic tag, batch concu adds RT Processing
  • 16. Introduction à la Big Data ✘ Les solutions actuelles coûtent cher : archivage et traitement ✘ Répondre à des problématiques métiers avec plus de précision et de rapidité. ✘ Améliorer la prise de décision basée sur l’analyse de très gros volumes de données. ✘ Tirer un avantage concurrentiel à travers la collecte, l’analyse, la prédiction et l’exploitation des données sur de grandes profondeurs. ( DDC ) ✘ La création de nouveaux cas d’usages et de valeurs business basées sur la données et la technologie. ( cloud , données …) ✘ Un outil au service du métier  Une offre de service à part entière (AXA/ ERDF) Quel est l’intérêt d’adopter le big data?
  • 17. Introduction à la Big Data ✘ Au début c’était destiné aux gros acteurs du web et les grandes multinationales : ✗ Facebook, Google, Amazon… ✗ Fedex, Walmart, Citi… ✘ Maintenant de plus en plus de monde y est concerné : ✗ De gros Acteurs : Axa, BNP Paribas, La Poste, EDF… ✗ Des nouveaux : Snapchat, whatsapp, pokemon go … ✗ Vous ? Pour qui ?
  • 18. Introduction à la Big Data ✘ Energie ✗ Amélioration de la production et distribution d’énergie ✗ Information en temps réel sur les débits et la qualité ✗ Détection des problèmes de réseaux ✗ Automatisation du processus de collecte de données ✘ Transport et distribution ✗ Optimisation des trajets et réductions des coûts ✗ Ajustement d’offre et de demande par zone géographique ✘ Produits de Luxe et grandes consommations ✗ Analyse de sentiments et retour produits * ✗ Amélioration de la satisfaction des clients ✗ Identification de nouveaux besoins et désirs * ✗ Recommandations Cas d’usage réel (1/2)
  • 19. Introduction à la Big Data ✘ E-Commerce ✗ Amélioration des stocks et de l’expérience clients. ✗ Gestion plus fine et dynamique des prix de vente ✗ Personnalisation des offres ✗ Pricing dynamique * ✗ Marketing ciblé ✘ Services publics et banques ✗ Archivage et données publiques ✗ Lute contre la fraude et abus * ✗ Amélioration des processus ✗ Sécurité ✘ Autres ✗ Fidéliser les clients des casinos en intervenant avant que les pertes des joueurs ne soit trop élevées ✗ Détecter les potentiel futures boxs en pannes : météo, géolocalisation, état box.. * Cas d’usage réel (2/2)
  • 21. Introduction à la Big Data Big Data, Fast Data, Smart Data et Open Data Big Data Fast Data Smart Data Open Data
  • 23. Questions / Réponses > Comment définir le Big data en une seule phrase ? > Pourquoi adopter le Big data ? > Qu’est ce que la smart data ? > Qu’est ce que le fast data ? > Qu’est ce que l’open data ? > A quelles problématiques répond le big data ? > A quelles problématiques répond le fast data ?
  • 24. J’entend souvent parler des 3V, mais c’est quoi exactement ?
  • 25. Introduction à la Big Data Les 3V Variété File Json, CSV, Texte, Png, Log ... Vélocité Batch Periodic Near RT RealTime 100 ms, 30 min, 7h, 1j, 30000 events/time unit … Volume Mb Gb Tb Pb 10Gb, 10Tb, 2Pb …
  • 26. Et c’est quoi cette histoire de 5V ?
  • 27. Introduction à la Big Data Propriété d’un Système big data - Les 5V Variété File Json, CSV, Texte, Png, Log ... Vélocité Batch Periodic Near RT RealTime 100 ms, 30 min, 7h, 1j, 30000 events/time unit … Volume Mb Gb Tb Pb 10Gb, 10Tb, 2Pb … Véracité 31 2 Valeur
  • 29. Questions / Réponses > Citez les 3 principales propriétés d’un systèmes big data > Citez deux autres propriétés > Qu’elles sont les problématiques liées à la volumétries ? > Qu’elles sont les problématiques liée à la vélocité ? > Qu’elles sont les problématiques liée à véracité ?
  • 31. VUE D’ENSEMBLE – ARCHITECTURE FONCTIONELLE Processing Exchange Storage Data Management Consume
  • 32. VUE D’ENSEMBLE – ARCHITECTURE TECHNIQUE Operational databases Datalake Ingestion / ETL / ELT / Integration Datawarehouse DataLab Reporting & DataViz Monitoring APIs
  • 34. Questions / Réponses > Quelles sont les 5 grandes briques fonctionnelles d’un système bigdata ? > Quelles sont les 4 grandes fonctionnalités que gère la brique de stockage ? > Quelles sont les 3 grandes fonctionnalités que gère la brique de traitement ? > Quelles sont les 3 grandes fonctionnalités que gère la brique de sécurité ? > Où se positionne un système Big Data par rapport au reste du SI ?
  • 36. Concepts architecturaux ✘ Besoin : Traitement et stockage massif des gros volumes de données ✘ Limites : Ajouter plus de puissance aux machines : ✗ Stockage: Disque dur, mémoire … ✗ Traitement: CPU, parallélisme … ✘ Solution : Archiver et traiter l’information de façon distribuée afin de bénéficier de plus de capacité de puissance ✘ Le Big data repose principalement sur les notions des systèmes distribués! Limitations & Besoin
  • 38. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU 32 GB 16 CPU Hardware limitation !Scale-up Scale-up Augmenter la puissance d’un système en ajoutant du matériels plus puissants
  • 39. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU Scale out 24 CPU, 48 GO Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU Scale out X CPU, Y GO 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU
  • 40. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU 32 GB 16 CPU Limit ! 16 GB 8 CPU Scale-up Scale-out Scale-out 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU Scale-up 24 CPU, 48 GO X CPU, Y GO Augmenter la puissance d’un système en ajoutant du matériels plus puissants Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines
  • 42. Concepts architecturaux Partitionnement Collection A File File1 TB Nœud 1 Nœud 2 Nœud 3 Nœud 4 256 GB 256 GB 256 GB 256 GB ✘ Répartir les données et traitements sur de multiples serveurs sur un cluster ✘ Le partitionnement permet d’absorber la charge (de stockage ou de traitement). Serveur logique Cluster
  • 43. Concepts architecturaux Réplication Collection A BA C Nœud 1 Nœud 2 Nœud 3 CA BA B C Nœud 4 BA C RF = 3 ✘ Copier la donnée en de multiples exemplaires sur plusieurs nœuds du cluster ✘ Permet de garantir la disponibilité de l’ensemble des données même quand un nœud du cluster disparaît (maintenance, crash, …) ✘ La probabilité de perte d’un nœud croît avec la taille du cluster ✘ Meilleur performance et sécurité.
  • 44. Concepts architecturaux Partitionnement et Réplication Collection A BA Nœud 1 Nœud 2 Nœud 3 A2A1 A2B2 B1 A1 Nœud 4 B3B1 A3 RF = 3 B3 B3 B3 A2B2B1 A1A3 A3 B2 A = A1+A2+A3 B = B1+B2+B3
  • 46. Concepts architecturaux Architecture des disques (1/3) ✘ JBOD vs RAID ✗ JBOD : Just a Bunch Of Disks (3 disques de 1T = 3To de stockage) ✗ RAID : Redundant Array of Independent Disks (réplication physique) ✘ Quand utiliser quoi ? ✗ JBOD : Système avec redondance  nœuds worker et de données ✗ RAID : Système sans redondance  Nœuds Master, gestion du système ✘ Avantage : ✗ JBOD : Gagner de l‘espace disque, facile a mettre en place… ✗ RAID : Fiabilité de données, mais coûte plus cher...
  • 47. Concepts architecturaux Architecture des disques (2/3) striping mirroring single parity double parity distribution réplication
  • 50. Concepts architecturaux Architecture des nœuds - Master / Slave – Sans HA Nœud Master Nœud Slave Nœud Slave Application Driver writeread SPOF ✘ Les nœuds master sont soit impliquer dans les opérations, soit ils ont simplement un rôle mendiant d’acheminement, d’orchestration des opérations read > peut s’occuper du sharding/replication > A connaissance de la topologies
  • 51. Concepts architecturaux Architecture des nœuds - Master / Slave avec HA Master active Slave Slave Application Driver writeread Standby Master passive Copie des données On failover ✘ Reprise automatique ✘ Lag  perte de messages lors d’un crash
  • 52. Concepts architecturaux Architecture des nœuds - Multi-Master Master active Slave Slave Master active Slave Slave Master active SlaveSlave Synchronisation
  • 53. Concepts architecturaux Architecture des nœuds - Peer to Peer / En noeuds Nœud 1 Nœud 2 Nœud 3 Nœud 4 ✘ Tout les nœuds sont égaux ✘ Topologie connu par chaque nœud et non par le master 0-24 25-49 75-99 50-74 Masterless architecture Application Driver R/W
  • 54. Technologies basé sur des systèmes distribuées Systèmes distribuées
  • 56. Concepts architecturaux Election des nœuds (1/4) Nœud Primaire Master Nœud Secondaire Slave Nœud Secondaire Slave Réplication Réplication Heartbeats Election d’un nouveau nœud primaire
  • 57. Concepts architecturaux Election des nœuds (2/4) Nœud Primaire Master Nœud Secondaire Slave Heartbeats Réplication
  • 58. Concepts architecturaux Election des nœuds (3/4) Nœud Primaire Master Nœud Secondaire Slave Arbiter Réplication Heartbeat Election d’un nouveau nœud primaire Utilisé simplement pour le vote
  • 59. Concepts architecturaux Election des nœuds (4/4) Nœud Primaire Master Arbiter Heartbeat
  • 61. Concepts architecturaux Théorème de CAP Consistency The data is the same across the cluster, at the same given time X X X
  • 62. Concepts architecturaux Théorème de CAP Consistency The data is the same across the cluster, at the same given time Most P2P
  • 64. Concepts architecturaux Cartographie des technologies par couches REALTIME & BATCH PROCESSING SECURITY,&GOUVERNANCE CNavigator ApacheRanger QUERYING, ANALYTICS & DATASCIENCE USER PRESENTATION & REPORTING MANAGEMENT&ADMINISTRATION Clouderamanager EXTERNAL INPUTS : FS / WS STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINES DATA ACQUISITION, INGESTION & INTEGRATION MESSAGING, BROKERS & COORDINATION
  • 65. Concepts architecturaux Cartographie des technologies par couches DATA ACQUISITION, INGESTION & INTEGRATION REALTIME & BATCH PROCESSING SECURITY, & GOUVERNA NCE C Navigator QUERYING, ANALYTICS & DATASCIENCE USER PRESENTATION & REPORTING MANAGEME NT & ADMINISTRA TION Cloudera manager STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINE MESSAGING, BROKERS & COORDINATION Spark Flume Hadoop Sqoop Talend Scala Java Kafka RabbitMQ ActiveMQ IronMQ Zookeeper TalendNifiFlinkStormHadoopSpark HBaseHadoop MongoDB CouchBase RedisNeo4J CassandraTitan Parquet Orc Avro Elastic search Teradata Solr Spark Jupyter Zepplin R Phyton HAWQ Teradata Hive Impala PolymapsHTML/CSSExcelQlik TableauHue Sentry Falcon Atlas Knox Ranger Ambari Ganglia Oozie Nagios AMQ Pentaho
  • 67. Déjà le NoSQL n’est pas :
  • 69. Datalake Introduction Définition, Natures et types des données, schema on read/write
  • 70. Datalake Définition Réseaux sociaux et streaming Fichiers et logs Bases de Données DATA LAKE Données structurées Données semi-structurées Données non structurées STAGING ARCHIVING TRANSFORMING HISTORISATION Capteurs ANALYTICS PREDICTIONS Pas performante pour du traitement opérationnel
  • 71. Hadoop Introduction à Hadoop Batch processing RealTime processing
  • 72. Hadoop Distribution et technologies 3 grandes distributions sur le marché : > Hortonworks : Expedia, ebay, Samsung, Spotify,... > Cloudera : Cisco, Mastercard, Siemens, WesterUnion… > MapR : HP , American express, Beats music, Ericsson... BNP Parisbas La Poste Credit agricole
  • 74. Datalake Cartographie logique / technologique HDP Datalake Services (accès aux données, traitements…) Traitements ( ETL, ELT, …) Données brutes, temporaires, à valeurs ajoutées Gouvernance,Securité… Pointsd’accèsPointd’Expositions Falcon Atlas HDFS HBase Phoenix MapReduce Spark Hive Pig Hive Solr Ranger Storm Zeppelin Ambari views WS Hive SparkKnox Spark SQL Avro ORC Hadoop Kafka Sqoop Yarn Tez
  • 75. Hadoop Distribution et technologies Hortonworks : version des technologies de la stack
  • 77. Datalake Cartographie logique / technologique CDH Polyglot-persistenceDonnées de référence Datalake Services (accès aux données, traitements…) Traitements ( ETL, ELT, …) Données brutes, temporaires, à valeurs ajoutées Gouvernance, sécurité, catalogue, métadata, traçabilité, cycle de vie… Gouvernance,Securité… Pointsd’accès Ingestion, Accès données : temps réel, batch, MicroBatch Pointd’Expositions Webservices, API Record service Cloudera navigator HDFS HBase Kudu MapReduce Spark Hive/Impala Pig Hive/Impala Solr Sentry Storm Zeppelin Hue WS Knox Spark SQL Avro Parquet Hadoop Hive/Impala Spark Kafka Sqoop Yarn Tez
  • 78. Hadoop Hadoop Core – Master / Slave Master nodes NameNode Secondary NameNode Ressource Manager Worker nodes DataNode Node Manager
  • 79. ✘Objective global INGEST (db+files) STORE & TRANSFORM ENGRESS (jdbc) AUTOMATION ( DEV & ADMIN ) DEVADMIN
  • 80. Lab Hadoop Getting started with Hadoop 1. Installation 2. Hadoop Services overview ( using Cloudera Manager ) 3. Cloudera Manager : board, services, configurations ( role & services )
  • 84. ✘ Designe a la fois le Framework et l’algorithme ✘ MapReduce est un framework pour traiter les données en parallèle sur plusieurs machines  algorithme distribués ✘ Les programmes MapReduce scalent sur des milliers de machines. Hadoop MapReduceFILEA split #1 SPLITSDATA <k,v> paire RESULT split #2 split #3 <k,v> paire <k,v> paire map map map reduce reduce reduce MAPPERS SHUFFLING SORTING REDUCERS RESULT
  • 85. Lab Hadoop Getting started with HDFS 1. opérations de base via UI 2. opérations de base via la command line Commands : https://hadoop.apache.org/docs/current/hadoop-project- dist/hadoop-common/FileSystemShell.html
  • 86. Lab Hadoop TP HDFS - Industrialisation des requêtes standards 1. Création de « Container » pour des entités 2. Création de Projet au sein de l’entité 3. Création Compte pour les nouveaux arrivant 4. Changement Droit pour les utilisateurs 1. Mode classique 2. Mode avancé ( optionnel )
  • 87. Lab Hadoop Administration HDFS 1. Changer RF par default 2. Générer et analyser un rapport 3. Impérsonnification
  • 88. Lab Hadoop Lab Yarn & MR 1. Administration : Scheduler & IHM 2. Arrêter job qui tourne. 3. Implémentation MR sur java pour comprendre (Paradigme)
  • 90. Hadoop • Langage SQL Like • Catalog Métadonnée • Différents drivers • Se base sur Yarn
  • 91. ✘ Requêtes SQL Like  traitements logiques et analytiques ✘ Hive fournit plusieurs modes d’interaction : Console CLI (beeline), Interface Web UI, Drivers ODBC et JDBC WebUI (x)DBC CLI Beeline HiveServer2 metastore YARN HDFS MapReduce / Tez user Hadoop Core Hive Hadoop
  • 92. Lab Hadoop LAB Hive 1. Exemple table interne 2. Exemple table externe 3. Suppression des tables 4. Vos remarques sur les données et le schéma
  • 93.
  • 94. Lab Hadoop TP Hive 1. Créer script ingestion plusieurs fichiers vers table 2. Créer table externe associée 3. Donner les droits sur le répertoire de base de donnée pour l’entité de la racine
  • 95. Lab Hadoop LAB Hive 1. Administrer les jobs MR exécuté par HIVE 2. Tuer le job 3. Vérifier base de donnée Metastore 4. Activation Hive on Spark
  • 96. Lab Hadoop LAB Impala 1. Exemple table interne 2. Exemple table externe 3. Suppression des tables 4. Remarques
  • 97. Lab Hadoop TP Impala 1. Créer un script ingestion de plusieurs fichiers vers une table 2. Créer table externe associée 3. Donner les droits sur le répertoire de base de donnée pour l’entité de la racine
  • 99. Lab MongoDB - Introduction sources : https://docs.mongodb.com et https://www.mongodb.com/mongodb-architecture ✘ Analyse de la solution : > Section Introduction > Technologie de stockage BigData (Database) > Scalable horizontalement > Section DataModel > Schema design Orienté document > Format BSON > Section Réplication : > Architecture Master/Slave > Élection des nœuds avec/sans Arbiter > Section Sharding > Distribution par élément (Document) > Distribution aléatoire et ordonnée (RangeBased/HashBased) > Section MongoDB CRUD Operations > Le write level est paramétrable (write concen) > Architecture + Web CAP Théorème > MongoDB est « CA » et « CP » si on utilise le safe=true ( besoin de creuser )
  • 100. Lab MongoDB - Introduction ✘ Base de données open-source ✘ Base de données orientée documents ✘ Répond aux besoins de volumétries et de performances ✘ Réplication et Failover pour une haute disponibilité ✘ Auto Sharding pour une scalabilité horizontale ✘ Accepte le paradigme Map/Reduce ✘ Gestion facile des données géo-spatiales
  • 101. Lab MongoDB – Qui l’utilise
  • 102. Lab MongoDB – Connecteurs
  • 103. Lab MongoDB RDBMS MongoDB Database Database Table, View Collection Row Document (JSON, BSON) Column Field Index Index Primary Key Row Key / Partion Key Foreign Key Reference Partition Shard Table de correspondence
  • 105. LAB MongoDB Hands on Query Language CRUD Operations
  • 106. Lab MongoDB ✘ CLI : exercices // 1 CREATE TABLE users ( id varchar(5), age int, name varchar(100), status varchar(10) ); INSERT INTO users(id,age,name) VALUES (”usr001”,30,”Mehdi"); // 2 ALTER TABLE users DROP COLUMN status // 3 SELECT * FROM users WHERE name != "Mehdi" // 4 index asc CREATE INDEX idx_name ON users(name) // 5 SELECT name, age FROM users // 6 SELECT * FROM users WHERE name = "Omar" OR age > 50 // 7 SELECT * FROM users LIMIT 5 SKIP 10 // 8 EXPLAIN SELECT * FROM users WHERE name = "Mehdi" // 9 UPDATE users SET age = age + 3 WHERE age < 20 // 10 DELETE FROM users WHERE age < 18
  • 107. Lab MongoDB La correction sera envoyé par mail afin d’éviter d’avoir les réponses.
  • 108. LAB MongoDB Hands on Schema Design Application design
  • 109. La correction sera envoyé par mail afin d’éviter d’avoir les réponses.
  • 110. LAB MongoDB Hands on Java Driver Application programming
  • 111. Lab MongoDB ✘ Alimentation de la table people > Créer une fonction qui permet d’ajouter une personne > Créer une fonction qui permet de supprimer toutes les personnes n’ayant aucune compétence > Créer une fonction qui permet de lister toutes les personnes plus âgé que 35ans et ayant plus de 2 compétences > Créer une fonction qui permet d’afficher toutes les personnes ayant au moins 30ans ou travaillant chez la BNP > Créer une Une page HTML qui permet de lister toutes les personnes par unité de 10 <dependencies> <dependency> <groupId>org.mongodb</groupId> <artifactId>mongodb- driver</artifactId> <version>3.2.2</version> </dependency> </dependencies> MongoClient mongoClient = new MongoClient(); MongoDatabase db = mongoClient.getDatabase("mydb"); MongoCollection<Document> people = db.getCollection("people"); Document document = new Document("lastname","TAZI"); FindIterable<Document> documents = people.find(document);
  • 113. Lab MongoDB Absence de la Shard Key Lecture dans MongoDB
  • 115. Lab MongoDB Sharding et replication MongoD
  • 117. Lab Cassandra - Introduction ✘ Base de données open-source ✘ Base de données orientée colonnes ✘ Répond aux besoins de volumétrie et de performance ✘ Réplication et Failover pour une haute disponibilité ✘ Auto Sharding pour une scalabilité horizontale ✘ Gestion automatique de la réplication des Datacenter ✘ Gestion facile des données timeseries
  • 118. Lab Cassandra – Qui l’utilise?
  • 119. Lab Cassandra – Connecteurs
  • 120. Lab Casssandra RDBMS Cassandra Schema/Database Schema/Keyspace Table Table/Column Family Row Row Column Column(name,value) Index Index Table de correspondance
  • 121. LAB Cassandra Impact de créations des tables sur l’architecture technique Points critiques, performances et limitations
  • 122. LAB Cassandra Hands on CQL Application design/Schema design, Querying and design by query
  • 123. La correction sera envoyé par mail afin d’éviter d’avoir les réponses.
  • 124. LAB Cassandra What really happened Read/Write Path, Write level, nodes elections, data distribution

Notes de l'éditeur

  1. Ce sont 3 propriétés fondamentales des systèmes bigdata
  2. configuration : changer RF, fsck / dfsadmin report, impersonification