O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Introduction à la big data v3

0 visualizações

Publicada em

Non private coach slides for big data training
Presentation non privée de la formation big data

Publicada em: Engenharia
  • The concept of dimensionality indicates that each customer, creative, channel, and every point in time is a separate dimension. The interdependencies between dimensions can pose immense problems in marketing science, especially in systems that do not have well-defined mathematical relationships between dimensions. http://bit.ly/2RoY6Yw
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • Mehdi comment avoir accès à cette formation?
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • Thanks for your nice post, Most organizations grapple with quintillions of bytes of data every day, trying to figure out an information management strategy that could accelerate the flow of insights. This significantly complicates their big data solutions. For more informations visit: https://bit.ly/2VtGAWi
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui

Introduction à la big data v3

  1. 1. Formation Big Data Initiation, concepts, architectures, administration et développements pour architecte et consultant
  2. 2. ✘ Veuillez vous présenter : ✗ Vôtre nom et prénom ✗ Fonction, société ✗ Avez vous une expérience Big Data? Qu’avez vous fait ? ✗ Quelles sont vos attentes de ce cours ? Tour de table TOUR DE TABLE
  3. 3. Mehdi TAZI ✘ Architecte BigData ✘ Freelancer, ex OCTO ✘AXA, BNP, EDF, LA POSTE, AL BARID BANK, ✘ ARCHI, DEV, ADMIN, ORGA... Contact : > slack : slack.itinsight.fr > web : tazimehdi.com / itinsight.fr > mail : mehdi@tazimehdi.com / mehdi.tazi@itinsight.fr
  4. 4. ✘ Communication interactive par thème Déroulement ✘ Osez poser vos questions de façon interactive > des termes utilisés, sujets non compris > des problématiques liées à votre travail > des questions d’ordre générale par thème Technologique, Méthodologique, Organisationnelle…
  5. 5. Outils nécessaires Cassandra Server : http://cassandra.apache.org/download/ Cassandra Dev Center : http://www.datastax.com/what-we-offer/products-services/devcenter MongoDB server : https://www.mongodb.com/download-center#community Horntonworks HDP : http://hortonworks.com/downloads/ Cloudera CDH : https://www.cloudera.com/downloads/quickstart_vms/5-10.html VirtualBox https://www.virtualbox.org/wiki/Downloads
  6. 6. Programme
  7. 7. Programme Concepts technologique Commun Hadoo p NoSQ L Spark ELK Historique + RappelConsultant(Accompagnement) Entretient Vue d’ensemble Architectes, Développeurs, Administrateurs, Consultants, Accompagnement Spécialisation Architectes, Développeurs, Administrateurs, Consultants, Accompagnement
  8. 8. Programme ✘ Introduction à la Big Data ✘ Vue d’ensemble ✘ Concepts architecturaux ✘ Couches et technologies ✘ Le NoSQL ✘ Datalake & Datalab ✘ Information generales & Atelier questions/reponses
  9. 9. Introduction
  10. 10. Big data is like teenage sex : everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it... Dan Ariely
  11. 11. C’est quoi selon vous le big data ?
  12. 12. Introduction à la Big Data ✘ Traitement et stockage massives des gros volumes de données ✘ Explosion quantitative des données numériques C’est quoi la Big Data? (1/2)
  13. 13. Introduction à la Big Data ✘ Données provenant de plusieurs sources : ✗ Capteurs : température, pression… ✗ IOT : montres connectées, balances, Smartphones… ✗ Messages sur les réseaux sociaux : tweet, posts… ✗ Transactions et logs : banques, e-commerce… ✗ Images, vidéos et sons : instagram, youtube, snapchat, deezer, spotify… ✗ Autres : GPS, email, sms… C’est quoi la Big Data? (2/2)
  14. 14. Introduction à la Big Data Qu’est ce qui se passe chaque minute sur Internet? Source : Qmee log Storage RT Processing ex : pic tag, batch concu adds RT Processing
  15. 15. Introduction à la Big Data ✘ Les solutions actuelles coûtent cher : archivage et traitement ✘ Répondre à des problématiques métiers avec plus de précision et de rapidité. ✘ Améliorer la prise de décision basée sur l’analyse de très gros volumes de données. ✘ Tirer un avantage concurrentiel à travers la collecte, l’analyse, la prédiction et l’exploitation des données sur de grandes profondeurs. ( DDC ) ✘ La création de nouveaux cas d’usages et de valeurs business basées sur la données et la technologie. ( cloud , données …) ✘ Un outil au service du métier  Une offre de service à part entière (AXA/ ERDF) Quel est l’intérêt d’adopter le big data?
  16. 16. Introduction à la Big Data ✘ Au début c’était destiné aux gros acteurs du web et les grandes multinationales : ✗ Facebook, Google, Amazon… ✗ Fedex, Walmart, Citi… ✘ Maintenant de plus en plus de monde y est concerné : ✗ De gros Acteurs : Axa, BNP Paribas, La Poste, EDF… ✗ Des nouveaux : Snapchat, whatsapp, pokemon go … ✗ Vous ? Pour qui ?
  17. 17. Introduction à la Big Data ✘ Energie ✗ Amélioration de la production et distribution d’énergie ✗ Information en temps réel sur les débits et la qualité ✗ Détection des problèmes de réseaux ✗ Automatisation du processus de collecte de données ✘ Transport et distribution ✗ Optimisation des trajets et réductions des coûts ✗ Ajustement d’offre et de demande par zone géographique ✘ Produits de Luxe et grandes consommations ✗ Analyse de sentiments et retour produits * ✗ Amélioration de la satisfaction des clients ✗ Identification de nouveaux besoins et désirs * ✗ Recommandations Cas d’usage réel (1/2)
  18. 18. Introduction à la Big Data ✘ E-Commerce ✗ Amélioration des stocks et de l’expérience clients. ✗ Gestion plus fine et dynamique des prix de vente ✗ Personnalisation des offres ✗ Pricing dynamique * ✗ Marketing ciblé ✘ Services publics et banques ✗ Archivage et données publiques ✗ Lute contre la fraude et abus * ✗ Amélioration des processus ✗ Sécurité ✘ Autres ✗ Fidéliser les clients des casinos en intervenant avant que les pertes des joueurs ne soit trop élevées ✗ Détecter les potentiel futures boxs en pannes : météo, géolocalisation, état box.. * Cas d’usage réel (2/2)
  19. 19. Buzzwords
  20. 20. Introduction à la Big Data Big Data, Fast Data, Smart Data et Open Data Big Data Fast Data Smart Data Open Data
  21. 21. Quiz Time !
  22. 22. Questions / Réponses > Comment définir le Big data en une seule phrase ? > Pourquoi adopter le Big data ? > Qu’est ce que la smart data ? > Qu’est ce que le fast data ? > Qu’est ce que l’open data ? > A quelles problématiques répond le big data ? > A quelles problématiques répond le fast data ?
  23. 23. J’entend souvent parler des 3V, mais c’est quoi exactement ?
  24. 24. Introduction à la Big Data Les 3V Variété File Json, CSV, Texte, Png, Log ... Vélocité Batch Periodic Near RT RealTime 100 ms, 30 min, 7h, 1j, 30000 events/time unit … Volume Mb Gb Tb Pb 10Gb, 10Tb, 2Pb …
  25. 25. Et c’est quoi cette histoire de 5V ?
  26. 26. Introduction à la Big Data Propriété d’un Système big data - Les 5V Variété File Json, CSV, Texte, Png, Log ... Vélocité Batch Periodic Near RT RealTime 100 ms, 30 min, 7h, 1j, 30000 events/time unit … Volume Mb Gb Tb Pb 10Gb, 10Tb, 2Pb … Véracité 31 2 Valeur
  27. 27. Quiz Time !
  28. 28. Questions / Réponses > Citez les 3 principales propriétés d’un systèmes big data > Citez deux autres propriétés > Qu’elles sont les problématiques liées à la volumétries ? > Qu’elles sont les problématiques liée à la vélocité ? > Qu’elles sont les problématiques liée à véracité ?
  29. 29. Big Picture Vue d’ensemble
  30. 30. VUE D’ENSEMBLE – ARCHITECTURE FONCTIONELLE Processing Exchange Storage Data Management Consume
  31. 31. VUE D’ENSEMBLE – ARCHITECTURE TECHNIQUE Operational databases Datalake Ingestion / ETL / ELT / Integration Datawarehouse DataLab Reporting & DataViz Monitoring APIs
  32. 32. Quiz Time !
  33. 33. Questions / Réponses > Quelles sont les 5 grandes briques fonctionnelles d’un système bigdata ? > Quelles sont les 4 grandes fonctionnalités que gère la brique de stockage ? > Quelles sont les 3 grandes fonctionnalités que gère la brique de traitement ? > Quelles sont les 3 grandes fonctionnalités que gère la brique de sécurité ? > Où se positionne un système Big Data par rapport au reste du SI ?
  34. 34. Concepts architecturaux
  35. 35. Concepts architecturaux ✘ Besoin : Traitement et stockage massif des gros volumes de données ✘ Limites : Ajouter plus de puissance aux machines : ✗ Stockage: Disque dur, mémoire … ✗ Traitement: CPU, parallélisme … ✘ Solution : Archiver et traiter l’information de façon distribuée afin de bénéficier de plus de capacité de puissance ✘ Le Big data repose principalement sur les notions des systèmes distribués! Limitations & Besoin
  36. 36. Scalabilité horizontale vs Scalabilité verticale
  37. 37. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU 32 GB 16 CPU Hardware limitation !Scale-up Scale-up Augmenter la puissance d’un système en ajoutant du matériels plus puissants
  38. 38. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU Scale out 24 CPU, 48 GO Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU Scale out X CPU, Y GO 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU
  39. 39. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU 32 GB 16 CPU Limit ! 16 GB 8 CPU Scale-up Scale-out Scale-out 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU Scale-up 24 CPU, 48 GO X CPU, Y GO Augmenter la puissance d’un système en ajoutant du matériels plus puissants Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines
  40. 40. Partitionnement -- Distribution -- Réplication
  41. 41. Concepts architecturaux Partitionnement Collection A File File1 TB Nœud 1 Nœud 2 Nœud 3 Nœud 4 256 GB 256 GB 256 GB 256 GB ✘ Répartir les données et traitements sur de multiples serveurs sur un cluster ✘ Le partitionnement permet d’absorber la charge (de stockage ou de traitement). Serveur logique Cluster
  42. 42. Concepts architecturaux Réplication Collection A BA C Nœud 1 Nœud 2 Nœud 3 CA BA B C Nœud 4 BA C RF = 3 ✘ Copier la donnée en de multiples exemplaires sur plusieurs nœuds du cluster ✘ Permet de garantir la disponibilité de l’ensemble des données même quand un nœud du cluster disparaît (maintenance, crash, …) ✘ La probabilité de perte d’un nœud croît avec la taille du cluster ✘ Meilleur performance et sécurité.
  43. 43. Concepts architecturaux Partitionnement et Réplication Collection A BA Nœud 1 Nœud 2 Nœud 3 A2A1 A2B2 B1 A1 Nœud 4 B3B1 A3 RF = 3 B3 B3 B3 A2B2B1 A1A3 A3 B2 A = A1+A2+A3 B = B1+B2+B3
  44. 44. Architecture des disques
  45. 45. Concepts architecturaux Architecture des disques (1/3) ✘ JBOD vs RAID ✗ JBOD : Just a Bunch Of Disks (3 disques de 1T = 3To de stockage) ✗ RAID : Redundant Array of Independent Disks (réplication physique) ✘ Quand utiliser quoi ? ✗ JBOD : Système avec redondance  nœuds worker et de données ✗ RAID : Système sans redondance  Nœuds Master, gestion du système ✘ Avantage : ✗ JBOD : Gagner de l‘espace disque, facile a mettre en place… ✗ RAID : Fiabilité de données, mais coûte plus cher...
  46. 46. Concepts architecturaux Architecture des disques (2/3) striping mirroring single parity double parity distribution réplication
  47. 47. Concepts architecturaux Architecture des disques (3/3)
  48. 48. Architecture des nœuds
  49. 49. Concepts architecturaux Architecture des nœuds - Master / Slave – Sans HA Nœud Master Nœud Slave Nœud Slave Application Driver writeread SPOF ✘ Les nœuds master sont soit impliquer dans les opérations, soit ils ont simplement un rôle mendiant d’acheminement, d’orchestration des opérations read > peut s’occuper du sharding/replication > A connaissance de la topologies
  50. 50. Concepts architecturaux Architecture des nœuds - Master / Slave avec HA Master active Slave Slave Application Driver writeread Standby Master passive Copie des données On failover ✘ Reprise automatique ✘ Lag  perte de messages lors d’un crash
  51. 51. Concepts architecturaux Architecture des nœuds - Multi-Master Master active Slave Slave Master active Slave Slave Master active SlaveSlave Synchronisation
  52. 52. Concepts architecturaux Architecture des nœuds - Peer to Peer / En noeuds Nœud 1 Nœud 2 Nœud 3 Nœud 4 ✘ Tout les nœuds sont égaux ✘ Topologie connu par chaque nœud et non par le master 0-24 25-49 75-99 50-74 Masterless architecture Application Driver R/W
  53. 53. Technologies basé sur des systèmes distribuées Systèmes distribuées
  54. 54. Election des nœuds
  55. 55. Concepts architecturaux Election des nœuds (1/4) Nœud Primaire Master Nœud Secondaire Slave Nœud Secondaire Slave Réplication Réplication Heartbeats Election d’un nouveau nœud primaire
  56. 56. Concepts architecturaux Election des nœuds (2/4) Nœud Primaire Master Nœud Secondaire Slave Heartbeats Réplication
  57. 57. Concepts architecturaux Election des nœuds (3/4) Nœud Primaire Master Nœud Secondaire Slave Arbiter Réplication Heartbeat Election d’un nouveau nœud primaire Utilisé simplement pour le vote
  58. 58. Concepts architecturaux Election des nœuds (4/4) Nœud Primaire Master Arbiter Heartbeat
  59. 59. Théorème de CAP
  60. 60. Concepts architecturaux Théorème de CAP Consistency The data is the same across the cluster, at the same given time X X X
  61. 61. Concepts architecturaux Théorème de CAP Consistency The data is the same across the cluster, at the same given time Most P2P
  62. 62. Couches et technologies
  63. 63. Concepts architecturaux Cartographie des technologies par couches REALTIME & BATCH PROCESSING SECURITY,&GOUVERNANCE CNavigator ApacheRanger QUERYING, ANALYTICS & DATASCIENCE USER PRESENTATION & REPORTING MANAGEMENT&ADMINISTRATION Clouderamanager EXTERNAL INPUTS : FS / WS STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINES DATA ACQUISITION, INGESTION & INTEGRATION MESSAGING, BROKERS & COORDINATION
  64. 64. Concepts architecturaux Cartographie des technologies par couches DATA ACQUISITION, INGESTION & INTEGRATION REALTIME & BATCH PROCESSING SECURITY, & GOUVERNA NCE C Navigator QUERYING, ANALYTICS & DATASCIENCE USER PRESENTATION & REPORTING MANAGEME NT & ADMINISTRA TION Cloudera manager STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINE MESSAGING, BROKERS & COORDINATION Spark Flume Hadoop Sqoop Talend Scala Java Kafka RabbitMQ ActiveMQ IronMQ Zookeeper TalendNifiFlinkStormHadoopSpark HBaseHadoop MongoDB CouchBase RedisNeo4J CassandraTitan Parquet Orc Avro Elastic search Teradata Solr Spark Jupyter Zepplin R Phyton HAWQ Teradata Hive Impala PolymapsHTML/CSSExcelQlik TableauHue Sentry Falcon Atlas Knox Ranger Ambari Ganglia Oozie Nagios AMQ Pentaho
  65. 65. Le NoSQL
  66. 66. Déjà le NoSQL n’est pas :
  67. 67. Datalake
  68. 68. Datalake Introduction Définition, Natures et types des données, schema on read/write
  69. 69. Datalake Définition Réseaux sociaux et streaming Fichiers et logs Bases de Données DATA LAKE Données structurées Données semi-structurées Données non structurées STAGING ARCHIVING TRANSFORMING HISTORISATION Capteurs ANALYTICS PREDICTIONS Pas performante pour du traitement opérationnel
  70. 70. Hadoop Introduction à Hadoop Batch processing RealTime processing
  71. 71. Hadoop Distribution et technologies 3 grandes distributions sur le marché : > Hortonworks : Expedia, ebay, Samsung, Spotify,... > Cloudera : Cisco, Mastercard, Siemens, WesterUnion… > MapR : HP , American express, Beats music, Ericsson... BNP Parisbas La Poste Credit agricole
  72. 72. Hadoop Distribution et technologies Hortonworks : Stack technologique HDP
  73. 73. Datalake Cartographie logique / technologique HDP Datalake Services (accès aux données, traitements…) Traitements ( ETL, ELT, …) Données brutes, temporaires, à valeurs ajoutées Gouvernance,Securité… Pointsd’accèsPointd’Expositions Falcon Atlas HDFS HBase Phoenix MapReduce Spark Hive Pig Hive Solr Ranger Storm Zeppelin Ambari views WS Hive SparkKnox Spark SQL Avro ORC Hadoop Kafka Sqoop Yarn Tez
  74. 74. Hadoop Distribution et technologies Hortonworks : version des technologies de la stack
  75. 75. Hadoop Distribution et technologies Cloudera: Stack technologique CDH
  76. 76. Datalake Cartographie logique / technologique CDH Polyglot-persistenceDonnées de référence Datalake Services (accès aux données, traitements…) Traitements ( ETL, ELT, …) Données brutes, temporaires, à valeurs ajoutées Gouvernance, sécurité, catalogue, métadata, traçabilité, cycle de vie… Gouvernance,Securité… Pointsd’accès Ingestion, Accès données : temps réel, batch, MicroBatch Pointd’Expositions Webservices, API Record service Cloudera navigator HDFS HBase Kudu MapReduce Spark Hive/Impala Pig Hive/Impala Solr Sentry Storm Zeppelin Hue WS Knox Spark SQL Avro Parquet Hadoop Hive/Impala Spark Kafka Sqoop Yarn Tez
  77. 77. Hadoop Hadoop Core – Master / Slave Master nodes NameNode Secondary NameNode Ressource Manager Worker nodes DataNode Node Manager
  78. 78. ✘Objective global INGEST (db+files) STORE & TRANSFORM ENGRESS (jdbc) AUTOMATION ( DEV & ADMIN ) DEVADMIN
  79. 79. Lab Hadoop Getting started with Hadoop 1. Installation 2. Hadoop Services overview ( using Cloudera Manager ) 3. Cloudera Manager : board, services, configurations ( role & services )
  80. 80. TP Cloudera Manager
  81. 81. MAP REDUCE
  82. 82. MapReduce Hadoop
  83. 83. ✘ Designe a la fois le Framework et l’algorithme ✘ MapReduce est un framework pour traiter les données en parallèle sur plusieurs machines  algorithme distribués ✘ Les programmes MapReduce scalent sur des milliers de machines. Hadoop MapReduceFILEA split #1 SPLITSDATA <k,v> paire RESULT split #2 split #3 <k,v> paire <k,v> paire map map map reduce reduce reduce MAPPERS SHUFFLING SORTING REDUCERS RESULT
  84. 84. Lab Hadoop Getting started with HDFS 1. opérations de base via UI 2. opérations de base via la command line Commands : https://hadoop.apache.org/docs/current/hadoop-project- dist/hadoop-common/FileSystemShell.html
  85. 85. Lab Hadoop TP HDFS - Industrialisation des requêtes standards 1. Création de « Container » pour des entités 2. Création de Projet au sein de l’entité 3. Création Compte pour les nouveaux arrivant 4. Changement Droit pour les utilisateurs 1. Mode classique 2. Mode avancé ( optionnel )
  86. 86. Lab Hadoop Administration HDFS 1. Changer RF par default 2. Générer et analyser un rapport 3. Impérsonnification
  87. 87. Lab Hadoop Lab Yarn & MR 1. Administration : Scheduler & IHM 2. Arrêter job qui tourne. 3. Implémentation MR sur java pour comprendre (Paradigme)
  88. 88. PIG & HIVE
  89. 89. Hadoop • Langage SQL Like • Catalog Métadonnée • Différents drivers • Se base sur Yarn
  90. 90. ✘ Requêtes SQL Like  traitements logiques et analytiques ✘ Hive fournit plusieurs modes d’interaction : Console CLI (beeline), Interface Web UI, Drivers ODBC et JDBC WebUI (x)DBC CLI Beeline HiveServer2 metastore YARN HDFS MapReduce / Tez user Hadoop Core Hive Hadoop
  91. 91. Lab Hadoop LAB Hive 1. Exemple table interne 2. Exemple table externe 3. Suppression des tables 4. Vos remarques sur les données et le schéma
  92. 92. Lab Hadoop TP Hive 1. Créer script ingestion plusieurs fichiers vers table 2. Créer table externe associée 3. Donner les droits sur le répertoire de base de donnée pour l’entité de la racine
  93. 93. Lab Hadoop LAB Hive 1. Administrer les jobs MR exécuté par HIVE 2. Tuer le job 3. Vérifier base de donnée Metastore 4. Activation Hive on Spark
  94. 94. Lab Hadoop LAB Impala 1. Exemple table interne 2. Exemple table externe 3. Suppression des tables 4. Remarques
  95. 95. Lab Hadoop TP Impala 1. Créer un script ingestion de plusieurs fichiers vers une table 2. Créer table externe associée 3. Donner les droits sur le répertoire de base de donnée pour l’entité de la racine
  96. 96. Lab MongoDB
  97. 97. Lab MongoDB - Introduction sources : https://docs.mongodb.com et https://www.mongodb.com/mongodb-architecture ✘ Analyse de la solution : > Section Introduction > Technologie de stockage BigData (Database) > Scalable horizontalement > Section DataModel > Schema design Orienté document > Format BSON > Section Réplication : > Architecture Master/Slave > Élection des nœuds avec/sans Arbiter > Section Sharding > Distribution par élément (Document) > Distribution aléatoire et ordonnée (RangeBased/HashBased) > Section MongoDB CRUD Operations > Le write level est paramétrable (write concen) > Architecture + Web CAP Théorème > MongoDB est « CA » et « CP » si on utilise le safe=true ( besoin de creuser )
  98. 98. Lab MongoDB - Introduction ✘ Base de données open-source ✘ Base de données orientée documents ✘ Répond aux besoins de volumétries et de performances ✘ Réplication et Failover pour une haute disponibilité ✘ Auto Sharding pour une scalabilité horizontale ✘ Accepte le paradigme Map/Reduce ✘ Gestion facile des données géo-spatiales
  99. 99. Lab MongoDB – Qui l’utilise
  100. 100. Lab MongoDB – Connecteurs
  101. 101. Lab MongoDB RDBMS MongoDB Database Database Table, View Collection Row Document (JSON, BSON) Column Field Index Index Primary Key Row Key / Partion Key Foreign Key Reference Partition Shard Table de correspondence
  102. 102. Lab MongoDB Document JSON / BSON
  103. 103. LAB MongoDB Hands on Query Language CRUD Operations
  104. 104. Lab MongoDB ✘ CLI : exercices // 1 CREATE TABLE users ( id varchar(5), age int, name varchar(100), status varchar(10) ); INSERT INTO users(id,age,name) VALUES (”usr001”,30,”Mehdi"); // 2 ALTER TABLE users DROP COLUMN status // 3 SELECT * FROM users WHERE name != "Mehdi" // 4 index asc CREATE INDEX idx_name ON users(name) // 5 SELECT name, age FROM users // 6 SELECT * FROM users WHERE name = "Omar" OR age > 50 // 7 SELECT * FROM users LIMIT 5 SKIP 10 // 8 EXPLAIN SELECT * FROM users WHERE name = "Mehdi" // 9 UPDATE users SET age = age + 3 WHERE age < 20 // 10 DELETE FROM users WHERE age < 18
  105. 105. Lab MongoDB La correction sera envoyé par mail afin d’éviter d’avoir les réponses.
  106. 106. LAB MongoDB Hands on Schema Design Application design
  107. 107. La correction sera envoyé par mail afin d’éviter d’avoir les réponses.
  108. 108. LAB MongoDB Hands on Java Driver Application programming
  109. 109. Lab MongoDB ✘ Alimentation de la table people > Créer une fonction qui permet d’ajouter une personne > Créer une fonction qui permet de supprimer toutes les personnes n’ayant aucune compétence > Créer une fonction qui permet de lister toutes les personnes plus âgé que 35ans et ayant plus de 2 compétences > Créer une fonction qui permet d’afficher toutes les personnes ayant au moins 30ans ou travaillant chez la BNP > Créer une Une page HTML qui permet de lister toutes les personnes par unité de 10 <dependencies> <dependency> <groupId>org.mongodb</groupId> <artifactId>mongodb- driver</artifactId> <version>3.2.2</version> </dependency> </dependencies> MongoClient mongoClient = new MongoClient(); MongoDatabase db = mongoClient.getDatabase("mydb"); MongoCollection<Document> people = db.getCollection("people"); Document document = new Document("lastname","TAZI"); FindIterable<Document> documents = people.find(document);
  110. 110. Lab MongoDB Lecture dans MongoDB
  111. 111. Lab MongoDB Absence de la Shard Key Lecture dans MongoDB
  112. 112. Lab MongoDB Write level/concern Unacknowledged Ecriture dans MongoDB
  113. 113. Lab MongoDB Sharding et replication MongoD
  114. 114. Lab Cassandra
  115. 115. Lab Cassandra - Introduction ✘ Base de données open-source ✘ Base de données orientée colonnes ✘ Répond aux besoins de volumétrie et de performance ✘ Réplication et Failover pour une haute disponibilité ✘ Auto Sharding pour une scalabilité horizontale ✘ Gestion automatique de la réplication des Datacenter ✘ Gestion facile des données timeseries
  116. 116. Lab Cassandra – Qui l’utilise?
  117. 117. Lab Cassandra – Connecteurs
  118. 118. Lab Casssandra RDBMS Cassandra Schema/Database Schema/Keyspace Table Table/Column Family Row Row Column Column(name,value) Index Index Table de correspondance
  119. 119. LAB Cassandra Impact de créations des tables sur l’architecture technique Points critiques, performances et limitations
  120. 120. LAB Cassandra Hands on CQL Application design/Schema design, Querying and design by query
  121. 121. La correction sera envoyé par mail afin d’éviter d’avoir les réponses.
  122. 122. LAB Cassandra What really happened Read/Write Path, Write level, nodes elections, data distribution

×