SlideShare uma empresa Scribd logo
1 de 49
Big
Les 3 'V'
Volume
Production de données de + en + importante
Conservation de plus en plus longue

Coût du stockage en diminution
Espoir d'extraire un jour de la valeur
Vélocité
Production de données de + en + rapide
Nécessité d'analyser ces données de + en + vite

Environnement concurrentiel dynamique
Variété
Plus seulement des données structurées
Vers une majorité de données non structurées

texte (articles, commentaires, tweets, ...)
images (chèques)
logs, métriques, ...
Les Challenges
Technologiques
Seek Time
5-10 ms pour positionner la tête

200 déplacements par seconde maximum
Data Transfer Rate
100 millions d'octets par seconde

 Mo/s                          75                  100                    125

 1 Mo                          13 ms               10 ms                  8 ms
 1 CD (700 Mo)                 9.1 s               7s                     5.6 s
 1 Go (1000 Mo)                13 s                10 s                   8s
 1 DVD (4700 Mo) 1m01s                             47 s                   37.6 s
 1 To (1000 Go)                3h36m               2h46m                  2h13m

        dd if=/dev/zero of=payload conv=fdatasync bs=1000000 count=1000
        dd if=payload of=/dev/null iflag=direct bs=1024000
Mo/s         75       100      125

1 minute     4.5 Go   6 Go     7.5 Go
15 minutes   67.5 Go 90 Go     112.5 Go
1 heure      270 Go   360 Go   450 Go
1 jour       6.48 To 8.64 To 10.8 To
78 octets d'en-tête (38 + 20 + 20)
  6-1460 octets de charge utile
  94.9 % de la bande passante
 Mbps             100     1000     800
 1 Mo             84.3 ms 8.43 ms 10.5 ms
 1 Go (1000 Mo)   1m24s   8.43 s   10.5 s
 1 DVD (4700 Mo) 6m36s    39.6 s   49.5 s
 1 To (1000 Go)   23h24m 2h20m     2h55m
Quelques exemples

Extraire une sous-chaîne (10→5) 25 ns
Convertir une chaîne en nombre              90 ns
Passer une chaîne en majuscules             75 ns
Allouer un tableau de 100 octets            30 ns


  1 s = 1000 ms = 1 000 000 μs = 1 000 000 000 ns
Impact des temps de traitement

Une opération nécessitant 10 μs
peut être effectuée 100000 fois par seconde
L'appliquer 1 milliard de fois prend 10000 s


            1000 s = 16m40s
            10000 s = 2h46m40s
            86400 s = 1 jour
Fonctionnels
“ Big data really is about having insights
 and making an impact on your business.
 If you aren’t taking advantage of the data you’re collecting,
 then you just have a pile of data, you don’t have big data. ”

                                    Jay Parikh – VP of Engineering, Facebook
Statistiques
Data Mining
Machine Learning
Version Open Source de GFS et Map/Reduce
     Hadoop Distributed File System
Segmentation des fichiers en blocs

                                                             A



                                                             B



                                                             C




     Blocs de 64 Mo, favorisent les lectures séquentielles
     Pas adapté à la gestion de nombreux petits fichiers
Répartition des blocs sur N machines
 Réplication des blocs pour assurer
   Performance et Disponibilité

 A          A

            B           B

 B          C           C

 A          C
+       x

    =
Parallélisation des traitements
et exécution au plus près des données
   en agissant sur chacun des blocs
 A           A

             B          B

 B           C          C

 A           C
(c) 2012 - Tarun Deep Girdher
Crunch




Cascading




                     (c) 2012 - Tarun Deep Girdher
(c) 2012 - Tarun Deep Girdher
Les Opportunités
(c) 2012 - Tarun Deep Girdher
(c) 2012 - Tarun Deep Girdher
(c) 2012 - Tarun Deep Girdher
...
(c) 2012 - Tarun Deep Girdher

Mais conteúdo relacionado

Destaque

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Modern Data Stack France
 

Destaque (8)

IoT Silicon Valley - Cityzen Sciences and Cityzen Data presentation
IoT Silicon Valley - Cityzen Sciences and Cityzen Data presentationIoT Silicon Valley - Cityzen Sciences and Cityzen Data presentation
IoT Silicon Valley - Cityzen Sciences and Cityzen Data presentation
 
Warp 10 Platform Presentation - Criteo Beer & Tech 2016-02-03
Warp 10 Platform Presentation - Criteo Beer & Tech 2016-02-03Warp 10 Platform Presentation - Criteo Beer & Tech 2016-02-03
Warp 10 Platform Presentation - Criteo Beer & Tech 2016-02-03
 
Programmation fonctionnelle
Programmation fonctionnelleProgrammation fonctionnelle
Programmation fonctionnelle
 
Scala : programmation fonctionnelle
Scala : programmation fonctionnelleScala : programmation fonctionnelle
Scala : programmation fonctionnelle
 
The Lambda Calculus and The JavaScript
The Lambda Calculus and The JavaScriptThe Lambda Calculus and The JavaScript
The Lambda Calculus and The JavaScript
 
Programmation fonctionnelle en JavaScript
Programmation fonctionnelle en JavaScriptProgrammation fonctionnelle en JavaScript
Programmation fonctionnelle en JavaScript
 
Comprendre la programmation fonctionnelle, Blend Web Mix le 02/11/2016
Comprendre la programmation fonctionnelle, Blend Web Mix le 02/11/2016Comprendre la programmation fonctionnelle, Blend Web Mix le 02/11/2016
Comprendre la programmation fonctionnelle, Blend Web Mix le 02/11/2016
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
 

Semelhante a Big Data - Open Coffee Brest - 20121121

2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
Patrick Guimonet
 
JSS2013 : Haute disponibilité
JSS2013 : Haute disponibilitéJSS2013 : Haute disponibilité
JSS2013 : Haute disponibilité
Christophe Laporte
 

Semelhante a Big Data - Open Coffee Brest - 20121121 (20)

BBL - Monitoring - kyriba
BBL - Monitoring - kyribaBBL - Monitoring - kyriba
BBL - Monitoring - kyriba
 
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
 
Exchange 2013 Bonnes pratiques
Exchange 2013 Bonnes pratiques Exchange 2013 Bonnes pratiques
Exchange 2013 Bonnes pratiques
 
Php 100k
Php 100kPhp 100k
Php 100k
 
Implementing a key/value store
Implementing a key/value storeImplementing a key/value store
Implementing a key/value store
 
La 3D sur le web avec Babylon.js pas à pas
La 3D sur le web avec Babylon.js pas à pasLa 3D sur le web avec Babylon.js pas à pas
La 3D sur le web avec Babylon.js pas à pas
 
Fusion io
Fusion ioFusion io
Fusion io
 
Le flash, est-ce pour moi ?
Le flash, est-ce pour moi ? Le flash, est-ce pour moi ?
Le flash, est-ce pour moi ?
 
Importer 500 millions de données de MySQL vers Neo4j
Importer 500 millions de données de MySQL vers Neo4jImporter 500 millions de données de MySQL vers Neo4j
Importer 500 millions de données de MySQL vers Neo4j
 
DevoxxFR 2019: Consul @Criteo
DevoxxFR 2019: Consul @CriteoDevoxxFR 2019: Consul @Criteo
DevoxxFR 2019: Consul @Criteo
 
Réussir une montée en charge avec MongoDB
Réussir une montée en charge avec MongoDBRéussir une montée en charge avec MongoDB
Réussir une montée en charge avec MongoDB
 
Spark - au dela du dataframe avec Tungsten et Catalyst
Spark - au dela du dataframe avec Tungsten et CatalystSpark - au dela du dataframe avec Tungsten et Catalyst
Spark - au dela du dataframe avec Tungsten et Catalyst
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseurs
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseurs
 
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshiftTrack 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
 
Memcached: Comprendre pour mieux utiliser
Memcached: Comprendre pour mieux utiliserMemcached: Comprendre pour mieux utiliser
Memcached: Comprendre pour mieux utiliser
 
IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash IBM FlashSystem : Les bonnes raisons de passer au Flash
IBM FlashSystem : Les bonnes raisons de passer au Flash
 
Conférence AFUP 20minutes.Fr
Conférence AFUP 20minutes.FrConférence AFUP 20minutes.Fr
Conférence AFUP 20minutes.Fr
 
JSS2013 : Haute disponibilité
JSS2013 : Haute disponibilitéJSS2013 : Haute disponibilité
JSS2013 : Haute disponibilité
 
.NET Microframework: du code, de l’électronique, de la robotique
.NET Microframework: du code, de l’électronique, de la robotique.NET Microframework: du code, de l’électronique, de la robotique
.NET Microframework: du code, de l’électronique, de la robotique
 

Mais de Mathias Herberts (7)

2019-09-25 Paris Time Series Meetup - Warp 10 - Advanced Time Series Technolo...
2019-09-25 Paris Time Series Meetup - Warp 10 - Advanced Time Series Technolo...2019-09-25 Paris Time Series Meetup - Warp 10 - Advanced Time Series Technolo...
2019-09-25 Paris Time Series Meetup - Warp 10 - Advanced Time Series Technolo...
 
20170516 hug france-warp10-time-seriesanalysisontopofhadoop
20170516 hug france-warp10-time-seriesanalysisontopofhadoop20170516 hug france-warp10-time-seriesanalysisontopofhadoop
20170516 hug france-warp10-time-seriesanalysisontopofhadoop
 
Big Data Tribute
Big Data TributeBig Data Tribute
Big Data Tribute
 
Hadoop Pig Syntax Card
Hadoop Pig Syntax CardHadoop Pig Syntax Card
Hadoop Pig Syntax Card
 
Hadoop Pig
Hadoop PigHadoop Pig
Hadoop Pig
 
WebScale Computing and Big Data a Pragmatic Approach
WebScale Computing and Big Data a Pragmatic ApproachWebScale Computing and Big Data a Pragmatic Approach
WebScale Computing and Big Data a Pragmatic Approach
 
Leveraging Hadoop for Legacy Systems
Leveraging Hadoop for Legacy SystemsLeveraging Hadoop for Legacy Systems
Leveraging Hadoop for Legacy Systems
 

Big Data - Open Coffee Brest - 20121121

  • 1. Big
  • 4. Production de données de + en + importante Conservation de plus en plus longue Coût du stockage en diminution Espoir d'extraire un jour de la valeur
  • 6. Production de données de + en + rapide Nécessité d'analyser ces données de + en + vite Environnement concurrentiel dynamique
  • 8. Plus seulement des données structurées Vers une majorité de données non structurées texte (articles, commentaires, tweets, ...) images (chèques) logs, métriques, ...
  • 11.
  • 13. 5-10 ms pour positionner la tête 200 déplacements par seconde maximum
  • 15. 100 millions d'octets par seconde Mo/s 75 100 125 1 Mo 13 ms 10 ms 8 ms 1 CD (700 Mo) 9.1 s 7s 5.6 s 1 Go (1000 Mo) 13 s 10 s 8s 1 DVD (4700 Mo) 1m01s 47 s 37.6 s 1 To (1000 Go) 3h36m 2h46m 2h13m dd if=/dev/zero of=payload conv=fdatasync bs=1000000 count=1000 dd if=payload of=/dev/null iflag=direct bs=1024000
  • 16. Mo/s 75 100 125 1 minute 4.5 Go 6 Go 7.5 Go 15 minutes 67.5 Go 90 Go 112.5 Go 1 heure 270 Go 360 Go 450 Go 1 jour 6.48 To 8.64 To 10.8 To
  • 17.
  • 18.
  • 19. 78 octets d'en-tête (38 + 20 + 20) 6-1460 octets de charge utile 94.9 % de la bande passante Mbps 100 1000 800 1 Mo 84.3 ms 8.43 ms 10.5 ms 1 Go (1000 Mo) 1m24s 8.43 s 10.5 s 1 DVD (4700 Mo) 6m36s 39.6 s 49.5 s 1 To (1000 Go) 23h24m 2h20m 2h55m
  • 20.
  • 21. Quelques exemples Extraire une sous-chaîne (10→5) 25 ns Convertir une chaîne en nombre 90 ns Passer une chaîne en majuscules 75 ns Allouer un tableau de 100 octets 30 ns 1 s = 1000 ms = 1 000 000 μs = 1 000 000 000 ns
  • 22. Impact des temps de traitement Une opération nécessitant 10 μs peut être effectuée 100000 fois par seconde L'appliquer 1 milliard de fois prend 10000 s 1000 s = 16m40s 10000 s = 2h46m40s 86400 s = 1 jour
  • 24. “ Big data really is about having insights and making an impact on your business. If you aren’t taking advantage of the data you’re collecting, then you just have a pile of data, you don’t have big data. ” Jay Parikh – VP of Engineering, Facebook
  • 25.
  • 29.
  • 30.
  • 31. Version Open Source de GFS et Map/Reduce Hadoop Distributed File System
  • 32. Segmentation des fichiers en blocs A B C Blocs de 64 Mo, favorisent les lectures séquentielles Pas adapté à la gestion de nombreux petits fichiers
  • 33. Répartition des blocs sur N machines Réplication des blocs pour assurer Performance et Disponibilité A A B B B C C A C
  • 34. + x =
  • 35.
  • 36. Parallélisation des traitements et exécution au plus près des données en agissant sur chacun des blocs A A B B B C C A C
  • 37. (c) 2012 - Tarun Deep Girdher
  • 38. Crunch Cascading (c) 2012 - Tarun Deep Girdher
  • 39.
  • 40. (c) 2012 - Tarun Deep Girdher
  • 42.
  • 43.
  • 44.
  • 45. (c) 2012 - Tarun Deep Girdher
  • 46. (c) 2012 - Tarun Deep Girdher
  • 47. (c) 2012 - Tarun Deep Girdher
  • 48. ...
  • 49. (c) 2012 - Tarun Deep Girdher