2. Big Data: des données en augmentation perpétuelle
Go To
Po
95% des 1,2 zettaoctets des
données dans l’univers digital
sont non structurées
70% de ces données ont été
générées par des utilisateurs
La croissance des données non
structurées est explosive, avec
des croissances annuelles
(CAGR) de 62% entre 2008 et
2012. Source: IDC
Zo
Eo
3. Un écosystème Big Data
Amazon Redshift
Amazon EMR
Amazon EC2
Analyser
Amazon Glacier
Amazon S3
Amazon DynamoDB
Stocker
AWS Direct Connect
Collecter
Amazon Kinesis
6. Service de métrologie AWS
Cas d’usage
• X * 10M d’enregistrements/sec
• X * 100K sources
• X To par heure
Contraintes
• Besoin de plus d’élasticité
• Envie d’alertes en temps-réel
• Coûteux à opérer
• Stockage éventuellement
consistent
7. Notre transition « Big Data »
Ancien besoin
• Accepter des volumes très importants de données et les traiter par lots
horaires ou quotidiens
Nouveau besoin
• Prendre des décisions plus rapidement, même en temps-réel
• Redimensionner le système complet à l’échelle, de manière élastique
• Rendre facile le fait de « garder tout »
• Permettre à plusieurs applications de traiter les données en parallèle
8. Scenarios Capture-Transformation-Chargement
accéléré
Métrique continue / KPI Extraction Analyse réactive sur les données
Types de données Infrastructure IT, Logs Applicatifs, Média Sociaux, Données Financières, Clics Web, Capteurs, Geolocalisation
Logiciels /
technologie
Serveurs IT, Traitement Logs applications Tableaux de bord opérationnels IT Intelligence opérationnelle sur
capteurs
Marketing / Publicité
en ligne
Agrégation de données marketing Advertising metrics like coverage, yield,
conversion
Analytique sur engagement client avec
les publicités, optimisation des bids
Finance Collecte de données des marchés
financiers
Métriques de données financières Analyse et détection de fraudes, suivi
de VAR audit d’ordres sur les marchés
E-Commerce /
Plateformes en ligne
Agrégation de données sur l’engagement
en ligne des clients
Métriques d’engagement client, CTR,
pages vues, …
Moteurs de recommandation, analyse
de comportement
Scénarios clients sur plusieurs industries
10. Architecture Amazon Kinesis
Amazon Web Services
AZ AZ AZ
Durable, highly consistent storage replicates data
across three data centers (availability zones)
Aggregate and
archive to S3
Millions of
sources producing
100s of terabytes
per hour
Front
End
Authentication
Authorization
Ordered stream
of events supports
multiple readers
Real-time
dashboards
and alarms
Machine learning
algorithms or
sliding window
analytics
Aggregate analysis
in Hadoop or a
data warehouse
Inexpensive: $0.028 per million puts
11. Plateforme pour l’intégration et le traitement continu
Le bon outil pour le bon cas d’usage
Intégration temps-réel
• Passe à l’échelle
• Durable
• Élastique
• Lecture / relecture
Traitement continu
• Équilibrage de charge sur les flux d’entrée
• Tolérance de panne, Checkpoint / Replay
• Élastique
• Plusieurs applications traitent en parallèle
Permet le transfert de données vers des points de stockage / traitement
Service managé
Latence faible de bout-en-bout
Traitement en continu et en temps-réel
12. Écrire dans Kinesis
Une interface simple « Put »
• Les producteurs utilisent un appel PUT pour stocker
des données dans un Stream
• PutRecord {Data, PartitionKey, StreamName}
• Une clé de partitionnement est fournie par le
producteur afin de cibler un Shard
• Kinesis utilise un algorithme de hash pour
déterminer dans quel Shard stocker les données
• Un numéro unique de séquence est retourné au
producteur une fois les données stockées
15. Accélérer le développement d’applications de
traitement Kinesis avec le Kinesis Client Library
o Bibliothèque Java ouverte, sources sur GitHub
o Concevez et déployez des applications sur Amazon EC2
o KCL sert d’intermédiaire de traitement:
Démarre un « Worker » pour chaque Shard
Simplifie la lecture via une abstraction des Shards
Augmente / Diminue le nombre de Workers en
fonction du nombre de Shards
Gère les Checkpoints et la reprise sur erreur
o Gère la répartition de charge avec les Auto Scaling Groups
16. Connecter Kinesis avec Amazon DynamoDB, S3, Redshift
ou votre système avec Kinesis Connector Library
Amazon S3
Amazon
DynamoDB
Amazon Redshift
Amazon
Kinesis
ITransformer
• Transforme un
enregistrement
Kinesis en une
donnée utile
IFilter
• Exclue les
enregistrements non
pertinents
IBuffer
• Regroupe les
enregistrements
ensemble pour
faciliter le traitement
par lot
IEmitter
• Enregistre les lots
d’enregistrements
vers un système de
stockage
17. D’autres options de lecture de Streams Kinesis
APIs, Storm
o Utiliser les APIs « Get* » pour lire les données brutes depuis les flux Kinesis
• GetRecords {Limit, ShardIterator}
• GetShardIterator {ShardId, ShardIteratorType, StartingSequenceNumber, StreamName}
o Intégrer Kinesis avec des Topologies Storm
• Bootstraps (Zookeeper) attache les Shards aux Spouts
• Lecture de données depuis les Streams Kinesis
• Émet des « tuples » et gère le Checkpoints (Zookeeper)
18. Envoyer et lire des données avec Kinesis
HTTP Post
AWS SDK
LOG4J
Flume
Fluentd
Get* APIs
Kinesis Client
Library
+
Connector Library
Apache
Storm
Amazon Elastic
MapReduce
Envoyer Lire
19. Utiliser EMR pour lire et traiter des flux Kinesis
Traitement
Source
• Analyste
• Développeur
Mon site
Kinesis
Log4J
Appender
Envoi vers
Kinesis
EMR – AMI 3.0.5
Hive
Pig
Cascading
MapReduce
Lit depuis
21. Tarif Kinesis
Simple, paiement à l’usage, pas d’engagement
Type d’usage Prix
Shard par Heure $0,015
1,000,000 transactions PUT $0,028
• Le niveau de performance est défini en nombre de Shards, choisi par le client
• Chaque Shard fournit 1 Mo/s en écriture, and 2 Mo/s en lecture
• Bande passante entrante gratuite
• Les applications de lecture Kinesis sur EC2 sont facturées au tarif EC2
23. À l’échelle du Pétaoctet
Massivement parallèle
Data warehouse relationnel
Totalement managé
Amazon
Redshift
beaucoup plus rapide
beaucoup moins cher
vraiment beaucoup plus simple
25. A propos de Squid Solutions
• 10 ans d’expérience
• 4 profils tech différents
• 14 DWH en gestion
• 20To données en ligne
• 2 plateformes big data
• 8 semaines par POC
• Toute la chaine data
26. A propos de ProQuest
• Distribution de
contenus numériques
• 90,000 sources
• 6B pages de contenus
• 20M d’articles
• 450K Ebooks
• 100 pays
27. A propos d’Amazon Redshift
Principes clé
• MPP / Shared Nothing
• Horizontal scalability
• Data Distribution
• Parallel Import
Disponible à la demande
• 4 configurations de base
• Extensible (up/down)
• Stop and go
10 GigE
(HPC)
Ingestion
Backup
Restore
JDBC/ODBC
28. Le choix de Redshift
• Les fonctions et
performances d’une
base SQL MPP mature
– Performances pour des
requêtes interactives
– SQL avancé pour l’analyse
– Un moteur en en
développement actif
• Le modèle de coût et
la flexibilité des
solutions Hadoop
– Volumétrie adapté
Go/To/Po
– Engagement longue durée
divise les coûts par 3
29. Répondre aux attentes clients spécifiques
Données
agrégées
Faible
latence
End user
reports &
analysis
Données
granulaires
Forte
latence
Intégrité
des
données,
analyses
avancées
30. Des couches de données bottom-up
Raw Data Layer
Reporting Layer
Global KPI Layer
Business intelligence à
travers les départements
Rapports standard
“COUNTER-compliant”
Analyse fine de l’usage