AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données

© 2014 Amazon.com, Inc. and its affiliates. All rights reserved. May not be copied, modified, or distributed in whole or in part without the express consent of Amazon.com, Inc.
Du temps réel au data warehouse :
capturez et analysez en temps réel vos
données
Julien Lépine, Solutions Architect, Amazon
Adrien Schmidt, CEO, Squid Solutions
13 Mai 2014@aws_actus / #awssummit

Big Data: des données en augmentation perpétuelle
Go To
Po
95% des 1,2 zettaoctets des
données dans l’univers digital
sont non structurées
70% de ces données ont été
générées par des utilisateurs
La croissance des données non
structurées est explosive, avec
des croissances annuelles
(CAGR) de 62% entre 2008 et
2012. Source: IDC
Zo
Eo

Un écosystème Big Data
Amazon Redshift
Amazon EMR
Amazon EC2
Analyser
Amazon Glacier
Amazon S3
Amazon DynamoDB
Stocker
AWS Direct Connect
Collecter
Amazon Kinesis

Stockage illimité ; faible coût
Stockage d’objets ; disponibilité
Élastique et sécurisé
Durable: 99,999999999%
Amazon S3

Clusters Hadoop
Plateforme managée
Simple d’utilisation
Intégré à Amazon S3, DynamoDB
Amazon
Elastic
MapReduce

Service de métrologie AWS
Cas d’usage
• X * 10M d’enregistrements/sec
• X * 100K sources
• X To par heure
Contraintes
• Besoin de plus d’élasticité
• Envie d’alertes en temps-réel
• Coûteux à opérer
• Stockage éventuellement
consistent

Notre transition « Big Data »
Ancien besoin
• Accepter des volumes très importants de données et les traiter par lots
horaires ou quotidiens
Nouveau besoin
• Prendre des décisions plus rapidement, même en temps-réel
• Redimensionner le système complet à l’échelle, de manière élastique
• Rendre facile le fait de « garder tout »
• Permettre à plusieurs applications de traiter les données en parallèle

Scenarios Capture-Transformation-Chargement
accéléré
Métrique continue / KPI Extraction Analyse réactive sur les données
Types de données Infrastructure IT, Logs Applicatifs, Média Sociaux, Données Financières, Clics Web, Capteurs, Geolocalisation
Logiciels /
technologie
Serveurs IT, Traitement Logs applications Tableaux de bord opérationnels IT Intelligence opérationnelle sur
capteurs
Marketing / Publicité
en ligne
Agrégation de données marketing Advertising metrics like coverage, yield,
conversion
Analytique sur engagement client avec
les publicités, optimisation des bids
Finance Collecte de données des marchés
financiers
Métriques de données financières Analyse et détection de fraudes, suivi
de VAR audit d’ordres sur les marchés
E-Commerce /
Plateformes en ligne
Agrégation de données sur l’engagement
en ligne des clients
Métriques d’engagement client, CTR,
pages vues, …
Moteurs de recommandation, analyse
de comportement
Scénarios clients sur plusieurs industries

Traitement temps-réel
Élastique; forte volumétrie
Simple d’utilisation
Intégré dans l’écosystème
Amazon
Kinesis

Architecture Amazon Kinesis
Amazon Web Services
AZ AZ AZ
Durable, highly consistent storage replicates data
across three data centers (availability zones)
Aggregate and
archive to S3
Millions of
sources producing
100s of terabytes
per hour
Front
End
Authentication
Authorization
Ordered stream
of events supports
multiple readers
Real-time
dashboards
and alarms
Machine learning
algorithms or
sliding window
analytics
Aggregate analysis
in Hadoop or a
data warehouse
Inexpensive: $0.028 per million puts

Plateforme pour l’intégration et le traitement continu
Le bon outil pour le bon cas d’usage
Intégration temps-réel
• Passe à l’échelle
• Durable
• Élastique
• Lecture / relecture
Traitement continu
• Équilibrage de charge sur les flux d’entrée
• Tolérance de panne, Checkpoint / Replay
• Élastique
• Plusieurs applications traitent en parallèle
Permet le transfert de données vers des points de stockage / traitement
Service managé
Latence faible de bout-en-bout
Traitement en continu et en temps-réel

Écrire dans Kinesis
Une interface simple « Put »
• Les producteurs utilisent un appel PUT pour stocker
des données dans un Stream
• PutRecord {Data, PartitionKey, StreamName}
• Une clé de partitionnement est fournie par le
producteur afin de cibler un Shard
• Kinesis utilise un algorithme de hash pour
déterminer dans quel Shard stocker les données
• Un numéro unique de séquence est retourné au
producteur une fois les données stockées

Accélérer le développement d’applications de
traitement Kinesis avec le Kinesis Client Library
o Bibliothèque Java ouverte, sources sur GitHub
o Concevez et déployez des applications sur Amazon EC2
o KCL sert d’intermédiaire de traitement:
 Démarre un « Worker » pour chaque Shard
 Simplifie la lecture via une abstraction des Shards
 Augmente / Diminue le nombre de Workers en
fonction du nombre de Shards
 Gère les Checkpoints et la reprise sur erreur
o Gère la répartition de charge avec les Auto Scaling Groups

Connecter Kinesis avec Amazon DynamoDB, S3, Redshift
ou votre système avec Kinesis Connector Library
Amazon S3
Amazon
DynamoDB
Amazon Redshift
Amazon
Kinesis
ITransformer
• Transforme un
enregistrement
Kinesis en une
donnée utile
IFilter
• Exclue les
enregistrements non
pertinents
IBuffer
• Regroupe les
enregistrements
ensemble pour
faciliter le traitement
par lot
IEmitter
• Enregistre les lots
d’enregistrements
vers un système de
stockage

D’autres options de lecture de Streams Kinesis
APIs, Storm
o Utiliser les APIs « Get* » pour lire les données brutes depuis les flux Kinesis
• GetRecords {Limit, ShardIterator}
• GetShardIterator {ShardId, ShardIteratorType, StartingSequenceNumber, StreamName}
o Intégrer Kinesis avec des Topologies Storm
• Bootstraps (Zookeeper) attache les Shards aux Spouts
• Lecture de données depuis les Streams Kinesis
• Émet des « tuples » et gère le Checkpoints (Zookeeper)

Envoyer et lire des données avec Kinesis
HTTP Post
AWS SDK
LOG4J
Flume
Fluentd
Get* APIs
Kinesis Client
Library
+
Connector Library
Apache
Storm
Amazon Elastic
MapReduce
Envoyer Lire

Utiliser EMR pour lire et traiter des flux Kinesis
Traitement
Source
• Analyste
• Développeur
Mon site
Kinesis
Log4J
Appender
Envoi vers
Kinesis
EMR – AMI 3.0.5
Hive
Pig
Cascading
MapReduce
Lit depuis

Tarif Kinesis
Simple, paiement à l’usage, pas d’engagement
Type d’usage Prix
Shard par Heure $0,015
1,000,000 transactions PUT $0,028
• Le niveau de performance est défini en nombre de Shards, choisi par le client
• Chaque Shard fournit 1 Mo/s en écriture, and 2 Mo/s en lecture
• Bande passante entrante gratuite
• Les applications de lecture Kinesis sur EC2 sont facturées au tarif EC2

HDFS
Plateformes
d’analyse
Gestion de
données
Amazon
RedShift
Amazon EMR
Amazon
RDS
Amazon S3 Amazon
DynamoDB
Amazon
Kinesis
Sources
SourcesSources de
données
AWS Data Pipeline

À l’échelle du Pétaoctet
Massivement parallèle
Data warehouse relationnel
Totalement managé
Amazon
Redshift
beaucoup plus rapide
beaucoup moins cher
vraiment beaucoup plus simple

Maîtriser Amazon Redshift
Adrien Schmidt
CEO, Squid Solutions

A propos de Squid Solutions
• 10 ans d’expérience
• 4 profils tech différents
• 14 DWH en gestion
• 20To données en ligne
• 2 plateformes big data
• 8 semaines par POC
• Toute la chaine data

A propos de ProQuest
• Distribution de
contenus numériques
• 90,000 sources
• 6B pages de contenus
• 20M d’articles
• 450K Ebooks
• 100 pays

A propos d’Amazon Redshift
Principes clé
• MPP / Shared Nothing
• Horizontal scalability
• Data Distribution
• Parallel Import
Disponible à la demande
• 4 configurations de base
• Extensible (up/down)
• Stop and go
10 GigE
(HPC)
Ingestion
Backup
Restore
JDBC/ODBC

Le choix de Redshift
• Les fonctions et
performances d’une
base SQL MPP mature
– Performances pour des
requêtes interactives
– SQL avancé pour l’analyse
– Un moteur en en
développement actif
• Le modèle de coût et
la flexibilité des
solutions Hadoop
– Volumétrie adapté
Go/To/Po
– Engagement longue durée
divise les coûts par 3

Répondre aux attentes clients spécifiques
Données
agrégées
Faible
latence
End user
reports &
analysis
Données
granulaires
Forte
latence
Intégrité
des
données,
analyses
avancées

Des couches de données bottom-up
Raw Data Layer
Reporting Layer
Global KPI Layer
Business intelligence à
travers les départements
Rapports standard
“COUNTER-compliant”
Analyse fine de l’usage

Une infrastructure robuste sur AWS
ProQuest
Big Data Analytics
Secure
Available
Flexible
Scalable

© 2014 Amazon.com, Inc. and its affiliates. All rights reserved. May not be copied, modified, or distributed in whole or in part without the express consent of Amazon.com, Inc.
13 Mai 2014
Merci !
Du temps réel au data warehouse :
capturez et analysez en temps réel vos
données
Julien Lépine, Solutions Architect, Amazon
Adrien Schmidt, CEO, Squid Solutions
@aws_actus / #awssummit

AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (17)

Semelhante a AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données

Semelhante a AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données (20)

Mais de Amazon Web Services

Mais de Amazon Web Services (20)

AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et analysez en temps réel vos données