SlideShare uma empresa Scribd logo
1 de 48
México
Big Data en AWS
Damian Traverso - Solutions Architect
18/06/2015 | Bogotá
Agenda
• Desafíos de un proyecto de Big Data
• Visión simplificada del procesamiento Big Data
• ¿Cuáles tecnologías debo utilizar?
• Arquitectura de Referencia
• Patrones de Diseño
Desafíos de un proyecto de Big Data
Big Data: El volumen crece continuamente
De PB para ZB
GB
TB
PB
ZB
EB
1990 2000 2010 2020
Big Data Real-time Big Data
Big Data: Necesita responder más rápido
Una gran variedad de soluciones y componentes
Glacier
S3 DynamoDB
RDS
EMR
Redshift
Data Pipeline
Kinesis
Cassandra CloudSearch
AML
Simplificando el procesamiento
de Big Data
Simplificando el procesamiento de Big Data
Ingestión
Persistencia /
Storage Procesamiento Visualización
Datos
Respuestas
Tiempo
¿Cuáles tecnologías debo
utilizar?
Glacier
S3
DynamoDB
RDS
Kinesis
Spark
Streaming
EMR
Ingestión Persistencia Proceso/Análisis Visualización
Data Pipeline
Storm
Kafka
Redshift
Cassandra
CloudSearch
Kinesis
Connector
Kinesis
enabled app
App Server
Web Server
Devices
AML
Ingestión
de
datos
Tipos de datos para ingestión
• Transaccionales
– RDBMS
lectura/escritura
• Archivos
– Click-stream logs
– Texto libre
• Stream
– IoT devices
– Tweets
Database
Cloud
Storage
Stream
Storage
Stream
Storage
Database
Cloud
Storage
✔
¿Por qué un Stream Storage?
• Convierte múltiples
streams en unos pocos,
persistentes y ordenados
secuencialmente
• Desconecta productores y
consumidores de datos
• Actúa como un buffer o
una cola
• Streams en secuencia son
más faciles de procesar
• Preserva el orden para los
consumidores
• Streaming MapReduce
• El consumidor puede
realizar un replay y
reprocesar
¿Cuál Stream Store debo utilizar?
• Amazon Kinesis y Apache Kafka tienen muchas
similitudes
– Múltiples consumidores
– Orden de los registros
– MapReduce de Streaming
– Baja latencia
– Alta durabilidad, disponibilidad y escalabilidad
• Diferencias
– Un registro dura 24 horas en Kinesis, en Kafka es configurable
– Tamaño de 50 Kb en Kinesis, en Kafka es configurable
– Kinesis es un servicio totalmente gestionado – fácil de provisionar,
monitorear y escalar.
Kafka exige un trabajo de administración de disponibilidad y escalamiento
como un proceso on-premise
Cloud Database &
Storage
✔
✔
Cloud Database and Storage Tier Anti-pattern
App/Web Tier
Client Tier
Database & Storage Tier
Database y Storage en la nube - Las herramientas correctas
App/Web Tier
Client Tier
Data Tier
Database & Storage Tier
Search
Hadoop/HDFS
Cache
Blob Store
SQL NoSQL
App/Web Tier
Client Tier
Data Tier
Database & Storage Tier
Amazon RDSAmazon
DynamoDB
Amazon
ElastiCache
Amazon S3
Amazon
Glacier
Amazon
CloudSearch
HDFS on Amazon EMR
Database y Storage en la nube - Las herramientas correctas
¿Que Storage debo utilizar?
• Nivel de estructuración de los datos
• Complejidad de las consultas
Grado de estructuración / complejidad de las queries
VS.
Storage
Structured – Simple Query
NoSQL
Amazon DynamoDB
Cache
Amazon ElastiCache
Structured – Complex Query
SQL
Amazon RDS
Search
Amazon CloudSearch
Unstructured – No Query
Cloud Storage
Amazon S3
Amazon Glacier
Unstructured – Custom Query
Hadoop/HDFS
Elastic MapReduce
Gradodeestructuración
Grado de complejidad de las queries
¿Cuál es la temperatura de sus datos?
Temperatura de los datos: Calientes, Tibios o Fríos
Caliente Tibio Frío
Volumen MB–GB GB–TB PB
Tamaño del registro B–KB KB–MB KB–TB
Latencia ms ms, seg min, horas
Durabilidad Baja - Alta Alta Muy Alta
Frecuencia de
requests Muy Alta Alta Baja
Costo/GB $$-$ $-¢¢ ¢
Amazon
RDS
Frecuencia de Requests
alta baja
Costo/GB
alta baja
Latencia
baja alta
Volumen
baja alta
Amazon
Glacier
Amazon
CloudSearch
Estructuración
baja
alta
Amazon
DynamoDB
Amazon
ElastiCache
Procesamiento
✔ ✔
AML
Procesamiento
• Análisis Descriptivo: BI, OLAP, SQL/data warehouse
• Análisis Predictivo: sistemas de recomendación,
previsión de page-views, subasta de anuncios on-line
• Clasificación: análisis de sentimiento, fraude, anti
spam, clustering de clientes para crear perfiles de
consumo
• Correlación: comparar lo que se sabe sobre el negocio
(BI) con las oscilaciones del mercado, tiempo y
temperatura, reputación en las redes sociales
Frameworks de procesamiento
Normalmente existen dos tipos:
• Batch
– Procesamiento regular (ex: ETL)
– Análisis exploratorio (ex:data science)
• Stream
– IoT, click-stream, social monitoring,
crawlers, etc
Procesamiento Batch
• Accede a un gran volumen de datos fríos
para interactuar en búsqueda de
correlaciones
• Generalmente necesita minutos o horas para
obtener una respuesta
Por ejemplo: Generar reportes por horas, días o
meses
Caso de uso: Procesamiento Batch para ETL
Amazon
EMR
Amazon
S3
Amazon
Glacier
Amazon
Redshift
Procesamiento de Stream
• Analisa datos en pequeños grupos
– CEP – Complex Event Processor (if/then/else)
– Machine Learning (fraude, recomendaciones, etc.)
• Responde en corto lapso de tiempo
– Real-time o Near Real-time dependiendo de cada
aplicación
Por ejemplo: análisis de 1min de
operaciones
Herramientas
• Batch processing/analytic
– Amazon Redshift
– Amazon EMR
• Hive, Pig, Spark, Impala, Presto, …
• Stream processing
– Apache Spark streaming
– Apache Storm (+ Trident)
– Amazon Kinesis client and
connector library
AML
¿Cuál herramienta de procesamiento batch debo usar?
Redshift Impala Presto Spark Hive
Latencia de
las queries
Baja Baja Baja Baja - Media Media - Alta
Durabilidad Alta Alta Alta Alta Alta
volumen 1.6PB Max ~Nodos ~Nodos ~Nodos ~Nodos
Managed Si EMR
bootstrap
EMR
bootstrap
EMR
bootstrap
Si (EMR)
Storage Nativo HDFS HDFS/S3 HDFS/S3 HDFS/S3
# of BI Tools Alta Media Alta Baja Alta
Latencia
de las
queries
Baja Alta
Spark Streaming Apache Storm
+ Trident
Kinesis Client
Library
Escalabilidad/Thro
ughput
~ Nodos ~ Nodos ~ Nodos
volumen ~ Nodos ~ Nodos ~ Nodos
Administración Si (EMR bootstrap) Hágalo usted
mismo
EC2 + Auto Scaling
Tolerencia a fallas Built-in Built-in KCL Check pointing
Lenguages de
programación / API
Java, Python, Scala Java, Scala,
Clojure
Java, Python
¿Cuál herramienta de procesamiento de Stream debo usar?
✔ ✔ ✔
AML
Colocando todo junto
Arquitectura desconectada
• Múltiples etapas
• Storage desconectado del procesamiento
Procesar Almacenar Procesar AlmacenarDatos Respuestas
Aplicaciones de Procesamiento (o conectores)
pueden escribir en múltiples Data Stores
Amazon
Kinesis
Amazon
Kinesis
Connectors
Amazon
S3
Datos Amazon
DynamoDB
Lambda Architecture
Análisis
Real Time
Análisis
Exploratório
Frameworks de Procesamiento (Storm, Hive,
Spark, etc) pueden leer de múltiples Data Stores
Amazon
Kinesis
Amazon
Kinesis
Connectors
Amazon
S3
Datos Amazon
DynamoDB
Hive Spark
Respuestas
Storm
Respuestas
Patrones de diseño
Spark
Streaming,
Apache
Storm
Amazon
Redshift Spark,
Impala,
Presto
Hive
Amazon
Redshift
Hive
Spark,
Presto
Amazon
Kinesis/
Kafka
Amazon
DynamoDB
Amazon S3Datos
Caliente FríoTemperatura de los datos
Latenciadelasqueries
Baja
Alta
Respuesstas
HDFS
Hive
Native
Client
Temperatura de los dados X Latencia de las queries
Spark
Streaming
Amazon Kinesis / KafkaDatos
Apache Storm Native Client
Procesamiento Real-time
Amazon
DynamoDB
Native
Client
Respuestas
Amazon
Redshift
Hive
Spark,
Presto
Amazon
Kinesis/
Kafka
Amazon S3Datos
Respuestas
Processamento en Batch
Spark,
Impala,
Presto
Redshift
Spark,
Presto
Kinesis/
Kafka
S3Datos HDFS
Análisis interactivos
Respuestas
AML
Resumen
• Etapas de procesamiento Big Data: ingestión,
almacenamiento, procesamiento y visualización
• Usar las herramientas correctas de acuerdo con
el trabajo a ser realizado
– Ingestión: Dados transaccionales, archivos, stream
– Almacenamiento: nivel de estructuración, complejidad de las
queries, datos calientes VS fríos, etc.
– Procesamiento: Latencia de las queries
• Arquitectura de referencia en Big Data y patrones
de diseño
¡Muchas Gracias!

Mais conteúdo relacionado

Destaque

Abonos organicos
Abonos organicosAbonos organicos
Abonos organicosDavidjram
 
Warum Frauen so viele Sandaletten haben
Warum Frauen so viele Sandaletten habenWarum Frauen so viele Sandaletten haben
Warum Frauen so viele Sandaletten habenHighHeels-Boutique.com
 
Blu-ray, DVD- und CD-Neuheiten September Nr. 2 (Im Vertrieb der NAXOS Deutsch...
Blu-ray, DVD- und CD-Neuheiten September Nr. 2 (Im Vertrieb der NAXOS Deutsch...Blu-ray, DVD- und CD-Neuheiten September Nr. 2 (Im Vertrieb der NAXOS Deutsch...
Blu-ray, DVD- und CD-Neuheiten September Nr. 2 (Im Vertrieb der NAXOS Deutsch...NAXOS Deutschland GmbH
 
Misión y visión de su negocio
Misión y visión de su negocioMisión y visión de su negocio
Misión y visión de su negocioomniangeles
 
Sr. Ramón Barra, “Proyección profesional y emprendimiento en los procesos tér...
Sr. Ramón Barra, “Proyección profesional y emprendimiento en los procesos tér...Sr. Ramón Barra, “Proyección profesional y emprendimiento en los procesos tér...
Sr. Ramón Barra, “Proyección profesional y emprendimiento en los procesos tér...INACAP
 
Different Nationalities
Different NationalitiesDifferent Nationalities
Different NationalitiesSwentson
 
Vínculo Educativo 01 CEDEM INACAP - 2013
Vínculo Educativo 01 CEDEM INACAP - 2013Vínculo Educativo 01 CEDEM INACAP - 2013
Vínculo Educativo 01 CEDEM INACAP - 2013INACAP
 
Historische tatsachen nr. 01 - udo walendy - kriegs-, verbrechens- oder pro...
Historische tatsachen   nr. 01 - udo walendy - kriegs-, verbrechens- oder pro...Historische tatsachen   nr. 01 - udo walendy - kriegs-, verbrechens- oder pro...
Historische tatsachen nr. 01 - udo walendy - kriegs-, verbrechens- oder pro...RareBooksnRecords
 
Ana maria en la_biblioteca
Ana maria en la_bibliotecaAna maria en la_biblioteca
Ana maria en la_bibliotecaperunova
 
OpenNetwork Event ITmitte.de: Ringvorlesung Informatik Uni Leipzig 2012
OpenNetwork Event ITmitte.de: Ringvorlesung Informatik Uni Leipzig 2012OpenNetwork Event ITmitte.de: Ringvorlesung Informatik Uni Leipzig 2012
OpenNetwork Event ITmitte.de: Ringvorlesung Informatik Uni Leipzig 2012Community ITmitte.de
 
Campamentos refugiados de tinduf[
Campamentos refugiados de tinduf[Campamentos refugiados de tinduf[
Campamentos refugiados de tinduf[joseba67
 
Seminario Innovaciones Pedagógicas CIEDU - INACAP 2012
Seminario Innovaciones Pedagógicas CIEDU - INACAP 2012Seminario Innovaciones Pedagógicas CIEDU - INACAP 2012
Seminario Innovaciones Pedagógicas CIEDU - INACAP 2012INACAP
 
WS1112 EET AI Master
WS1112 EET AI MasterWS1112 EET AI Master
WS1112 EET AI MasterSimon Harrer
 

Destaque (18)

Abonos organicos
Abonos organicosAbonos organicos
Abonos organicos
 
AFTOSA
AFTOSAAFTOSA
AFTOSA
 
Gv act3 análisis de cursos
Gv  act3 análisis de cursosGv  act3 análisis de cursos
Gv act3 análisis de cursos
 
Warum Frauen so viele Sandaletten haben
Warum Frauen so viele Sandaletten habenWarum Frauen so viele Sandaletten haben
Warum Frauen so viele Sandaletten haben
 
Der Mann im Wandel der Zeiten
Der Mann im Wandel der ZeitenDer Mann im Wandel der Zeiten
Der Mann im Wandel der Zeiten
 
Blu-ray, DVD- und CD-Neuheiten September Nr. 2 (Im Vertrieb der NAXOS Deutsch...
Blu-ray, DVD- und CD-Neuheiten September Nr. 2 (Im Vertrieb der NAXOS Deutsch...Blu-ray, DVD- und CD-Neuheiten September Nr. 2 (Im Vertrieb der NAXOS Deutsch...
Blu-ray, DVD- und CD-Neuheiten September Nr. 2 (Im Vertrieb der NAXOS Deutsch...
 
Misión y visión de su negocio
Misión y visión de su negocioMisión y visión de su negocio
Misión y visión de su negocio
 
Sr. Ramón Barra, “Proyección profesional y emprendimiento en los procesos tér...
Sr. Ramón Barra, “Proyección profesional y emprendimiento en los procesos tér...Sr. Ramón Barra, “Proyección profesional y emprendimiento en los procesos tér...
Sr. Ramón Barra, “Proyección profesional y emprendimiento en los procesos tér...
 
Different Nationalities
Different NationalitiesDifferent Nationalities
Different Nationalities
 
MYTRIBEIS
MYTRIBEISMYTRIBEIS
MYTRIBEIS
 
Vínculo Educativo 01 CEDEM INACAP - 2013
Vínculo Educativo 01 CEDEM INACAP - 2013Vínculo Educativo 01 CEDEM INACAP - 2013
Vínculo Educativo 01 CEDEM INACAP - 2013
 
Historische tatsachen nr. 01 - udo walendy - kriegs-, verbrechens- oder pro...
Historische tatsachen   nr. 01 - udo walendy - kriegs-, verbrechens- oder pro...Historische tatsachen   nr. 01 - udo walendy - kriegs-, verbrechens- oder pro...
Historische tatsachen nr. 01 - udo walendy - kriegs-, verbrechens- oder pro...
 
Ana maria en la_biblioteca
Ana maria en la_bibliotecaAna maria en la_biblioteca
Ana maria en la_biblioteca
 
OpenNetwork Event ITmitte.de: Ringvorlesung Informatik Uni Leipzig 2012
OpenNetwork Event ITmitte.de: Ringvorlesung Informatik Uni Leipzig 2012OpenNetwork Event ITmitte.de: Ringvorlesung Informatik Uni Leipzig 2012
OpenNetwork Event ITmitte.de: Ringvorlesung Informatik Uni Leipzig 2012
 
Campamentos refugiados de tinduf[
Campamentos refugiados de tinduf[Campamentos refugiados de tinduf[
Campamentos refugiados de tinduf[
 
Seminario Innovaciones Pedagógicas CIEDU - INACAP 2012
Seminario Innovaciones Pedagógicas CIEDU - INACAP 2012Seminario Innovaciones Pedagógicas CIEDU - INACAP 2012
Seminario Innovaciones Pedagógicas CIEDU - INACAP 2012
 
Überblick über die Suchplattform LucidWorks Search 2.1
Überblick über die Suchplattform LucidWorks Search 2.1Überblick über die Suchplattform LucidWorks Search 2.1
Überblick über die Suchplattform LucidWorks Search 2.1
 
WS1112 EET AI Master
WS1112 EET AI MasterWS1112 EET AI Master
WS1112 EET AI Master
 

Semelhante a AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Data en AWS

Big Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSBig Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSAmazon Web Services LATAM
 
Big Data: Arquitecturas y mejores prácticas en AWS
Big Data: Arquitecturas y mejores prácticas en AWSBig Data: Arquitecturas y mejores prácticas en AWS
Big Data: Arquitecturas y mejores prácticas en AWSAmazon Web Services LATAM
 
Big Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSBig Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSAmazon Web Services LATAM
 
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...Amazon Web Services
 
Servicios de Bases de Datos administradas en AWS
Servicios de Bases de Datos administradas en AWS Servicios de Bases de Datos administradas en AWS
Servicios de Bases de Datos administradas en AWS Amazon Web Services LATAM
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSAmazon Web Services LATAM
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSAmazon Web Services LATAM
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSAmazon Web Services LATAM
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSAmazon Web Services LATAM
 
AnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web ServicAnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web ServicSoftware Guru
 
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City SummitGeneración de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City SummitAmazon Web Services
 
Servicios de bases de datos administradas en AWS
Servicios de bases de datos administradas en AWSServicios de bases de datos administradas en AWS
Servicios de bases de datos administradas en AWSAmazon Web Services LATAM
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosAmazon Web Services LATAM
 
Data Platform de BEEVA
Data Platform de BEEVAData Platform de BEEVA
Data Platform de BEEVABEEVA_es
 
Los beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSLos beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSAmazon Web Services LATAM
 
Mejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSMejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSAmazon Web Services LATAM
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosAmazon Web Services LATAM
 

Semelhante a AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Data en AWS (20)

Big Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSBig Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWS
 
Big Data: Arquitecturas y mejores prácticas en AWS
Big Data: Arquitecturas y mejores prácticas en AWSBig Data: Arquitecturas y mejores prácticas en AWS
Big Data: Arquitecturas y mejores prácticas en AWS
 
Big Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSBig Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWS
 
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
 
Servicios de Bases de Datos administradas en AWS
Servicios de Bases de Datos administradas en AWS Servicios de Bases de Datos administradas en AWS
Servicios de Bases de Datos administradas en AWS
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
AWS Analytics Experience Argentina
AWS Analytics Experience Argentina AWS Analytics Experience Argentina
AWS Analytics Experience Argentina
 
AnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web ServicAnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web Servic
 
Sistema de Bases de Datos AWS
Sistema de Bases de Datos AWSSistema de Bases de Datos AWS
Sistema de Bases de Datos AWS
 
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City SummitGeneración de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
 
Servicios de bases de datos administradas en AWS
Servicios de bases de datos administradas en AWSServicios de bases de datos administradas en AWS
Servicios de bases de datos administradas en AWS
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuarios
 
Servicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWSServicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWS
 
Data Platform de BEEVA
Data Platform de BEEVAData Platform de BEEVA
Data Platform de BEEVA
 
Los beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSLos beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWS
 
Mejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSMejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWS
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuarios
 

Mais de Amazon Web Services LATAM

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAmazon Web Services LATAM
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAmazon Web Services LATAM
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSAmazon Web Services LATAM
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSAmazon Web Services LATAM
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAmazon Web Services LATAM
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAmazon Web Services LATAM
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosAmazon Web Services LATAM
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSAmazon Web Services LATAM
 

Mais de Amazon Web Services LATAM (20)

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWS
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWS
 
Cómo empezar con Amazon EKS
Cómo empezar con Amazon EKSCómo empezar con Amazon EKS
Cómo empezar con Amazon EKS
 
Como começar com Amazon EKS
Como começar com Amazon EKSComo começar com Amazon EKS
Como começar com Amazon EKS
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWS
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWS
 
Ransomware: Estratégias de Mitigação
Ransomware: Estratégias de MitigaçãoRansomware: Estratégias de Mitigação
Ransomware: Estratégias de Mitigação
 
Ransomware: Estratégias de Mitigación
Ransomware: Estratégias de MitigaciónRansomware: Estratégias de Mitigación
Ransomware: Estratégias de Mitigación
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWS
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administrados
 
Simplifique su BI con AWS
Simplifique su BI con AWSSimplifique su BI con AWS
Simplifique su BI con AWS
 
Simplifique o seu BI com a AWS
Simplifique o seu BI com a AWSSimplifique o seu BI com a AWS
Simplifique o seu BI com a AWS
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWS
 

Último

LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxJOSEMANUELHERNANDEZH11
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 

Último (20)

LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptx
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 

AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Data en AWS

  • 2. Big Data en AWS Damian Traverso - Solutions Architect 18/06/2015 | Bogotá
  • 3. Agenda • Desafíos de un proyecto de Big Data • Visión simplificada del procesamiento Big Data • ¿Cuáles tecnologías debo utilizar? • Arquitectura de Referencia • Patrones de Diseño
  • 4. Desafíos de un proyecto de Big Data
  • 5. Big Data: El volumen crece continuamente De PB para ZB GB TB PB ZB EB 1990 2000 2010 2020
  • 6. Big Data Real-time Big Data Big Data: Necesita responder más rápido
  • 7. Una gran variedad de soluciones y componentes Glacier S3 DynamoDB RDS EMR Redshift Data Pipeline Kinesis Cassandra CloudSearch AML
  • 9. Simplificando el procesamiento de Big Data Ingestión Persistencia / Storage Procesamiento Visualización Datos Respuestas Tiempo
  • 11. Glacier S3 DynamoDB RDS Kinesis Spark Streaming EMR Ingestión Persistencia Proceso/Análisis Visualización Data Pipeline Storm Kafka Redshift Cassandra CloudSearch Kinesis Connector Kinesis enabled app App Server Web Server Devices AML
  • 13. Tipos de datos para ingestión • Transaccionales – RDBMS lectura/escritura • Archivos – Click-stream logs – Texto libre • Stream – IoT devices – Tweets Database Cloud Storage Stream Storage
  • 15. ¿Por qué un Stream Storage? • Convierte múltiples streams en unos pocos, persistentes y ordenados secuencialmente • Desconecta productores y consumidores de datos • Actúa como un buffer o una cola • Streams en secuencia son más faciles de procesar • Preserva el orden para los consumidores • Streaming MapReduce • El consumidor puede realizar un replay y reprocesar
  • 16. ¿Cuál Stream Store debo utilizar? • Amazon Kinesis y Apache Kafka tienen muchas similitudes – Múltiples consumidores – Orden de los registros – MapReduce de Streaming – Baja latencia – Alta durabilidad, disponibilidad y escalabilidad • Diferencias – Un registro dura 24 horas en Kinesis, en Kafka es configurable – Tamaño de 50 Kb en Kinesis, en Kafka es configurable – Kinesis es un servicio totalmente gestionado – fácil de provisionar, monitorear y escalar. Kafka exige un trabajo de administración de disponibilidad y escalamiento como un proceso on-premise
  • 18. Cloud Database and Storage Tier Anti-pattern App/Web Tier Client Tier Database & Storage Tier
  • 19. Database y Storage en la nube - Las herramientas correctas App/Web Tier Client Tier Data Tier Database & Storage Tier Search Hadoop/HDFS Cache Blob Store SQL NoSQL
  • 20. App/Web Tier Client Tier Data Tier Database & Storage Tier Amazon RDSAmazon DynamoDB Amazon ElastiCache Amazon S3 Amazon Glacier Amazon CloudSearch HDFS on Amazon EMR Database y Storage en la nube - Las herramientas correctas
  • 21. ¿Que Storage debo utilizar? • Nivel de estructuración de los datos • Complejidad de las consultas
  • 22. Grado de estructuración / complejidad de las queries VS. Storage Structured – Simple Query NoSQL Amazon DynamoDB Cache Amazon ElastiCache Structured – Complex Query SQL Amazon RDS Search Amazon CloudSearch Unstructured – No Query Cloud Storage Amazon S3 Amazon Glacier Unstructured – Custom Query Hadoop/HDFS Elastic MapReduce Gradodeestructuración Grado de complejidad de las queries
  • 23. ¿Cuál es la temperatura de sus datos?
  • 24. Temperatura de los datos: Calientes, Tibios o Fríos Caliente Tibio Frío Volumen MB–GB GB–TB PB Tamaño del registro B–KB KB–MB KB–TB Latencia ms ms, seg min, horas Durabilidad Baja - Alta Alta Muy Alta Frecuencia de requests Muy Alta Alta Baja Costo/GB $$-$ $-¢¢ ¢
  • 25. Amazon RDS Frecuencia de Requests alta baja Costo/GB alta baja Latencia baja alta Volumen baja alta Amazon Glacier Amazon CloudSearch Estructuración baja alta Amazon DynamoDB Amazon ElastiCache
  • 27. Procesamiento • Análisis Descriptivo: BI, OLAP, SQL/data warehouse • Análisis Predictivo: sistemas de recomendación, previsión de page-views, subasta de anuncios on-line • Clasificación: análisis de sentimiento, fraude, anti spam, clustering de clientes para crear perfiles de consumo • Correlación: comparar lo que se sabe sobre el negocio (BI) con las oscilaciones del mercado, tiempo y temperatura, reputación en las redes sociales
  • 28. Frameworks de procesamiento Normalmente existen dos tipos: • Batch – Procesamiento regular (ex: ETL) – Análisis exploratorio (ex:data science) • Stream – IoT, click-stream, social monitoring, crawlers, etc
  • 29. Procesamiento Batch • Accede a un gran volumen de datos fríos para interactuar en búsqueda de correlaciones • Generalmente necesita minutos o horas para obtener una respuesta Por ejemplo: Generar reportes por horas, días o meses
  • 30. Caso de uso: Procesamiento Batch para ETL Amazon EMR Amazon S3 Amazon Glacier Amazon Redshift
  • 31. Procesamiento de Stream • Analisa datos en pequeños grupos – CEP – Complex Event Processor (if/then/else) – Machine Learning (fraude, recomendaciones, etc.) • Responde en corto lapso de tiempo – Real-time o Near Real-time dependiendo de cada aplicación Por ejemplo: análisis de 1min de operaciones
  • 32.
  • 33. Herramientas • Batch processing/analytic – Amazon Redshift – Amazon EMR • Hive, Pig, Spark, Impala, Presto, … • Stream processing – Apache Spark streaming – Apache Storm (+ Trident) – Amazon Kinesis client and connector library AML
  • 34. ¿Cuál herramienta de procesamiento batch debo usar? Redshift Impala Presto Spark Hive Latencia de las queries Baja Baja Baja Baja - Media Media - Alta Durabilidad Alta Alta Alta Alta Alta volumen 1.6PB Max ~Nodos ~Nodos ~Nodos ~Nodos Managed Si EMR bootstrap EMR bootstrap EMR bootstrap Si (EMR) Storage Nativo HDFS HDFS/S3 HDFS/S3 HDFS/S3 # of BI Tools Alta Media Alta Baja Alta Latencia de las queries Baja Alta
  • 35. Spark Streaming Apache Storm + Trident Kinesis Client Library Escalabilidad/Thro ughput ~ Nodos ~ Nodos ~ Nodos volumen ~ Nodos ~ Nodos ~ Nodos Administración Si (EMR bootstrap) Hágalo usted mismo EC2 + Auto Scaling Tolerencia a fallas Built-in Built-in KCL Check pointing Lenguages de programación / API Java, Python, Scala Java, Scala, Clojure Java, Python ¿Cuál herramienta de procesamiento de Stream debo usar?
  • 38. Arquitectura desconectada • Múltiples etapas • Storage desconectado del procesamiento Procesar Almacenar Procesar AlmacenarDatos Respuestas
  • 39. Aplicaciones de Procesamiento (o conectores) pueden escribir en múltiples Data Stores Amazon Kinesis Amazon Kinesis Connectors Amazon S3 Datos Amazon DynamoDB Lambda Architecture Análisis Real Time Análisis Exploratório
  • 40. Frameworks de Procesamiento (Storm, Hive, Spark, etc) pueden leer de múltiples Data Stores Amazon Kinesis Amazon Kinesis Connectors Amazon S3 Datos Amazon DynamoDB Hive Spark Respuestas Storm Respuestas
  • 42. Spark Streaming, Apache Storm Amazon Redshift Spark, Impala, Presto Hive Amazon Redshift Hive Spark, Presto Amazon Kinesis/ Kafka Amazon DynamoDB Amazon S3Datos Caliente FríoTemperatura de los datos Latenciadelasqueries Baja Alta Respuesstas HDFS Hive Native Client Temperatura de los dados X Latencia de las queries
  • 43. Spark Streaming Amazon Kinesis / KafkaDatos Apache Storm Native Client Procesamiento Real-time Amazon DynamoDB Native Client Respuestas
  • 46. AML
  • 47. Resumen • Etapas de procesamiento Big Data: ingestión, almacenamiento, procesamiento y visualización • Usar las herramientas correctas de acuerdo con el trabajo a ser realizado – Ingestión: Dados transaccionales, archivos, stream – Almacenamiento: nivel de estructuración, complejidad de las queries, datos calientes VS fríos, etc. – Procesamiento: Latencia de las queries • Arquitectura de referencia en Big Data y patrones de diseño

Notas do Editor

  1. a alguns desafios de projetos Big Data Estabelcer uma visão Simplificada a concepção de um projeto de big data Identificar as tecnologias para cada caso de uso Apresentar uma arquitetura de referência Falar de alguns design patterns Melhores práticas
  2. Desafios que nossos clientens enfrentam
  3. Volume do universo de dados deve crescer vertiginosamente nos próximos anos Alguns estudos apontam que o volume de dados em 2020 será 10x maior que 2013 A convergencia de muitas tecnologias como cloud, mobile, social, avanços na área de genoma, IoT, pesquisa espacial pressionam o crescimento Due to the convergence of many technologies of cloud, mobile, social, and advancements in many field such as genomics, life sciences, space, the size of the digital universe is growing at an ever increasing rate. Customers have also found tremendous value in being able to mine this data to make better medicine, tailored purchasing recommendations, detect fraudulent financial transactions in real time, provide on-demand digital content such as movies and songs, predict weather forecasts, the list goes on and on.
  4. E que descobrimos ? Que quanto mais rápido criamos dados, mais rápido queremos respostas. As data creation is becoming more real-time and continuous so is the need to manage it
  5. Hive Spark Storm Kafka HBase Flume Impala Cascading EMR DynamoDB S3 Redshift Kinesis RDS Glacier
  6. Vamos começar elaborando uma visão simplificada do processamento de Big Data
  7. Um jeito de pensar em big data é ter em mente os ciclos do processo ou um pipeline onde os dados entram de um lado geram respostas do outro. Tudo isso dentro de um tempo aproprioado milisegundos para real time, minutos ou horas para outros tipos de necessidade. Tempo muda e baseado nele mudam também os tipos de componentes que v. deve usar no pipeline.
  8. Vamos começar alinhando alguns desses compontentes dentro das categorias Vamos fazer um map sem reduce Sei que há poucas empresas aqui mas o ecosistema de parceiros é bem maior. Isso não significa que o suporte da Aws se restija somente a essas empresas
  9. Vamos falar um pouco sobre a primeira fase, : a Ingestão
  10. Vamos receber dados de sistemas transacionais baseados em bancos relacionais Vamos receber arquivos de logs com formatação variada Vamos receber textos livre, imagens Vamos receber sinais de dispositivos de IoT Vamos receber streams de dados das redes sociais A próxima questão é que tipo de storage a gente tem que usar
  11. Dados formatados e relacionais podem ser gravados em Databases SQL e NoSQL Logs e textos pouco ou semi formatados podem ser gravados em Storage Streaming de dados precisa ser retidos em uma fila ou storage intermediario para que sejam analisados o mais rápido possivel (Kinesis, Kafa) Vamos falar um pouco mais sobre o tratamento de streaming de dados
  12. Converte múltiplos streams em poucos e persistentes ordenados sequencialmente  Streams em sequencia são mais fáceis de processar Desconecta produtores e consumidores de dados (essa desconexão é importante para escalar horizontamente) Atua como um buffer ou uma fila Preserva para o cliente a ordenação Você pode fazer um timpo de mapreduce para selecionar dados importantes e separar sinal de ruído -- Streaming “MapReduce” Consumidor pode dar um replay e reprocessar
  13. Leia o Slide Muitos dos clientes já familiarizados com o kafka não querem a complexidade de gestão, criar, escalar, monitorar e manter. O kinesis é bem fácil e não tem essa complexidade. http://blog.cloudera.com/blog/2014/09/apache-kafka-for-beginners/ https://engineering.linkedin.com/kafka/benchmarking-apache-kafka-2-million-writes-second-three-cheap-machines https://blogs.apache.org/flume/entry/flume_ng_architecture https://blogs.apache.org/flume/ https://blogs.apache.org/flume/ Use considerations Take all the undifferentiated heavy lifting Focus less on muck We want to offer choice Maintain update Keep in mind even thought Kafka is open source, Put a lot more efforts into kafka Lot of effort and smart engineering
  14. Passado o Streaming vamos falar dos outros formatos de storage
  15. Aqui o que não fazer Bancos de daods RELACIONAIS orientados a transações (OLTP) são ótimos para muitas coias mas encontram sérias restrições para escalar. Temos muitos casos de clientes que entenderam após a implementação que o RDBMS não atende necessidades e precisam migrar para NoSQL. 5.000 writes or reads/second em um dynamo v. só configura quantos righs/second v. quer em um OLTP isso vai dar muito trabalho exigir muita configuração e gestão.
  16. Banco relacional pode (e deve) ser substituido por outro banco ou storage no formato adequado a demanda e uso OLTP OLAP NoSQL
  17. As soluções AWS para cada caso de uso.
  18. Como eu escolho um deles? Vamos nos ater em algumas dimensões
  19. 2 x 2 Matrix Structured Level of query (from none to complex) Draw down the slide
  20. Agora vamos adicionar a dimensão tempo
  21. Temos aqui o EMR dando suporte a PRESTO IMPALA SPARK HIVE PIG MPP - Procesamento Paralelo Massivo em Redshift, Presto e Impala Hadoop – com MapReduce, Tez, Spark,
  22. Vamos falar sobre a dimensão da latência da query e como ela se contextualiza O Redshift é ótimo para agregar dados dada a sua arquitetura colunar e processamento MPP Outro aspecto importante dessa dimensão é a quantidade de ferramentas BI (ultima linha) com que o software se conecta Se v. usa um storage hdfs ou s3, pode processar com varias ferramentas usando clusters separados e transientes. Query Speed Redshift – Extremely fast SQL queries Spark, Impala – Extremely Fast to Fast Hive QL Hive, Tez – Moderately Fast to Slow Hive QL Data Volume? UDFs? Manageability? http://yahoodevelopers.tumblr.com/post/85930551108/yahoo-betting-on-apache-hive-tez-and-yarn https://amplab.cs.berkeley.edu/benchmark/
  23. Essas soluções são meio equivalentes O SPARK é interessante porque tem o seu ecosistema com o MLIB, Spark-SQL,
  24. Similar to multi-tier web-app-data architectures Concept of a “data bus” or “data pipeline”
  25. This is a summary of all six design patterns together. This summarizes all of the solutions available in the context of the temperature of the data and the data processing latency requirements. Hive – 1 year worth of click stream data Spark – 1 year of click stream data – what people are buying frequently together Redshift – reem ting, enterprise reporting tool – SQL Heavy Impala – same as redshift Preseto same league as Impala presto – Interactive SQL analytics – have a Hadoop installed base…. NoSQL – Analytics on NoSQL
  26. This is a summary of all six design patterns together. This summarizes all of the solutions available in the context of the temperature of the data and the data processing latency requirements. Hive – 1 year worth of click stream data Spark – 1 year of click stream data – what people are buying frequently together Redshift – reporting, enterprise reporting tool – SQL Heavy Impala – same as redshift Preseto same league as Impala presto – Interactive SQL analytics – have a Hadoop installed base…. NoSQL – Analytics on NoSQL
  27. This is a summary of all six design patterns together. This summarizes all of the solutions available in the context of the temperature of the data and the data processing latency requirements. Hive – 1 year worth of click stream data Spark – 1 year of click stream data – what people are buying frequently together Redshift – reporting, enterprise reporting tool – SQL Heavy Impala – same as redshift Preseto same league as Impala presto – Interactive SQL analytics – have a Hadoop installed base…. NoSQL – Analytics on NoSQL
  28. This is a summary of all six design patterns together. This summarizes all of the solutions available in the context of the temperature of the data and the data processing latency requirements. Hive – 1 year worth of click stream data Spark – 1 year of click stream data – what people are buying frequently together Redshift – reporting, enterprise reporting tool – SQL Heavy Impala – same as redshift Preseto same league as Impala presto – Interactive SQL analytics – have a Hadoop installed base…. NoSQL – Analytics on NoSQL
  29. The world is producing an ever increasing volume, velocity, and variety of big data. Consumers and businesses are demanding up-to-the-second (or even millisecond) analytics on their fast-moving data, in addition to classic batch processing. AWS delivers many technologies for solving big data problems. But what services should you use, why, when, and how? In this session, we simplify big data processing as a data bus comprising various stages: ingest, store, process, and visualize. Next, we discuss how to choose the right technology in each stage based on criteria such as data structure, query latency, cost, request rate, item size, data volume, durability, and so on. Finally, we provide reference architecture, design patterns, and best practices for assembling these technologies to solve your big data problems at the right cost.