AWS Initiate - Construindo Data Lakes e Analytics com AWS

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Construindo Data Lakes para o Governo
Mv – Marcus Ferreira
Arquiteto de Soluções para Governo, Saúde e Educação

© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
The world’s most
valuable resource is
no longer oil, but data.*
“
”
*Copyright:The Economist, 2017, David Parkins

Visão Tradicional da Arquitetura Corporativa de Dados
OLTP ERP CRM LOB
Data warehouse
Business intelligence • Dado Relacional
• Escala deTBs–PBs
• Esquema definido antes do acúmulo de dados
• Relatórios Operacionais e ad-hoc

Data Lakes estendem a abordagem tradicional
Data warehouse
Business intelligence
OLTP ERP CRM LOB
• Dado Relacional e Não Relacional
• Escala deTBs–EBs
• Motores Analíticos Diversos
• Armazenamento de baixo custo &
Analytics
Dispositivos Web Sensores Social
Data lake
Processamento Big data,
real-time, machine learning

Dados crescem continuamente
• O volume de dados cresce mais
rápido que a habilidade de analisar
esses dados.
• Novos tipos de dados não
conseguem ser analisados no
mesmo contexto de um DW
• Alguns cenários de usuários e
aplicações precisam de uma
ingestão de dados e resultados de
maneira mais rápida

What do the analysts say?
https://www.promptcloud.com
https://john-popelaars.blogspot.com
https://ww.signiant.com
https://www.linkedin.com/pulse/world-today-data-rich-information-poor-guru-p-mohapatra-pmp/

Sources:
Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011
IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares
Legacy Architecture Models Lead to Dark Data
Traditional data warehouses cannot keep pace with data growth
1990 2000 2010 2020
DataVolume
All Data Analyzed Data
Dark Data
is not available
for analysis

Data Lakes na AWS
Analytics
• Incomparável durabilidade, e disponibilidade na escala de EB
• Melhor capacidade de segurança, conformidade regulatória e
auditoria
• Controle granular de acesso ao nível de objeto
• Performance mais rápida recuperando subconjunto de dados
• Muitas maneiras de trazer os dados
• 2x mais integrações com parceiros
• Análise com um amplo conjunto de serviços
Machine
learning
Dados
Real-time
Dados
On-premises
Data Lake
na AWS

Data Lakes na AWS
Analytics
• Incomparável durabilidade, e disponibilidade na escala de EB
• Melhor capacidade de segurança, conformidade regulatória e
auditoria
• Controle granular de acesso ao nível de objeto
• Performance mais rápida recuperando subconjunto de dados
• Muitas maneiras de trazer os dados
• 2x mais integrações com parceiros
• Análise com um amplo conjunto de serviços
Machine
learning
Dados
Real-time
Dados
On-premises
S3

Adoção de Datalakes na AWS
Mais de10,000 data lakes na AWS

Por onde começo o meu Datalake?

Amplo portifólio para uma variedade de casos de uso
Serviços de migração & streaming de dados
Infraestrutura Catálogo de dados
& ETL
Segurança e
gerenciamento
Dashboards Análises preditivas
Data
warehousing
Processamento
em Big data
Consultas
interativas
Análises
operacionais
Análises em
tempo real
Precessamento de
dados Serverless
Visualização & machine learning
Movimentação de dados
Analytics
Infraestrutura e gerenciamento de data lakes

Movimentação de dados
Analytics
Amplo portifólio para uma variedade de casos de uso
+ 10 more
Amazon
Redshift
Amazon EMR (Spark
& Hadoop)
Amazon
Athena
Amazon
Elasticsearch
Service
Amazon
Kinesis Data
Analytics
AWS Glue (Spark &
Python)
Amazon S3 & Amazon
S3 Glacier
AWS GlueAWS Lake
Formation
Visualização & machine learning
Amazon
QuickSight
Amazon
SageMaker
Amazon
Comprehend
Amazon
Lex
Amazon
Polly
Amazon
Rekognition
Amazon
Translate
Amazon
Transcribe
Deep learning
AMIs
AWS Database Migration Service | AWS Snowball | AWS Snowmobile | Kinesis Data Firehose | Kinesis Data Streams | Managed Streaming for Kafka
Infraestrutura e gerenciamento de data lakes

Source:
https://commons.wikimedia.org/wiki/File:Regras_para_conceder_novas_autorizações_a_taxistas_serão_definidas_por_grupo_de_trabalho_(23132751631).jpg
Uso de Datalakes para planejamento de cidades

Arquitetura Proposta para uma Solução
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data
AMAZON QUICKSIGHTAMAZON SAGEMAKER

AMAZON S3
SIMPLE STORAGE SERVICE

Tipos de dados para a ingestão
Transacionais
• RDBMS
Arquivos
• Click-stream logs
• Texto livre
Stream
• IoT devices
• Tweets
Database
Cloud
Storage
Stream
Storage

AMAZON KINESIS
REAL TIME DATA STREAMING

Ingestão de dados no Kinesis Firehose
Faremos uma ingestão baseado em dados que estão sendo
coletados de um sistema transacional
aws firehose put-record
--delivery-stream-name STREAM-NAME
--record Data=”2, 2016-01-01 00:00:00, 7.5”

Descobrindo dados com AWS Glue
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data

Autoria de JobCatálogo de Dados Execução de Job
Compatível Apache Hive Metastore
Integrado com serviços AWS
Crawling automático
Descobrir
Gerar ETL automaticamente
Python and Apache Spark
Edite, debug, e compartilhe
Desenvolver
Execução Serverless
Agendamento flexível
Monitoramento e alarmes
Implantar
AWS Glue

Explorando dados com Amazon Athena
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data

Amazon Athena
Serviço de consulta interativa que facilita a análise de
dados diretamente do Amazon S3 utilizando SQL padrão

Familiaridade com tecnologias utilizadas
Utilizada para consultas SQL
In-memory distributed query engine
ANSI-SQL compatível com extensões
Utilizado para funcionalidade de DDL
Tipos de Dados complexos
Múltiplos formatos
Suporte a particionamento de dados

Mas eu quero ver dados de forma
amigável?

AMAZON
QUICKSIGHT
CLOUD-POWERED BUSINESS INTELLIGENCE

Quero visualizar perguntas complexas?
Este trânsito é normal?

Machine Learning com Amazon
Sagemaker
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data

AMAZON
SAGEMAKER
Habilidade de criar, treinar e implantar modelos de machine
learning

Amazon SageMaker
1 2 3 4
I I I I
Instâncias Notebook Algoritmos Treinamento Hospedagem do
Serviço

Data Lakes por um Governo cada vez melhor
Analytics
Machine
learning
Dados
Real-time
Dados
On-premises
Data Lake
na AWS
Precisamos de um
governo que seja o nosso
melhor. Inteligente,
eficiente, pragmático e
compassivo.
Deval Laurdine Patrick
Político Americano, advogado de direitos civis

“A AWS permite que nosso time se concentre no core do
problema que estamos resolvendo”
O QEdu é uma empresa de tecnologia
investida pela Fundação Lemann que tem
o propósito de transformar a educação
pública no Brasil por meio de tecnologia,
dados e análises
Atualmente servimos nossos clientes por
meio de uma plataforma web para
visualização de dados
INSERIR LOGO
Com AWS sabemos que
podemos sonhar
grande e que teremos
todo o apoio para escalar
nosso sonho de garantir o
aprendizado
adequado para todos
os alunos do Brasil”
[César Wedemann, CEO]

Data Lake para Educação do País INSERIR LOGO

MuitoObrigado
Mv – Marcus Ferreira
Arquiteto de Soluções para Governo, Saúde e Educação
mvferr@amazon.com

AWS Initiate - Construindo Data Lakes e Analytics com AWS

Mais conteúdo relacionado

Mais procurados

Semelhante a AWS Initiate - Construindo Data Lakes e Analytics com AWS

Mais de Amazon Web Services LATAM

AWS Initiate - Construindo Data Lakes e Analytics com AWS

Notas do Editor