© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark.
AWSWebinar Series Brasil
Pedro Rates – prrates
AWS – Arquiteto de Soluções
Construindo um Data Lake na nuvem AWS
© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Como interagir durante o evento?
Você tem um projeto e
quer conversar com o
time comercial da
AWS?
Acesse o LIVE CHAT
neste QR code ou pelo
link enviado no chat do
evento.
Perguntas & Respostas
ao vivo durante todo o
evento
Tire suas dúvidas com os
especialistas da AWS!
Clique no símbolo “?” e
envie suas perguntas.
A revolução dos dados
Tradicionalmente, o processo de tomada de decisões
OLTP
ERP CRM
LOB
Enterprise data warehouse
Business intelligence
…dependia de um data warehouse
Os dados não cabem mais
* IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017.
Dados
a cada 5 anos
Hámaisdadosqueaspessoas
pensam
15
anos
existir por
Plataforma de dados:
1,000x
crescimento
>10x
crescem
Osdadossãomaisdiversos
Hámaispessoas
acessandoosdados
Emaiornecessidadede
disponbilidadedosdados
Data Scientists
Analysts
Business Users
Applications
Machine Learning
SQL analytics
Scientific
Real-time,
streaming
Cargas de trabalho cada vez mais diversas
Maior pressão regulatória
Democratização
dos dados
Governança
e controle
cumprir com as
regulamentações e
requisitos de governança?
Como democratizar o
acesso aos dados e
Introdução ao Data Lake
Um data lake é um repositório centralizado que
permite o armazenamento qualquer quantidade
dados, estruturados e não estruturados
Por que utilizar data lakes?
Data Lakes proporciona:
Dados relacionais e não relacionais
Escala de Exabytes
Conjunto diversos de ferramentas de Analytics e ML
Trabalhar com os dados sem precisar movê-los
Projetado para armazenamento e analytics de baixo
custo
OLTP ERP CRM LOB
Data Warehouse
Business
Intelligence
Data Lake
100110000100101011100
101010111001010100001
011111011010
0011110010110010110
0100011000010
Devices Web Sensor
s
Social
Catalog
Machine
Learning
DW
Queries
Big data
processing
Interactive Real-time
Há mais data lakes e analytics na AWS que em qualquer outro lugar
Desafios na construção de um Data Lake
Construir data lakes limpos e seguros
pode levar meses
A preparação dos dados representa ~80% do trabalho
Desenvolvimento de conjuntos de treinamento
Limpeza e organização dos dados
Coletar conjuntos de dados
Mineração dos dados para obter padrões
Refinamento de algoritmos
Outros
Etapas necessárias para construir um data lake
Setup storage
1
Move data
2 Cleanse, prep,
and catalog data
3
Configure and enforce
security and compliance
policies
4
Make data available
for analytics
5
Implementar a arquitetura de um Data Lake requer um amplo conjunto de
ferramentas e tecnologias para atender aplicações e casos de uso cada vez
mais diversos.
Exemplos de etapas na AWS Find sources
Create Amazon Simple Storage Service (Amazon S3) locations
Configure access policies
Map tables to Amazon S3 locations
Create metadata access policies
Configure access from Analytics end services
Repetir para outros:
data sets, usuários, e aplicações
And more:
gerenciar e monitorar os jobs de ETL
atualizar catálogo de metadados
atualizar as políticas de acesso de usuário e aplicações
manutenção dos scripts de limpeza dos dados
criação de processos de auditoria para aderência ao compliance
…
Manual | Falha Humana | Consome tempo
ETL Jobs to clean and prepare data
Serviço totalmente gerenciado que permite que
Analistas de
dados
construam data lakes limpos e seguros em dias
AWS Lake Formation
Cientistas de
dados
Engenheiros
de dados
AWS Lake Formation Solution Stack
Amazon S3
Data Lake Storage Armazenamento durável, com capacidade de
replicação global, e com alto custo-benefício
Processo de ingestão e limpeza dos dados
permite aos engenheiros de dados
desenvolver com mais agilidade
Gerenciamento centralizado de permissões
granulares ampliam a capacidade do time de
segurança
Ferramentas de descoberta,
compartilhamento, e integração disponíveis
para todos os usuários
Amazon
Athena
Amazon
QuickSight
Amazon
Redshift
AWS
Glue
Amazon
EMR
Lake Formation
AWS Glue Blueprints
ML
Transforms
Data
Catalog
Access
Control
AWS
SageMaker
Projetado para 11 9s
de durabilidade
Projetado para
99.99% de disponibilidade
Durável Disponível Alto desempenho
 Upload por partes
 GET por partes
 Armazene quanto for necessário
 Aumente armazenamento e
processamento independemente
 Sem necessidade de uso mínimo
Escalável
 Amazon EMR
 Amazon Redshift
 Amazon DynamoDB
 Amazon SageMaker
 Muitos mais
Integrado
 REST API simples
 AWS SDKs
 Consistência read-after-create
 Notificações de eventos
 Políticas de ciclo de vida
Fácil de usar
Por que usar o Amazon S3 para o Data Lake?
Como funciona
Registre dados já existentes ou importe conteúdo novo
Amazon S3 forma a camada de
armazenamento do Lake Formation
Registre buckets do S3 existentes contendo
seus dados
Configure o Lake Formation para criar os
buckets do S3 necessários e importar os
dados para dentro deles
Os dados são armazenados na sua conta.
Você tem acesso direto à eles. Não há lock-
in.
Data Lake Storage
Data
Catalog
Access
Control
Data import
Lake Formation
Crawlers ML-based
data prep
Carregue dados no seu data lake facilmente
logs
DBs
Blueprints
Data Lake Storage
Data
Catalog
Access
Control
Data import
Lake Formation
Crawlers ML-based
data prep
Uma vez
incremental
Com os blueprints
Você
1. Configure a fonte de dados
2. Configure o local para o qual
carregar os dados no data
lake
3. Especifique o quão
frequentemente você deseja
carregar dados
Blueprints
1. Descobre o schema das
tabelas
2. Converte automaticamente
para o formato do destino
3. Particiona os dados
automaticamente conforme o
particionamento do schema
4. Mantém o registro dos dados
já processados
5. Todas as opções acima são
customizáveis
Orquestra os triggers,
crawlers & jobs
Cria e monitora fluxos
inteiros
Sistema de alertas
integrado
AWS Glue fornece componentes serverless
escaláveis
Data Catalog Serverless ETL
Compatível com
Apache Hive
Metastore
Integrado com os
serviços de analytics
AWS
Crawlers Flexible Workflows
Infere
automaticamente os
schemas
Popula o data catalog
Desenvolvimento
interativo
Apache Spark / Python
shell jobs
Execução serverless
Permissões de segurança no AWS Lake Formation
Controle o acesso aos dados simplesmente
concedendo ou revogando permissões
Especifique permissiões em DBs, tabelas, e colunas
ao invés de objetos ou buckets
Visualize facilmente as permissões concedidas à um
usuário específico
Audite todo o acesso aos dados em um só lugar
User
1
User
2
Modelo de segurança do AWS Lake Formation
Auditoria e monitoração em tempo real
Veja informações completas dos
eventos no console
Download dos logs para análises
mais detalhadas
Eventos podem ser integrados a
outros serviços, como o
CloudWatch
Demo: AWS Lake Formation
Informações adicionais
AWS Lake Formation: https://aws.amazon.com/pt/lake-formation/
AWSGlue: https://aws.amazon.com/pt/glue/
Lake Formation Getting Started Blogpost: https://aws.amazon.com/pt/blogs/big-
data/getting-started-with-aws-lake-formation/
Perguntas?
Lembre-se de responder a pesquisa de satisfação no final
© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Obrigado!
Fique por dentro das
próximas sessões
Acesse a agenda de
webinars neste QR code
e inscreva-se!
QR CODE
Conte-nos o que achou
do webinar
Clique em “sair” para
responder uma rápida
pesquisa de satisfação.

Construindo um data lake na nuvem aws

  • 1.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark. AWSWebinar Series Brasil Pedro Rates – prrates AWS – Arquiteto de Soluções Construindo um Data Lake na nuvem AWS
  • 2.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Como interagir durante o evento? Você tem um projeto e quer conversar com o time comercial da AWS? Acesse o LIVE CHAT neste QR code ou pelo link enviado no chat do evento. Perguntas & Respostas ao vivo durante todo o evento Tire suas dúvidas com os especialistas da AWS! Clique no símbolo “?” e envie suas perguntas.
  • 3.
  • 4.
    Tradicionalmente, o processode tomada de decisões OLTP ERP CRM LOB Enterprise data warehouse Business intelligence …dependia de um data warehouse
  • 5.
    Os dados nãocabem mais * IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017. Dados a cada 5 anos Hámaisdadosqueaspessoas pensam 15 anos existir por Plataforma de dados: 1,000x crescimento >10x crescem Osdadossãomaisdiversos
  • 6.
    Hámaispessoas acessandoosdados Emaiornecessidadede disponbilidadedosdados Data Scientists Analysts Business Users Applications MachineLearning SQL analytics Scientific Real-time, streaming Cargas de trabalho cada vez mais diversas
  • 7.
    Maior pressão regulatória Democratização dosdados Governança e controle cumprir com as regulamentações e requisitos de governança? Como democratizar o acesso aos dados e
  • 8.
  • 9.
    Um data lakeé um repositório centralizado que permite o armazenamento qualquer quantidade dados, estruturados e não estruturados
  • 10.
    Por que utilizardata lakes? Data Lakes proporciona: Dados relacionais e não relacionais Escala de Exabytes Conjunto diversos de ferramentas de Analytics e ML Trabalhar com os dados sem precisar movê-los Projetado para armazenamento e analytics de baixo custo OLTP ERP CRM LOB Data Warehouse Business Intelligence Data Lake 100110000100101011100 101010111001010100001 011111011010 0011110010110010110 0100011000010 Devices Web Sensor s Social Catalog Machine Learning DW Queries Big data processing Interactive Real-time
  • 11.
    Há mais datalakes e analytics na AWS que em qualquer outro lugar
  • 12.
    Desafios na construçãode um Data Lake
  • 13.
    Construir data lakeslimpos e seguros pode levar meses
  • 14.
    A preparação dosdados representa ~80% do trabalho Desenvolvimento de conjuntos de treinamento Limpeza e organização dos dados Coletar conjuntos de dados Mineração dos dados para obter padrões Refinamento de algoritmos Outros
  • 15.
    Etapas necessárias paraconstruir um data lake Setup storage 1 Move data 2 Cleanse, prep, and catalog data 3 Configure and enforce security and compliance policies 4 Make data available for analytics 5 Implementar a arquitetura de um Data Lake requer um amplo conjunto de ferramentas e tecnologias para atender aplicações e casos de uso cada vez mais diversos.
  • 16.
    Exemplos de etapasna AWS Find sources Create Amazon Simple Storage Service (Amazon S3) locations Configure access policies Map tables to Amazon S3 locations Create metadata access policies Configure access from Analytics end services Repetir para outros: data sets, usuários, e aplicações And more: gerenciar e monitorar os jobs de ETL atualizar catálogo de metadados atualizar as políticas de acesso de usuário e aplicações manutenção dos scripts de limpeza dos dados criação de processos de auditoria para aderência ao compliance … Manual | Falha Humana | Consome tempo ETL Jobs to clean and prepare data
  • 17.
    Serviço totalmente gerenciadoque permite que Analistas de dados construam data lakes limpos e seguros em dias AWS Lake Formation Cientistas de dados Engenheiros de dados
  • 18.
    AWS Lake FormationSolution Stack Amazon S3 Data Lake Storage Armazenamento durável, com capacidade de replicação global, e com alto custo-benefício Processo de ingestão e limpeza dos dados permite aos engenheiros de dados desenvolver com mais agilidade Gerenciamento centralizado de permissões granulares ampliam a capacidade do time de segurança Ferramentas de descoberta, compartilhamento, e integração disponíveis para todos os usuários Amazon Athena Amazon QuickSight Amazon Redshift AWS Glue Amazon EMR Lake Formation AWS Glue Blueprints ML Transforms Data Catalog Access Control AWS SageMaker
  • 19.
    Projetado para 119s de durabilidade Projetado para 99.99% de disponibilidade Durável Disponível Alto desempenho  Upload por partes  GET por partes  Armazene quanto for necessário  Aumente armazenamento e processamento independemente  Sem necessidade de uso mínimo Escalável  Amazon EMR  Amazon Redshift  Amazon DynamoDB  Amazon SageMaker  Muitos mais Integrado  REST API simples  AWS SDKs  Consistência read-after-create  Notificações de eventos  Políticas de ciclo de vida Fácil de usar Por que usar o Amazon S3 para o Data Lake?
  • 20.
  • 21.
    Registre dados jáexistentes ou importe conteúdo novo Amazon S3 forma a camada de armazenamento do Lake Formation Registre buckets do S3 existentes contendo seus dados Configure o Lake Formation para criar os buckets do S3 necessários e importar os dados para dentro deles Os dados são armazenados na sua conta. Você tem acesso direto à eles. Não há lock- in. Data Lake Storage Data Catalog Access Control Data import Lake Formation Crawlers ML-based data prep
  • 22.
    Carregue dados noseu data lake facilmente logs DBs Blueprints Data Lake Storage Data Catalog Access Control Data import Lake Formation Crawlers ML-based data prep Uma vez incremental
  • 23.
    Com os blueprints Você 1.Configure a fonte de dados 2. Configure o local para o qual carregar os dados no data lake 3. Especifique o quão frequentemente você deseja carregar dados Blueprints 1. Descobre o schema das tabelas 2. Converte automaticamente para o formato do destino 3. Particiona os dados automaticamente conforme o particionamento do schema 4. Mantém o registro dos dados já processados 5. Todas as opções acima são customizáveis
  • 24.
    Orquestra os triggers, crawlers& jobs Cria e monitora fluxos inteiros Sistema de alertas integrado AWS Glue fornece componentes serverless escaláveis Data Catalog Serverless ETL Compatível com Apache Hive Metastore Integrado com os serviços de analytics AWS Crawlers Flexible Workflows Infere automaticamente os schemas Popula o data catalog Desenvolvimento interativo Apache Spark / Python shell jobs Execução serverless
  • 26.
    Permissões de segurançano AWS Lake Formation Controle o acesso aos dados simplesmente concedendo ou revogando permissões Especifique permissiões em DBs, tabelas, e colunas ao invés de objetos ou buckets Visualize facilmente as permissões concedidas à um usuário específico Audite todo o acesso aos dados em um só lugar User 1 User 2
  • 27.
    Modelo de segurançado AWS Lake Formation
  • 28.
    Auditoria e monitoraçãoem tempo real Veja informações completas dos eventos no console Download dos logs para análises mais detalhadas Eventos podem ser integrados a outros serviços, como o CloudWatch
  • 29.
    Demo: AWS LakeFormation
  • 31.
    Informações adicionais AWS LakeFormation: https://aws.amazon.com/pt/lake-formation/ AWSGlue: https://aws.amazon.com/pt/glue/ Lake Formation Getting Started Blogpost: https://aws.amazon.com/pt/blogs/big- data/getting-started-with-aws-lake-formation/
  • 32.
    Perguntas? Lembre-se de respondera pesquisa de satisfação no final
  • 33.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Obrigado! Fique por dentro das próximas sessões Acesse a agenda de webinars neste QR code e inscreva-se! QR CODE Conte-nos o que achou do webinar Clique em “sair” para responder uma rápida pesquisa de satisfação.