© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Construindo Data Lakes para o Governo
Mv – Marcus Ferreira
Arquiteto de Soluções para Governo, Saúde e Educação
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
The world’s most
valuable resource is
no longer oil, but data.*
“
”
*Copyright:The Economist, 2017, David Parkins
Visão Tradicional da Arquitetura Corporativa de Dados
OLTP ERP CRM LOB
Data warehouse
Business intelligence • Dado Relacional
• Escala deTBs–PBs
• Esquema definido antes do acúmulo de dados
• Relatórios Operacionais e ad-hoc
Data Lakes estendem a abordagem tradicional
Data warehouse
Business intelligence
OLTP ERP CRM LOB
• Dado Relacional e Não Relacional
• Escala deTBs–EBs
• Motores Analíticos Diversos
• Armazenamento de baixo custo &
Analytics
Dispositivos Web Sensores Social
Data lake
Processamento Big data,
real-time, machine learning
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Dados crescem continuamente
• O volume de dados cresce mais
rápido que a habilidade de analisar
esses dados.
• Novos tipos de dados não
conseguem ser analisados no
mesmo contexto de um DW
• Alguns cenários de usuários e
aplicações precisam de uma
ingestão de dados e resultados de
maneira mais rápida
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
What do the analysts say?
https://www.promptcloud.com
https://john-popelaars.blogspot.com
https://ww.signiant.com
https://www.linkedin.com/pulse/world-today-data-rich-information-poor-guru-p-mohapatra-pmp/
© 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Sources:
Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011
IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares
Legacy Architecture Models Lead to Dark Data
Traditional data warehouses cannot keep pace with data growth
1990 2000 2010 2020
DataVolume
All Data Analyzed Data
Dark Data
is not available
for analysis
Data Lakes na AWS
Analytics
• Incomparável durabilidade, e disponibilidade na escala de EB
• Melhor capacidade de segurança, conformidade regulatória e
auditoria
• Controle granular de acesso ao nível de objeto
• Performance mais rápida recuperando subconjunto de dados
• Muitas maneiras de trazer os dados
• 2x mais integrações com parceiros
• Análise com um amplo conjunto de serviços
Machine
learning
Dados
Real-time
Dados
On-premises
Data Lake
na AWS
Data Lakes na AWS
Analytics
• Incomparável durabilidade, e disponibilidade na escala de EB
• Melhor capacidade de segurança, conformidade regulatória e
auditoria
• Controle granular de acesso ao nível de objeto
• Performance mais rápida recuperando subconjunto de dados
• Muitas maneiras de trazer os dados
• 2x mais integrações com parceiros
• Análise com um amplo conjunto de serviços
Machine
learning
Dados
Real-time
Dados
On-premises
S3
Adoção de Datalakes na AWS
Mais de10,000 data lakes na AWS
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Por onde começo o meu Datalake?
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amplo portifólio para uma variedade de casos de uso
Serviços de migração & streaming de dados
Infraestrutura Catálogo de dados
& ETL
Segurança e
gerenciamento
Dashboards Análises preditivas
Data
warehousing
Processamento
em Big data
Consultas
interativas
Análises
operacionais
Análises em
tempo real
Precessamento de
dados Serverless
Visualização & machine learning
Movimentação de dados
Analytics
Infraestrutura e gerenciamento de data lakes
Movimentação de dados
Analytics
Amplo portifólio para uma variedade de casos de uso
+ 10 more
Amazon
Redshift
Amazon EMR (Spark
& Hadoop)
Amazon
Athena
Amazon
Elasticsearch
Service
Amazon
Kinesis Data
Analytics
AWS Glue (Spark &
Python)
Amazon S3 & Amazon
S3 Glacier
AWS GlueAWS Lake
Formation
Visualização & machine learning
Amazon
QuickSight
Amazon
SageMaker
Amazon
Comprehend
Amazon
Lex
Amazon
Polly
Amazon
Rekognition
Amazon
Translate
Amazon
Transcribe
Deep learning
AMIs
AWS Database Migration Service | AWS Snowball | AWS Snowmobile | Kinesis Data Firehose | Kinesis Data Streams | Managed Streaming for Kafka
Infraestrutura e gerenciamento de data lakes
Source:
https://commons.wikimedia.org/wiki/File:Regras_para_conceder_novas_autorizações_a_taxistas_serão_definidas_por_grupo_de_trabalho_(23132751631).jpg
Uso de Datalakes para planejamento de cidades
Arquitetura Proposta para uma Solução
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data
AMAZON QUICKSIGHTAMAZON SAGEMAKER
AMAZON S3
SIMPLE STORAGE SERVICE
Amazon S3
YOUR-BUCKET-NAME
Tipos de dados para a ingestão
Transacionais
• RDBMS
Arquivos
• Click-stream logs
• Texto livre
Stream
• IoT devices
• Tweets
Database
Cloud
Storage
Stream
Storage
Arquitetura Proposta para uma Solução
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data
AMAZON QUICKSIGHTAMAZON SAGEMAKER
AMAZON KINESIS
REAL TIME DATA STREAMING
Ingestão de dados no Kinesis Firehose
Faremos uma ingestão baseado em dados que estão sendo
coletados de um sistema transacional
aws firehose put-record
--delivery-stream-name STREAM-NAME
--record Data=”2, 2016-01-01 00:00:00, 7.5”
Exemplo de dado enviado
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Descobrindo dados com AWS Glue
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data
AMAZON QUICKSIGHTAMAZON SAGEMAKER
Autoria de JobCatálogo de Dados Execução de Job
Compatível Apache Hive Metastore
Integrado com serviços AWS
Crawling automático
Descobrir
Gerar ETL automaticamente
Python and Apache Spark
Edite, debug, e compartilhe
Desenvolver
Execução Serverless
Agendamento flexível
Monitoramento e alarmes
Implantar
AWS Glue
Explorando dados com Amazon Athena
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data
AMAZON QUICKSIGHTAMAZON SAGEMAKER
Amazon Athena
Serviço de consulta interativa que facilita a análise de
dados diretamente do Amazon S3 utilizando SQL padrão
Familiaridade com tecnologias utilizadas
Utilizada para consultas SQL
In-memory distributed query engine
ANSI-SQL compatível com extensões
Utilizado para funcionalidade de DDL
Tipos de Dados complexos
Múltiplos formatos
Suporte a particionamento de dados
Mas eu quero ver dados de forma
amigável?
Explorando dados com Amazon Athena
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data
AMAZON QUICKSIGHTAMAZON SAGEMAKER
AMAZON
QUICKSIGHT
CLOUD-POWERED BUSINESS INTELLIGENCE
Quero visualizar perguntas complexas?
Este trânsito é normal?
Machine Learning com Amazon
Sagemaker
Dados on-premise
Web app data
Amazon RDS
Outros Banco de
Dados
Streaming data
AMAZON QUICKSIGHTAMAZON SAGEMAKER
AMAZON
SAGEMAKER
Habilidade de criar, treinar e implantar modelos de machine
learning
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon SageMaker
1 2 3 4
I I I I
Instâncias Notebook Algoritmos Treinamento Hospedagem do
Serviço
Data Lakes por um Governo cada vez melhor
Analytics
Machine
learning
Dados
Real-time
Dados
On-premises
Data Lake
na AWS
Precisamos de um
governo que seja o nosso
melhor. Inteligente,
eficiente, pragmático e
compassivo.
Deval Laurdine Patrick
Político Americano, advogado de direitos civis
“A AWS permite que nosso time se concentre no core do
problema que estamos resolvendo”
O QEdu é uma empresa de tecnologia
investida pela Fundação Lemann que tem
o propósito de transformar a educação
pública no Brasil por meio de tecnologia,
dados e análises
Atualmente servimos nossos clientes por
meio de uma plataforma web para
visualização de dados
INSERIR LOGO
Com AWS sabemos que
podemos sonhar
grande e que teremos
todo o apoio para escalar
nosso sonho de garantir o
aprendizado
adequado para todos
os alunos do Brasil”
[César Wedemann, CEO]
Data Lake para Educação do País INSERIR LOGO
MuitoObrigado
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Mv – Marcus Ferreira
Arquiteto de Soluções para Governo, Saúde e Educação
mvferr@amazon.com

AWS Initiate - Construindo Data Lakes e Analytics com AWS

  • 2.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Construindo Data Lakes para o Governo Mv – Marcus Ferreira Arquiteto de Soluções para Governo, Saúde e Educação
  • 4.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. The world’s most valuable resource is no longer oil, but data.* “ ” *Copyright:The Economist, 2017, David Parkins
  • 5.
    Visão Tradicional daArquitetura Corporativa de Dados OLTP ERP CRM LOB Data warehouse Business intelligence • Dado Relacional • Escala deTBs–PBs • Esquema definido antes do acúmulo de dados • Relatórios Operacionais e ad-hoc
  • 6.
    Data Lakes estendema abordagem tradicional Data warehouse Business intelligence OLTP ERP CRM LOB • Dado Relacional e Não Relacional • Escala deTBs–EBs • Motores Analíticos Diversos • Armazenamento de baixo custo & Analytics Dispositivos Web Sensores Social Data lake Processamento Big data, real-time, machine learning
  • 7.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Dados crescem continuamente • O volume de dados cresce mais rápido que a habilidade de analisar esses dados. • Novos tipos de dados não conseguem ser analisados no mesmo contexto de um DW • Alguns cenários de usuários e aplicações precisam de uma ingestão de dados e resultados de maneira mais rápida
  • 8.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. What do the analysts say? https://www.promptcloud.com https://john-popelaars.blogspot.com https://ww.signiant.com https://www.linkedin.com/pulse/world-today-data-rich-information-poor-guru-p-mohapatra-pmp/
  • 9.
    © 2019, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Sources: Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011 IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares Legacy Architecture Models Lead to Dark Data Traditional data warehouses cannot keep pace with data growth 1990 2000 2010 2020 DataVolume All Data Analyzed Data Dark Data is not available for analysis
  • 10.
    Data Lakes naAWS Analytics • Incomparável durabilidade, e disponibilidade na escala de EB • Melhor capacidade de segurança, conformidade regulatória e auditoria • Controle granular de acesso ao nível de objeto • Performance mais rápida recuperando subconjunto de dados • Muitas maneiras de trazer os dados • 2x mais integrações com parceiros • Análise com um amplo conjunto de serviços Machine learning Dados Real-time Dados On-premises Data Lake na AWS
  • 11.
    Data Lakes naAWS Analytics • Incomparável durabilidade, e disponibilidade na escala de EB • Melhor capacidade de segurança, conformidade regulatória e auditoria • Controle granular de acesso ao nível de objeto • Performance mais rápida recuperando subconjunto de dados • Muitas maneiras de trazer os dados • 2x mais integrações com parceiros • Análise com um amplo conjunto de serviços Machine learning Dados Real-time Dados On-premises S3
  • 12.
    Adoção de Datalakesna AWS Mais de10,000 data lakes na AWS
  • 13.
    © 2018, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Por onde começo o meu Datalake? © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 14.
    Amplo portifólio parauma variedade de casos de uso Serviços de migração & streaming de dados Infraestrutura Catálogo de dados & ETL Segurança e gerenciamento Dashboards Análises preditivas Data warehousing Processamento em Big data Consultas interativas Análises operacionais Análises em tempo real Precessamento de dados Serverless Visualização & machine learning Movimentação de dados Analytics Infraestrutura e gerenciamento de data lakes
  • 15.
    Movimentação de dados Analytics Amploportifólio para uma variedade de casos de uso + 10 more Amazon Redshift Amazon EMR (Spark & Hadoop) Amazon Athena Amazon Elasticsearch Service Amazon Kinesis Data Analytics AWS Glue (Spark & Python) Amazon S3 & Amazon S3 Glacier AWS GlueAWS Lake Formation Visualização & machine learning Amazon QuickSight Amazon SageMaker Amazon Comprehend Amazon Lex Amazon Polly Amazon Rekognition Amazon Translate Amazon Transcribe Deep learning AMIs AWS Database Migration Service | AWS Snowball | AWS Snowmobile | Kinesis Data Firehose | Kinesis Data Streams | Managed Streaming for Kafka Infraestrutura e gerenciamento de data lakes
  • 16.
  • 17.
    Arquitetura Proposta parauma Solução Dados on-premise Web app data Amazon RDS Outros Banco de Dados Streaming data AMAZON QUICKSIGHTAMAZON SAGEMAKER
  • 18.
  • 19.
  • 20.
    Tipos de dadospara a ingestão Transacionais • RDBMS Arquivos • Click-stream logs • Texto livre Stream • IoT devices • Tweets Database Cloud Storage Stream Storage
  • 21.
    Arquitetura Proposta parauma Solução Dados on-premise Web app data Amazon RDS Outros Banco de Dados Streaming data AMAZON QUICKSIGHTAMAZON SAGEMAKER
  • 22.
  • 23.
    Ingestão de dadosno Kinesis Firehose Faremos uma ingestão baseado em dados que estão sendo coletados de um sistema transacional aws firehose put-record --delivery-stream-name STREAM-NAME --record Data=”2, 2016-01-01 00:00:00, 7.5”
  • 24.
  • 25.
    © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved.
  • 26.
    Descobrindo dados comAWS Glue Dados on-premise Web app data Amazon RDS Outros Banco de Dados Streaming data AMAZON QUICKSIGHTAMAZON SAGEMAKER
  • 27.
    Autoria de JobCatálogode Dados Execução de Job Compatível Apache Hive Metastore Integrado com serviços AWS Crawling automático Descobrir Gerar ETL automaticamente Python and Apache Spark Edite, debug, e compartilhe Desenvolver Execução Serverless Agendamento flexível Monitoramento e alarmes Implantar AWS Glue
  • 28.
    Explorando dados comAmazon Athena Dados on-premise Web app data Amazon RDS Outros Banco de Dados Streaming data AMAZON QUICKSIGHTAMAZON SAGEMAKER
  • 29.
    Amazon Athena Serviço deconsulta interativa que facilita a análise de dados diretamente do Amazon S3 utilizando SQL padrão
  • 30.
    Familiaridade com tecnologiasutilizadas Utilizada para consultas SQL In-memory distributed query engine ANSI-SQL compatível com extensões Utilizado para funcionalidade de DDL Tipos de Dados complexos Múltiplos formatos Suporte a particionamento de dados
  • 31.
    Mas eu querover dados de forma amigável?
  • 32.
    Explorando dados comAmazon Athena Dados on-premise Web app data Amazon RDS Outros Banco de Dados Streaming data AMAZON QUICKSIGHTAMAZON SAGEMAKER
  • 33.
  • 35.
    Quero visualizar perguntascomplexas? Este trânsito é normal?
  • 36.
    Machine Learning comAmazon Sagemaker Dados on-premise Web app data Amazon RDS Outros Banco de Dados Streaming data AMAZON QUICKSIGHTAMAZON SAGEMAKER
  • 37.
    AMAZON SAGEMAKER Habilidade de criar,treinar e implantar modelos de machine learning
  • 38.
    © 2018, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon SageMaker 1 2 3 4 I I I I Instâncias Notebook Algoritmos Treinamento Hospedagem do Serviço
  • 39.
    Data Lakes porum Governo cada vez melhor Analytics Machine learning Dados Real-time Dados On-premises Data Lake na AWS Precisamos de um governo que seja o nosso melhor. Inteligente, eficiente, pragmático e compassivo. Deval Laurdine Patrick Político Americano, advogado de direitos civis
  • 40.
    “A AWS permiteque nosso time se concentre no core do problema que estamos resolvendo” O QEdu é uma empresa de tecnologia investida pela Fundação Lemann que tem o propósito de transformar a educação pública no Brasil por meio de tecnologia, dados e análises Atualmente servimos nossos clientes por meio de uma plataforma web para visualização de dados INSERIR LOGO Com AWS sabemos que podemos sonhar grande e que teremos todo o apoio para escalar nosso sonho de garantir o aprendizado adequado para todos os alunos do Brasil” [César Wedemann, CEO]
  • 41.
    Data Lake paraEducação do País INSERIR LOGO
  • 42.
    MuitoObrigado © 2019, AmazonWeb Services, Inc. or its affiliates. All rights reserved. Mv – Marcus Ferreira Arquiteto de Soluções para Governo, Saúde e Educação mvferr@amazon.com

Notas do Editor

  • #4 While I know this is nothing new to you, or nothing new to understand We are on the precipice of a point where a part of an organizations value will be determined by the quality of it’s data, and many are calling the data as the new oil. If data is the new oil, then machine learning is the refinery
  • #5 Timing: 10 seconds So 7 years later, world agree that data matters. In fact it’s the most important asset for a company. This thought has gone mainstream with The Economist saying it too.
  • #8 The volume, variety, and velocity of data continues to escalate. Data volumes are growing fast. With on-premises data warehouses, capacity planning needs to occur far in advance of data growth. Once new capacity is purchased, utilization remains low until the data grows. As the data volume approaches capacity, then performance slows, and users become unhappy. Unstructured data is growing even faster than structured data. With the structured nature of a data warehouse, analyzing unstructured data becomes a big challenge. The pace of business continues to accelerate, and business users want analytics results as soon as possible. They don’t want to wait for daily ingest, or longer for new data sources. Also, business applications need to query data in near real-time.
  • #9 You don’t have to take my word for it… reports on the growth of data are readily available most everywhere you look. Top-Left – growth of unstructured data is vastly outpacing structured data Top-Right – the amount of data will grow 50x between 2010 and 2020 Bottom-Left – We already have PB/day customers. We’re trending towards EB and ZB data sets Bottom-Right – Data from sensors/connected-devices and social media are now described in multiples of the global population
  • #10 Data is a powerful and pervasive resource – it is everywhere, and it is used in every aspect of your business. including back-office systems of record, systems of insight that inform decision making and systems of engagement that shape customer relationships. However, few organizations have the ability to harness its full potential. The mismatch between “all data” and the subset of data available for analysis has always existed. But as you can see, the gap is widening at an accelerating pace – the vast majority of data is just not available, so it is not analyzed. That means that your business is making decisions based on incomplete data and incomplete analysis.
  • #20 Create an Amazon S3 bucket to hold the files for Amazon EMR processing, and input files for Amazon Redshift Replace the highlighted value with a globally unique bucket name of your choice
  • #21 Vamos receber dados de sistemas transacionais baseados em bancos relacionais Vamos receber arquivos de logs com formatação variada Vamos receber textos livre, imagens Vamos receber sinais de dispositivos de IoT Vamos receber streams de dados das redes sociais A próxima questão é que tipo de storage a gente tem que usar
  • #23 Serviço gerenciado de ingestão de streaming de dados que pode capturar terabytes de dados por hora a partir de centrenas de fontes como websites clickstreams, transações financeiras, logs e eventos de localização
  • #30 You simply put your Data in S3 and submit SQL against it
  • #34 Serviço de BI baseado em cloud de alta velocidade, simples de utilizar que permite que qualquer um construa visualizações, execute anaálises ad-hoc e consiga rapidamente extrais insights dos seus dados. Ele é baseado em em um motor chamado SPICE S-> Super fast P - > Parallel I -> In memory CE – optimized calculation engine
  • #38 Serviço de BI baseado em cloud de alta velocidade, simples de utilizar que permite que qualquer um construa visualizações, execute anaálises ad-hoc e consiga rapidamente extrais insights dos seus dados. Ele é baseado em em um motor chamado SPICE S-> Super fast P - > Parallel I -> In memory CE – optimized calculation engine
  • #41 30 segundos para apresentar a empresa, rapidamente
  • #42 Prover informações de educação de nível municipal, estadual e federal para pais, alunos e educadores.