SlideShare uma empresa Scribd logo
1 de 43
Baixar para ler offline
Como Evitar que o seu Data
Lake vire um Data Swamp
Convertendo um Pântano em um Lago
Thiago D. Chiarato
Você já ouviu falar em Data Lake?
E em Data Swamp?
Como evitar que o seu DL vire um DS?
Thiago D. Chiarato
Software Engineer at Resultados Digitais
/tchiarato
@tchiarato
chiarato@gmail.com
Agenda
Como evitar que o seu Data Lake vire um Data Swamp
● O que é um Data Lake?
● One Way Data Lake
● Por que criar um Data Lake?
● Tipos de dados em um Data Lake
● Dividindo um Data Lake em Data Ponds
● Quais os ingredientes para a construção de um Data Lake
● 3 dicas para tunar o seu Data Lake
1. O que é um Data Lake?
If you think of a datamart as a store of
bottled water [...] the data lake is a
large body of water in a more natural
state […] various users of the lake can
come to examine, dive in, or take
samples.
Data Lake
DIXON, James. October 14, 2010
Características de um Data Lake
O que é um data Lake?
● Dados estruturados e semiestruturados
● Schema on Read
○ Há algumas perguntas que já temos conhecimento
○ Há Muitas perguntas que não temos conhecimento
● Low Cost
○ O Volume de dados produzidos está em um nível que um RDBS não
suportará seja por questões técnicas ou financeiras (e.g.: IoT)
○ AWS S3 / Google Cloud Storage
Arquitetura Simplificada
O que é um Data Lake?
2. O que é um Data Swamp?
Data Swamp
One Way Data Lake
3. Por que criar um Data Lake?
Crescimento Acelerado e Adaptações à Mudanças
4. Tipos de dados em um Data
Lake
Os 3 Tipos básicos
Tipos de dados em um Data Lake
● Analog Data
● Application Data
● Textual Data
Geralmente composto por dados
MUITO volumosos e repetitivos.
Tipicamente gerado por máquinas ou
algum outro device (IoT) conectado à
internet.
Analog Data
Tipos de dados em um Data Lake
Dados gerados à partir da execução de
uma aplicação ou transação e enviados
ao Data Lake.
Application Data
Tipos de dados em um Data Lake
Dados não estruturados encontrados
em formato texto, como por exemplo
conversas de um call center, contratos
corporativos, email e etc.
Textual Data
Tipos de dados em um Data Lake
5. Quebrando o Data Lake em
Data Ponds
● Raw Data Pond
● Analog Data Pond
● Application Data Pond
● Textual Data Pond
● Integration Data Pond
● Archival Data Pond
6 Tipos básicos de Data Ponds
Quebrando o Data Lake em Data Ponds
Raw Data Pond,
conhecido como
a Gênese do
Dado.
Muitas
empresas já
chamam de
Data Lake.
Raw Data Pond
Quebrando o Data Lake em Data Ponds
A separação
entre os ponds
favorece o
processamento e
a categorização
de cada tipo de
dado.
Analog/Application/Textual Data Ponds
Quebrando o Data Lake em Data Ponds
O mapeamento
de dados ajuda
a evitar silos de
informações,
onde um dado
não pode se
conectar a outro
e gerar novos
tipos de
análises.
Integration Data Pond
Quebrando o Data Lake em Data Ponds
Archival Data Pond
Quebrando o Data Lake em Data Ponds
Uma das
premissas de um
Data Lake é ser
Low Cost. Logo,
dados que não
são mais
utilizados devem
consumir menos
recursos.
O dado deve fluir entre os Ponds de maneira
descomplicada
What if...
Quebrando o Data Lake em Data Ponds
Não force um
tipo de
relacionamento
quando ele não
é natural.
5. Quais os ingredientes para a
construção de um Data Lake?
Os 4 ingredientes básicos
Quais os ingredientes para a construção de um Data Lake
● Metadata
● Integration Mapping
● Context
● Metaprocess
● Agiliza e facilita o processamento
● Ajuda a Decifrar a informação
● É Roadmap para o Dado
Metadata
Os 4 ingredientes básicos
Wikipedia Sem Título
Integration Mapping
Context
Quais os ingredientes para a construção de um Data Lake
Luto
Context
Quais os ingredientes para a construção de um Data Lake
Eu amo a minha
coroa!
Metaprocess
Exemplo de Metaprocess
Quais os ingredientes para a construção de um Data Lake
6. Três dicas para tunar o seu
Data Lake
● Particionamento
3 Dicas para tunar o seu Data Lake
Exemplo de Particionamento
Três dicas para tunar o seu Data Lake
● s3://my_bucket/path/<partition_column>=<partition_value>/file.json
● s3://my_bucket/path/year=2018/file.json
● s3://my_bucket/path/year=2018/month=03/day=17/file.json
3 Dicas para tunar o seu Data Lake
● Particionamento
● Armazenamento Colunar
3 Dicas para tunar o seu Data Lake
● Particionamento
● Armazenamento Colunar
● Dados em Diferentes Temperaturas
○ Hot - (S3 Standard)
○ Warm - (S3 Infrequent Access)
○ Cold - (AWS Glacier)
Planejamento & Governança
Thiago D. Chiarato
Software Engineer at Resultados Digitais
/tchiarato
@tchiarato
chiarato@gmail.com

Mais conteúdo relacionado

Mais procurados

ERD for Library management system Database
ERD for Library management system DatabaseERD for Library management system Database
ERD for Library management system DatabaseFaisal Shahzad Khan
 
Supply Chain Planning and SAP APO Overview
Supply Chain Planning and SAP APO OverviewSupply Chain Planning and SAP APO Overview
Supply Chain Planning and SAP APO OverviewSap Ides
 
SAP Presales Certification Exam
SAP Presales Certification ExamSAP Presales Certification Exam
SAP Presales Certification ExamAshish Srivastava
 
Mro spare parts optimisation and inventory reduction uk 2017 11
Mro spare parts optimisation and inventory reduction uk 2017 11Mro spare parts optimisation and inventory reduction uk 2017 11
Mro spare parts optimisation and inventory reduction uk 2017 11David Thompson
 
Digital Transformation in Life Sciences Sourcing and Supply Chain - 56621
Digital Transformation in Life Sciences Sourcing and Supply Chain - 56621Digital Transformation in Life Sciences Sourcing and Supply Chain - 56621
Digital Transformation in Life Sciences Sourcing and Supply Chain - 56621SAP Ariba Live 2018
 
Differences Between Bw3.5 Bi7.0
Differences Between Bw3.5 Bi7.0Differences Between Bw3.5 Bi7.0
Differences Between Bw3.5 Bi7.0srinath_vj
 
Big Data
Big DataBig Data
Big DataNGDATA
 
Use Case: Airbus and Process Mining Technology
Use Case: Airbus and Process Mining TechnologyUse Case: Airbus and Process Mining Technology
Use Case: Airbus and Process Mining TechnologyCelonis
 
Talend Data Preparation Overview
Talend Data Preparation OverviewTalend Data Preparation Overview
Talend Data Preparation OverviewJean-Michel Franco
 
Master data
Master dataMaster data
Master datababloo6
 
Big Data At Spotify
Big Data At SpotifyBig Data At Spotify
Big Data At SpotifyAdam Kawa
 
BIG Data & Hadoop Applications in Healthcare
BIG Data & Hadoop Applications in HealthcareBIG Data & Hadoop Applications in Healthcare
BIG Data & Hadoop Applications in HealthcareSkillspeed
 
SAP Analytics for Procurement
SAP Analytics for ProcurementSAP Analytics for Procurement
SAP Analytics for ProcurementHenner Schliebs
 
sap sales and distribution tutorial ppt
sap sales and distribution tutorial pptsap sales and distribution tutorial ppt
sap sales and distribution tutorial pptchandusapsd
 
SAP PP Course Documentation
SAP PP Course DocumentationSAP PP Course Documentation
SAP PP Course Documentationalfilmanagement
 

Mais procurados (20)

Supply chain risks by Levi 2015
Supply chain risks by Levi 2015Supply chain risks by Levi 2015
Supply chain risks by Levi 2015
 
ERD for Library management system Database
ERD for Library management system DatabaseERD for Library management system Database
ERD for Library management system Database
 
Supply Chain Planning and SAP APO Overview
Supply Chain Planning and SAP APO OverviewSupply Chain Planning and SAP APO Overview
Supply Chain Planning and SAP APO Overview
 
SAP Material master general document
SAP Material master   general documentSAP Material master   general document
SAP Material master general document
 
SAP Presales Certification Exam
SAP Presales Certification ExamSAP Presales Certification Exam
SAP Presales Certification Exam
 
Sap apo vs. ecc
Sap apo vs. eccSap apo vs. ecc
Sap apo vs. ecc
 
Mro spare parts optimisation and inventory reduction uk 2017 11
Mro spare parts optimisation and inventory reduction uk 2017 11Mro spare parts optimisation and inventory reduction uk 2017 11
Mro spare parts optimisation and inventory reduction uk 2017 11
 
SAP Cloud for Retail
SAP Cloud for RetailSAP Cloud for Retail
SAP Cloud for Retail
 
Digital Transformation in Life Sciences Sourcing and Supply Chain - 56621
Digital Transformation in Life Sciences Sourcing and Supply Chain - 56621Digital Transformation in Life Sciences Sourcing and Supply Chain - 56621
Digital Transformation in Life Sciences Sourcing and Supply Chain - 56621
 
Differences Between Bw3.5 Bi7.0
Differences Between Bw3.5 Bi7.0Differences Between Bw3.5 Bi7.0
Differences Between Bw3.5 Bi7.0
 
Big Data
Big DataBig Data
Big Data
 
Master data in mm
Master data in mm Master data in mm
Master data in mm
 
Use Case: Airbus and Process Mining Technology
Use Case: Airbus and Process Mining TechnologyUse Case: Airbus and Process Mining Technology
Use Case: Airbus and Process Mining Technology
 
Talend Data Preparation Overview
Talend Data Preparation OverviewTalend Data Preparation Overview
Talend Data Preparation Overview
 
Master data
Master dataMaster data
Master data
 
Big Data At Spotify
Big Data At SpotifyBig Data At Spotify
Big Data At Spotify
 
BIG Data & Hadoop Applications in Healthcare
BIG Data & Hadoop Applications in HealthcareBIG Data & Hadoop Applications in Healthcare
BIG Data & Hadoop Applications in Healthcare
 
SAP Analytics for Procurement
SAP Analytics for ProcurementSAP Analytics for Procurement
SAP Analytics for Procurement
 
sap sales and distribution tutorial ppt
sap sales and distribution tutorial pptsap sales and distribution tutorial ppt
sap sales and distribution tutorial ppt
 
SAP PP Course Documentation
SAP PP Course DocumentationSAP PP Course Documentation
SAP PP Course Documentation
 

Semelhante a Como Evitar que o seu Data Lake vire um Data Swamp

Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)Amazon Web Services LATAM
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura
 
Como Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealDenodo
 
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...tdc-globalcode
 
Aula tecnologia da informacao 6 banco de dados
Aula tecnologia da informacao 6 banco de dadosAula tecnologia da informacao 6 banco de dados
Aula tecnologia da informacao 6 banco de dadoswapiva
 
Data Mesh: O que é e quais tecnologias facilitam sua implementação?
Data Mesh: O que é e quais tecnologias facilitam sua implementação?Data Mesh: O que é e quais tecnologias facilitam sua implementação?
Data Mesh: O que é e quais tecnologias facilitam sua implementação?Denodo
 
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
É Tudo sobre Dados -  ARC202 - Sao Paulo SummitÉ Tudo sobre Dados -  ARC202 - Sao Paulo Summit
É Tudo sobre Dados - ARC202 - Sao Paulo SummitAmazon Web Services
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
Arquitetura e Processamento de Dados em Tempo Real.
Arquitetura e Processamento de Dados em Tempo Real.Arquitetura e Processamento de Dados em Tempo Real.
Arquitetura e Processamento de Dados em Tempo Real.Paulo Ricardo Santos
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAmazon Web Services LATAM
 
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...Cicero Joasyo Mateus de Moura
 
TDE - Transparent Data Encryption
TDE - Transparent Data EncryptionTDE - Transparent Data Encryption
TDE - Transparent Data EncryptionFelipe Ferreira
 
Data warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosData warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosMarcos Pessoa
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...Cicero Joasyo Mateus de Moura
 

Semelhante a Como Evitar que o seu Data Lake vire um Data Swamp (20)

SQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake MulticloudSQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake Multicloud
 
Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)Webinar: Ask the Experts - Big Data (Português)
Webinar: Ask the Experts - Big Data (Português)
 
Sistemas de Informação - Aula05 - cap5 bd e business intelligence
Sistemas de Informação - Aula05 - cap5 bd e business intelligenceSistemas de Informação - Aula05 - cap5 bd e business intelligence
Sistemas de Informação - Aula05 - cap5 bd e business intelligence
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
Como Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo Real
 
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
 
Bi sobre Big Data - Como fazer?
Bi sobre Big Data - Como fazer?Bi sobre Big Data - Como fazer?
Bi sobre Big Data - Como fazer?
 
Aula tecnologia da informacao 6 banco de dados
Aula tecnologia da informacao 6 banco de dadosAula tecnologia da informacao 6 banco de dados
Aula tecnologia da informacao 6 banco de dados
 
Data Mesh: O que é e quais tecnologias facilitam sua implementação?
Data Mesh: O que é e quais tecnologias facilitam sua implementação?Data Mesh: O que é e quais tecnologias facilitam sua implementação?
Data Mesh: O que é e quais tecnologias facilitam sua implementação?
 
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
É Tudo sobre Dados -  ARC202 - Sao Paulo SummitÉ Tudo sobre Dados -  ARC202 - Sao Paulo Summit
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
Arquitetura e Processamento de Dados em Tempo Real.
Arquitetura e Processamento de Dados em Tempo Real.Arquitetura e Processamento de Dados em Tempo Real.
Arquitetura e Processamento de Dados em Tempo Real.
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWS
 
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
 
TDE - Transparent Data Encryption
TDE - Transparent Data EncryptionTDE - Transparent Data Encryption
TDE - Transparent Data Encryption
 
Data warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosData warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentos
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
 

Como Evitar que o seu Data Lake vire um Data Swamp

  • 1. Como Evitar que o seu Data Lake vire um Data Swamp Convertendo um Pântano em um Lago Thiago D. Chiarato
  • 2.
  • 3. Você já ouviu falar em Data Lake?
  • 4. E em Data Swamp? Como evitar que o seu DL vire um DS?
  • 5. Thiago D. Chiarato Software Engineer at Resultados Digitais /tchiarato @tchiarato chiarato@gmail.com
  • 6. Agenda Como evitar que o seu Data Lake vire um Data Swamp ● O que é um Data Lake? ● One Way Data Lake ● Por que criar um Data Lake? ● Tipos de dados em um Data Lake ● Dividindo um Data Lake em Data Ponds ● Quais os ingredientes para a construção de um Data Lake ● 3 dicas para tunar o seu Data Lake
  • 7. 1. O que é um Data Lake?
  • 8. If you think of a datamart as a store of bottled water [...] the data lake is a large body of water in a more natural state […] various users of the lake can come to examine, dive in, or take samples. Data Lake DIXON, James. October 14, 2010
  • 9. Características de um Data Lake O que é um data Lake? ● Dados estruturados e semiestruturados ● Schema on Read ○ Há algumas perguntas que já temos conhecimento ○ Há Muitas perguntas que não temos conhecimento ● Low Cost ○ O Volume de dados produzidos está em um nível que um RDBS não suportará seja por questões técnicas ou financeiras (e.g.: IoT) ○ AWS S3 / Google Cloud Storage
  • 10. Arquitetura Simplificada O que é um Data Lake?
  • 11. 2. O que é um Data Swamp?
  • 12. Data Swamp One Way Data Lake
  • 13. 3. Por que criar um Data Lake?
  • 14. Crescimento Acelerado e Adaptações à Mudanças
  • 15. 4. Tipos de dados em um Data Lake
  • 16. Os 3 Tipos básicos Tipos de dados em um Data Lake ● Analog Data ● Application Data ● Textual Data
  • 17. Geralmente composto por dados MUITO volumosos e repetitivos. Tipicamente gerado por máquinas ou algum outro device (IoT) conectado à internet. Analog Data Tipos de dados em um Data Lake
  • 18. Dados gerados à partir da execução de uma aplicação ou transação e enviados ao Data Lake. Application Data Tipos de dados em um Data Lake
  • 19. Dados não estruturados encontrados em formato texto, como por exemplo conversas de um call center, contratos corporativos, email e etc. Textual Data Tipos de dados em um Data Lake
  • 20. 5. Quebrando o Data Lake em Data Ponds
  • 21. ● Raw Data Pond ● Analog Data Pond ● Application Data Pond ● Textual Data Pond ● Integration Data Pond ● Archival Data Pond 6 Tipos básicos de Data Ponds Quebrando o Data Lake em Data Ponds
  • 22. Raw Data Pond, conhecido como a Gênese do Dado. Muitas empresas já chamam de Data Lake. Raw Data Pond Quebrando o Data Lake em Data Ponds
  • 23. A separação entre os ponds favorece o processamento e a categorização de cada tipo de dado. Analog/Application/Textual Data Ponds Quebrando o Data Lake em Data Ponds
  • 24. O mapeamento de dados ajuda a evitar silos de informações, onde um dado não pode se conectar a outro e gerar novos tipos de análises. Integration Data Pond Quebrando o Data Lake em Data Ponds
  • 25. Archival Data Pond Quebrando o Data Lake em Data Ponds Uma das premissas de um Data Lake é ser Low Cost. Logo, dados que não são mais utilizados devem consumir menos recursos.
  • 26. O dado deve fluir entre os Ponds de maneira descomplicada
  • 27. What if... Quebrando o Data Lake em Data Ponds Não force um tipo de relacionamento quando ele não é natural.
  • 28. 5. Quais os ingredientes para a construção de um Data Lake?
  • 29. Os 4 ingredientes básicos Quais os ingredientes para a construção de um Data Lake ● Metadata ● Integration Mapping ● Context ● Metaprocess
  • 30. ● Agiliza e facilita o processamento ● Ajuda a Decifrar a informação ● É Roadmap para o Dado Metadata Os 4 ingredientes básicos
  • 33. Context Quais os ingredientes para a construção de um Data Lake Luto
  • 34. Context Quais os ingredientes para a construção de um Data Lake Eu amo a minha coroa!
  • 36. Exemplo de Metaprocess Quais os ingredientes para a construção de um Data Lake
  • 37. 6. Três dicas para tunar o seu Data Lake
  • 38. ● Particionamento 3 Dicas para tunar o seu Data Lake
  • 39. Exemplo de Particionamento Três dicas para tunar o seu Data Lake ● s3://my_bucket/path/<partition_column>=<partition_value>/file.json ● s3://my_bucket/path/year=2018/file.json ● s3://my_bucket/path/year=2018/month=03/day=17/file.json
  • 40. 3 Dicas para tunar o seu Data Lake ● Particionamento ● Armazenamento Colunar
  • 41. 3 Dicas para tunar o seu Data Lake ● Particionamento ● Armazenamento Colunar ● Dados em Diferentes Temperaturas ○ Hot - (S3 Standard) ○ Warm - (S3 Infrequent Access) ○ Cold - (AWS Glacier)
  • 43. Thiago D. Chiarato Software Engineer at Resultados Digitais /tchiarato @tchiarato chiarato@gmail.com