Atualmente o grande desafio não é mais ter dados para analisar. Mas sim organizar esse volume gigantestco de informações que recebemos diariamente de uma maneira organizada paraser utilizada no futuro.
Você sabe o que é um Data Lake? Como organizar um DL para que ele não vire um Data Swamp?
6. Agenda
Como evitar que o seu Data Lake vire um Data Swamp
● O que é um Data Lake?
● One Way Data Lake
● Por que criar um Data Lake?
● Tipos de dados em um Data Lake
● Dividindo um Data Lake em Data Ponds
● Quais os ingredientes para a construção de um Data Lake
● 3 dicas para tunar o seu Data Lake
8. If you think of a datamart as a store of
bottled water [...] the data lake is a
large body of water in a more natural
state […] various users of the lake can
come to examine, dive in, or take
samples.
Data Lake
DIXON, James. October 14, 2010
9. Características de um Data Lake
O que é um data Lake?
● Dados estruturados e semiestruturados
● Schema on Read
○ Há algumas perguntas que já temos conhecimento
○ Há Muitas perguntas que não temos conhecimento
● Low Cost
○ O Volume de dados produzidos está em um nível que um RDBS não
suportará seja por questões técnicas ou financeiras (e.g.: IoT)
○ AWS S3 / Google Cloud Storage
16. Os 3 Tipos básicos
Tipos de dados em um Data Lake
● Analog Data
● Application Data
● Textual Data
17. Geralmente composto por dados
MUITO volumosos e repetitivos.
Tipicamente gerado por máquinas ou
algum outro device (IoT) conectado à
internet.
Analog Data
Tipos de dados em um Data Lake
18. Dados gerados à partir da execução de
uma aplicação ou transação e enviados
ao Data Lake.
Application Data
Tipos de dados em um Data Lake
19. Dados não estruturados encontrados
em formato texto, como por exemplo
conversas de um call center, contratos
corporativos, email e etc.
Textual Data
Tipos de dados em um Data Lake
21. ● Raw Data Pond
● Analog Data Pond
● Application Data Pond
● Textual Data Pond
● Integration Data Pond
● Archival Data Pond
6 Tipos básicos de Data Ponds
Quebrando o Data Lake em Data Ponds
22. Raw Data Pond,
conhecido como
a Gênese do
Dado.
Muitas
empresas já
chamam de
Data Lake.
Raw Data Pond
Quebrando o Data Lake em Data Ponds
23. A separação
entre os ponds
favorece o
processamento e
a categorização
de cada tipo de
dado.
Analog/Application/Textual Data Ponds
Quebrando o Data Lake em Data Ponds
24. O mapeamento
de dados ajuda
a evitar silos de
informações,
onde um dado
não pode se
conectar a outro
e gerar novos
tipos de
análises.
Integration Data Pond
Quebrando o Data Lake em Data Ponds
25. Archival Data Pond
Quebrando o Data Lake em Data Ponds
Uma das
premissas de um
Data Lake é ser
Low Cost. Logo,
dados que não
são mais
utilizados devem
consumir menos
recursos.
26. O dado deve fluir entre os Ponds de maneira
descomplicada
27. What if...
Quebrando o Data Lake em Data Ponds
Não force um
tipo de
relacionamento
quando ele não
é natural.
28. 5. Quais os ingredientes para a
construção de um Data Lake?
29. Os 4 ingredientes básicos
Quais os ingredientes para a construção de um Data Lake
● Metadata
● Integration Mapping
● Context
● Metaprocess
30. ● Agiliza e facilita o processamento
● Ajuda a Decifrar a informação
● É Roadmap para o Dado
Metadata
Os 4 ingredientes básicos
39. Exemplo de Particionamento
Três dicas para tunar o seu Data Lake
● s3://my_bucket/path/<partition_column>=<partition_value>/file.json
● s3://my_bucket/path/year=2018/file.json
● s3://my_bucket/path/year=2018/month=03/day=17/file.json
40. 3 Dicas para tunar o seu Data Lake
● Particionamento
● Armazenamento Colunar
41. 3 Dicas para tunar o seu Data Lake
● Particionamento
● Armazenamento Colunar
● Dados em Diferentes Temperaturas
○ Hot - (S3 Standard)
○ Warm - (S3 Infrequent Access)
○ Cold - (AWS Glacier)