O documento discute o desafio de construir um data lake para democratizar os dados em uma empresa. O processo envolveu definir uma arquitetura simples com diversas fontes de dados em formatos acessíveis e atualizados em tempo real. Mais de 200 pessoas agora podem acessar os 20TB de dados no data lake para análises e tomadas de decisão, apoiadas por documentação, ferramentas de visualização e confiança na qualidade dos dados.
3. O desafio
● Habilitar a empresa para consumir dados
● Acurácia das informações
● Fonte única da verdade
● Formatos plugáveis
● Diversas fontes de dados
● Analytics + Data Science + Business + Marketing
5. ● Pipelines de dados recorrentes
● Priorização do tempo de atualização (D-X)
● Formatos plugáveis/acessíveis (json, csv, SQL, ...)
● Validação dos dados (unit and value tests)
● Reprocessamento automatizado
Processo
6. ● Simples é melhor do que complexo
● Acessível é melhor do que inacessível
● Acurácia é tudo
● Documentação e didática fazem diferença
● Governança gera confiança
Premissas
11. Democratizando os dados
● +200 pessoas acessando os dados (vários níveis)
● ~20TB de dados
● Dados NRT até D-7
● 1 ano e meio de vida
12. Democratizando os dados
● Documentação
● Queries/extrações prontas e exemplos
● Ferramentas de visualização
● Confiança nos dados
● Data Engineering + Business