DataOps é uma abordagem que visa melhorar a qualidade e reduzir o tempo de ciclo de análises de dados por meio da automação e monitoramento de pipelines de dados. O documento descreve 15 passos para implementar DataOps em projetos de Big Data, incluindo incrementar testes de dados e lógica, usar controle de versão, ambientes múltiplos e parâmetros, visando permitir que equipes trabalhem com confiança e evitem problemas de qualidade e interrupções.
Passo a Passo para implementar DataOps em projetos de Big Data
1. Globalcode – Open4education
Trilha – BigData
Passo a Passo para implementar DataOps em projetos de Big Data
Eduardo Hahn
DataLakers founder & DataOps Enthusiastic
2. Globalcode – Open4education
+ BuzzWord
“DataOps is an automated, process-oriented methodology,
used by analytic and data teams, to improve the quality and
reduce the cycle time of data analytics.” Wikipedia
“DataOps is about more than speed and quality. With a
culture of continuous improvement, organizations can
deliver data analytics solutions more efficiently, releasing
valuable team members for more valuable activities, such
as building innovative new products.” Eckerson Group
3. Globalcode – Open4education
Começo.....
2014....
“A ciência de dados é uma disciplina
excepcionalmente importante hoje em
dia. Mas essa ciência só é útil na
medida em que pode ser executada de
forma eficiente e confiável. E para que
isso aconteça, você precisa de
DataOps.”
8. Globalcode – Open4education
DataOps Manifesto
Princípios do DataOps
1. Satisfaça continuamente o seu cliente
2. Valor do trabalho analítico
3. Abrace a mudança
4. É um esporte em equipe
5. Interações diárias
6. Auto-organização
7. Reduza o heroísmo
8. Reflita
9. Os códigos
10. Orquestração
11. Faça tudo ser reproduzível
12. Ambientes descartáveis
13. Simplicidade
14. Análise de dados é manufatura
15. A qualidade é primordial
16. Monitorar a qualidade e o
desempenho
17. Reutilizar
18. Melhorar os tempos dos ciclos
17. Globalcode – Open4education
DataOps is NOT Just DevOps for Data
Access:
Python Code
Transform:
SQL Code, ETL
Model:
R Code
Visualize:
Tableau
Workbook
Report:
Tableau Online
Automatize e monitorar pipelines
18. Globalcode – Open4education
DataOps is NOT Just DevOps for Data
Data Data
AnalystsEngineers Scientists
Diverse Tools
Business
Customer
Diverse Team
Data
Products &
Systems
Automatizar implantações
21. Globalcode – Open4education
DataOps is NOT Just DevOps for Data
Não permita que dados de baixa qualidade cheguem aos usuários no Value Pipeline
Não implemente
alterações que
interrompam os sistemas
em produção no
Innovation Pipeline
28. Globalcode – Open4education
Passos para implementar DataOps
Passo 6: Use Simple Storage
• Data Lake: mantenha todas as copias de dados originais em
storage barato.
• Tenha sua “Própria Base de Dados” criando modelos
parametrizados com variáveis para você preparar dados para seu
desenvolvimento e laboratório.
29. Globalcode – Open4education
Passos para implementar DataOps
Resultado: Trabalhe com confiança
Para uma analista de dados, existem duas formas comuns para ficar
envergonhado:
• Permitir que dados de baixa qualidade cheguem aos usuários;
• Implantar alterações que prejudiquem os sistemas em produção
37. Globalcode – Open4education
References
DataOps Ecosystem - //medium.com/data-ops/2017-the-year-of-dataops-b2023c17d2af
DataOps for Government (State of Connecticut) - //github.com/OpenDataCT/DataOps
Creating a Data-Driven Enterprise with DataOps - //www.oreilly.com/data/free/creating-
a-data-driven-enterprise-with-dataops.csp
http://dataopsmanifesto.org/
DataOps — It’s a Secret - //www.datasciencecentral.com/profiles/blogs/dataops-it-s-a-
secret
The Power of DataOps - //www.delphix.com/blog/power-dataops
Building a DataOps Team - //medium.com/data-ops/building-a-dataops-team-
abc375e0a6bc
DataOps: Industrializing Data and Analytics - //www.eckerson.com/articles/dataops-
industrializing-data-and-analytics?content=dataops-industrializing-data-and-analytics
39. Globalcode – Open4education
About me
Eduardo Hahn
• Founder DataLakers Tecnologia
• Data Lover & DataOps Enthusiastic
• Worked: 4all, UNIDBA, Bertini e Advanced IT
• Past: Presidente SUCESU-RS, Presidente GUOB e
VP LAOUC
• eduardo.hahn@datalakers.com.br
• @eduardohahn
• /in/eduardohahn3
Partners
Big Family
40. Globalcode – Open4education
Trilha – BigData
Passo a Passo para implementar DataOps em projetos de Big Data
Eduardo Hahn
DataLakers founder & DataOps Enthusiastic