Desmitificando pipeline de dados com Python

Desmitificando pipeline
de dados com Python: o
que aprendi em 6 anos.
ROBSON JÚNIOR

Me
DEVELOPER + 16
YEARS
TELEGRAM: BSAO0 TWITTER: BSAO GITHUB: BSAO

Agenda
Não é sobre Código, é sobre arquitetura
Anatomia de um produto de dados.
Lambda vs Kappa Architecture
Qualidades de um pipeline de dados.
Onde Python importa.
O objetivo é ajudar você a planejar excelentes produtos de dados baseados em Python.

Ingress Processes
Anatomia de um produto de dados.
Egress
DB
Logs
Jobs &
Datasets
DB
API’s
Volume / Variedade Veracidade / Velocidade Veracidade
Credits: Lars Albertsson https://www.youtube.com/watch?v=IVEl0bsTbdg

FUNCIONA EXAMENTE COMO UM SOFTWARE
Input Processes
RAM
Output
Files
Memory
Functions
Variables
Files
API’s
Credits: Lars Albertsson https://www.youtube.com/watch?v=IVEl0bsTbdg

Lambda and
Kappa
architecture
Λ VS Κ

Ingress Serving Layer
Lambda
Data
Batch Layer
Speed Layer
Stream
All data
Real time views
Batch views
Query

Aplicações
Sistemas que precisam de dados armazenados permanentemente.
Query em dados imutáveis.
Sistemas que requerem grande volume de atualizações e produzem novos datasets constantemente.
Pros
Seguro e confiável.
Tolerante a falhas ( é possível reprocessar tudo do zero).
Escalável.
Todo histórico de dados é distribuído no Sistema de arquivos (
preferencialmente um Sistema de arquivos distribuídos).
Cons
Modelagem prematura leva a cenários de migração de schemas ou datasets
a dificuldades.
Exponencialmente caro enquanto o volume de dados cresce.
Cada ciclo de processamento se torna mais complexa.
O Código tende a se tornar complexa por causa da separação de
responsabilidades de cada camada da pipeline.

Kappa
Data
Speed Layer
Stream Real time views Query
Pro tip: Se seu objetivo não são resposta em tempo real, se mantenha na arquitetura
em Batch.

Aplicação
Sua arquitetura de ingestão de dados deve ter uma ordem de eventos bem definidas para que você possa interagir com o seu dataset a qualquer momento.
Sistemas ou Usuários que precisam de aprendizado em tempo real. ( Redes Sociais, Anúncios, Detecção de Fraudes ).
Foco em mudança continua de código.
Pros
Usa muito menos recursos que uma aplicação em Batch (lambda).
Ajuda os pipelines de Machine Learning a trabalhar próximo ao tempo real.
É horizontalmente escalável.
E você pode reprocessar seus dados apenas quando seus dados ou código
mudam.
Cons
Erros no processamento de dados exigem um excelente gerenciamento de
exceções e monitoramento.
Um bug pode parar o pipeline de dados completamente.

Qualidades de
um Pipeline de
Dados
SE É UM PROGRAMA DE
COMPUTADOR, OS
PROBLEMAS SÃO QUASE
OS MESMO.

Segurança
Níveis de acesso
ao dados
Camadas de
privacidade
Formatos de
arquivos comuns
Separação de
Responsabilidades
Evitar duplicação
de código e hard-
coding.

Automação
Versionamento
Usar diferentes
plataformas
para
automatização.
CI/CD
Revisão de
Código / Lint

Monitoramento
Deixe os produtos na
cloud ajudarem nisso. É
barato e efetivo.
Evite vendor
lock-in.
Monitoramento
da
Infraestrutura

Testável e
Rastreável.
TESTES DE REGRESSÃO ENTRADAS
DETERMINÍSTICAS
ASSIM COMO SAÍDAS.
FOCO EM TESTES DE
UNIDADE E
INTEGRAÇÃO.
TESTE DE TODOS OS
COMPONENTES
EXTERNOS.
CRIAÇÃO DE TESTES
END-TO-END

Python trabalha
bem com todas
as tecnologias.

Onde Python
resolve :)
PySpark - Apache Spark Python API.
dask - Uma biblioteca de computação paralela flexível para
computação analítica.
luigi - Um módulo que ajuda você a construir pipelines
complexos para arquiteturas em batch.
• ELT
• Streaming
• Analysis
• Management & Scheduling
• Testing
• Validation

Onde Python
resolve :)
faust - Uma biblioteca de processamento de stream
portando as ideias de Kafka Streams para Python.
streamparse - Executa o código Python contra stream de
dados em tempo real via Apache Storm.
• ELT
• Streaming
• Analysis
• Testing
• Validation

Onde Python
resolve :)
Pandas - Uma biblioteca que fornece estruturas de dados e
ferramentas de análise de dados de alto desempenho e
fácil de usar.
Blaze - interface para trabalhar com Big Data com NumPy e
Pandas.
Optimus - Agile Data Science Workflows para trabalho com
PySpark.
• ELT
• Streaming
• Analysis
• Testing
• Validation

Onde Python
resolve :)
Airflow - Airflow é a Plataforma de gerencialmento de
trabalho de pipeline de dados programável.
• ELT
• Streaming
• Analysis
• Testing
• Validation

Onde Python
resolve :)
pytest - Uma ferramenta de teste Python completa
madura.
mimesis - é uma biblioteca Python que ajuda você a gerar
dados falsos.
fake2db - Geração de banco de dados temporários.
https://github.com/holdenk/spark-testing-base - Um
framework para implementar testes em pyspark.
• ELT
• Streaming
• Analysis
• Testing
• Validation

Onde Python
resolve :)
Cerberus - Uma biblioteca de validação de dados leve e
extensível.
schema - Uma biblioteca para validar estruturas de dados
Python.
voluptuous - Uma biblioteca de validação de dados Python.
• ELT
• Streaming
• Analysis
• Testing
• Validation

Obrigado <3
VAMOS FALAR?
HELLO@BSAO.ME

Desmitificando pipeline de dados com Python

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Desmitificando pipeline de dados com Python

Semelhante a Desmitificando pipeline de dados com Python (20)

Desmitificando pipeline de dados com Python

Notas do Editor