TDC2017 | POA Trilha BigData - Como integrar as soluções dos times de Data Engineering e Data Science?

Como integrar times de
Data Engineers e Data Scientists?
Tiago Vinícius (Vini)
vinicius.remigio@gmail.com
linkedin.com/in/viniremigio/

Data Engineers Data Scientists
Arquitetura
Análise
exploratória
Dados
disponíveis
Modelagem
Big Data
Computação
Matemática, Física,
Estatística

“O dataframe não cabe na memória da máquina...”
“Os dados estão no HDFS, é só criar um job Spark ou Hive e ler...”
“O processamento foi implementado em Java.
Mas os modelos estão em Python...”
“Temos dificuldades de visualizar os dados...”
“Não consigo baixar trazer 1TB de dados para a minha máquina...”
“Estou perdendo muito tempo tentando processar os dados.
Só queria começar a modelagem...”

https://diobrando.deviantart.com/art/Sub-Zero-and-Scorpion-Friendship-475106351
Como Engineers e Scientists
podem trabalhar juntos?
• Tecnologias
• Arquitetura

Desenvolvimento centralizado em Python
Manipulação dos dados com Jupyter
Gerenciamento de environments com Anaconda

+
Processamento distribuído com Pyspark
YARN Cluster
Cloud (mais fully-managed possível)
Amazon EMR

https://developerzen.com/best-practices-writing-
production-grade-pyspark-jobs-cb688ac4d20f

Amazon EMR + Jupyter
BootstrapActions=[
{
'Name': 'Jupyter Notebook',
'ScriptBootstrapAction': {
'Path': 's3://aws-bigdata-blog/artifacts/aws-blog-emr-jupyter/install-
jupyter-emr5.sh',
'Args': [
'--s3fs', '--python3',
'--python-packages', 'pandas matplotlib findspark boto3',
'--port', '8880', '--password' ,'jupyter',
'--cached-install',
'--notebook-dir', 's3://mybucket/notebooks/']
}
},
],
https://aws.amazon.com/pt/blogs/big-data/running-jupyter-notebook-and-jupyterhub-on-
amazon-emr/

Ainda assim,
dominar o ecossistema Hadoop para
tirar insights pode ser custoso para os
Data Scientists...

http://sethcasteel.com
“The jump of the cat”

GPU Accelerated Database
Queries processadas na GPU
Ferramenta de visualização
Pode escalar para bilhões de registros
Ingestão com Sqoop, Spark ou Kafka
Queries com SQL (JDBC Client)

Kinesis Stream
S3
EMR
Kinesis Firehose
Boto3
JDBC Client
EMR
EMR

O que vem funcionando?
Apostamos em Hadoop + GPU
Centralizar a implementação em Python e Pyspark
Visualização dos dados no MapD
Jupyter integrado ao EMR
Stack na Cloud
Data Engineers: Prover arquitetura que facilite o trabalho dos
Scientists
Data Scientists: Comunicar o Big Picture para os Engineers

Quer saber mais?
Trilha NoSQL
MapD: Plataforma de
Analytics sobre GPU
09/11
Trilha Banco de Dados
Introdução ao MapD: Banco
de dados sobre GPU
11/11

Obrigado!
Links e apresentações
https://github.com/vinicius85/speaker
Contatos
vinicius.remigio@gmail.com
linkedin.com/in/viniremigio/
Serasa Experian DataLab
Blog: https://www.serasaexperian.com.br/datalabs-noticias/
Projetos: https://www.serasaexperian.com.br/datalabs/

TDC2017 | POA Trilha BigData - Como integrar as soluções dos times de Data Engineering e Data Science?

Mais conteúdo relacionado

Mais de tdc-globalcode

Último

TDC2017 | POA Trilha BigData - Como integrar as soluções dos times de Data Engineering e Data Science?