O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

TDC2017 | POA Trilha BigData - Como integrar as soluções dos times de Data Engineering e Data Science?

118 visualizações

Publicada em

Trilha BigData - Como integrar as soluções dos times de Data Engineering e Data Science?

Publicada em: Educação
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

TDC2017 | POA Trilha BigData - Como integrar as soluções dos times de Data Engineering e Data Science?

  1. 1. Como integrar times de Data Engineers e Data Scientists? Tiago Vinícius (Vini) vinicius.remigio@gmail.com linkedin.com/in/viniremigio/
  2. 2. DataLab
  3. 3. Data Engineers Data Scientists Arquitetura Análise exploratória Dados disponíveis Modelagem Big Data Computação Matemática, Física, Estatística
  4. 4. “O dataframe não cabe na memória da máquina...” “Os dados estão no HDFS, é só criar um job Spark ou Hive e ler...” “O processamento foi implementado em Java. Mas os modelos estão em Python...” “Temos dificuldades de visualizar os dados...” “Não consigo baixar trazer 1TB de dados para a minha máquina...” “Estou perdendo muito tempo tentando processar os dados. Só queria começar a modelagem...”
  5. 5. https://diobrando.deviantart.com/art/Sub-Zero-and-Scorpion-Friendship-475106351 Como Engineers e Scientists podem trabalhar juntos? • Tecnologias • Arquitetura
  6. 6. Tecnologias
  7. 7. Desenvolvimento centralizado em Python Manipulação dos dados com Jupyter Gerenciamento de environments com Anaconda
  8. 8. + Processamento distribuído com Pyspark YARN Cluster Cloud (mais fully-managed possível) Amazon EMR
  9. 9. https://developerzen.com/best-practices-writing- production-grade-pyspark-jobs-cb688ac4d20f
  10. 10. Amazon EMR + Jupyter BootstrapActions=[ { 'Name': 'Jupyter Notebook', 'ScriptBootstrapAction': { 'Path': 's3://aws-bigdata-blog/artifacts/aws-blog-emr-jupyter/install- jupyter-emr5.sh', 'Args': [ '--s3fs', '--python3', '--python-packages', 'pandas matplotlib findspark boto3', '--port', '8880', '--password' ,'jupyter', '--cached-install', '--notebook-dir', 's3://mybucket/notebooks/'] } }, ], https://aws.amazon.com/pt/blogs/big-data/running-jupyter-notebook-and-jupyterhub-on- amazon-emr/
  11. 11. Ainda assim, dominar o ecossistema Hadoop para tirar insights pode ser custoso para os Data Scientists...
  12. 12. http://sethcasteel.com “The jump of the cat”
  13. 13. GPUs!!!
  14. 14. Deep Learning frameworks
  15. 15. GPU Accelerated Database Queries processadas na GPU Ferramenta de visualização Pode escalar para bilhões de registros Ingestão com Sqoop, Spark ou Kafka Queries com SQL (JDBC Client)
  16. 16. Demo: Taxis Nova York
  17. 17. https://www.mapd.com/demos/
  18. 18. Exemplo de Arquitetura
  19. 19. Kinesis Stream S3 EMR Kinesis Firehose Boto3 JDBC Client EMR EMR
  20. 20. Para finalizar...
  21. 21. O que vem funcionando? Apostamos em Hadoop + GPU Centralizar a implementação em Python e Pyspark Visualização dos dados no MapD Jupyter integrado ao EMR Stack na Cloud Data Engineers: Prover arquitetura que facilite o trabalho dos Scientists Data Scientists: Comunicar o Big Picture para os Engineers
  22. 22. Quer saber mais? Trilha NoSQL MapD: Plataforma de Analytics sobre GPU 09/11 Trilha Banco de Dados Introdução ao MapD: Banco de dados sobre GPU 11/11
  23. 23. Obrigado! Links e apresentações https://github.com/vinicius85/speaker Contatos vinicius.remigio@gmail.com linkedin.com/in/viniremigio/ Serasa Experian DataLab Blog: https://www.serasaexperian.com.br/datalabs-noticias/ Projetos: https://www.serasaexperian.com.br/datalabs/

×