4. Data Engineers Data Scientists
Arquitetura
Análise
exploratória
Dados
disponíveis
Modelagem
Big Data
Computação
Matemática, Física,
Estatística
5. “O dataframe não cabe na memória da máquina...”
“Os dados estão no HDFS, é só criar um job Spark ou Hive e ler...”
“O processamento foi implementado em Java.
Mas os modelos estão em Python...”
“Temos dificuldades de visualizar os dados...”
“Não consigo baixar trazer 1TB de dados para a minha máquina...”
“Estou perdendo muito tempo tentando processar os dados.
Só queria começar a modelagem...”
17. GPU Accelerated Database
Queries processadas na GPU
Ferramenta de visualização
Pode escalar para bilhões de registros
Ingestão com Sqoop, Spark ou Kafka
Queries com SQL (JDBC Client)
23. O que vem funcionando?
Apostamos em Hadoop + GPU
Centralizar a implementação em Python e Pyspark
Visualização dos dados no MapD
Jupyter integrado ao EMR
Stack na Cloud
Data Engineers: Prover arquitetura que facilite o trabalho dos
Scientists
Data Scientists: Comunicar o Big Picture para os Engineers
24. Quer saber mais?
Trilha NoSQL
MapD: Plataforma de
Analytics sobre GPU
09/11
Trilha Banco de Dados
Introdução ao MapD: Banco
de dados sobre GPU
11/11