Criação de Data Warehouse
em Banco de Dados NoSQL
com Cassandra, Spark e
Python
Leandro Mendes Ferreira
Agenda
• Apresentação
• Um pouco de Business Intelligence – Data Warehouse
• Overview do Apache Cassandra
• Overview do Ap...
• Processamento de Dados - FATEC SO
• MBA em BI – FIAP
• 5 anos trabalhando com BI
• 1.5 anos estudando Python
• Entusiast...
Um pouco de Business Intelligence
Data Warehouse
• Meados dos anos 1980
• ETL
• Data Warehouse x Data Mart
• Modelagem Mul...
PROBLEMA
Banco de dados relacionais
não são para dados analíticos
são para dados transacionais
OverView Apache Cassandra
• SGDB NoSQL de família de colunas
• Chave Valor
• Baseado no Dynamo DB e Big Table
• Clusteriza...
Apache Cassandra – Alguns
probleminhas
Ø Não efetua junções (Join)
Ø Não busca campos foras da chave
Ø Solução é indexação...
OverView Apache Spark
• Processamento em memória
• Clusterizado
Apache Spark + Apache Cassandra
http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-useca...
Data Warehouse em Banco de Dados NoSQL
Um novo paradigma
• ELT ao invés de ETL
• Data Lake
• Normalização zero
• Processam...
Data Warehouse em Banco de Dados NoSQL
Um novo paradigma
Star Schema Star Table
E o Python em toda essa história?
Obrigado
leandroimail@gmail.com
leandro@biexpresso.com.br
Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
Próximos SlideShares
Carregando em…5
×

Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

341 visualizações

Publicada em

Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
341
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
5
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

  1. 1. Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python Leandro Mendes Ferreira
  2. 2. Agenda • Apresentação • Um pouco de Business Intelligence – Data Warehouse • Overview do Apache Cassandra • Overview do Apache Spark • Construindo Data Warehouse em Banco de Dados NoSQL – Um novo paradigma • E o Python em toda essa história ?
  3. 3. • Processamento de Dados - FATEC SO • MBA em BI – FIAP • 5 anos trabalhando com BI • 1.5 anos estudando Python • Entusiasta de Big Data (Artigo)
  4. 4. Um pouco de Business Intelligence Data Warehouse • Meados dos anos 1980 • ETL • Data Warehouse x Data Mart • Modelagem Multidimensional  Desnormalização de dados  Esquema Estrela  Fatos e Dimensões • Motores OLAP • Banco de Dados Relacionais
  5. 5. PROBLEMA Banco de dados relacionais não são para dados analíticos são para dados transacionais
  6. 6. OverView Apache Cassandra • SGDB NoSQL de família de colunas • Chave Valor • Baseado no Dynamo DB e Big Table • Clusterizado em Anel • Twitter, o Reddit e o Netflix
  7. 7. Apache Cassandra – Alguns probleminhas Ø Não efetua junções (Join) Ø Não busca campos foras da chave Ø Solução é indexação Ø Não garante concorrência Ø Eventualmente Persistente
  8. 8. OverView Apache Spark • Processamento em memória • Clusterizado
  9. 9. Apache Spark + Apache Cassandra http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases
  10. 10. Data Warehouse em Banco de Dados NoSQL Um novo paradigma • ELT ao invés de ETL • Data Lake • Normalização zero • Processamento clusterizado ao invés de appliance • Data descovery in memory • Tabela Estrela ou Tabela Visão
  11. 11. Data Warehouse em Banco de Dados NoSQL Um novo paradigma Star Schema Star Table
  12. 12. E o Python em toda essa história?
  13. 13. Obrigado leandroimail@gmail.com leandro@biexpresso.com.br

×