Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

367 visualizações

Publicada em

Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
367
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
6
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

  1. 1. Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python Leandro Mendes Ferreira
  2. 2. Agenda • Apresentação • Um pouco de Business Intelligence – Data Warehouse • Overview do Apache Cassandra • Overview do Apache Spark • Construindo Data Warehouse em Banco de Dados NoSQL – Um novo paradigma • E o Python em toda essa história ?
  3. 3. • Processamento de Dados - FATEC SO • MBA em BI – FIAP • 5 anos trabalhando com BI • 1.5 anos estudando Python • Entusiasta de Big Data (Artigo)
  4. 4. Um pouco de Business Intelligence Data Warehouse • Meados dos anos 1980 • ETL • Data Warehouse x Data Mart • Modelagem Multidimensional  Desnormalização de dados  Esquema Estrela  Fatos e Dimensões • Motores OLAP • Banco de Dados Relacionais
  5. 5. PROBLEMA Banco de dados relacionais não são para dados analíticos são para dados transacionais
  6. 6. OverView Apache Cassandra • SGDB NoSQL de família de colunas • Chave Valor • Baseado no Dynamo DB e Big Table • Clusterizado em Anel • Twitter, o Reddit e o Netflix
  7. 7. Apache Cassandra – Alguns probleminhas Ø Não efetua junções (Join) Ø Não busca campos foras da chave Ø Solução é indexação Ø Não garante concorrência Ø Eventualmente Persistente
  8. 8. OverView Apache Spark • Processamento em memória • Clusterizado
  9. 9. Apache Spark + Apache Cassandra http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases
  10. 10. Data Warehouse em Banco de Dados NoSQL Um novo paradigma • ELT ao invés de ETL • Data Lake • Normalização zero • Processamento clusterizado ao invés de appliance • Data descovery in memory • Tabela Estrela ou Tabela Visão
  11. 11. Data Warehouse em Banco de Dados NoSQL Um novo paradigma Star Schema Star Table
  12. 12. E o Python em toda essa história?
  13. 13. Obrigado leandroimail@gmail.com leandro@biexpresso.com.br

×