Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Criação de Data Warehouse
em Banco de Dados NoSQL
com Cassandra, Spark e
Python
Leandro Mendes Ferreira

Agenda
• Apresentação
• Um pouco de Business Intelligence – Data Warehouse
• Overview do Apache Cassandra
• Overview do Apache Spark
• Construindo Data Warehouse em Banco de Dados NoSQL – Um novo
paradigma
• E o Python em toda essa história ?

• Processamento de Dados - FATEC SO
• MBA em BI – FIAP
• 5 anos trabalhando com BI
• 1.5 anos estudando Python
• Entusiasta de Big Data (Artigo)

Um pouco de Business Intelligence
Data Warehouse
• Meados dos anos 1980
• ETL
• Data Warehouse x Data Mart
• Modelagem Multidimensional
 Desnormalização de dados
 Esquema Estrela
 Fatos e Dimensões
• Motores OLAP
• Banco de Dados Relacionais

PROBLEMA
Banco de dados relacionais
não são para dados analíticos
são para dados transacionais

OverView Apache Cassandra
• SGDB NoSQL de família de colunas
• Chave Valor
• Baseado no Dynamo DB e Big Table
• Clusterizado em Anel
• Twitter, o Reddit e o Netflix

Apache Cassandra – Alguns
probleminhas
Ø Não efetua junções (Join)
Ø Não busca campos foras da chave
Ø Solução é indexação
Ø Não garante concorrência
Ø Eventualmente Persistente

OverView Apache Spark
• Processamento em memória
• Clusterizado

Apache Spark + Apache Cassandra
http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases

Data Warehouse em Banco de Dados NoSQL
Um novo paradigma
• ELT ao invés de ETL
• Data Lake
• Normalização zero
• Processamento clusterizado ao invés de appliance
• Data descovery in memory
• Tabela Estrela ou Tabela Visão

Data Warehouse em Banco de Dados NoSQL
Um novo paradigma
Star Schema Star Table

E o Python em toda essa história?

Obrigado
leandroimail@gmail.com
leandro@biexpresso.com.br

Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Mais conteúdo relacionado

Mais procurados

Destaque

Semelhante a Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python