Criação de Data Warehouse
em Banco de Dados NoSQL
com Cassandra, Spark e
Python
Leandro Mendes Ferreira
Agenda
• Apresentação
• Um pouco de Business Intelligence – Data Warehouse
• Overview do Apache Cassandra
• Overview do Apache Spark
• Construindo Data Warehouse em Banco de Dados NoSQL – Um novo
paradigma
• E o Python em toda essa história ?
• Processamento de Dados - FATEC SO
• MBA em BI – FIAP
• 5 anos trabalhando com BI
• 1.5 anos estudando Python
• Entusiasta de Big Data (Artigo)
Um pouco de Business Intelligence
Data Warehouse
• Meados dos anos 1980
• ETL
• Data Warehouse x Data Mart
• Modelagem Multidimensional
 Desnormalização de dados
 Esquema Estrela
 Fatos e Dimensões
• Motores OLAP
• Banco de Dados Relacionais
PROBLEMA
Banco de dados relacionais
não são para dados analíticos
são para dados transacionais
OverView Apache Cassandra
• SGDB NoSQL de família de colunas
• Chave Valor
• Baseado no Dynamo DB e Big Table
• Clusterizado em Anel
• Twitter, o Reddit e o Netflix
Apache Cassandra – Alguns
probleminhas
Ø Não efetua junções (Join)
Ø Não busca campos foras da chave
Ø Solução é indexação
Ø Não garante concorrência
Ø Eventualmente Persistente
OverView Apache Spark
• Processamento em memória
• Clusterizado
Apache Spark + Apache Cassandra
http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases
Data Warehouse em Banco de Dados NoSQL
Um novo paradigma
• ELT ao invés de ETL
• Data Lake
• Normalização zero
• Processamento clusterizado ao invés de appliance
• Data descovery in memory
• Tabela Estrela ou Tabela Visão
Data Warehouse em Banco de Dados NoSQL
Um novo paradigma
Star Schema Star Table
E o Python em toda essa história?
Obrigado
leandroimail@gmail.com
leandro@biexpresso.com.br

Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

  • 1.
    Criação de DataWarehouse em Banco de Dados NoSQL com Cassandra, Spark e Python Leandro Mendes Ferreira
  • 2.
    Agenda • Apresentação • Umpouco de Business Intelligence – Data Warehouse • Overview do Apache Cassandra • Overview do Apache Spark • Construindo Data Warehouse em Banco de Dados NoSQL – Um novo paradigma • E o Python em toda essa história ?
  • 3.
    • Processamento deDados - FATEC SO • MBA em BI – FIAP • 5 anos trabalhando com BI • 1.5 anos estudando Python • Entusiasta de Big Data (Artigo)
  • 4.
    Um pouco deBusiness Intelligence Data Warehouse • Meados dos anos 1980 • ETL • Data Warehouse x Data Mart • Modelagem Multidimensional  Desnormalização de dados  Esquema Estrela  Fatos e Dimensões • Motores OLAP • Banco de Dados Relacionais
  • 6.
    PROBLEMA Banco de dadosrelacionais não são para dados analíticos são para dados transacionais
  • 7.
    OverView Apache Cassandra •SGDB NoSQL de família de colunas • Chave Valor • Baseado no Dynamo DB e Big Table • Clusterizado em Anel • Twitter, o Reddit e o Netflix
  • 9.
    Apache Cassandra –Alguns probleminhas Ø Não efetua junções (Join) Ø Não busca campos foras da chave Ø Solução é indexação Ø Não garante concorrência Ø Eventualmente Persistente
  • 10.
    OverView Apache Spark •Processamento em memória • Clusterizado
  • 11.
    Apache Spark +Apache Cassandra http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases
  • 12.
    Data Warehouse emBanco de Dados NoSQL Um novo paradigma • ELT ao invés de ETL • Data Lake • Normalização zero • Processamento clusterizado ao invés de appliance • Data descovery in memory • Tabela Estrela ou Tabela Visão
  • 13.
    Data Warehouse emBanco de Dados NoSQL Um novo paradigma Star Schema Star Table
  • 15.
    E o Pythonem toda essa história?
  • 17.