O documento discute como a Pentaho Big Data Analytics pode orquestrar Hadoop, Cassandra e MongoDB. Apresenta as principais características e usos de Hadoop, Cassandra, MongoDB e da plataforma Pentaho para integrar e analisar dados em ambientes de Big Data.
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
Orquestrando Hadoop, Cassandra e MongoDB com Pentaho
1. Orquestrando Hadoop, Cassandra e MongoDB
com o Pentaho Big Data Analytics.
Trilha: Big Data
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
2. Marcio Junior Vieira
● 16 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Free Software e Open Source desde 2000 com serviços
de consultoria e treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em Congressos relacionados a FLOSS tais como: CONISLI,
SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day,
TDC São Paulo.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● CEO da Ambiente Livre.
● Data Scientist, Instrutor e Consultor de Big Data
3. Nosso Ecosistema
● Fundada em 2004 com atuação em
consultoria para o mercado de gestão
empresarial com Free Software/Open Source.
● 14 soluções para geração de negócios.
4. Impacto – IoT (Big Data)
● U$ 4 a 11 trilhões a partir de 2025
6. Fundação Apache
● Big Data = Apache = Open Source
● Apache é líder e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark” e “Apache Cassandra”
7. Hadoop
● O Apache Hadoop é um projeto de software open-source
escrito em Java. Escalável, confiável e com processamento
distribuído.
● Filesystem Distribuído.
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
● Utiliza-se de Hardware Comum (Commodity cluster computing )
● Framework para computação distribuída
● infraestrutura confiável capaz de lidar com falhas (hardware,
software, rede)
9. MapReduce
Programação Distribuída
● modelo de programação para processar
grandes volumes de dados em paralelo,
dividindo o trabalho em um conjunto de
tarefas independentes.
10. MongoDB
● Banco de dados não relacional ( NoSQL ) Orientado a
Documentos
● Baseado am JSON onde os documentos (registros) são
representados por “chave:valor“ BSON
● Escrito em C++ e Open Source
● Schema Dinâmico: Permite dados complexos não
estruturados
● Documentos auto-contidos e arrays reduzem a
necessidade de join’s
● Multiplataforma e com Alta Performance
11. MongoDB Inc
● 10 Milhões de Downloads.
● Mais de 1.000 parceiros.
● Milhares e clientes!
12. Apache Cassandra
● É um tipo de banco NoSQL que originalmente
foi criado pelo Facebook e atualmente é
mantido pela Apache e outras empresas.
● Banco de dados distribuído baseado no
modelo BigTable do Google e no Dynamo da
Amazon
13. Características
● Nenhum ponto único de falha
● Escreve em Tempo Real ( real-time) com análise de
dados operacional ao vivo
● Modelos de dados, facilmente alterados flexíveis
● Horizontalmente Escala ( Near-linear ) entre os
servidores de commodities
● Replicação de confiança entre data centers distribuídos
● Esquema de tabela claramente definido em um
ambiente NoSQL
14. Cassandra
Escalabilidade Linear
● A Capacidade pode ser facilmente aumentada
simplesmente por adicionar novos nós.
● Exemplo: Se 2 nós pode lidar com 100.000
transações por segundo, 4 nós apoiará
200.000 transações/s e 8 nós vai enfrentar
400.000 transações/s
16. Modelagem de Dados
Cassandra Query Language (CQL)
● Fornece uma, linha-coluna, a abordagem SQL-like
familiarizado: CREATE, ALTER, DROP, SELECT,
INSERT, UPDATE, DELETE
● Substituiu o complexo
Thrift API (utilizado
em versões anteriores)
● Fornece definições de
esquema claros num contexto
flexível esquema (NoSQL)
18. Pentaho
● Plataforma completa para Business
Intelligence e Business Analytics e Big Data
Analytics.
● ETL, Reporting,
Data Mining,
OLAP e Dashbards.
19. 3 Pilares do Pentaho
● Plataforma abrangente para integração de
dados e Business Analytics.
21. Pentaho Data Integration
● Ferramenta completa de ETL
● “Programação e Fluxo Visual”
● Aproximadamente 350 steps diferentes
22. Pentaho Report Designer
● Web
● Assistente de relatório
● Amplo suporte de fonte de dados, incluindo
relacionais, OLAP, XMLe Pentaho Analysis,
arquivos flat, objetos Java e ...
● Big Data Reports ( integra-se com PDI )
32. Comunidade Brasileira
● Maior comunidade do Mundo!
● Lista de Discussão com + de 1900 membros
● Organiza a 5 anos o Pentaho Day Brasil
● Composta por desenvolvedores, usuários , empresas e
acadêmia.
● Utilizado em mais de 185 países.
● +10.000 Produtos desenvolvidos sobre a plataforma Pentaho.
● + 4 milhões de Downloads
● Em 2015 +- 60.000 downloads dia
41. Pentaho e Pig
● Linguagem de fluxo de dados e ambiente
de execução para explorar grandes
conjuntos de dados.
● Executado no HDFS e
grupos MapReduce.
42. Pentaho e Hbase
● BD colunar e distribuído.
● Usa o HDFS para armazenamento
e suporta os cálculos
usando MapReduce
e pontos de consultas
43. Pentaho e HBase
● Decodificados de chave
e dados valor que é
emitido pelo TableInputFormat
44. Pentaho e Hive
● interface SQL-like para dados estruturados
armazenados no HDFS
● facilita a consulta e gerenciamento
● de grandes conjuntos de dados que
residem em armazenamento
distribuído.
● Hive fornece um mecanismo para projetar a
estrutura para esses dados e consultar os dados
usando uma linguagem SQL, chamado HiveQL
45. Mongo DB
● Acessível via PDI (ETL)
● Acessível via PRD
( Report )
● Suporte a Mongo 3.0
47. Pentaho e CounchDB
● Foca na facilidade de uso
e na filosofia de ser "um banco de dados que
abrange a Web"
● NoSQL, usa JSON para armazenar os dados,