Orquestrando HBase,
Cassandra e MongoDB com
o Pentaho Big Data
Analytics.
Marcio Junior Vieira
CEO & Data Scientist, Ambiente Livre
Prof. MBA Universidade Positivo
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Marcio Junior Vieira
Mini-CV
●
18 anos de experiência TI, vivência em desenvolvimento e análise de sistemas de Gestão
empresarial, analise de dados, aprendizado de máquina e BI.
●
Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e
treinamento.
●
Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005)
ambos pela UFPR.
●
Palestrante em: FISL, TDC, LATINOWARE, Campus Party, Pentaho Day, Ticnova.
●
Organizador geral do Pentaho Day 2015, 2017 e apoio nas ed. 2013 e 2014.
●
Data Scientist na Ambiente Livre,
●
Prof. MBA em Big Data e Data Science, MBA em Business Intelligence e MBA em
Inteligência Articifial da Universidade Positivo.
●
Prof. MBA Inteligência Artificial da FIAP.
●
Data Scientist, Instrutor e consultor de Big Data e Data Science com tecnologias abertas.
●
Ajudou a capacitar equipes de Big Data e Data Science na IBM, Tivit, Accenture, Serpro,
NetShoes, Natura, Ministério Publíco, entre outras.
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Nosso Ecossistema de Serviços
Indústria 4.0.
A próxima revolução industrial.
baseado no …
Quarto paradigma da ciência
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
O Quarto Paradigma da Ciência
●
Empírica: É uma maneira de adquirir conhecimento por meio de
observação ou experiência direta e indireta.
●
Investigação: Melhorar as teorias científicas para uma melhor
compreensão ou previsão de fenômenos naturais. Muitas vezes
impulsionado pela curiosidade.
●
Computação: Estuda as técnicas, metodologias e instrumentos
computacionais, que automatiza processos e desenvolve soluções
baseadas no uso do processamento digital.
●
Baseada em dados ( data-driven )
Ciência Sobre os Dados ou Ciência dos Dados
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Data Science
●
Campo interdisciplinar de pesquisa sobre métodos científicos,
processos e sistemas para extrair conhecimentos ou insights
a partir de dados em várias formas, estruturadas ou não
estruturadas, semelhantes ao KDD.
●
Unificar estatísticas, análise de dados e seus métodos
relacionados, a fim de compreender e analisar fenômenos reais
com dados.
●
Emprega técnicas e teorias extraídas das áreas amplas de
matemática, estatística, ciência da informação e ciência da
computação, aprendizagem de máquinas, classificação, análise
de cluster, mineração de dados, bancos de dados e visualização.
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Impacto – IoT (Big Data)
● U$ 4 a 11 trilhões a partir de 2025
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Sensores de Voo
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Otimizando Operações com Video Analytics
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Video Analytics
●
LIDAR - Light Detection And Ranging
●
Camera: Time of flight (TOF)
3D-LiDAR (TOF) Motion Sensor
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Convergência Tecnológica
Data Science
Machine Learning
Deep Learning
Big Data
Data Analytics
Business
Intelligence
Inteligência
Artificial
Databases
Data
MiningBlockchain
RPA
Inteligência
Cognitiva
Chatbots
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Fundação Apache
●
Big Data = Apache = Open Source
●
NoSQL = Apache = Open Source
●
Apache é líder em Big Data e Data Science!
●
Apache é líder em NoSQL!
●
~43 projetos da linha “Big Data” incluindo “Apache Hadoop” e “Spark”
●
~25 projetos de database incluindo “Apache Cassandra” e “Apache
HBase”
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
MongoDB
●
Banco de dados não relacional ( NoSQL ) Orientado a Documentos
●
Baseado am JSON onde os documentos (registros) são representados por
“chave:valor“ BSON
●
Escrito em C++ e Open Source
●
Schema Dinâmico: Permite dados complexos não estruturados
●
Documentos auto-contidos e arrays reduzem a necessidade de join’s
●
Multiplataforma e com Alta Performance
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
HBase
●
Table storage for semi-structured data
●
É um banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua
subjacente armazenamento e suporta os cálculos de estilo lote usando MapReduce
e ponto consultas (leituras aleatórias).
●
Conhecido como Hadoop Database
●
Criado pela Powerset
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Apache Cassandra
Definição
●
Banco de dados distribuído baseado no modelo
BigTable do Google e no Dynamo da Amazon
●
É um tipo de banco NoSQL que originalmente foi criado pelo Facebook e
atualmente é mantido pela Apache e outras empresas
●
Nenhum ponto único de falha
●
Escreve em Tempo Real (real-time) com análise de dados operacional ao
vivo.
●
Modelos de dados, facilmente alterados flexíveis.
●
Horizontalmente Escala ( Near-linear ) entre os servidores de commodities.
●
Replicação de confiança entre data centers distribuídos.
●
Esquema de tabela claramente definido em um ambiente NoSQL..
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Apache Cassandra
Escalabilidade Linear
●
A Capacidade pode ser facilmente aumentada simplesmente por adicionar
novos nós.
●
Exemplo: Se 2 nós pode lidar com 100.000 transações por segundo, 4
nós apoiará 200.000 transações/s e 8 nós vai enfrentar 400.000
transações/s
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Apache Cassandra
Escalabilidade Linear
Alta performance, com escala horizontal quase linear em casos de uso
apropriados
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
NoSQL, NewSQL, Graph...
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Apache Cassandra
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Pentaho - Hitachi Vantara
●
Plataforma abrangente para integração de dados e Business
Analytics. 3 Pilares do Pentaho
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Pentaho Data Integration
●
Processa em Paralelo Cluster Apache Spark
●
Acessar dados diretamente (se necessário sem DW )
●
Permite publicar dados diretamente em Reports, Ad-Hoc Reports
e Dasboards.
●
“Programação e Fluxo Visual” com aproximadamente 350
steps/funções diferentes
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Pentaho Data Integration – Big Data
●
Conexões nativas e camada adaptável de Big
Data e acesso funcionalidades dos populares
big data stores.
●
Capacidade de acessar dados, processá-los,
combiná-los e consumi-los em qualquer lugar.
●
Flexibilidade, isolamento das mudanças no
ecossistema de dados
●
Suporte a distros Hadoop Open Sources e
Comerciais
●
Acessar dados para preparação via SQL no
Spark e orquestrar aplicativos Spark (Scala,
Java e Python)
●
Integração com NoSQL stores
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Pentaho Report Designer
●
Visualização Web ou Embed.
●
Assistente de geração de relatórios
●
Amplo suporte de fonte de dados, incluindo
●
relacionais, OLAP, XML e Pentaho Analysis,
●
arquivos flat, objetos Java e ...
●
Big Data Reports
●
( integra-se com PDI )
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Pentaho Analysis ( Mondrian)
●
Explora através de perfuração e tabulação de dados.
●
Velocidade de resposta as consultas analíticas complexas.
●
Visualiza a informação multi-dimensional,
escolhendo métricas e atributos
específicos para analisar.
●
Totalmente Web, drag-and-drop.
●
Classificação e filtragem avançadas
●
Totais personalizados e definidos pelo
usuário cálculos
●
Gráfico para visualizações
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Dashboards ( Ctools )
●
Oferecer métricas em uma atrativa
interface intuitiva e visual, painéis
proporcionam aos gestores
empresariais a informação crítica de
que necessitam para entender e
melhorar o desempenho
organizacional.
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Dashboards através de ETL
●
Dashboards permiter
●
integração com ETL
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Dashboards através de ETL
https://github.com/d3/d3/wiki/Gallery
http://romsson.github.io/dragit/example/nations.html
https://bl.ocks.org/mbostock/1136236
http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Pentaho Data Mining ( aka Weka )
●
Solução completa para Machine Learning
●
Aprox. 79
Algorítimos
- Classificação
- Associação
- Cluster
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Machine Learning e Data Science
inclusive R, Python, WEKA com Spark
●
Automação e orquestração do fluxo
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Comunidade Pentaho Brasileira
●
+de 2000
Hachers em Analitycs,
Integradores,
Desenvolvedores,
Machine Learning,
Data Science, etc.
Pentaho Day 2017 em Curitiba na Universidade Positivo
Aprox. 300 Pessoas
6 países (Brasil, Paraguai, Argentina, Bélgica, Portugal e EUA)
20 Estados Brasileiros presentes.
40 Palestrantes, 35 Palesras e 12 Minicursos.
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Pentaho e NoSQL - Orquestração
●
O Uso de Pentaho em projetos com
Hadoop, NoSQL e Big Data pode
diminuir em 15x o tempo do Projeto.
Codificação Java ETL com Pentaho
X
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Pentaho e HBase - Orquestração
●
BD colunar e distribuído.
●
Usa o HDFS para armazenamento e
suporta os cálculos usando
MapReduce e pontos de consultas
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Pentaho e HBase - Orquestração
●
Decodificados de chave
●
e dados valor que é
●
emitido pelo TableInputFormat
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Pentaho e MongoDB - Orquestração
●
Acessível via PDI (ETL)
●
Acessível via PRD
●
( Report )
●
Suporte a Mongo 3.0+
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Pentaho e Cassandra - Orquestração
●
NoSQL Database
●
Cluster Database
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Baixe agora....
Fonte Armazenamento Analise
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Modos de Execução do PDI
●
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
AEL – Arquitetura – Visão Geral
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Exemplo
●
Hadoop File Input = Built-in Spark Input (Partitions data)
●
Calculator = Generic Kettle Step (Partitioned)
●
Sort rows = Built-in Spark Sort
●
Hadoop File Output = Built-in Spark Output
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Resumo AEL
Pentaho Data Integration
Hadoop
Map Reduce
E Java
Apache Spark e
Scala,Python,Java
Apache Flink
Java e Scala
Quem
é o próximo?
© 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Baixe agora....
●
http://sourceforge.net/projects/pentaho/
●
Entre em nossa comunidade!
●
pentahobr@yahoogrupos.com.br
●
@Pentaho no Telegram
Obrigado
Marcio Junior Vieira
marcio@ambientelivre.com.br
@marviojvieira @ambientelivre
https://www.linkedin.com/in/mvieira1/
Slide da Palestra será publicada em:
Linkedin….: https://www.linkedin.com/in/mvieira1/
SlideShare: http://slideshare.net/ambientelivre/
Blog……...: http://blogs.ambientelivre.com.br/marcio/

Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.

  • 1.
    Orquestrando HBase, Cassandra eMongoDB com o Pentaho Big Data Analytics. Marcio Junior Vieira CEO & Data Scientist, Ambiente Livre Prof. MBA Universidade Positivo
  • 2.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Marcio Junior Vieira Mini-CV ● 18 anos de experiência TI, vivência em desenvolvimento e análise de sistemas de Gestão empresarial, analise de dados, aprendizado de máquina e BI. ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em: FISL, TDC, LATINOWARE, Campus Party, Pentaho Day, Ticnova. ● Organizador geral do Pentaho Day 2015, 2017 e apoio nas ed. 2013 e 2014. ● Data Scientist na Ambiente Livre, ● Prof. MBA em Big Data e Data Science, MBA em Business Intelligence e MBA em Inteligência Articifial da Universidade Positivo. ● Prof. MBA Inteligência Artificial da FIAP. ● Data Scientist, Instrutor e consultor de Big Data e Data Science com tecnologias abertas. ● Ajudou a capacitar equipes de Big Data e Data Science na IBM, Tivit, Accenture, Serpro, NetShoes, Natura, Ministério Publíco, entre outras.
  • 3.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Nosso Ecossistema de Serviços
  • 4.
    Indústria 4.0. A próximarevolução industrial. baseado no … Quarto paradigma da ciência
  • 5.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 O Quarto Paradigma da Ciência ● Empírica: É uma maneira de adquirir conhecimento por meio de observação ou experiência direta e indireta. ● Investigação: Melhorar as teorias científicas para uma melhor compreensão ou previsão de fenômenos naturais. Muitas vezes impulsionado pela curiosidade. ● Computação: Estuda as técnicas, metodologias e instrumentos computacionais, que automatiza processos e desenvolve soluções baseadas no uso do processamento digital. ● Baseada em dados ( data-driven ) Ciência Sobre os Dados ou Ciência dos Dados
  • 6.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Data Science ● Campo interdisciplinar de pesquisa sobre métodos científicos, processos e sistemas para extrair conhecimentos ou insights a partir de dados em várias formas, estruturadas ou não estruturadas, semelhantes ao KDD. ● Unificar estatísticas, análise de dados e seus métodos relacionados, a fim de compreender e analisar fenômenos reais com dados. ● Emprega técnicas e teorias extraídas das áreas amplas de matemática, estatística, ciência da informação e ciência da computação, aprendizagem de máquinas, classificação, análise de cluster, mineração de dados, bancos de dados e visualização.
  • 7.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Impacto – IoT (Big Data) ● U$ 4 a 11 trilhões a partir de 2025
  • 8.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Sensores de Voo
  • 9.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Otimizando Operações com Video Analytics
  • 10.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Video Analytics ● LIDAR - Light Detection And Ranging ● Camera: Time of flight (TOF) 3D-LiDAR (TOF) Motion Sensor
  • 11.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Convergência Tecnológica Data Science Machine Learning Deep Learning Big Data Data Analytics Business Intelligence Inteligência Artificial Databases Data MiningBlockchain RPA Inteligência Cognitiva Chatbots
  • 12.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Fundação Apache ● Big Data = Apache = Open Source ● NoSQL = Apache = Open Source ● Apache é líder em Big Data e Data Science! ● Apache é líder em NoSQL! ● ~43 projetos da linha “Big Data” incluindo “Apache Hadoop” e “Spark” ● ~25 projetos de database incluindo “Apache Cassandra” e “Apache HBase”
  • 13.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 MongoDB ● Banco de dados não relacional ( NoSQL ) Orientado a Documentos ● Baseado am JSON onde os documentos (registros) são representados por “chave:valor“ BSON ● Escrito em C++ e Open Source ● Schema Dinâmico: Permite dados complexos não estruturados ● Documentos auto-contidos e arrays reduzem a necessidade de join’s ● Multiplataforma e com Alta Performance
  • 14.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 HBase ● Table storage for semi-structured data ● É um banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias). ● Conhecido como Hadoop Database ● Criado pela Powerset
  • 15.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Apache Cassandra Definição ● Banco de dados distribuído baseado no modelo BigTable do Google e no Dynamo da Amazon ● É um tipo de banco NoSQL que originalmente foi criado pelo Facebook e atualmente é mantido pela Apache e outras empresas ● Nenhum ponto único de falha ● Escreve em Tempo Real (real-time) com análise de dados operacional ao vivo. ● Modelos de dados, facilmente alterados flexíveis. ● Horizontalmente Escala ( Near-linear ) entre os servidores de commodities. ● Replicação de confiança entre data centers distribuídos. ● Esquema de tabela claramente definido em um ambiente NoSQL..
  • 16.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Apache Cassandra Escalabilidade Linear ● A Capacidade pode ser facilmente aumentada simplesmente por adicionar novos nós. ● Exemplo: Se 2 nós pode lidar com 100.000 transações por segundo, 4 nós apoiará 200.000 transações/s e 8 nós vai enfrentar 400.000 transações/s
  • 17.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Apache Cassandra Escalabilidade Linear Alta performance, com escala horizontal quase linear em casos de uso apropriados
  • 18.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 NoSQL, NewSQL, Graph...
  • 19.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Apache Cassandra
  • 20.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Pentaho - Hitachi Vantara ● Plataforma abrangente para integração de dados e Business Analytics. 3 Pilares do Pentaho
  • 21.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Pentaho Data Integration ● Processa em Paralelo Cluster Apache Spark ● Acessar dados diretamente (se necessário sem DW ) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dasboards. ● “Programação e Fluxo Visual” com aproximadamente 350 steps/funções diferentes
  • 22.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Pentaho Data Integration – Big Data ● Conexões nativas e camada adaptável de Big Data e acesso funcionalidades dos populares big data stores. ● Capacidade de acessar dados, processá-los, combiná-los e consumi-los em qualquer lugar. ● Flexibilidade, isolamento das mudanças no ecossistema de dados ● Suporte a distros Hadoop Open Sources e Comerciais ● Acessar dados para preparação via SQL no Spark e orquestrar aplicativos Spark (Scala, Java e Python) ● Integração com NoSQL stores
  • 23.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Pentaho Report Designer ● Visualização Web ou Embed. ● Assistente de geração de relatórios ● Amplo suporte de fonte de dados, incluindo ● relacionais, OLAP, XML e Pentaho Analysis, ● arquivos flat, objetos Java e ... ● Big Data Reports ● ( integra-se com PDI )
  • 24.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Pentaho Analysis ( Mondrian) ● Explora através de perfuração e tabulação de dados. ● Velocidade de resposta as consultas analíticas complexas. ● Visualiza a informação multi-dimensional, escolhendo métricas e atributos específicos para analisar. ● Totalmente Web, drag-and-drop. ● Classificação e filtragem avançadas ● Totais personalizados e definidos pelo usuário cálculos ● Gráfico para visualizações
  • 25.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Dashboards ( Ctools ) ● Oferecer métricas em uma atrativa interface intuitiva e visual, painéis proporcionam aos gestores empresariais a informação crítica de que necessitam para entender e melhorar o desempenho organizacional.
  • 26.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Dashboards através de ETL ● Dashboards permiter ● integração com ETL
  • 27.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Dashboards através de ETL https://github.com/d3/d3/wiki/Gallery http://romsson.github.io/dragit/example/nations.html https://bl.ocks.org/mbostock/1136236 http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
  • 28.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Pentaho Data Mining ( aka Weka ) ● Solução completa para Machine Learning ● Aprox. 79 Algorítimos - Classificação - Associação - Cluster
  • 29.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Machine Learning e Data Science inclusive R, Python, WEKA com Spark ● Automação e orquestração do fluxo
  • 30.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Comunidade Pentaho Brasileira ● +de 2000 Hachers em Analitycs, Integradores, Desenvolvedores, Machine Learning, Data Science, etc. Pentaho Day 2017 em Curitiba na Universidade Positivo Aprox. 300 Pessoas 6 países (Brasil, Paraguai, Argentina, Bélgica, Portugal e EUA) 20 Estados Brasileiros presentes. 40 Palestrantes, 35 Palesras e 12 Minicursos.
  • 31.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Pentaho e NoSQL - Orquestração ● O Uso de Pentaho em projetos com Hadoop, NoSQL e Big Data pode diminuir em 15x o tempo do Projeto. Codificação Java ETL com Pentaho X
  • 32.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Pentaho e HBase - Orquestração ● BD colunar e distribuído. ● Usa o HDFS para armazenamento e suporta os cálculos usando MapReduce e pontos de consultas
  • 33.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Pentaho e HBase - Orquestração ● Decodificados de chave ● e dados valor que é ● emitido pelo TableInputFormat
  • 34.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Pentaho e MongoDB - Orquestração ● Acessível via PDI (ETL) ● Acessível via PRD ● ( Report ) ● Suporte a Mongo 3.0+
  • 35.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Pentaho e Cassandra - Orquestração ● NoSQL Database ● Cluster Database
  • 36.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Baixe agora.... Fonte Armazenamento Analise
  • 37.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Modos de Execução do PDI ●
  • 38.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 AEL – Arquitetura – Visão Geral
  • 39.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Exemplo ● Hadoop File Input = Built-in Spark Input (Partitions data) ● Calculator = Generic Kettle Step (Partitioned) ● Sort rows = Built-in Spark Sort ● Hadoop File Output = Built-in Spark Output
  • 40.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Resumo AEL Pentaho Data Integration Hadoop Map Reduce E Java Apache Spark e Scala,Python,Java Apache Flink Java e Scala Quem é o próximo?
  • 41.
    © 2018, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Baixe agora.... ● http://sourceforge.net/projects/pentaho/ ● Entre em nossa comunidade! ● pentahobr@yahoogrupos.com.br ● @Pentaho no Telegram
  • 42.
    Obrigado Marcio Junior Vieira marcio@ambientelivre.com.br @marviojvieira@ambientelivre https://www.linkedin.com/in/mvieira1/ Slide da Palestra será publicada em: Linkedin….: https://www.linkedin.com/in/mvieira1/ SlideShare: http://slideshare.net/ambientelivre/ Blog……...: http://blogs.ambientelivre.com.br/marcio/