O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio

Confira estes a seguir

1 de 42 Anúncio

Mais Conteúdo rRelacionado

Diapositivos para si (20)

Semelhante a Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. (20)

Anúncio

Mais de Ambiente Livre (12)

Mais recentes (20)

Anúncio

Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.

  1. 1. Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Marcio Junior Vieira CEO & Data Scientist, Ambiente Livre Prof. MBA Universidade Positivo
  2. 2. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Marcio Junior Vieira Mini-CV ● 18 anos de experiência TI, vivência em desenvolvimento e análise de sistemas de Gestão empresarial, analise de dados, aprendizado de máquina e BI. ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em: FISL, TDC, LATINOWARE, Campus Party, Pentaho Day, Ticnova. ● Organizador geral do Pentaho Day 2015, 2017 e apoio nas ed. 2013 e 2014. ● Data Scientist na Ambiente Livre, ● Prof. MBA em Big Data e Data Science, MBA em Business Intelligence e MBA em Inteligência Articifial da Universidade Positivo. ● Prof. MBA Inteligência Artificial da FIAP. ● Data Scientist, Instrutor e consultor de Big Data e Data Science com tecnologias abertas. ● Ajudou a capacitar equipes de Big Data e Data Science na IBM, Tivit, Accenture, Serpro, NetShoes, Natura, Ministério Publíco, entre outras.
  3. 3. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Nosso Ecossistema de Serviços
  4. 4. Indústria 4.0. A próxima revolução industrial. baseado no … Quarto paradigma da ciência
  5. 5. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 O Quarto Paradigma da Ciência ● Empírica: É uma maneira de adquirir conhecimento por meio de observação ou experiência direta e indireta. ● Investigação: Melhorar as teorias científicas para uma melhor compreensão ou previsão de fenômenos naturais. Muitas vezes impulsionado pela curiosidade. ● Computação: Estuda as técnicas, metodologias e instrumentos computacionais, que automatiza processos e desenvolve soluções baseadas no uso do processamento digital. ● Baseada em dados ( data-driven ) Ciência Sobre os Dados ou Ciência dos Dados
  6. 6. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Data Science ● Campo interdisciplinar de pesquisa sobre métodos científicos, processos e sistemas para extrair conhecimentos ou insights a partir de dados em várias formas, estruturadas ou não estruturadas, semelhantes ao KDD. ● Unificar estatísticas, análise de dados e seus métodos relacionados, a fim de compreender e analisar fenômenos reais com dados. ● Emprega técnicas e teorias extraídas das áreas amplas de matemática, estatística, ciência da informação e ciência da computação, aprendizagem de máquinas, classificação, análise de cluster, mineração de dados, bancos de dados e visualização.
  7. 7. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Impacto – IoT (Big Data) ● U$ 4 a 11 trilhões a partir de 2025
  8. 8. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Sensores de Voo
  9. 9. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Otimizando Operações com Video Analytics
  10. 10. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Video Analytics ● LIDAR - Light Detection And Ranging ● Camera: Time of flight (TOF) 3D-LiDAR (TOF) Motion Sensor
  11. 11. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Convergência Tecnológica Data Science Machine Learning Deep Learning Big Data Data Analytics Business Intelligence Inteligência Artificial Databases Data MiningBlockchain RPA Inteligência Cognitiva Chatbots
  12. 12. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Fundação Apache ● Big Data = Apache = Open Source ● NoSQL = Apache = Open Source ● Apache é líder em Big Data e Data Science! ● Apache é líder em NoSQL! ● ~43 projetos da linha “Big Data” incluindo “Apache Hadoop” e “Spark” ● ~25 projetos de database incluindo “Apache Cassandra” e “Apache HBase”
  13. 13. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 MongoDB ● Banco de dados não relacional ( NoSQL ) Orientado a Documentos ● Baseado am JSON onde os documentos (registros) são representados por “chave:valor“ BSON ● Escrito em C++ e Open Source ● Schema Dinâmico: Permite dados complexos não estruturados ● Documentos auto-contidos e arrays reduzem a necessidade de join’s ● Multiplataforma e com Alta Performance
  14. 14. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 HBase ● Table storage for semi-structured data ● É um banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias). ● Conhecido como Hadoop Database ● Criado pela Powerset
  15. 15. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Apache Cassandra Definição ● Banco de dados distribuído baseado no modelo BigTable do Google e no Dynamo da Amazon ● É um tipo de banco NoSQL que originalmente foi criado pelo Facebook e atualmente é mantido pela Apache e outras empresas ● Nenhum ponto único de falha ● Escreve em Tempo Real (real-time) com análise de dados operacional ao vivo. ● Modelos de dados, facilmente alterados flexíveis. ● Horizontalmente Escala ( Near-linear ) entre os servidores de commodities. ● Replicação de confiança entre data centers distribuídos. ● Esquema de tabela claramente definido em um ambiente NoSQL..
  16. 16. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Apache Cassandra Escalabilidade Linear ● A Capacidade pode ser facilmente aumentada simplesmente por adicionar novos nós. ● Exemplo: Se 2 nós pode lidar com 100.000 transações por segundo, 4 nós apoiará 200.000 transações/s e 8 nós vai enfrentar 400.000 transações/s
  17. 17. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Apache Cassandra Escalabilidade Linear Alta performance, com escala horizontal quase linear em casos de uso apropriados
  18. 18. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 NoSQL, NewSQL, Graph...
  19. 19. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Apache Cassandra
  20. 20. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Pentaho - Hitachi Vantara ● Plataforma abrangente para integração de dados e Business Analytics. 3 Pilares do Pentaho
  21. 21. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Pentaho Data Integration ● Processa em Paralelo Cluster Apache Spark ● Acessar dados diretamente (se necessário sem DW ) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dasboards. ● “Programação e Fluxo Visual” com aproximadamente 350 steps/funções diferentes
  22. 22. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Pentaho Data Integration – Big Data ● Conexões nativas e camada adaptável de Big Data e acesso funcionalidades dos populares big data stores. ● Capacidade de acessar dados, processá-los, combiná-los e consumi-los em qualquer lugar. ● Flexibilidade, isolamento das mudanças no ecossistema de dados ● Suporte a distros Hadoop Open Sources e Comerciais ● Acessar dados para preparação via SQL no Spark e orquestrar aplicativos Spark (Scala, Java e Python) ● Integração com NoSQL stores
  23. 23. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Pentaho Report Designer ● Visualização Web ou Embed. ● Assistente de geração de relatórios ● Amplo suporte de fonte de dados, incluindo ● relacionais, OLAP, XML e Pentaho Analysis, ● arquivos flat, objetos Java e ... ● Big Data Reports ● ( integra-se com PDI )
  24. 24. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Pentaho Analysis ( Mondrian) ● Explora através de perfuração e tabulação de dados. ● Velocidade de resposta as consultas analíticas complexas. ● Visualiza a informação multi-dimensional, escolhendo métricas e atributos específicos para analisar. ● Totalmente Web, drag-and-drop. ● Classificação e filtragem avançadas ● Totais personalizados e definidos pelo usuário cálculos ● Gráfico para visualizações
  25. 25. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Dashboards ( Ctools ) ● Oferecer métricas em uma atrativa interface intuitiva e visual, painéis proporcionam aos gestores empresariais a informação crítica de que necessitam para entender e melhorar o desempenho organizacional.
  26. 26. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Dashboards através de ETL ● Dashboards permiter ● integração com ETL
  27. 27. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Dashboards através de ETL https://github.com/d3/d3/wiki/Gallery http://romsson.github.io/dragit/example/nations.html https://bl.ocks.org/mbostock/1136236 http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
  28. 28. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Pentaho Data Mining ( aka Weka ) ● Solução completa para Machine Learning ● Aprox. 79 Algorítimos - Classificação - Associação - Cluster
  29. 29. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Machine Learning e Data Science inclusive R, Python, WEKA com Spark ● Automação e orquestração do fluxo
  30. 30. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Comunidade Pentaho Brasileira ● +de 2000 Hachers em Analitycs, Integradores, Desenvolvedores, Machine Learning, Data Science, etc. Pentaho Day 2017 em Curitiba na Universidade Positivo Aprox. 300 Pessoas 6 países (Brasil, Paraguai, Argentina, Bélgica, Portugal e EUA) 20 Estados Brasileiros presentes. 40 Palestrantes, 35 Palesras e 12 Minicursos.
  31. 31. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Pentaho e NoSQL - Orquestração ● O Uso de Pentaho em projetos com Hadoop, NoSQL e Big Data pode diminuir em 15x o tempo do Projeto. Codificação Java ETL com Pentaho X
  32. 32. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Pentaho e HBase - Orquestração ● BD colunar e distribuído. ● Usa o HDFS para armazenamento e suporta os cálculos usando MapReduce e pontos de consultas
  33. 33. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Pentaho e HBase - Orquestração ● Decodificados de chave ● e dados valor que é ● emitido pelo TableInputFormat
  34. 34. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Pentaho e MongoDB - Orquestração ● Acessível via PDI (ETL) ● Acessível via PRD ● ( Report ) ● Suporte a Mongo 3.0+
  35. 35. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Pentaho e Cassandra - Orquestração ● NoSQL Database ● Cluster Database
  36. 36. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Baixe agora.... Fonte Armazenamento Analise
  37. 37. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Modos de Execução do PDI ●
  38. 38. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 AEL – Arquitetura – Visão Geral
  39. 39. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Exemplo ● Hadoop File Input = Built-in Spark Input (Partitions data) ● Calculator = Generic Kettle Step (Partitioned) ● Sort rows = Built-in Spark Sort ● Hadoop File Output = Built-in Spark Output
  40. 40. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Resumo AEL Pentaho Data Integration Hadoop Map Reduce E Java Apache Spark e Scala,Python,Java Apache Flink Java e Scala Quem é o próximo?
  41. 41. © 2018, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Baixe agora.... ● http://sourceforge.net/projects/pentaho/ ● Entre em nossa comunidade! ● pentahobr@yahoogrupos.com.br ● @Pentaho no Telegram
  42. 42. Obrigado Marcio Junior Vieira marcio@ambientelivre.com.br @marviojvieira @ambientelivre https://www.linkedin.com/in/mvieira1/ Slide da Palestra será publicada em: Linkedin….: https://www.linkedin.com/in/mvieira1/ SlideShare: http://slideshare.net/ambientelivre/ Blog……...: http://blogs.ambientelivre.com.br/marcio/

×