Big Data & Analytics - Do MapReduce ao
Dashboard com Hadoop e Pentaho.
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
   
Marcio Junior Vieira
● 15 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador da Ambiente Livre Tecnologia.
● Instrutor de Big Data - Hadoop e Pentaho
   
Ecosistema da Ambiente
Livre
   
Colaborações com Eventos
   
Big Data - Muito se fala...
2005 na apresentação do Papa Bento XVI
 2013 na apresentação do Papa Francisco
   
   
Big Data
● É um novo conceito se consolidando.
● Grande armazenamento de dados e maior
velocidade
   
Big Data
   
Os 4 V's
● Velocidade, Volume, Variedade e Valor
   
O momento é agora
   
Onde usar Big Data ?
● Sistemas de
recomendação
● Redes Sociais
   
Onde usar Big Data ?
● Analise de Risco
(Crédito, Seguros ,
Mercado Financeiro)
● Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
● Energia Fotovoltaica
(Medições , Estudos,
Resultados )
   
Cases
   
Ferramentas
Software Livre
Muitos das melhores e mais 
conhecidas ferramentas de 
dados disponíveis são 
grandes projetos de código 
aberto. O  mais conhecido 
deles é o Hadoop, o que 
está gerando toda uma 
indústria de serviços e 
produtos relacionados. 
   
Hadoop
●
O Apache Hadoop é um projeto de software open-source escrito
em Java. Escalável, confiável e com processamento distribuído.
●
Filesystem Distribuído
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
●
Utiliza-se de Hardware Comum ( Commodity cluster computing )
● Framework para computação distribuída
●
infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
   
Distribuições Hadoop
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- HortonWorks
- MapR
- AWS MapReduce
   
Ecosistema - Hadoop
   
Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
   
HDFS - Replicação
● Dados de entrada é copiado para HDFS é
dividido em blocos e cada blocos de dados é
replicado para várias máquinas
   
MapReduce
● É um modelo de programação desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes.
   
Programação Distribuída
   
MapReduce
Map Reduce
   
Java MapReduce
● package org.myorg;
● 2.
●
3. import java.io.IOException;
● 4. import java.util.*;
● 5.
● 6. import org.apache.hadoop.fs.Path;
● 7. import org.apache.hadoop.conf.*;
●
8. import org.apache.hadoop.io.*;
● 9. import org.apache.hadoop.mapred.*;
● 10. import org.apache.hadoop.util.*;
●
11.
● 12. public class WordCount {
● 13.
● 14. public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {
● 15. private final static IntWritable one = new IntWritable(1);
●
16. private Text word = new Text();
● 17.
● 18. public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws
IOException {
   
Business Analitycs
● É a prática interativa de exploração, metódica de dados de
uma organização com ênfase na análise estatística
● Obter conhecimento e conduzir o planejamento de negócios
● Em contraste, ao BI centra-se em usar um conjunto
consistente de métricas para ambas medida do
planejamento de desempenho passado.
● Intimamente relacionada com a Ciência da Administração
● Pode ser usado como entrada para as decisões humanas
ou tomar decisões totalmente automatizados
   
Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base em
informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade de
dados que gerenciam
● 60% acreditam que precisam melhorar captura e
entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.
   
● Solução de Business Intelligence e Business
Analytics Open Source.
● Community Edition
● Solução completa com ETL, Reporting, Data
Mining, Analise Preditiva, OLAP, Dashbards e
Big Data Analytics.
   
Pentaho
● É uma plataforma abrangente para integração
de dados e Business Analytics.
   
Comunidade Brasileira
   
Comunidade Brasileira
● Maior comunidade do Mundo!
● Lista de Discussão com + de 1700 membros
● Organiza a 5 anos o Pentaho Day Brasil
● Composta por desenvolvedores, usuários , empresas e
acadêmia.
● Utilizado em mais de 185 países.
● +10.000 Produtos desenvolvidos sobre a plataforma Pentaho.
● + 4 milhões de Downloads
● Em 2015 +- 60.000 downloads dia
   
Pentaho Orquestrando
Hadoop
   
Modelo tradicional de Uso
   
Fluxo Big Data
   
Pentaho Data Integration
● Ferramenta Completa de ETL
● “Programação e Fluxo Visual”
● Aproximadamente 350 steps diferentes
   
Pentaho Report Designer
   
Mondrian OLAP + Saiku
Analytics
   
Pentaho Data Mining
● Solução completa para Machine Learning
   
Ctools - Dashboards
● CTools – Tem um conjunto de Ferramentas
para Desenvolvimento de Dashboars
   
CDE ( Ctools )
● Editor de Dashboards
   
CTools Dashboards
   
   
   
Exemplo Big Data em D3.js
   
Data Lake
   
O Profissional
“data scientist”
Novo profissional: Cientista de Dados
   
Competências
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
   
Empresa Usando Hadoop
● Amazon
● Facebook
● Google
● IBM
● Yahoo
● Linkedin
● Joost
● Last.fm
● New York Times
● PowerSet
● Veoh
● Twitter
● Ebay
   
Tendências
   
Tendências
Citizen Data Scientist
   
Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve
adaptação de processos e treinamento relacionado à mudança de
gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e
quantidade de informações, e não tem conhecimento dos benefícios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho
com as informações que já tem.
● Desafios dos Os 5 V !
● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
   
Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores
   
Big Data
● “Big Data hoje é o que era a
Linux em 1991.
● Sabemos que será algo
revolucionário, mas não
sabemos o quanto...”
   
Contatos
● e-mail:
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre
● @marciojvieira
● Blog
blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

  • 1.
    Big Data &Analytics - Do MapReduce ao Dashboard com Hadoop e Pentaho. Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br
  • 2.
        Marcio JuniorVieira ● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014. ● Fundador da Ambiente Livre Tecnologia. ● Instrutor de Big Data - Hadoop e Pentaho
  • 3.
        Ecosistema daAmbiente Livre
  • 4.
  • 5.
        Big Data- Muito se fala...
  • 6.
  • 7.
  • 8.
  • 9.
        Big Data ●É um novo conceito se consolidando. ● Grande armazenamento de dados e maior velocidade
  • 10.
  • 11.
        Os 4V's ● Velocidade, Volume, Variedade e Valor
  • 12.
  • 13.
        Onde usarBig Data ? ● Sistemas de recomendação ● Redes Sociais
  • 14.
        Onde usarBig Data ? ● Analise de Risco (Crédito, Seguros , Mercado Financeiro) ● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento) ● Energia Fotovoltaica (Medições , Estudos, Resultados )
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
        Hadoop ● O ApacheHadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. ● Filesystem Distribuído ● Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) ● Utiliza-se de Hardware Comum ( Commodity cluster computing ) ● Framework para computação distribuída ● infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )
  • 20.
        Distribuições Hadoop ●Open Source Apache ● Comercial Open Source - Cloudera - HortonWorks - MapR - AWS MapReduce
  • 21.
  • 22.
  • 23.
        HDFS -Replicação ● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas
  • 24.
        MapReduce ● Éum modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes.
  • 25.
  • 26.
  • 27.
        Java MapReduce ●package org.myorg; ● 2. ● 3. import java.io.IOException; ● 4. import java.util.*; ● 5. ● 6. import org.apache.hadoop.fs.Path; ● 7. import org.apache.hadoop.conf.*; ● 8. import org.apache.hadoop.io.*; ● 9. import org.apache.hadoop.mapred.*; ● 10. import org.apache.hadoop.util.*; ● 11. ● 12. public class WordCount { ● 13. ● 14. public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> { ● 15. private final static IntWritable one = new IntWritable(1); ● 16. private Text word = new Text(); ● 17. ● 18. public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {
  • 28.
        Business Analitycs ●É a prática interativa de exploração, metódica de dados de uma organização com ênfase na análise estatística ● Obter conhecimento e conduzir o planejamento de negócios ● Em contraste, ao BI centra-se em usar um conjunto consistente de métricas para ambas medida do planejamento de desempenho passado. ● Intimamente relacionada com a Ciência da Administração ● Pode ser usado como entrada para as decisões humanas ou tomar decisões totalmente automatizados
  • 29.
        Tomada deDecisão ● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem ● 56% sentem sobrecarregados com a quantidade de dados que gerenciam ● 60% acreditam que precisam melhorar captura e entender informações rapidamente. ● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade fonte : Survey KPMG.
  • 30.
        ● Soluçãode Business Intelligence e Business Analytics Open Source. ● Community Edition ● Solução completa com ETL, Reporting, Data Mining, Analise Preditiva, OLAP, Dashbards e Big Data Analytics.
  • 31.
        Pentaho ● Éuma plataforma abrangente para integração de dados e Business Analytics.
  • 32.
  • 33.
        Comunidade Brasileira ●Maior comunidade do Mundo! ● Lista de Discussão com + de 1700 membros ● Organiza a 5 anos o Pentaho Day Brasil ● Composta por desenvolvedores, usuários , empresas e acadêmia. ● Utilizado em mais de 185 países. ● +10.000 Produtos desenvolvidos sobre a plataforma Pentaho. ● + 4 milhões de Downloads ● Em 2015 +- 60.000 downloads dia
  • 34.
  • 35.
  • 36.
  • 37.
        Pentaho DataIntegration ● Ferramenta Completa de ETL ● “Programação e Fluxo Visual” ● Aproximadamente 350 steps diferentes
  • 38.
  • 39.
        Mondrian OLAP+ Saiku Analytics
  • 40.
        Pentaho DataMining ● Solução completa para Machine Learning
  • 41.
        Ctools -Dashboards ● CTools – Tem um conjunto de Ferramentas para Desenvolvimento de Dashboars
  • 42.
        CDE (Ctools ) ● Editor de Dashboards
  • 43.
  • 44.
  • 45.
  • 46.
        Exemplo BigData em D3.js
  • 47.
  • 48.
        O Profissional “datascientist” Novo profissional: Cientista de Dados
  • 49.
        Competências ● Fontehttp://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
  • 50.
        Empresa UsandoHadoop ● Amazon ● Facebook ● Google ● IBM ● Yahoo ● Linkedin ● Joost ● Last.fm ● New York Times ● PowerSet ● Veoh ● Twitter ● Ebay
  • 51.
  • 52.
  • 53.
        Principais desafios ●O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013) ● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012) ● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem. ● Desafios dos Os 5 V ! ● Privacidade, A identidade do usuário, mesmo preservada pode ser buscada... ( Marco Civil da Internet )
  • 54.
        Recomendações ● Comececom o problema , e não com os dados ● Compartilhe dados para receber dados ● Suporte gerencial e executivo ● Orçamento suficiente ● Melhores parceiros e fornecedores
  • 55.
        Big Data ●“Big Data hoje é o que era a Linux em 1991. ● Sabemos que será algo revolucionário, mas não sabemos o quanto...”
  • 56.
        Contatos ● e-mail: ●marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ● @marciojvieira ● Blog blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre