O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Próximos SlideShares
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
Carregando em…3
×

Confira estes a seguir

1 de 56 Anúncio

Mais Conteúdo rRelacionado

Diapositivos para si (20)

Quem viu também gostou (20)

Anúncio

Semelhante a Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho (20)

Mais de Ambiente Livre (19)

Anúncio

Mais recentes (20)

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

  1. 1. Big Data & Analytics - Do MapReduce ao Dashboard com Hadoop e Pentaho. Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br
  2. 2.     Marcio Junior Vieira ● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014. ● Fundador da Ambiente Livre Tecnologia. ● Instrutor de Big Data - Hadoop e Pentaho
  3. 3.     Ecosistema da Ambiente Livre
  4. 4.     Colaborações com Eventos
  5. 5.     Big Data - Muito se fala...
  6. 6. 2005 na apresentação do Papa Bento XVI
  7. 7.  2013 na apresentação do Papa Francisco
  8. 8.    
  9. 9.     Big Data ● É um novo conceito se consolidando. ● Grande armazenamento de dados e maior velocidade
  10. 10.     Big Data
  11. 11.     Os 4 V's ● Velocidade, Volume, Variedade e Valor
  12. 12.     O momento é agora
  13. 13.     Onde usar Big Data ? ● Sistemas de recomendação ● Redes Sociais
  14. 14.     Onde usar Big Data ? ● Analise de Risco (Crédito, Seguros , Mercado Financeiro) ● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento) ● Energia Fotovoltaica (Medições , Estudos, Resultados )
  15. 15.     Cases
  16. 16.     Ferramentas
  17. 17. Software Livre
  18. 18. Muitos das melhores e mais  conhecidas ferramentas de  dados disponíveis são  grandes projetos de código  aberto. O  mais conhecido  deles é o Hadoop, o que  está gerando toda uma  indústria de serviços e  produtos relacionados. 
  19. 19.     Hadoop ● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. ● Filesystem Distribuído ● Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) ● Utiliza-se de Hardware Comum ( Commodity cluster computing ) ● Framework para computação distribuída ● infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )
  20. 20.     Distribuições Hadoop ● Open Source Apache ● Comercial Open Source - Cloudera - HortonWorks - MapR - AWS MapReduce
  21. 21.     Ecosistema - Hadoop
  22. 22.     Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
  23. 23.     HDFS - Replicação ● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas
  24. 24.     MapReduce ● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes.
  25. 25.     Programação Distribuída
  26. 26.     MapReduce Map Reduce
  27. 27.     Java MapReduce ● package org.myorg; ● 2. ● 3. import java.io.IOException; ● 4. import java.util.*; ● 5. ● 6. import org.apache.hadoop.fs.Path; ● 7. import org.apache.hadoop.conf.*; ● 8. import org.apache.hadoop.io.*; ● 9. import org.apache.hadoop.mapred.*; ● 10. import org.apache.hadoop.util.*; ● 11. ● 12. public class WordCount { ● 13. ● 14. public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> { ● 15. private final static IntWritable one = new IntWritable(1); ● 16. private Text word = new Text(); ● 17. ● 18. public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {
  28. 28.     Business Analitycs ● É a prática interativa de exploração, metódica de dados de uma organização com ênfase na análise estatística ● Obter conhecimento e conduzir o planejamento de negócios ● Em contraste, ao BI centra-se em usar um conjunto consistente de métricas para ambas medida do planejamento de desempenho passado. ● Intimamente relacionada com a Ciência da Administração ● Pode ser usado como entrada para as decisões humanas ou tomar decisões totalmente automatizados
  29. 29.     Tomada de Decisão ● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem ● 56% sentem sobrecarregados com a quantidade de dados que gerenciam ● 60% acreditam que precisam melhorar captura e entender informações rapidamente. ● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade fonte : Survey KPMG.
  30. 30.     ● Solução de Business Intelligence e Business Analytics Open Source. ● Community Edition ● Solução completa com ETL, Reporting, Data Mining, Analise Preditiva, OLAP, Dashbards e Big Data Analytics.
  31. 31.     Pentaho ● É uma plataforma abrangente para integração de dados e Business Analytics.
  32. 32.     Comunidade Brasileira
  33. 33.     Comunidade Brasileira ● Maior comunidade do Mundo! ● Lista de Discussão com + de 1700 membros ● Organiza a 5 anos o Pentaho Day Brasil ● Composta por desenvolvedores, usuários , empresas e acadêmia. ● Utilizado em mais de 185 países. ● +10.000 Produtos desenvolvidos sobre a plataforma Pentaho. ● + 4 milhões de Downloads ● Em 2015 +- 60.000 downloads dia
  34. 34.     Pentaho Orquestrando Hadoop
  35. 35.     Modelo tradicional de Uso
  36. 36.     Fluxo Big Data
  37. 37.     Pentaho Data Integration ● Ferramenta Completa de ETL ● “Programação e Fluxo Visual” ● Aproximadamente 350 steps diferentes
  38. 38.     Pentaho Report Designer
  39. 39.     Mondrian OLAP + Saiku Analytics
  40. 40.     Pentaho Data Mining ● Solução completa para Machine Learning
  41. 41.     Ctools - Dashboards ● CTools – Tem um conjunto de Ferramentas para Desenvolvimento de Dashboars
  42. 42.     CDE ( Ctools ) ● Editor de Dashboards
  43. 43.     CTools Dashboards
  44. 44.    
  45. 45.    
  46. 46.     Exemplo Big Data em D3.js
  47. 47.     Data Lake
  48. 48.     O Profissional “data scientist” Novo profissional: Cientista de Dados
  49. 49.     Competências ● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
  50. 50.     Empresa Usando Hadoop ● Amazon ● Facebook ● Google ● IBM ● Yahoo ● Linkedin ● Joost ● Last.fm ● New York Times ● PowerSet ● Veoh ● Twitter ● Ebay
  51. 51.     Tendências
  52. 52.     Tendências Citizen Data Scientist
  53. 53.     Principais desafios ● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013) ● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012) ● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem. ● Desafios dos Os 5 V ! ● Privacidade, A identidade do usuário, mesmo preservada pode ser buscada... ( Marco Civil da Internet )
  54. 54.     Recomendações ● Comece com o problema , e não com os dados ● Compartilhe dados para receber dados ● Suporte gerencial e executivo ● Orçamento suficiente ● Melhores parceiros e fornecedores
  55. 55.     Big Data ● “Big Data hoje é o que era a Linux em 1991. ● Sabemos que será algo revolucionário, mas não sabemos o quanto...”
  56. 56.     Contatos ● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ● @marciojvieira ● Blog blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre

×