O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio

Confira estes a seguir

1 de 52 Anúncio
Anúncio

Mais Conteúdo rRelacionado

Diapositivos para si (20)

Quem viu também gostou (19)

Anúncio

Semelhante a Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics (20)

Mais de Ambiente Livre (20)

Anúncio

Mais recentes (20)

Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

  1. 1. Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br
  2. 2.     Marcio Junior Vieira ● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Fundador da Ambiente Livre Tecnologia. ● Instrutor de Hadoop e Pentaho
  3. 3.     Ecosistema Ambiente Livre
  4. 4.     Colaborações com Eventos
  5. 5.     Big Data - Muito se fala...
  6. 6.    
  7. 7.     Big Data ● É um novo conceito se consolidando. ● Grande armazenamento de dados e maior velocidade
  8. 8.     Os 4 V's ● Velocidade , Volume , Variedade e Valor
  9. 9.     Volume ● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB). ● Geralmente dados não estruturados. ● Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.
  10. 10.     Velocidade ● Processamento de Dados ● Armazenamento ● Analise de Dados
  11. 11.     Variedade ● Dados semi-estruturados ● Dados não estruturados ● Diferentes fontes ● Diferentes formatos
  12. 12.     Valor ● Tomada de Decisão ● Benefícios ● Objetivo do Negócio.
  13. 13.     O momento é agora
  14. 14.     Onde usar Big Data ? ● Sistemas de recomendação ● Redes Sociais
  15. 15.     Onde usar Big Data ? ● Analise de Risco (Crédito, Seguros , Mercado Financeiro) ● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento) ● Energia Fotovoltaica (Medições , Estudos, Resultados )
  16. 16.     Big Data X BI ● Big Data e uma evolução do BI, devem caminhar juntos ● Data Warehouses são necessários para armazenar dados estruturados Previsão: ● BI – Casos específicos ● Big Data – Analise geral
  17. 17.     Profissional Novo profissional: Cientista de Dados
  18. 18.     Competências do Cientista de dados ● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
  19. 19.     De onde ?
  20. 20.     Ferramentas de Big Data
  21. 21.     Hadoop ● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. ● Filesystem Distribuido. ● Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) ● Utiliza-se de Hardware Comum ( Commodity cluster computing ) ● Framework para computação distribuída ● infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )
  22. 22.     ● Solução de BI Open Source. ● Tem versões Community Edition e Enterprise Edition. ● Solução completa de BI e BA ( ETL, Reporting, Mineração, OLAP e Dashbards, etc)
  23. 23.     Pentaho e Hadoop ● O uso de Pentaho em projetos com Hadoop pode diminuir em 15 vezes o tempo do Projeto. Codificação Java Versus ETL Kettle
  24. 24.     Pentaho e Hadoop ● O Pentaho tem suporte aos principais distribuições Hadoop. ● Open Source Apache ● Comercial Open Source - Cloudera - HortoWorks - MapR - AWS MapReduce
  25. 25.     Motivações Atuais - Hadoop ● Grande quantidade ( massiva ) de dados ● Dados não cabem em uma máquina ● Demoram muito para processar de forma serial ● Máquinas individuais falham ● Computação nas nuvens ● Escalabilidade de aplicações ● Computação sob demanda
  26. 26.     Ecosistema - Hadoop
  27. 27.     O que é HDFS ● Hadoop Filesystem ● Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.
  28. 28.     Características do HDFS ● Inspirado em GFS ● Projetado para trabalhar com arquivos muito grandes e grandes volumes ● Executado em hardware comum ● Streaming de acesso a dados ● Replicação e localidade
  29. 29.     HDFS ● Projetado para escalar a petabytes de armazenamento, e correr em cima dos sistemas de arquivos do sistema operacional subjacente.
  30. 30.     Arquitetura Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
  31. 31.     HDFS - Replicação ● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas
  32. 32.     HDFS e Pentaho
  33. 33.     HDFS e Pentaho
  34. 34.     MapReduce ● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes
  35. 35.     Programação Distribuída
  36. 36.     MapReduce Você especifica o map (...) e reduce (...) funções ● map = (lista (k, v) -> lista (k, v)) ● reduce = (k, lista (v) -> k, v) O Framework faz o resto ● Dividir os dados ● Execute vários mappers sobre as divisões ● Embaralhar os dados para os redutores ● Execute vários redutores ● Guarde os resultados finais
  37. 37.     MapReduce Map Reduce
  38. 38.     Pentaho MapReduce
  39. 39.     Pentaho e Pig ● PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.Executado no HDFS e grupos MapReduce.
  40. 40.     Modos de Operação ● Standalone ( Local ) ● Pseudo-distributed ● Fully-distributed
  41. 41.     Outros componentes ● Hive - Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados.
  42. 42.     Hbase ● Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias) ● Pentaho: Componente de Input e Output no Kettle
  43. 43.     +Hbase e Pentaho ● Componente para decodificar a chave e os dados valor que é emitido pelo TableInputFormat
  44. 44.     Outros componentes ● ZooKeeper – Serviço de coordenação altamente disponível e distribuído. Fornece funções de bloqueios distribuídos que podem ser usados para a construção de aplicações distribuídas. ● Sqoop – Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS. ● Mahout - Aprendizagem de máquina escalável, de fácil uso comercial para a construção de aplicativos inteligentes
  45. 45.     Amazon ● MapReduce sob Demanda
  46. 46.     Possibilidades de Uso ● DataWareHouse ● Business Intelligence ● Aplicações analíticas ● Mídias Sociais ● Sugestão de Compras ● Analise preditiva ● Compras Coletivas ● Recomendações
  47. 47.     Modelo tradicional de Uso
  48. 48.     Empresa Usando Hadoop ● Amazon ● Facebook ● Google ● IBM ● Yahoo ● Linkedin ● Joost ● Last.fm ● New York Times ● PowerSet ● Veoh ● Twitter ● Ebay
  49. 49.     Hadoop no Brasil
  50. 50.     Pentaho Orquestrando Hadoop
  51. 51.     Contatos ● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ● @marciojvieira ● Blog blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre
  52. 52.     Convite – Próximos Eventos ● FTSL - 18 e 19 de Setembro - Curitiba ● Software Freedom Day 20 de Setembro - Curitiba

×