Treinamento hadoop - dia3

890 visualizações

Publicada em

Treinamento Hadoop - dia 3

Publicada em: Tecnologia
0 comentários
4 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
890
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
121
Comentários
0
Gostaram
4
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Treinamento hadoop - dia3

  1. 1. Treinamento Hadoop Parte 3
  2. 2. Alexandre Uehara ● Analista Desenvolvedor (E-commerce) ● Coordenador Trilha Big Data (TDC 2013) http://www.thedevelopersconference.com. br/tdc/2013/saopaulo/trilha-bigdata#programacao ● Geek e nerd, trabalha com Python, Java, C, BigData, NoSQL, e outras coisas mais que aparecem no dia a dia
  3. 3. Nossa Agenda:
  4. 4. Dia 3!!!
  5. 5. Dia 1: Introdução Conceitos Básicos Big Data → O que é? → 4 V's → Por que agora? → Onde Usar? → Desafio → BI x Big Data →Profissional de Big Data → Ferramentas → Dicas
  6. 6. Dia 2 e 3: Map Reduce e Hadoop → História (Google) → Conceito MapReduce → Hadoop → Cases
  7. 7. Dia 4 Outras Ferramentas → Ecossistema → Ferramentas → Distribuições Hadoop → Hadoop na Nuvem → NoSQL Tipos → NoSQL Exemplos → Data Science → Machine Learning
  8. 8. Dia 5, 6 e 7 Hands-on → Pyhton → Hadoop
  9. 9. Resumo...
  10. 10. Big data
  11. 11. Big data ferramenta
  12. 12. Big data Hadoopferramenta
  13. 13. Big data Hadoopferramenta A partir dele criou-se
  14. 14. Big data Hadoop MapReduce ferramenta A partir dele criou-se
  15. 15. Big data Hadoop MapReduce ferramenta A partir dele criou-se Criou
  16. 16. Big data Hadoop MapReduceGoogle ferramenta A partir dele criou-se Criou
  17. 17. Google Map Reduce
  18. 18. Map Reduce Google Map Reduce
  19. 19. Map Reduce Google FileSystem Google Map Reduce
  20. 20. Por que utilizamos Map Reduce + GFS?
  21. 21. Por que utilizamos Map Reduce + GFS? ● Escalável ● Econômico ● Eficiente ● Confiável
  22. 22. Map Reduce ● Decompõe tudo em ???
  23. 23. Map Reduce ● Decompõe tudo em Pares - chave : valor ● Depois???
  24. 24. Map Reduce ● Decompõe tudo em Pares - chave : valor ● Depois sumariza os resultados
  25. 25. Por que um elefante amarelo? Por que Hadoop?
  26. 26. Framework open source para escrever e processar de forma escalável, aplicações distribuídas com grandes volumes de dados Definição
  27. 27. ● Para executivos: projeto de software livre da Apache que tem como objetivo obter valor do volume/velocidade/variedade incrível de dados sobre sua organização. Use os dados em vez de jogar a maioria fora. ● Para gerentes técnicos: um conjunto de softwares livres que mina o BigData estruturado e não estruturado de sua empresa. Ele integra com seu ecossistema existente de Business Intelligence. ● Para o Jurídico: um conjunto de software livre empacotado e suportado por diversos fornecedores ● Para a Engenharia: um ambiente de execução Mapear/Reduzir massivamente paralelo, sem compartilhamento e baseado em Java. O que é
  28. 28. ● Código aberto - Licença Apache Software Foundation ● Implementado em Java ● Inspirado no GFS e MapReduce do Google ● Projeto top-level da Fundação Apache O que é
  29. 29. ● Máquinas comuns - hardware comodities (de baixo custo, de baixa confiabilidade) ● Rede comum ● Tolerância a falhas automática ● Poucos administradores ● Facilidade de uso ● Poucos programadores ● Foco na regra de negócio Vantagens
  30. 30. http://thoughtworks.fileburst.com/assets/technology-radar-jan-2014-pt.pdf
  31. 31. Sub-Projetos Hadoop
  32. 32. Map Reduce Google FileSystem Google Map Reduce
  33. 33. Hadoop MapReduce HDFS Hadoop
  34. 34. Hadoop MapReduce HDFS Hadoop Hadoop Commons
  35. 35. ● HDFS - Sistema de Armazenamento de Dados distribuidos (Hadoop Distributed File System) ● Map Reduce - Processamento paralelo ● Hadoop Commons - abstração Serviços Chave
  36. 36. Arquitetura Hadoop
  37. 37. Nó Master Nó Slave
  38. 38. Nó Master
  39. 39. Nó Master
  40. 40. Nó Master Nó Slave
  41. 41. Nó Master Nó Slave
  42. 42. Nó Master
  43. 43. Nó Master ● NameNode ● SecondaryNameNode ● JobTracker
  44. 44. Nó Slave
  45. 45. Nó Slave ● DataNode ● TaskTracker
  46. 46. Nó Master Nó Slave ● DataNode ● TaskTracker ● NameNode ● SecondaryNameNode ● JobTracker
  47. 47. Nó Master ● NameNode ● Nó master (apesar de master não armazena nada) ● Só tem metadados ● Ele é o core, o daemon vital
  48. 48. Nó Master ● SecondaryNameNode ● Monitora o estado dos clusters (se um cair ele sabe o que fazer) ● Cuida do log ● Um único SNN para cada cluster ● Não armazena dados ● De tempos em tempos faz o merge dos dados
  49. 49. Nó Master ● JobTracker ● Ligações entre as Aplicações e o Hadoop ● Em caso de falha, ele quem sabe o que fazer
  50. 50. Nó Slave ● DataNode ● armazena dados ● Datanodes se reportam a namenodes ● separa em no mínimo 3 réplicas ● se cai sistema não perde os dados
  51. 51. Nó Slave ● TaskTracker ● responsável pela execução designada pelo JobTracker
  52. 52. Nó Master Nó Slave ● DataNode (armazena dados) ● TaskTracker (executa) ● NameNode (core) ● SecondaryNameNode (monitora) ● JobTracker (liga a aplicação/Hadoop)
  53. 53. ● Garante alto gerenciamento, confiabilidade, usabilidade e desempenho ● Divide em poucos arquivos grades (padrão 64MB) ● Vai distribuindo cada parte para cada nó ● Recuperação é transparente HDFS
  54. 54. ● Todos os arquivos no HDFS possuem múltiplas réplicas (3 réplicas) ● Cada réplica em um nó diferente ● Ex: se tiver arquivo de 256MB, vai dividir em 4 blocos de 64MB, e cada bloco dividido em 3 máquinas diferentes para garantir redundâcia e tolerancia a falha HDFS
  55. 55. Comunicação
  56. 56. ComunicaçãoSSH
  57. 57. Hadoop Facts ● Não é banco de dados ● Processamento background ● Tudo entra por um nó principal (master) - um ponto de falha ● Precisa ser "Alimentado" com dados. (como colocar 30TB onde vai rodar o Hadoop?)
  58. 58. Cases
  59. 59. Armazena log, como fontes de estudos analíticos e machine learning
  60. 60. Armazena log, como fontes de estudos analíticos e machine learning Otimização de buscas e pesquisas
  61. 61. Armazena log, como fontes de estudos analíticos e machine learning Otimização de buscas e pesquisas Cálculo de gráfico, análise de log, teste A/B
  62. 62. Recomendações: Quem você pode conhecer
  63. 63. Recomendações: Quem você pode conhecer Análise de logs e e minerar dados para sistema de recomendação
  64. 64. Recomendações: Quem você pode conhecer Análise de logs e e minerar dados para sistema de recomendação Gerar conteúdo e agregar dados, fazer análise e relatórios
  65. 65. Armazenar e processar tweets, arquivos de logs, e outras coisas mais
  66. 66. Armazenar e processar tweets, arquivos de logs, e outras coisas mais
  67. 67. Armazenar e processar tweets, arquivos de logs, e outras coisas mais
  68. 68. Um resumo, Big Data, Map Reduce, Hadoop
  69. 69. Alexandre Uehara @AleUehara linkedin.com/in/aleuehara uehara.alexandre@gmail.com slideshare.net/aleuehara

×