BigData MapReduce

1.128 visualizações

Publicada em

Apresentação sobre MapReduce e BigData feita pelo LINC (Laboratório de Inteligência Computacional) para a turma de DataMining do PPGE

0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.128
No SlideShare
0
A partir de incorporações
0
Número de incorporações
14
Ações
Compartilhamentos
0
Downloads
47
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

BigData MapReduce

  1. 1. BigData → MapReduce
  2. 2. AgendaQual a motivação ?
  3. 3. Agenda
  4. 4. BigData“Termo de mercado para o conjunto de soluções que analisa informações emvariedade, volume e velocidade inéditosvariedade até hoje - os três Vs, como chamam os tecnólogos...”
  5. 5. BigData “No dia a dia, a sociedade gera, em média, mais de 15 petabytes de informações sobre as suas operaçõescomerciais e financeiras, bem como sobre clientes e fornecedores por dia...”
  6. 6. BigData 1 Petabyte (PB) = 1 024 TB 1 048 576 GB 1 073 741 824 MB 1 099 511 627 776 kB1 125 899 906 842 624 (250) Bytes
  7. 7. BigDataNão estamos falando de quantidade de dados e sim de VOLUME DE DADOS
  8. 8. BigData Um exemplo prático:Estamos trabalhando em uma base com volume de dados de aproximadamente 600 Gb Temos um pouco mais de85.000.000.000.000.000.000 quintilhões de registros
  9. 9. BigDataSeguindo novos rumos...
  10. 10. BigData
  11. 11. BigData...conta a história da mais famosa aplicação do conceito: o gerente de um time debeisebol que usa o Big Data para reunir um elenco de primeira linha sem gastar muito
  12. 12. BigData
  13. 13. BigData“A Renner usa o Big Data para monitorar, em tempo real, o fluxo de mercadorias da loja real ao cruzar dados de localização GPS dos caminhões dos fornecedores com os níveis dos estoques” (Leandro Balbinot - Diretor de TI)
  14. 14. BigDataSegundo especialistas o Big Data foi de grande importânciapara o descobrimento do pré-sal...
  15. 15. BigData…devido a sua velocidade, que agilizava os velocidade processamentos de dados sísmicoscaptados pela sondas que procuram petróleo no fundo do mar.Como são milhões as variáveis, o trabalho variáveis exige intermináveis simulações de imagens, e só o Big Data é capaz de dar conta do trabalho em um tempo melhor. melhor
  16. 16. BigDataNo último “Fórum Econômico Mundial”
  17. 17. BigDataNo último “Fórum Econômico Mundial”
  18. 18. BigData No último Fórum Econômico Mundial... "Big Data, grande impacto: novas possibilidades para o desenvolvimento internacional" internacional …mostra como o Big Data pode ser umaarma contra problemas sócio-econômicos
  19. 19. BigDataConhecimento Estratégico...
  20. 20. BigData Caso de negócio: O McKinsey Global Institute publicou recentemente um relatório sobre asoportunidades de negócios e do governo ao usar BigData. BigData“Big Data: The Next Frontier for Innovation, Competition and Productivity”
  21. 21. BigData De acordo com a McKinsey, o uso de BigGata está se tornando uma formaessencial para as principais empresas a superarem seus concorrentes. concorrentes
  22. 22. BigData"Nós estimamos que um revendedor com o apoio de BigData tem o potencial de aumentar a sua margem operacional em mais de 60%”
  23. 23. BigData “Big Data cria valor para as empresasdescobrindo padrões e relacionamentos entre dados que antes estavam perdidos não apenas em data warehouses internos,mas na própria Web, em tuítes, comentáriosno Facebook e mesmo videos no YouTube.”
  24. 24. BigData
  25. 25. BigDataUm mercado de US$ 17 bi em 2015
  26. 26. BigDataSegundo a consultoria IDC, o mercado global de Big Data crescerá quase 40% ao ano entre 2010 e 2015, saltando de US$ 3,2 2015 bilhões para US$ 16,9 bilhões. bilhões
  27. 27. BigDataA tecnologia envolve tanto dinheiro porquesoluciona um problema inadiável para a economia global. global Se você se sente atordoado com aenxurrada de posts no seu Twitter, imagine a perda de produtividade em uma empresa incapaz de compreender os dados que a inundam.
  28. 28. Ministério das Comunicações
  29. 29. Como a internet Estimulou o BigData?
  30. 30. Alguns Serviços na Web...
  31. 31. Problemáticas
  32. 32. Soluções?MapReduce
  33. 33. MapReduceNos últimos anos, os pesquisadores e desenvolvedores doGoogle tem implementado centenas de propostas detécnicas e cálculos que processam grandes quantidades dedados brutos e para computar vários tipos de dadosderivados, tais como: ● Índices invertidos ● Representações diversas da estrutura de gráfico de documentos ● Resumos do número de páginas rastreadas por host ● Estatística das consultas mais frequentes em um determinado dia.
  34. 34. MapReduce– Os cálculos são conceitualmente simples...– O problema é que os dados de entrada são muito grandes... grandes ● Solução: Distribuir esses cálculos através de centenas ou milhares de máquinas – Garantir o término em um tempo razoável
  35. 35. MapReduce“Como reação a essa complexidade, foi elaborado uma novaabstração que nos permite expressar os cálculos simples queestávamos tentando realizar, mas esconde os detalhes confusos deparalelização, tolerância a falhas de distribuição de dados eparalelizaçãobalanceamento de carga” carga
  36. 36. MapReduce● A nova abstração é inspirado no Map e Reduce primitivos presentes em Lisp e muitas outras linguagens funcionais. “Percebemos que a maioria dos nossos cálculos envolvia a aplicação de uma operação de Map para cada "registro" lógico em nossa entrada, a fim de calcular um conjunto de pares intermediários de chave/valor e, em seguida , a aplicação de uma operação de Reduce a todos os valores que partilhavam a mesma chave, a fim de combinar os dados derivados apropriadamente.”
  37. 37. MapReduceAs maior contribuição dessa nova abordagem é a implantação deuma simples e poderosa interface que permite a paralelizaçãoautomática e distribuição da computação em grande escala,combinado com uma implementação desta interface que atinge altaperformance em grandes aglomerados de máquinas
  38. 38. MapReduceO cálculo toma um conjunto de pares de entradas de chave/valor,e produz um conjunto de pares de saídas chave/valor. O usuário que implementa o MapReduce expressa o cálculo comoduas funções: Map e Raduce.
  39. 39. ReduceA função Reduce, também escrito pelo usuário, aceita● uma chave intermediária e um conjunto de valores para essa chave.● Ela faz uma fusão desses valores em conjunto, para formar um menor conjunto de valores possível.● Tipicamente apenas zero ou um valor de saída é produzido por um método Reduce.● Os valores intermédios são fornecidos para a função através de uma iteração. Isto permite-nos lidar com listas de valores que são demasiadamente grandes para caber na memória.
  40. 40. MapReduceO modelo de programação MapReduce tem sido utilizado com sucesso noGoogle para diversas finalidades. Atribui-se o sucesso a várias razões:● o modelo é fácil de usar, mesmo para programadores sem experiência com os sistemas paralelos e distribuídos, já que esconde a detalhes da paralelização, tolerância a falhas, otimização de localidade, e balanceamento de carga.● Uma grande variedade de problemas são facilmente transcritos para o uso do MapReduce.● É usado para a geração de dados para o serviço de busca do Google, para classificação, para mineração de dados, para aprendizado de máquina e muitos outros sistemas.
  41. 41. MapReduceExemplo...
  42. 42. MapReduce: Exemplos...
  43. 43. MapReduce: Exemplos...
  44. 44. MapReduce: Exemplos...
  45. 45. MapReduce: Exemplos...
  46. 46. MapReduce: Exemplos...
  47. 47. MapReduce: Exemplos...
  48. 48. Apach e Had oop NoS QL Bancos ra Cloude
  49. 49. Ferramentas Bancos NoSQL (Not Only SQL)
  50. 50. Ferramentas Hadoop é uma plataforma de software em Java de computação distribuída voltadapara clusters e processamento de grandes massas de dados. dadosFoi inspirado pelo MapReduce e GoogleFS (GFS)É, na pratica, uma combinação de dois projetosseparados, que são o Hadoop MapReduce (HMR),que é um framework para processamento paralelo eo Hadoop Distributed File System (HDFS) Base de muitos serviços em Cloud
  51. 51. Ferramentas
  52. 52. FerramentasData Mining?
  53. 53. Ferramentas Aprendizado de máquina escalável Open-Source!!Outrora domínio exclusivo de acadêmicos e corporações com grandesorçamentos de pesquisa, as aplicações inteligentes que aprendem apartir de dados e contribuição de usuário estão se tornando maiscomuns.
  54. 54. Ferramentas
  55. 55. Ferramentas
  56. 56. Ferramentas São distribuições Linux prontas ao uso para constituir um cluster Hadoop.Cloudera é hoje uma referência no mundo Hadoop
  57. 57. Considerações FinaisBigData é uma bolha?●2012 é o ano do BigData●Indo mais além...●
  58. 58. Dúvidas?
  59. 59. BigData → MapReduce

×