HadoopConversas sobre bigdata e elefantes amarelos
Hadoop? WTF?!● Primeira release em 2006, baseado no artigo  do Google sobre o GFS e Map/Reduce● Não é em essência um banco...
Bom pra quê?● Volumes gigantescos de dados (acima dos  gigabytes)● Dados semi-estruturados: arquivos de log,  CSVs, HTML, ...
Ruim pra quê?● Dados transacionais e/ou estruturados:  formas normais, modelo dimensional, etc;● Dados que sofrem alteraçõ...
Powered by○ 40000+ nós no total, com um único cluster usando  4500+ nós○ Operação de ad e busca○   2400+ nós, mais de 100 ...
Powered by○   2 terabytes/dia (comprimido)○   Análise de comportamento e navegação de usuários○   1TB+/dia (comprimido); 6...
Watson ganhou o Jeopardy! contra dois humanos usando                       Hadoop
Cluster de Hadoop bate recorde Terasort (2008): 1 TB em                209 segundos com 910 nós
Hadoop é usado no CERN para processar dados dos                    detectores
Benchmarking - Clusters
MySQL vs Hadoop - 0.07 bilhões delinhas
MySQL vs Hadoop - 7.3 bilhões delinhas
Benchmarking - Hadoop vs MySQL
Próximos SlideShares
Carregando em…5
×

Conversas sobre Big Data, Hadoop e elefantes amarelos

775 visualizações

Publicada em

Esta apresentação tem como objetivo demonstrar e discutir um dos pilares do Big Data, o Hadoop. São demonstrados os principais usos, para o que é bom e para o que não é, casos famosos, e uma comparação com o MySQL (Novembro/2009).

0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
775
No SlideShare
0
A partir de incorporações
0
Número de incorporações
28
Ações
Compartilhamentos
0
Downloads
0
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Conversas sobre Big Data, Hadoop e elefantes amarelos

  1. 1. HadoopConversas sobre bigdata e elefantes amarelos
  2. 2. Hadoop? WTF?!● Primeira release em 2006, baseado no artigo do Google sobre o GFS e Map/Reduce● Não é em essência um banco de dados, mas um framework de processamento e armazenamento distribuído● Feito para escalar horizontalmente com facilidade
  3. 3. Bom pra quê?● Volumes gigantescos de dados (acima dos gigabytes)● Dados semi-estruturados: arquivos de log, CSVs, HTML, XML, etc;● Dados sem estrutura: imagens, livros, textos, tweets, etc;
  4. 4. Ruim pra quê?● Dados transacionais e/ou estruturados: formas normais, modelo dimensional, etc;● Dados que sofrem alterações constantes● Consultas para linhas específicas (e com alto grau de redundância): "SELECT ... WHERE ID = 1"
  5. 5. Powered by○ 40000+ nós no total, com um único cluster usando 4500+ nós○ Operação de ad e busca○ 2400+ nós, mais de 100 petabytes de dados○ Data mining e análise de logs de usuários
  6. 6. Powered by○ 2 terabytes/dia (comprimido)○ Análise de comportamento e navegação de usuários○ 1TB+/dia (comprimido); 60 milhões tweets/dia○ Tweets, arquivos de log, análise de usuários
  7. 7. Watson ganhou o Jeopardy! contra dois humanos usando Hadoop
  8. 8. Cluster de Hadoop bate recorde Terasort (2008): 1 TB em 209 segundos com 910 nós
  9. 9. Hadoop é usado no CERN para processar dados dos detectores
  10. 10. Benchmarking - Clusters
  11. 11. MySQL vs Hadoop - 0.07 bilhões delinhas
  12. 12. MySQL vs Hadoop - 7.3 bilhões delinhas
  13. 13. Benchmarking - Hadoop vs MySQL

×