Big Data
Uma introdução
Thiago Rigo
Agenda
Big Bang dos Dados
Conceitos
Ecosistema
Casos de Uso
Demo
Big Bang dos Dados
http://www.visualnews.com/2012/06/19/how-much-data-created-every-minute/
http://awesome.good.is/transparency/web/1009/the-world-of-data/flat.html
“Desde o nascimento da civilização até 2003
criamos 5 Exabytes de informação, mas agora, essa
mesma quantidade de informaç...
http://thehumanfaceofbigdata.com/pressroom/
Conceitos
Volume
Quantidade muito grande de dados
Bancos de dados tradicionais não atendem
Servidores high-end custam muito caro
Variedade
Dados de diversas fontes
Dados estruturados, semi-estruturados e não
estruturados
Schemaless
Velocidade
Agilidade no processamento dos dados
Processamento de dados em tempo real
Rapidez na ingestão dos dados
Ecosistema
Hadoop - Historia
2002-04: Nutch
2004-06: GFS, MapReduce
2006-08: Yahoo!, Top-Level
Hadoop
“O Apache Hadoop é um framework que permite
processamento distribuído de grandes volumes de
dados, sendo desenhado ...
Hadoop
Escalabilidade horizontal
Tolerancia a falha
Redundância
Paralelismo
Data locality
Hadoop - Arquitetura
http://www.rosebt.com/blog/hadooparchitecture-and-deployment
Hadoop - HDFS
https://developer.yahoo.com/hadoop/tutorial/module2.html
Hadoop - MapReduce
http://www.alex-hanna.com/tworkshops/lesson-5-hadoop-and-mapreduce/
Hadoop - MapReduce
public	
  void	
  map(LongWritable	
  key,	
  Text	
  value,	
  Context	
  context)	
  
	
  	
  	
  	
 ...
Hadoop - MapReduce
public	
  void	
  reduce(Text	
  key,	
  Iterable<IntWritable>	
  values,	
  Context	
  context)	
  
	
...
Pig
“Apache Pig é uma plataforma para analisar
grandes data sets que é composta por uma
linguagem de alto nível para expre...
Pig
Linguagem de alto nível
Suporte a UDFs
Operadores relacionais (Group, Join, Cross)
Modo local e interativo
Pig
A = LOAD ‘logs/2014/12‘ AS (f1:int,f2:int,f3:int);
DUMP A;
(1,2,3)
(4,2,1)
(4,3,3)
B = GROUP A BY f1;
DUMP B;
(1,{(1,2...
Hive
“ O Apache Hive é um software de data warehouse
que facilita realizar consultas e gerenciar grandes
data sets que são...
Hive
Traduz SQL para MapReduce
Estrutura dados como tabelas
Suporte a UDFs
Não é OLTP
Hive
INSERT OVERWRITE TABLE pv_gender_sum
SELECT pv_users.gender,
count (DISTINCT pv_users.userid)
FROM pv_users
GROUP BY ...
Ecosistema
https://www.codecentric.de/schulungen-und-workshops/hadoop-essentials/
E muito mais!
https://amplab.cs.berkeley.edu/benchmark/
Casos de Uso
Casos de Uso
Análise de logs
Engines de recomendação
Processos ETL
Eleições presidenciais
Previsão de horário de pouso
Demo
Demo
Contar palavras no Hadoop
Dúvidas?
Big Data - Uma Introdução
Big Data - Uma Introdução
Big Data - Uma Introdução
Próximos SlideShares
Carregando em…5
×

Big Data - Uma Introdução

405 visualizações

Publicada em

Introdução ao BigData

Publicada em: Tecnologia
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
405
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
5
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Big Data - Uma Introdução

  1. 1. Big Data Uma introdução Thiago Rigo
  2. 2. Agenda Big Bang dos Dados Conceitos Ecosistema Casos de Uso Demo
  3. 3. Big Bang dos Dados
  4. 4. http://www.visualnews.com/2012/06/19/how-much-data-created-every-minute/
  5. 5. http://awesome.good.is/transparency/web/1009/the-world-of-data/flat.html
  6. 6. “Desde o nascimento da civilização até 2003 criamos 5 Exabytes de informação, mas agora, essa mesma quantidade de informação é criada a cada 2 dias.” Eric Schmidt, CEO Google, 2010 1 Exabyte = 1.000.000 TB
  7. 7. http://thehumanfaceofbigdata.com/pressroom/
  8. 8. Conceitos
  9. 9. Volume Quantidade muito grande de dados Bancos de dados tradicionais não atendem Servidores high-end custam muito caro
  10. 10. Variedade Dados de diversas fontes Dados estruturados, semi-estruturados e não estruturados Schemaless
  11. 11. Velocidade Agilidade no processamento dos dados Processamento de dados em tempo real Rapidez na ingestão dos dados
  12. 12. Ecosistema
  13. 13. Hadoop - Historia 2002-04: Nutch 2004-06: GFS, MapReduce 2006-08: Yahoo!, Top-Level
  14. 14. Hadoop “O Apache Hadoop é um framework que permite processamento distribuído de grandes volumes de dados, sendo desenhado para escalar de um servidor para milhares de máquinas…” http://hadoop.apache.org/
  15. 15. Hadoop Escalabilidade horizontal Tolerancia a falha Redundância Paralelismo Data locality
  16. 16. Hadoop - Arquitetura http://www.rosebt.com/blog/hadooparchitecture-and-deployment
  17. 17. Hadoop - HDFS https://developer.yahoo.com/hadoop/tutorial/module2.html
  18. 18. Hadoop - MapReduce http://www.alex-hanna.com/tworkshops/lesson-5-hadoop-and-mapreduce/
  19. 19. Hadoop - MapReduce public  void  map(LongWritable  key,  Text  value,  Context  context)          throws  IOException,  InterruptedException  {          String[]  words  =  value.toString().split("  ");          for  (String  word  :  words)  {              context.write(new  Text(word),  new  IntWritable(1));          }   }
  20. 20. Hadoop - MapReduce public  void  reduce(Text  key,  Iterable<IntWritable>  values,  Context  context)          throws  IOException,  InterruptedException  {          int  sum  =  0;          for  (IntWritable  value  :  values)  {                  sum  +=  value.get();          }          context.write(key,  new  IntWritable(sum));   }  
  21. 21. Pig “Apache Pig é uma plataforma para analisar grandes data sets que é composta por uma linguagem de alto nível para expressar programas de análise de dados e infraestrutura para executar esses programas.” http://pig.apache.org/
  22. 22. Pig Linguagem de alto nível Suporte a UDFs Operadores relacionais (Group, Join, Cross) Modo local e interativo
  23. 23. Pig A = LOAD ‘logs/2014/12‘ AS (f1:int,f2:int,f3:int); DUMP A; (1,2,3) (4,2,1) (4,3,3) B = GROUP A BY f1; DUMP B; (1,{(1,2,3)}) (4,{(4,2,1),(4,3,3)}) X = FOREACH B GENERATE COUNT(A); DUMP X; (1L) (2L)
  24. 24. Hive “ O Apache Hive é um software de data warehouse que facilita realizar consultas e gerenciar grandes data sets que são armazenados de forma distribuída, provendo um mecanismo para estruturar e consultar esses dados usando uma linguagem parecida com SQL, chamada HiveQL.” http://hive.apache.org/
  25. 25. Hive Traduz SQL para MapReduce Estrutura dados como tabelas Suporte a UDFs Não é OLTP
  26. 26. Hive INSERT OVERWRITE TABLE pv_gender_sum SELECT pv_users.gender, count (DISTINCT pv_users.userid) FROM pv_users GROUP BY pv_users.gender;
  27. 27. Ecosistema https://www.codecentric.de/schulungen-und-workshops/hadoop-essentials/
  28. 28. E muito mais! https://amplab.cs.berkeley.edu/benchmark/
  29. 29. Casos de Uso
  30. 30. Casos de Uso Análise de logs Engines de recomendação Processos ETL Eleições presidenciais Previsão de horário de pouso
  31. 31. Demo
  32. 32. Demo Contar palavras no Hadoop
  33. 33. Dúvidas?

×