Big Data

378 visualizações

Publicada em

Saiba mais sobre soluções Big Data

Publicada em: Tecnologia
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
378
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
8
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Big Data

  1. 1. 17 de Janeiro de 2015 Big Data 1
  2. 2. Big Data Randy Quindai 2 “É preciso trabalhar duro para fazer o simples” Steve Jobs
  3. 3. Quem sou eu • Graduando em Engenharia da Computação (UFAL) • Bolsista do NTI(UFAL) • Bolsista da RIM(Blackberry) • Desenvolvedor de diversos projetos acadêmicos em Java, C++, VB6, HTML5, AngularJS • Membro do GDG Luanda ? f g+ in ? 3
  4. 4. O que é Big Data Volume Velocidade VariedadeVeracidade Valor 4
  5. 5. O que é Big Data VariedadeVeracidade Valor Velocidade Volumes extremamente grandes de dados: Em 2007 o Google processava mais de 400PB dados/mês Usuários do facebook produzem mais de 300PB dados/diários Volume 5
  6. 6. O que é Big Data VariedadeVeracidade Valor Velocidade Informação disponível para uso em tempo hábil. Tratamento dos dados em tempo real. Empresas que oferecem esse serviço: Facebook, Amazon, Google Volume 6
  7. 7. O que é Big Data Veracidade Valor Velocidade Dados oriundos de diversos bancos de dados como PostgreSQL e Oracle. Dados não estruturados oriundos de inúmeras fontes: documentos, vídeos, áudios, imagens, se não forem associados uns aos outros podem se tornar inúteis. Volume Variedade 7
  8. 8. O que é Big Data Valor Velocidade Volume+Velocidade+Variedade de nada adianta se os dados não são confiáveis. Informação não é só poder, informação é patrimônio. Volume VariedadeVeracidade 8
  9. 9. O que é Big Data Valor Velocidade Além de qualquer outro aspecto visto, uma solução de Big Data se tornará inviável se o resultado não trouxer benefícios significativos e que compensem o investimento. Volume VariedadeVeracidade 9
  10. 10. Big Data Áreas de Aplicação ciência governo saúde social finanças transporte ensino 10 algoritmos genéticos
  11. 11. Áreas de Aplicação ciência governo saúde social finanças transporte ensinoO limite é a sua imaginação 11
  12. 12. Quem Usa 12 • Análise de sentimento no Twitter e exército de apoiadores no Facebook. • Levantamento de dados de mídia • Alcançar o eleitor na hora certa
  13. 13. Como tudo começou PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))) Gravar grandes volumes de dados não estruturados(HTML). Processar as páginas para buscar citações(links). Calcular o PageRank das páginas segundo o número de citações. Criar um mecanismo de busca textual. 13
  14. 14. Como tudo começou 2000 - Jeffrey Dean e Sanjay Ghemawat (criadores da tecnologia MapReduce) http://research.google.com/archive/mapreduce.html 14 Jeffrey Dean http://research.google.com/ people/jeff/ Sanjay Ghemawat http://research.google.com/ pubs/SanjayGhemawat.html
  15. 15. Como tudo começou • Dez/2002 - Primeira biblioteca MapReduce da Google. • Out/2003 - Artigo sobre GFS. • Dez/2004 - Artigo sobre MapReduce. • Fev/2006 - Hadoop se torna um projeto oficial da Apache. • Abr/2007 - Yahoo! roda Hadoop em um cluster de 1000 nós. • Jan/2008 - Hadoop se torna no projeto principal da Apache 15
  16. 16. Como tudo começou • 2005 - Cria próprio mecanismo de busca • Nutch é criado • Mesmos problemas que o Google (máquinas quebram) • Criado o HDFS(Hadoop Distributed File System) • Surge Hbase NoSQL baseado no BigTable da Google 16
  17. 17. Quem Usa 17
  18. 18. Soluções Big Data 18
  19. 19. Soluções Big Data • Elasticidade • No ACID (Atomicidade, Consistência, Isolamento e Durabilidade) • NoSQL • BASE(Basically available, Soft state, Eventually consistency) 19
  20. 20. Soluções Big Data Bancos de dados NoSQL 20
  21. 21. Soluções Big Data • Open Source • Tolerante a falhas • Escalável • Processamento paralelo • EMR • Coerência de dados 21
  22. 22. Ecossistema Hadoop 22
  23. 23. Sandbox • Projeto Hortonworks que torna o Hadoop portátil permitindo rodar no seu computador pessoal de forma simples e ágil. • Possui fins educacionais • Ambiente de virtualização VirtualBox 23
  24. 24. Sandbox • Baixar SandBox http:// hortonworks.com/products/hortonworks- sandbox/#install 24
  25. 25. Sandbox • Baixar Cloudera distribuição linux centOS 6.4 http:// www.cloudera.com/content/cloudera/en/ downloads/quickstart_vms/cdh-5-3-x.html • Pig http://pig.apache.org • Hive https://hive.apache.org 25 vs
  26. 26. Sandbox 26 vs SELECT * FROM Tabela WHERE Campo = “ABC”; SELECT a.* FROM a JOIN b ON (a.id = b.id) SELECT MARCA, sum(vl_pedido) Valor_Pedidos FROM `default.tb_orders` Group by MARCA ORDER by Valor_Pedidos DESC A = LOAD 'tabela' USING org.apache.hcatalog.pig.HCatLoader(); B = LIMIT A 100; C = FILTER B BY campo1 == 'Teste'; D = FOREACH C GENERATE symbol, date, close; E = DISTINCT D; F = GROUP E BY (campo1, campo2); G = ORDER F BY (campo1, campo2); H = JOIN G BY campo1, F BY campo1; DUMP C; A = LOAD 'default.tb_orders' USING org.apache.hcatalog.pig.HCatLoader(); B = GROUP A BY marca; X = FOREACH B GENERATE group, SUM(A.vl_pedido); DUMP X;
  27. 27. • Links Interessantes: • http://ohundo.tempsite.ws • http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html • https://www.vagrantup.com/downloads.html • https://www.hashicorp.com • https://www.virtualbox.org/wiki/Downloads • http://hortonworks.com/hdp/downloads/ • http://mahout.apache.org/ • https://crunch.apache.org/ • http://avro.apache.org/docs/1.7.7/gettingstartedjava.html • http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html • http://bigtop.apache.org/ Big Data 27 Perguntas
  28. 28. Fim Big Data 28

×