The good, the bad and the big... data

1.103 visualizações

Publicada em

Palestra sobre Big Data apresentada na Campus Party Brasil 2013, Parque Anhembi, São Paulo - 02/02/2013

Publicada em: Tecnologia
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.103
No SlideShare
0
A partir de incorporações
0
Número de incorporações
30
Ações
Compartilhamentos
0
Downloads
19
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

The good, the bad and the big... data

  1. 1. THE GOOD, THE BAD, THE BIG... DATA Processando Grandes Volumes de DadosRodrigo Camposrcampos@uolinc.com@xinu
  2. 2. Agenda•Big what?•Tecnologias•Conclusões
  3. 3. IBM 350 - 1956Discos 24”1.200 RPM8.800 CPS3,75 MbUSD 53.400 / Mb
  4. 4. Kingston HyperXUSB 3.030.000.000 CPS1.000.000 MbUSD 0,0017 / Mb
  5. 5. Fonte: http://www.jcmit.com/disk2012.htm
  6. 6. 90% dos dados atualmente no mundo foram criados nos últimos dois anosFonte: http://ibm.co/WDPldm
  7. 7. 1.800.000.000 Tb 1,8Zb foram criados ou replicados em 2011.Fonte: IDC iView - Extracting Value from Chaos - http://bit.ly/YwR8nb
  8. 8. Não se trata apenas da quantidade de dados
  9. 9. Os dados tradicionalmente eram organizados em esquemas conhecidos, rígidos e controlados
  10. 10. SELECT vw_Subscriber.DisplayName,vw_CallHandler.DTMFAccessId AS Extension,vw_ContactRule.Extension AS Transfer StringFROM vw_Subscriber INNER JOIN vw_CallHandlerONvw_CallHandler.CallHandlerObjectId=vw_Subscriber.CallHandlerObjectIdINNER JOIN vw_ContactRuleONvw_ContactRule.ParentObjectId=vw_CallHandler.CallHandlerObjectIdWHERE vw_CallHandler.IsPrimary=1 ANDvw_Subscriber.SubscriberType IN (1,3) ANDvw_ContactRule.Alias=alternate ANDvw_ContactRule.Action=1
  11. 11. Message Queues Extensible Markup Language Text Files Flat files Dados pouco uniformes Document Oriented Spatial Databases Comma Separated Values Hierarchical Model Graph Databases SpreadsheetsObject-relational SYSLOG Hypermedia DatabasesIn-Memory Databases Network Model Relational Model
  12. 12. Os dados tradicionalmente eram gerados por computadores
  13. 13. 0100100100101010010101010000101010110010100101011100101101010010010010010101001001010011101001001001010010010100101010001010101110010100101001010011111001010101010010010010010
  14. 14. Fontes de dados são diversificadas
  15. 15. O armazenamento eprocessamento dos dados tradicionalmente era centralizado
  16. 16. 0100100100101010010101010000101010110010100101011100101101010010010010010101001001010011101001001001010010010100101010001010101110010100101001010011111001010101010010010010010
  17. 17. Os volumes ultrapassam acapacidade individual dos bancos de dados
  18. 18. Lead ION Collision - ALICE experiment at CERN25 Petabytes por anoLHC Computing Grid - 170 datacenters em 36 paíseshttp://wlcg.web.cern.ch/
  19. 19. Precisamos de soluções e ferramentas novas para: Extração Armazenamento Processamento Visualização
  20. 20. Extração Armazenamento Big DataVisualização Processamento
  21. 21. Extração Data Scraping APIs
  22. 22. Data Scraping
  23. 23. API
  24. 24. Armazenamento Sistemas distribuídos
  25. 25. Sistemas distribuídos Desafios para o design: Escala Gerenciamento Segurança Tolerância a falhas
  26. 26. Processamento A panacéia NoSQL
  27. 27. Processamento Não existe bala de prata...
  28. 28. Processamento Não existe bala de prata...
  29. 29. ProcessamentoNunca existiu bala de prata... Existem soluções mais apropriadas para determinados problemas
  30. 30. Processamento O modelo relacional dominou os últimos 30 anos
  31. 31. Processamento Agora procuramos usar a solução mais adequada para o problema encontrado
  32. 32. Bancos de dados de documentos Desenhados para ogerenciamento de informação semi-estruturada
  33. 33. Bancos de dados de documentos { "Cats": [ { "Age": 5, "EyeColor": "Blue", "Name": "Agatha" }, { "Age": 4, "EyeColor": "Blue", "Name": "Frank" } ], "FirstName": "Rodrigo", "LastName": "Campos", "TwitterScreenName": "xinu" }
  34. 34. Chave-valor Desenhados para armazenamento arbitrário de informações em pares
  35. 35. Chave-valor userCount 1 user1_FirstName Rodrigo user1_LastName Campos user1_Twitter xinu user1_CatCount 2 user1_Cat1_Name Agatha user1_Cat1_Age 5 user1_Cat2_Name Frank user1_Cat2_Age 4
  36. 36. Grafo Desenhados para estruturas baseadas em vértices e arestas com propriedades
  37. 37. Id: 2 Name: Frank Eyes: BlueGrafo Age: 4 Id: 105 Type: cat Label: friends Id: 104 Label: friends Id: 100 Label: master Id: 101 Label: servant Id: 3 Name: Agatha Eyes: Blue Id: 102 Age: 5 Label: servant Type: cat Id: 103 Label: master Id: 1 FirstName: Rodrigo LastName: Campos Twitter: xinu Type: human
  38. 38. Processamento Bancos de dados de Chave-Valor Grafo documentos•Cassandra •Cassandra •AllegroGraph•CouchDB •Riak •Neo4J•MongoDB •Memcached •FlockDB•Couchbase •Redis •InfiniteGraph•Lotus Notes •Kyoto Cabinet
  39. 39. MapReduce Um modelo de programação distribuída para o processamento de grandes conjuntos de dados
  40. 40. MapReduceProblema:Contar os elementosseparando pelas cores
  41. 41. Dados originaisMapReduce Node 1 Node 2 MAP Resultado Master Node Node 3 x2 x4 REDUCE x3 x1 Node 4 x3 Node 5 x2 x5
  42. 42. Processamento Atomic: toda a transação deve ser bem sucedida Consistent: o banco de dados deve permanecer consistente Isolated: uma transação não deve interferir nas demais Durable: transações completadas devem persistir
  43. 43. Processamento Basic Availability: a camada de dados permanece (parcialmente) disponível mesmo que inconsistente Soft-state: os dados retornados para determinada transação podem ser aproximados ou estimados Eventual consistency: eventualmente os dados estarão homogêneos em todo o sistemaMais informações em http://bit.ly/14Bg7GD
  44. 44. Teorema CAP - Escolha duas... ConsistencyAvailability Partition Tolerance
  45. 45. VisualizaçãoFonte: http://bit.ly/14BhZz8
  46. 46. VisualizaçãoFonte: http://inmaps.linkedinlabs.com
  47. 47. VisualizaçãoFonte: http://bit.ly/YoJrM2
  48. 48. VisualizaçãoFonte: http://bit.ly/UJZIeO
  49. 49. Conclusões O volume e diversidade dos dados exigem novas abordagens tecnológicas
  50. 50. Conclusões Novas ferramentas vem complementar soluções estabelecidas no mercado
  51. 51. Conclusões As ferramentas ainda estão evoluindo para atender essa nova realide
  52. 52. rcampos@uolinc.com@xinu

×