Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

500 visualizações

Publicada em

Publicada em: Ciências
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
500
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
26
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

  1. 1. Big Data e Data Science Admirável Mundo Novo Prof. Ms. Petrônio Cândido L. Silva
  2. 2. 1. O que são dados? 2. O que é Big Data? 3. E o poder de processamento? 4. O que é Data Science? 5. E o cientista de Dados? 6. Conclusão! Agenda
  3. 3. O que são dados?
  4. 4. O que são dados? DADOS ● Simples / Escalar INFORMAÇÃO ● Combinação de dados CONHECIMENTO ● Combinação de informações
  5. 5. Categorias de Dados Estruturado Semi-Estruturado Não Estruturado Estrutura Rígida Atributos Fixos Tamanhos Fixos Integriadade e Consistencia Estrutura Flexível Sem Estrutura Atributos Variáveis Tamanhos Variáveis
  6. 6. Tipos de Dados Estruturados Quantitativo Qualitativo Contínuo Discreto Ordinal Cardinal Nominal Ordinal
  7. 7. Categorias de Dados Estruturado Semi-Estruturado Não Estruturado Bancos de Dados Tabelas Planilhas de Cálculo E-mail Texto Som Imagem
  8. 8. Semântica dos Dados Fonte: http://okfn.de/blog/2015/04/gespraechskreis-digitalisierung-open-data/
  9. 9. Composição da Informação Quem ? Onde ? Quando ? Como ? Quanto ? Por quê ? O quê ?
  10. 10. O macro processo da informação Sistemas de Produção BD Operacional Data Warehouse Relatórios Cubos Dashboards Data Mining Clientes Funcionários DADOS DECISÃO INFORMAÇÃO DADOS INFORMAÇÃO CONHECIMENTO Planejamento Metas Promoções Ofertas Promoções etc Gerentes
  11. 11. Dado Dado Dado Informação Informação Dado Dado Dado Conhecimento
  12. 12. Fonte: http://jp4.r0tt.com/l_5013ce00-5c4a-11e1-ba5f-a9c495600004.jpg
  13. 13. Tamanho dos Dados Unidade Conversão O que representa Bit 0 ou 1 Byte (B) 8 bits Uma letra Kilobyte (KB) 1024 bytes Um parágrafo de texto Megabyte (MB) 1024 Kb Um livro, uma música de 2 min Gigabyte (GB) 1024 Mb 40 minutos de filme em qualidade de DVD Terabyte (TB) 1024 Gb Três semanas e meia de vídeo de alta qualidade, Petabyte (PB) 1024 Tb ??? Exabyte (EB) 1024 Pb ??? Zetabyte (ZB) 1024 Eb ???
  14. 14. Custo por Tamanho dos Dados Fonte: http://www.techtudo.com.br/artigos/noticia/2013/04/do-disquete-ao-pendrive-veja-evolucao-do-armazenamento-movel.html
  15. 15. Custo do Armazenamento Hoje Mídia Custo Médio por GB (R$) Pendrive 2,50 SSD 2,60 Disco Rígido 0,37 Cloud 0,03 (mês)
  16. 16. Velocidade de comunicação Velocidade 1 Segundo 1 Minuto 1 Hora bits por segundo (bps) 1 7.5 B 450 B Kilobits por segundo (Kbps) 125 B 7.3 KB 439 KB Megabits por segundo (Mbps) 122 KB 7.3 MB 439 MB Gigabits por segundo (Gbps) 119 MB 6,9 GB 414 GB Fonte: http://www.wu.ece.ufl.edu/links/dataRate/DataMeasurementChart.html
  17. 17. Velocidade dos Dados Dispositivo Velocidade Segundo Ano Modem 56 K 56 Kbps 6,8 KB 1998 ADSL Até 8 Mbps 976 KB 1999 Cable Modem Até 52 Mbps 6,3 MB 2001 Ethernet 100Mbps 12,5 MB 1995 Gigabit Ethernet 1 Gbps 125 MB 1998 Wireless 108 Mbps 13,5 MB 2003 3G 384 Kbps 48 KB 2002
  18. 18. Custo por Velocidade dos Dados Meio Velocidade Custo Mensal por Mbps Celular 3G 1 Mbps 30,00 ADSL 1 Mbps 44,00 Cabo 1 Mbps 40,00 Fibra 15 Mbps 75,00 Wireless
  19. 19. Novas Fontes de Dados
  20. 20. Novas Fontes de Dados ● Por quê? ○ Monitoramento da marca; ○ Monitoramento de campanhas de marketing; ○ Relacionamento com o consumidor; ○ Análise de tendências (trending topics); ○ ...
  21. 21. ● 4 milhões de buscas no Google ● 2,5 milhões de posts no Facebook ● 300 mil posts no Twitter Data Explosion ● 220 mil fotos no Instagram ● 72 horas de vídeo no Youtube ● 50 mil downloads de aplicativos na Apple Store ● 200 milhões de e-mails O que acontece em 1 minuto na Internet? Fonte: http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/
  22. 22. Internet das Coisas (IoT) ● Diversos sensores coletando dados automaticamente; ● Dados são enviados para a internet e armazenados; ● Usuário é alertado sobre os dados;
  23. 23. Internet das Coisas (IoT) ● Sensores ● GPS ● Climáticos ○ Temperatura ○ Umidade ○ Precipitação ○ Velocidade do Vento ● Luminosidade ● Timer ● Biométricos ○ Pressão ○ Temperatura Corporal ○ BPM ● Carros
  24. 24. Fonte: https://securityledger.com/2014/04/will-ot-big-data-create-darwinian-struggle-for-insurance-carriers/
  25. 25. Dados Abertos (Open Data) Disponibilizar arquivos de dados: ● Completos ● Primários ● Atuais ● Acessíveis ● Tratáveis por computador ● Sem discriminação ● Sem propriedade ● Sem licença
  26. 26. Dados Abertos (Open Data) ● Existência ○ Os dados devem estar disponíveis e indexados na web! ● Aproveitamento ○ Os dados devem estar em formato utilizável por computador! ● Utilidade ○ Os dados devem estar livres de restrições jurídicas!
  27. 27. Dados Abertos Governamentais ● Lei de Acesso à Informação (LAI) ○ http://dados.gov.br/ ○ http://www.portaltransparencia.gov.br/ ○ http://www.transparencia.mg.gov.br/ ○ http://www.ifnmg.edu.br/acessoainformacao/sobre- o-acesso-a-informacao ○
  28. 28. Dados Abertos Científicos ● http://br.okfn.org/ ● http://www.nature.com/sdata/ ● http://blog.visual.ly/data-sources/ ●
  29. 29. Novo cenário Dados GovernoSistemas Emp Social Media E-mail, arquivos, etc Máquinas e sensores
  30. 30. Novo cenário ● Todos os dados ○ Formatos diferentes entre si; ○ Gerados em velocidades distintas; ○ Validades diferentes; ○ Relacionados ou não.
  31. 31. Valor e Depreciação ● Alguns dados sofrem depreciação ○ Têm dada de validade ○ Custo de Oportunidade Depois de coletados e armazenados os dados devem rapidamente serem transformados em informação para ser consumida!
  32. 32. Impacto da Informação Exclusividade Novidade Completude Utilidade
  33. 33. Visualização da Informação ● Relatórios ● Gráficos ● Indicadores de Desempenho ● Painéis de Controle (Dashboards) ● Infográficos e Data Storytelling
  34. 34. Business Intelligence ● Exemplos ○ http://www.paraondefoiomeudinheiro.org. br/dataset/estado-sao-paulo-2012 ○ http://ison.stratebi.es/aerobrasil/ ○ http://www.it4biz.com.br/apps/dados.gov.br/obrasdopac/ ○ http://www.estatisticasfutebolbrasileiro.com/ ○ http://dataviva.info/ ○
  35. 35. http://www.kdnuggets.com/images/big-data-cartoon-100000-warehouses.jpg
  36. 36. Big Data
  37. 37. Big Data ● Buzzword da moda... ● Quando o tamanho do dados faz parte do problema! ● Alta Dimensionalidade ○ Entidades / Atributos / Instâncias
  38. 38. Big Data
  39. 39. Big Data ● 4 V's (Stapleton, 2011) ○ Volume ■ Terabytes para Petabytes de dados ○ Velocidade ■ Fluxo contínuo e rápido de novos dados ○ Variedade ■ Dados estruturados, semi e não estruturados ○ Veracidade ■ Governança de dados e qualificação entre Consistente, Inconsistente, Incompleto, Ambíguo, ...
  40. 40. Fonte: https://devcentral.f5.com/blogs/us/the-four-v-rsquos-of-big-data
  41. 41. Big Data Fonte: http://sweetlysocial.net/big-data-better-marketing/
  42. 42. Big Data ● Exemplos ○ Social Media ○ Web Logs ○ Sensor Networks ○ Cadeias de DNA ○ LHC
  43. 43. E o poder de processamento?
  44. 44. E o poder de processamento??? ● Supercomputadores ??? ○ $$$ #Fail ● Multicomputadores !!! ○ $$$ :-)
  45. 45. E o poder de processamento??? ● Multicomputadores ○ Cluster ■ SIMD - Single Instruction Multiple Data ■ Rede Local ○ Grid ■ MIMD - Multiple Instruction Multiple Data ■ Distribuição geográfica
  46. 46. E o poder de processamento??? ● Cluster = Dividir para Conquistar ○ Sharding ■ Sistema de Arquivos Distribuídos ■ Dividir os dados ○ Map/Reduce ■ Processamento Distribuído & Paralelo ■ Dividir o processamento
  47. 47. Cluster ● Vantagens ○ Alto Desempenho ○ Alta Disponibilidade ○ Flexibilidade ○ Custo
  48. 48. Sharding ● Particionamento Horizontal Replicado ○ O total de dados é dividido em vários partes pequenas (shards - cacos); ○ As partes são divididas entre vários computadores ○ Cada parte tem pelo menos 3 cópias em computadores diferentes (segurança)
  49. 49. Sharding Comp 1 Comp 2 Comp 3 Comp 4 Comp N ... Master Dados Índice A B Dados C D Dados A C Dados B D Dados A D
  50. 50. Map/Reduce: Processamento Distribuído ● Essas tarefas são executadas em duas etapas: ○ Mapeamento ○ Redução
  51. 51. Map/Reduce: Processamento Distribuído ● Etapa de Mapeamento ○ O processamento total é dividido em pequenas tarefas ○ As tarefas são enviadas para os computadores executarem nos dados locais ○ Cada computador envia o resultado para o computador central
  52. 52. Mapeamento Comp 1 Proc. Comp 2 Proc. Comp 3 Proc. Comp 4 Proc. Comp N Proc. ... Master Geren Dados Dados Dados Dados Dados Índice
  53. 53. Map/Reduce: Processamento Distribuído ● Etapa de Redução ○ O computador central recebe o resultado do processamento dos outro computadores ○ Os resultados individuais são combinados em um resultado único
  54. 54. Redução Comp 1 Proc. Comp 2 Proc. Comp 3 Proc. Comp 4 Proc. Comp N Proc. ... Master Geren Dados Dados Dados Dados Dados Índice
  55. 55. Cluster Comp 1 Proc. Comp 2 Proc. Comp 3 Proc. Comp 4 Proc. Comp N Proc. ... Master Geren Dados Dados Dados Dados Dados Índice
  56. 56. Até aqui... ● Tenho muitos dados ○ De muitos tipos ○ Chegando muito rápido ● Tenho muito poder computacional ○ Muitos discos ○ Muitos processadores E o que eu faço com tudo isso???
  57. 57. Data Science
  58. 58. Ciência de Dados ● Objetivo ○ Encontrar PADRÕES e TENDÊNCIAS nos dados; ■ Novos ■ Potencialmente úteis ○ Desenvolver tecnologias a partir dos padrões encontrados.
  59. 59. Análise Descritiva Preditiva Diagnóstica Prescritiva Padrões Tendências Causas Ações
  60. 60. Data Science Bancos de DadosProgramação Estatística Inteligência Computacional Cálculo Metodologia de Pesquisa Gestão de Projetos Análise de Negócio Grafos e Redes Design Otimização Simulação Álgebra Linear
  61. 61. Data Science
  62. 62. Processos ● KDD - Knowledge Discovery in Databases (Fayyad, Piatetsky-Shapiro, 1996) ● SEMMA (SAS, 2000) ○ Sample, Explore, Modify, Model, Assess ● CRISP/DM (Chapman et al., 2000) ○ CRoss-Industry Standard Process for Data Mining
  63. 63. Data Mining (Azevedo, 2008)
  64. 64. Aquisição Armazenamento Análise Exploratória Modelagem Descritiva Visualização Transformação Modelagem Preditiva Teste e Experimentação Validação Implantação Seleção Dados Limpeza Problema Hipóteses Pré Processamento ProcessamentoPós Processam.
  65. 65. PRODUTOS Pré Processamento CLUSTER FONTES Estrut. Semi Estrut. Não Estrut. Proc. Dados Proc. Dados Proc. Dados Processamento Pós Processamento
  66. 66. Pré Processamento PreditivoDescritivo Regressão Agrupamento Associação Séries Temporais RecomendaçãoAnálise de Redes Redes Bayesianas Árvores de Decisão Redes Neurais Ganho de Informação Correlação PCA SVD SVM
  67. 67. https://community.jivesoftware.com/docs/DOC-30464
  68. 68. E o cientista de dados?
  69. 69. “Pessoa que é melhor em estatística do que um engenheiro de software e melhor em engenharia de software do que um estatístico” DJ Patil
  70. 70. Como se tornar um cientista de dados?
  71. 71. Conclusão
  72. 72. Conclusão ● Tudo está conectado! ● Nunca antes tivemos tantos dados, informações e conhecimento sobre tantas coisas; ● Há um vasto leque de possibilidades latentes...
  73. 73. Conclusão ● Data Science ○ Mais do mesmo ou novidade? ○ Uma nova renascença ou uma onda passageira? Até onde podemos chegar? O que somos capazes de fazer?
  74. 74. Efeito Borboleta "Um parafuso mal ajustado na planta de produção de uma fábrica pode causar uma crise econômica mundial?"
  75. 75. "Em Deus eu confio. Todos os outros precisam trazer dados" William E. Deming
  76. 76. "Dados são o novo petróleo!" William E. Deming
  77. 77. Conclusão Data Warehouse Big Data NoSQL ERP's Web Social Media Logs Arquivos E-mail Intelligence Analytics DADO INFORMAÇÃO CONHECIMENTO
  78. 78. Referências ● Azevedo, A.; Santos, M.F. KDD, SEMMA, and CRISP-DM: A Parallel Overview. Proceedings of the IADIS European Conference on Data Mining, Amsterdam, 2008, pp. 182-185. Disponível em http://recipp.ipp.pt/handle/10400.22/136. Acesso em 28/01/2013. ● Brewer, Eric A.: Towards Robust Distributed Systems. Portland, Oregon, July 2000. – Keynote at the ACM Symposium on Principles of Distributed Computing (PODC). Disponível em http://www.cs.berkeley.edu/~brewer/cs262b-2004/PODC- keynote.pdf Acesso em 27/01/2013. ● Chapman, P. et al. CRISP-DM 1.0 - Step-by-step data mining guide. 2000. Disponível em http://www.crisp-dm.org/CRISPWP-0800.pdf. Acesso em 27/01/2013. ● Chee, Timothy; Chan, Lee-Kwun et al. Business Intelligence Systems: State-of- the-art review and contemporary applications. In Symposium on Progress in Information & Communication Technology 2009. p. 96-101. ● Codd, Edgar F.: A Relational Model of Data for Large Shared Data Banks. In: Communications of the ACM 13 (1970), June, No. 6, p. 377–387
  79. 79. Referências ● Fayyad, U. M. et al. From data mining to knowledge discovery: an overview. In Fayyad, U. M.et al (Eds.), Advances in knowledge discovery and data mining. AAAI Press / The MIT Press. ● Fayyad, U. and Piatetsky-Shapiro, G. and Smyth, P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM v. 39, n. 11, p. 27-34. 1996. ● Inmon, W.H. Building the data warehouse. J. Wiley. 2002. ● MacVittie, Lori. The Four V’s of Big Data. Disponível em https://devcentral.f5. com/blogs/us/the-four-v-rsquos-of-big-data. Acesso em 27/01/2013. ● Pritchett, Dan. BASE: An ACID alternative. ACM Queue. 2008. Disponível em http://queue.acm.org/detail.cfm?id=1394128. Acesso em 27/01/2013. ● Kimball, R.; Ross, M. et al. The data warehouse toolkit: the complete guide to dimensional modelling. New York: 2002. ● SAS Institute. SAS Enterprise Miner – SEMMA. Disponível em http://www.sas. com/technologies/analytics/datamining/miner/semma.html. Acessado em 27/01/2013.

×