Slide cebrap

191 visualizações

Publicada em

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
191
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
1
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Slide cebrap

  1. 1. Setembro, 2013 R, Big Data e Ciências Sociais Seminário de integração CEBRAP-SESC
  2. 2. Estrutura da apresentação • Big Data – Tendências e definições •R – Exemplos •R, Big Data e Ciências Sociais – Possibilidades
  3. 3. Big Data: uma tendência Google Trends: volume de buscas pela expressão “big data” no mundo
  4. 4. Big Data: uma tendência
  5. 5. Big Data: uma tendência Google Trends: volume de buscas pela expressão “big data” no Brasil
  6. 6. Big Data: uma tendência
  7. 7. Big Data: uma tendência Mundo • Big data analytics • Data analytics • Hadoop • Hadoop big data • The big data • Big data google • Big data ibm • Big data 2013 • Big data oracle • Big data wiki Brasil • veja big data Expressões e buscas relacionadas:
  8. 8. Big data: o que é? 1 ZETA BYTE = 1 073 741 824 TB (≅ 1 bilhão de terabytes) 90% dos dados existentes foram produzidos nos últimos 12 meses
  9. 9. Big data: o que é? 1. Texto: emails, posts, tweets, notícias, relatórios, artigos acadêmicos, conteúdo de sites etc. 2. Registros da web: informações sobre o acesso (Google Analytics, Blogger, WordPress, Facebook), tendências das buscas (Google Trends) etc. 3. Dados governamentais: IBGE, saúde (DataSUS), educação (Inep, MEC), Portal da Transparência, Siconv, TSE, CadÚnico, Matriz de Informações Sociais etc. (Lei de Acesso à Informação) 4. Repositórios públicos: CIS, CEM, Observatório das Metrópoles, IpeaData, IPUMs, Amazon Public DataSets (AWS), Freebase, DataVerse, 5. Dados geográficos: mapas (shapes, ruas, imagens), imagens de satélite, coordenadas, endereços etc. 6. Filmes, livros, vídeos caseiros, fotos, quadros, charges…
  10. 10. Big data: o que é? Veracity / Validity / Reliability
  11. 11. Big data: o que é? • Interesses comerciais – Clientes, produtos, perfis de mercado... • Interesses Políticos – Eleições – Opinião/aprovação – Gestão de políticas • Interesses acadêmicos – Novas fontes empíricas para pesquisa – Etc...
  12. 12. Big data: Big problem – Fontes difusas / Múltiplas / Diversas – Periodicidade irregular – Problemas de codificação • Inconsistência • IDs não padronizados • Dados faltantes (missing) • Dados duplicados – Falta de controle sobre a produção do dado • Eventuais viéses – Dificuldade de acesso a fontes não públicas – Operações repetitivas e “infinitas”
  13. 13. Big data: Big problem Dados, muitos dados…. Lixo, muito lixo… Como tornar útil a informação disponível?
  14. 14. Big data: Big problem “Big data is not about the data” Gary King
  15. 15. Big data: Capacidade de Análise Analytics • Infraestrutura – Softwares: SAS, RevolutionR, Hadoop, – Hardware: multicore, servidores, clusters etc… • “Capital Humano” – Programação estatística, programação “mesmo”, alguma iniciação em Exatas… (Fenomeno da TI)
  16. 16. R & Big Data • Open Source • Ferramentas de análise de dados (estatística) – Quantidade abrangente de pacotes e funções • Ferramentas para gerenciar dados • Plataforma de programação (automação) – Coleta de dados na internet (webscrapping) – Criação de rotinas e funções pelos próprios usuários • Ampla comunidade (fóruns, grupos, blogs, sites, ajudas on- line, exemplos etc.)
  17. 17. R, Big Data e Ciências Sociais • Pensar “fora da caixa”: novos dados, novas questões • Necessidade de novas capacidades • Velocidade e automação • Quanti + Quali • Aproximação de outras áreas de conhecimento

×