Setembro, 2013
R, Big Data e Ciências Sociais
Seminário de integração CEBRAP-SESC
Estrutura da apresentação
• Big Data
– Tendências e definições
•R
– Exemplos
•R, Big Data e Ciências Sociais
– Possibilidades
Big Data: uma tendência
Google Trends: volume de buscas pela expressão
“big data” no mundo
Big Data: uma tendência
Big Data: uma tendência
Google Trends: volume de buscas pela expressão
“big data” no Brasil
Big Data: uma tendência
Big Data: uma tendência
Mundo
• Big data analytics
• Data analytics
• Hadoop
• Hadoop big data
• The big data
• Big data google
• Big data ibm
• Big data 2013
• Big data oracle
• Big data wiki
Brasil
• veja big data
Expressões e buscas relacionadas:
Big data: o que é?
1 ZETA BYTE = 1 073 741 824 TB (≅ 1 bilhão de terabytes)
90% dos dados existentes foram produzidos nos últimos 12 meses
Big data: o que é?
1. Texto: emails, posts, tweets, notícias, relatórios, artigos
acadêmicos, conteúdo de sites etc.
2. Registros da web: informações sobre o acesso (Google
Analytics, Blogger, WordPress, Facebook), tendências das
buscas (Google Trends) etc.
3. Dados governamentais: IBGE, saúde (DataSUS), educação
(Inep, MEC), Portal da
Transparência, Siconv, TSE, CadÚnico, Matriz de
Informações Sociais etc. (Lei de Acesso à Informação)
4. Repositórios públicos: CIS, CEM, Observatório das
Metrópoles, IpeaData, IPUMs, Amazon Public DataSets
(AWS), Freebase, DataVerse,
5. Dados geográficos: mapas
(shapes, ruas, imagens), imagens de
satélite, coordenadas, endereços etc.
6. Filmes, livros, vídeos caseiros, fotos, quadros, charges…
Big data: o que é?
Veracity / Validity / Reliability
Big data: o que é?
• Interesses comerciais
– Clientes, produtos, perfis de mercado...
• Interesses Políticos
– Eleições
– Opinião/aprovação
– Gestão de políticas
• Interesses acadêmicos
– Novas fontes empíricas para pesquisa
– Etc...
Big data: Big problem
– Fontes difusas / Múltiplas / Diversas
– Periodicidade irregular
– Problemas de codificação
• Inconsistência
• IDs não padronizados
• Dados faltantes (missing)
• Dados duplicados
– Falta de controle sobre a produção do dado
• Eventuais viéses
– Dificuldade de acesso a fontes não públicas
– Operações repetitivas e “infinitas”
Big data: Big problem
Dados, muitos dados…. Lixo, muito lixo…
Como tornar útil a informação disponível?
Big data: Big problem
“Big data is not about the data”
Gary King
Big data: Capacidade de Análise
Analytics
• Infraestrutura
– Softwares: SAS, RevolutionR, Hadoop,
– Hardware: multicore, servidores,
clusters etc…
• “Capital Humano”
– Programação estatística, programação
“mesmo”, alguma iniciação em Exatas…
(Fenomeno da TI)
R & Big Data
• Open Source
• Ferramentas de análise de dados (estatística)
– Quantidade abrangente de pacotes e funções
• Ferramentas para gerenciar dados
• Plataforma de programação (automação)
– Coleta de dados na internet (webscrapping)
– Criação de rotinas e funções pelos próprios usuários
• Ampla comunidade
(fóruns, grupos, blogs, sites, ajudas on-
line, exemplos etc.)
R, Big Data e Ciências Sociais
• Pensar “fora da caixa”: novos dados, novas questões
• Necessidade de novas capacidades
• Velocidade e automação
• Quanti + Quali
• Aproximação de outras áreas de conhecimento

Slide cebrap

  • 1.
    Setembro, 2013 R, BigData e Ciências Sociais Seminário de integração CEBRAP-SESC
  • 2.
    Estrutura da apresentação •Big Data – Tendências e definições •R – Exemplos •R, Big Data e Ciências Sociais – Possibilidades
  • 3.
    Big Data: umatendência Google Trends: volume de buscas pela expressão “big data” no mundo
  • 4.
    Big Data: umatendência
  • 5.
    Big Data: umatendência Google Trends: volume de buscas pela expressão “big data” no Brasil
  • 6.
    Big Data: umatendência
  • 7.
    Big Data: umatendência Mundo • Big data analytics • Data analytics • Hadoop • Hadoop big data • The big data • Big data google • Big data ibm • Big data 2013 • Big data oracle • Big data wiki Brasil • veja big data Expressões e buscas relacionadas:
  • 8.
    Big data: oque é? 1 ZETA BYTE = 1 073 741 824 TB (≅ 1 bilhão de terabytes) 90% dos dados existentes foram produzidos nos últimos 12 meses
  • 9.
    Big data: oque é? 1. Texto: emails, posts, tweets, notícias, relatórios, artigos acadêmicos, conteúdo de sites etc. 2. Registros da web: informações sobre o acesso (Google Analytics, Blogger, WordPress, Facebook), tendências das buscas (Google Trends) etc. 3. Dados governamentais: IBGE, saúde (DataSUS), educação (Inep, MEC), Portal da Transparência, Siconv, TSE, CadÚnico, Matriz de Informações Sociais etc. (Lei de Acesso à Informação) 4. Repositórios públicos: CIS, CEM, Observatório das Metrópoles, IpeaData, IPUMs, Amazon Public DataSets (AWS), Freebase, DataVerse, 5. Dados geográficos: mapas (shapes, ruas, imagens), imagens de satélite, coordenadas, endereços etc. 6. Filmes, livros, vídeos caseiros, fotos, quadros, charges…
  • 10.
    Big data: oque é? Veracity / Validity / Reliability
  • 11.
    Big data: oque é? • Interesses comerciais – Clientes, produtos, perfis de mercado... • Interesses Políticos – Eleições – Opinião/aprovação – Gestão de políticas • Interesses acadêmicos – Novas fontes empíricas para pesquisa – Etc...
  • 12.
    Big data: Bigproblem – Fontes difusas / Múltiplas / Diversas – Periodicidade irregular – Problemas de codificação • Inconsistência • IDs não padronizados • Dados faltantes (missing) • Dados duplicados – Falta de controle sobre a produção do dado • Eventuais viéses – Dificuldade de acesso a fontes não públicas – Operações repetitivas e “infinitas”
  • 13.
    Big data: Bigproblem Dados, muitos dados…. Lixo, muito lixo… Como tornar útil a informação disponível?
  • 14.
    Big data: Bigproblem “Big data is not about the data” Gary King
  • 15.
    Big data: Capacidadede Análise Analytics • Infraestrutura – Softwares: SAS, RevolutionR, Hadoop, – Hardware: multicore, servidores, clusters etc… • “Capital Humano” – Programação estatística, programação “mesmo”, alguma iniciação em Exatas… (Fenomeno da TI)
  • 17.
    R & BigData • Open Source • Ferramentas de análise de dados (estatística) – Quantidade abrangente de pacotes e funções • Ferramentas para gerenciar dados • Plataforma de programação (automação) – Coleta de dados na internet (webscrapping) – Criação de rotinas e funções pelos próprios usuários • Ampla comunidade (fóruns, grupos, blogs, sites, ajudas on- line, exemplos etc.)
  • 18.
    R, Big Datae Ciências Sociais • Pensar “fora da caixa”: novos dados, novas questões • Necessidade de novas capacidades • Velocidade e automação • Quanti + Quali • Aproximação de outras áreas de conhecimento