O documento discute técnicas de coleta de dados relacionais nas mídias sociais, com foco no Facebook. Apresenta diferentes abordagens teóricas para o estudo de redes sociais e explica conceitos como Graph API, limitações de coleta por palavras-chave e métodos alternativos como amostragem por atores e grafos. Também explica aplicativos como Netvizz e Facepager que facilitam a extração de dados a partir das APIs.
2. COLETA DE
Dados
Relacionais
nas mídias sociais
Instrutor – Marcelo Alves
• Doutorando pelo PPGCOM/UFF;
• Estuda comunicação política em rede;
• Sócio-diretor da Vértice Inteligência;
• Pesquisador do laboratório de mídia e
democracia (LAMIDE/UFF);
• Professor do curso de análise de redes do
IBPAD
COLETA DE
Dados Relacionais
nas mídias sociais
3. N = 532 fan-
pages
A = 8.654
arestas
Rede antipetista
na eleição de
2014
5. COLETA DE
Dados
Relacionais
nas mídias sociais
O que você vai aprender
• O básico da concepção teórica da análise de redes;
• Processos de coletas de dados relacionais;
• Leitura da documentação da Graph API do Facebook
• Coleta – Básico - Netvizz
• Coleta – Intermediário: Métodos de construções de
queries;
• Funcionamento e prática com Facepager;
• Práticas de extração de dados;
• Mapeamento de fan-pages;
• Tratamento e manipulação de dados relacionais;
• Importar dados no Gephi.
COLETA DE
Dados Relacionais
nas mídias sociais
6. COLETA DE
Dados
Relacionais
nas mídias sociais
Por que o Facebook?
• A maior parte das pesquisas acadêmicas tem como
objeto o Twitter;
• O principal argumento é que a Search API do Twitter
tem caráter mais aberto que o Facebook;
• Esse argumento é verdadeiro em partes;
• Dependendo do tipo de pesquisa e dos dados
desejados, o Facebook pode ser mais generoso;
• O Facebook é a plataforma de longe mais utilizada
(83%, PBM) e não pode ser ignorada pelas pesquisas!
COLETA DE
Dados Relacionais
nas mídias sociais
8. COLETA DE
Dados
Relacionais
nas mídias sociais
As três operacionalizações de redes sociais
• Podemos organizar a literatura que fala de redes em
três linhas gerais:
1) Metafórica/ensaística: abordagem abstrata sobre
as “redes” e seus efeitos;
2) Normativa: orienta a perspectiva de acordo com
um ideal, por exemplo, as noções de
horizontalidade e descentralização;
3) Ferramentas analíticas: modo de observar e
estudar situações sociais específicas.
Eduardo Marques,
Os mecanismos relacionais
COLETA DE
Dados Relacionais
nas mídias sociais
9. COLETA DE
Dados
Relacionais
nas mídias sociais
As três operacionalizações de redes sociais
“Os ganhos analíticos do uso do método advêm do fato
de que os padrões de relação de diversas situações
sociais apresentam complexidade tão elevada que
não podem ser analisados satisfatoriamente por
meio de narrativas que explorem metaforicamente
as redes”
Eduardo Marques,
Os mecanismos relacionais
COLETA DE
Dados Relacionais
nas mídias sociais
10. COLETA DE
Dados
Relacionais
nas mídias sociais
A visão mística/abstrata
“A comunicação em rede oferece enormes possibilidades
de incrementar a participação cidadã ao invés de reduzir
a democracia a um voto midiatizado a cada quatro anos.
E como há canais institucionais, a sociedade se expressa
através de suas formas autônomas de debate,
organização e manifestação, online e nas ruas. Nesse
sentido, a comunicação em rede está revitalizando a
democracia mediante a crítica aos partidos
burocratizados e aos políticos corruptos”
Manuel Castells
Entrevista
COLETA DE
Dados Relacionais
nas mídias sociais
11.
12. COLETA DE
Dados
Relacionais
nas mídias sociais
A visão empírica
“The overall picture shows a startling concentration of
attention on a handful of hypersuccessful sites.
Excluding one low-end outlier, the most successful sites in
these crawls receive between 14 and 54 percent of the
total links—all to a single source of information.”
Matthew Hindman
The mith of digital democracy
COLETA DE
Dados Relacionais
nas mídias sociais
13.
14. c
COLETA DE
Dados Relacionais
nas mídias sociais
Coleta de dados é uma
disputa com
plataformas comerciais
que nem sempre visam
o interesse
público/acadêmico
Como dar conta da “rede”? Como
sistematizar observações e registrar
padrões relacionais nas mídias sociais??
15. COLETA DE
Dados
Relacionais
nas mídias sociais
A plataformização da web
“I use the term “platformization” to refer to the rise of the
platform as the dominant infrastructural and economic
model of the social web and the consequences of the
expansion of social media platforms into other spaces
online. Central to this is the offer of APIs, which turn
social network sites into social media platforms.”
Anne Helmond
The Platformization of the Web
COLETA DE
Dados Relacionais
nas mídias sociais
16. COLETA DE
Dados
Relacionais
nas mídias sociais
A plataformização da web
Podemos entender que as redes sociais observadas nas
mídias sociais são condicionadas e derivadas das
affordances, características específicas da infraestrutura
das plataformas, combinada com os usos que as pessoas
fazem.
COLETA DE
Dados Relacionais
nas mídias sociais
17. COLETA DE
Dados
Relacionais
nas mídias sociais
As políticas da coleta de dados
“To be sure, while social media APIs make data publicly
available, they are not open in the sense of giving full and
unlimited access to the entire database of companies
such as Twitter and Facebook.”
Using APIs for Data Collection on Social Media
Stine Lomborg & Anja Bechmann
COLETA DE
Dados Relacionais
nas mídias sociais
18. COLETA DE
Dados
Relacionais
nas mídias sociais
As políticas da coleta de dados
“Any social scientist undertaking research using corporate
social media platforms will acknowledge the incredible
complexity in getting access to data (…) Corporate social
media platforms tend to favour for-profit applications
and uses of their services, and this has consequences in
terms of accessibility of data for public and critical
research. In particular, data from corporate social media
platforms is accessible via application programming
interfaces (API).”
The research politics of social media platforms
Ganaele Langlois and Greg Elmer
COLETA DE
Dados Relacionais
nas mídias sociais
20. COLETA DE
Dados
Relacionais
nas mídias sociais
Os objetos do Facebook
• O Facebook possui uma lista gigantesca de objetos.
• Diferentemente do Twitter, há classes diferentes de
usuários
• Grosso modo, podemos dividir dois tipos de objetos.
Nós:
1) Perfis
2) Fan-pages
3) Grupos
4) Eventos
5) Links
6) Lugares
COLETA DE
Dados Relacionais
nas mídias sociais
21. COLETA DE
Dados
Relacionais
nas mídias sociais
Os objetos do Facebook
• E ligações (ações):
1) Postagens
2) Curtidas
3) Comentários
4) Compartilhamentos
5) Marcações
COLETA DE
Dados Relacionais
nas mídias sociais
25. COLETA DE
Dados
Relacionais
nas mídias sociais
Raspagem X APIs
• Há duas técnicas muito usadas para coletar dados na
internet:
1) Raspagem (scraping): exibe o código HTML na
página e “raspa” os dados desejados de acordo com
marcações padronizadas;
2) Coleta por API: o próprio website oferece uma
interface oficial para extração de dados e define políticas
de uso e acessibilidade.
COLETA DE
Dados Relacionais
nas mídias sociais
26. COLETA DE
Dados
Relacionais
nas mídias sociais
Qual técnica utilizar?
• Sempre que o website oferecer uma API, orienta-se que
a coleta de dados utilize essa interface.
• Há muitas vantagens associadas ao uso das APIs:
1) São permitidos e regulados pela plataforma;
2) Permitem extração de grande volume de dados
com maior velocidade;
3) Podem ser implementados por diversos
aplicativos coletores, como Netvizz e Facepager.
COLETA DE
Dados Relacionais
nas mídias sociais
28. COLETA DE
Dados
Relacionais
nas mídias sociais
Application Programming Interface
• APIs são tanto documentos técnicos, quanto reflexos
das diretrizes empresariais de fornecimento de dados;
• APIs são modificadas frequentemente, de acordo com as
necessidades e interesses mercadológicos das
organizações;
• As documentações mostram quais requisições são
possíveis (queries), em qual volume (rate limit) e com
quais parâmetros.
COLETA DE
Dados Relacionais
nas mídias sociais
29. COLETA DE
Dados
Relacionais
nas mídias sociais
Facebook Graph API
• A interface de coleta de dados do Facebook chama-se
Graph API.
• A Graph API já possui 10 versões;
• Seis estão ativas: 2.4 – 2.9
• As versões anteriores a 2.3 foram descontinuadas.
• A única que permitia a coleta de dados de perfis e a
busca por postagens com palavra-chave era a 1.0
• Ela não funciona mais desde 2015.
• Todas as APIs do Facebook tem funcionamento de dois
anos.
COLETA DE
Dados Relacionais
nas mídias sociais
33. COLETA DE
Dados
Relacionais
nas mídias sociais
Técnicas de amostragem para internet
Berhardt Rieder (2012)
• Amostra por tópicos: queries por palavras-chave e
hashtags. É o método mais comum no Twitter. Todavia,
não funciona no Facebook desde a descontinuidade da
Graph API 1.0 em 2015;
• População: volume completo de usuários e publicações
de uma determinada plataforma. Geralmente, é
adquirido a partir da compra do banco de dados da
empresa. Estudo utilizando dados populacionais =
(Freelon et al., 2016);
COLETA DE
Dados Relacionais
nas mídias sociais
34. COLETA DE
Dados
Relacionais
nas mídias sociais
Técnicas de amostragem para internet
Berhardt Rieder (2012)
• Amostra aleatória: forma mais utilizada nas ciências
sociais e exatas. No entanto, como não se sabe a
população, há uma série de problemas derivados;
• Amostra por marcações: compilada a partir de
marcadores geográficos ou linguísticos, como latitude e
longitude (espaço) ou linguagem (português, inglês,
espanhol...). A implementação de coleta por marcações
no Facebook é bem limitada, como veremos mais à
frente.
COLETA DE
Dados Relacionais
nas mídias sociais
35. COLETA DE
Dados
Relacionais
nas mídias sociais
Técnicas de amostragem para internet
Berhardt Rieder (2012)
• Amostra por atores: seleciona determinados objetos
para coleta de dados. Frequentemente utilizado para
estudo de campanhas eleitorais, focando nos candidatos,
imprensa ou partidos.
• Amostra por grafos: Examina relações a partir do
mapeamento de uma série de agentes e faz seleções com
base no resultado. Minha dissertação e tese utilizam o
procedimento.
COLETA DE
Dados Relacionais
nas mídias sociais
37. COLETA DE
Dados
Relacionais
nas mídias sociais
Coleta relacional
• O que chamamos aqui de coleta relacional é uma
perspectiva que orienta o desenho de pesquisa e a
extração de dados a partir dos metadados que apontam
para características de relações entre objetos nas
plataformas de mídias sociais.
Isso quer dizer que a coleta busca identificar padrões e
dinâmicas relacionais, encontrar as conexões entre atores,
fluxos de conteúdos, menções, práticas de hiperlink, etc...
COLETA DE
Dados Relacionais
nas mídias sociais
38. COLETA DE
Dados
Relacionais
nas mídias sociais
Coleta hierárquica relacional no Facebook
(adaptado de Bruns e Burgess, 2014)
• A API do Facebook não permite a coleta de dados por
palavras-chave ou por hashtags. Método mais utilizado
no Twitter, esta é uma das principais razões porque o
Facebook é plataforma pouco utilizada em pesquisas de
métodos digitais.
• Assim, surge a questão, como realizar desenhos de
pesquisa especificamente para o Facebook?
COLETA DE
Dados Relacionais
nas mídias sociais
39. COLETA DE
Dados
Relacionais
nas mídias sociais
Coleta hierárquica relacional no Facebook
(adaptado de Bruns e Burgess, 2014)
• A estratégia mais comum é focar em poucos atores,
como as fan-pages de candidatos durante períodos
eleitorais.
• Embora viável do ponto de vista metodológico, essa
opção ignora todas as dinâmicas relacionais que
acontecem em torno daqueles candidatos.
• A coleta relacional, por outro lado, privilegia as
conexões entre os atores nas mídias sociais
• Para tanto, usam métodos de amostragem por grafos
e bola de neve.
COLETA DE
Dados Relacionais
nas mídias sociais
40.
41. COLETA DE
Dados
Relacionais
nas mídias sociais
Implementação de aplicativos de
coleta
• As APIs são instrumentos públicos;
• Funcionam como tubos de cessão de dados a partir de
requisições;
• Muitos aplicativos foram desenvolvidos (pagos ou
gratuitos) para facilitar a extração;
• Os aplicativos mais comuns do Facebook são: Netvizz,
Netlytic e Facepager;
• Eles fazem o trabalho pesado de conexão à API e
oferecem interfaces fáceis de operacionalizar
COLETA DE
Dados Relacionais
nas mídias sociais
44. COLETA DE
Dados
Relacionais
nas mídias sociais
Netvizz
• É a ferramenta mais estáveis e conhecida para extração
de dados do Facebook;
• Possui integração com grande número de objetos;
• Suas queries são padronizadas – não é possível
modificar os metadados;
• É rápido e faz tratamentos básicos nos dados;
• Só permite a coleta de um objeto por vez, o que torna
grandes extrações demoradas ou inviáveis
• Anonimiza os perfis por default
COLETA DE
Dados Relacionais
nas mídias sociais
45. COLETA DE
Dados
Relacionais
nas mídias sociais
Netvizz – Módulos: Grupos
• Coleta postagens realizadas em grupos do Facebook;
• Retorna quatro objetos:
1) Métricas básicas por postagem;
2) Métricas de engajamento por dia;
3) Comentários de usuários;
4) Arquivo .gdf com as interações para importar no
Gephi
5) Coleta somente grupos abertos ou que o usuário
é membro
COLETA DE
Dados Relacionais
nas mídias sociais
47. COLETA DE
Dados
Relacionais
nas mídias sociais
Netvizz – Módulos: páginas
• Coleta postagens de fan-pages;
• Retorna cinco objetos:
1) Métricas básicas por postagem;
2) Métricas de engajamento por dia;
3) Seguidores da página por país;
4) Comentários de usuários;
5) Arquivo .gdf com as interações para importar no
Gephi
COLETA DE
Dados Relacionais
nas mídias sociais
49. COLETA DE
Dados
Relacionais
nas mídias sociais
Netvizz – Módulo: Page Like
• Cria uma rede a partir de como as páginas se seguem;
• O módulo parte de uma página – chamada de semente
• Coleta as fan-pages que a página curte/segue
• Extrai ligações de como elas se seguem
• Gera um arquivo .gdf para ser importado no Gephi
• O padrão de coleta é 1,5 (pois analisa as ligações entre
as páginas)
• Chega a 2 graus de profundidade – retorno deve ser
filtrado
COLETA DE
Dados Relacionais
nas mídias sociais
50. COLETA DE
Dados
Relacionais
nas mídias sociais
Netvizz – Módulo: Page Like
• page network (directed) - gdf format – nós são páginas
name: the page id
label: the page name
username: the page username
category: page category according to Facebook's ontology
post_activity: posts per hour, based on the last 50 posts
fan_count: number of likes a page has received
talking_about_count: current attention metric provided by Facebook
users_can_post: whether page users are allowed to publish posts on the
page
link: a direct link to the page
COLETA DE
Dados Relacionais
nas mídias sociais
52. COLETA DE
Dados Relacionais
O módulo de busca é um instrumento eficiente para fazer pesquisas
no Facebook e começar a levantar objetos para coletas futuras.
Netvizz – Módulo: Search
• Faz buscas no Facebook a partir de palavras-chave;
• Não permite procurar postagens;
• Busca quarto objetos:
1) Páginas
2) Grupos
3) Eventos
4) Lugares
COLETA DE
Dados Relacionais
nas mídias sociais
54. COLETA DE
Dados Relacionais
A análise de links é bem interessante para pesquisas que investiguem
a disseminação de informações no Facebook!
Netvizz – Módulo: Link
• Faz requisições a partir de links de outros websites.
• Retorna três informações:
1) Total de Curtidas
2) Total de Comentários
3) Total de compartilhamentos
COLETA DE
Dados Relacionais
nas mídias sociais
56. Netvizz - avaliação
• O Netvizz é um aplicativo rápido e extremamente eficiente
para extração de dados do Facebook;
• Há vários módulos que podem resolver o problema para
muitos desenhos de pesquisa diferentes;
• No entanto, o Netvizz não permite personalização das
queries;
• Isso quer dizer que aproveita apenas uma parte da API
do Facebook
• Também só faz um pedido por vez. O que pode ser um
problema para pesquisas com muitas páginas.
COLETA DE
Dados Relacionais
nas mídias sociais
58. Facebook Graph API
• Explorar a API das plataformas é o próximo passo para a
extração de dados;
• Por meio da construção de requisições (queries)
podemos vasculhar a documentação do Facebook por
metadados específicos
• Também é possível fazer coleta de vários objetos de
uma só vez. Ou seja, podemos extrair as postagens de
várias páginas.
• Isso agiliza muito o processo de coleta de grande
volume de dados!
COLETA DE
Dados Relacionais
nas mídias sociais
59. Facebook Graph API – Conceitos básicos
• Token de acesso: código pessoal e intransferível para acessar
a API. Funciona como uma senha. Ele registra todas as coletas
em seu perfil. Dura duas horas a cada validação;
• Permissões: são os pontos da API a serem requisitados;
• Query: é o comando para solicitação de dados. É com
ela que se faz o pedido de extração
• JSON: JavaScript Object Notation – formato de dados
fornecido pela API. É parseado para exportar em csv.
COLETA DE
Dados Relacionais
nas mídias sociais
60. Facebook Graph API – prática
COLETA DE
Dados Relacionais
nas mídias sociais
https://developers.facebook.com/tools/explorer/
61. Construindo query no navegador
https://graph.facebook.com/v2.6/ + id /
{requisição} ?access_token= {token de
acesso}
https://graph.facebook.com/v2.6/dilmarousseff/likes?access_token=EAACEdEose0cBAErGN0ycFbkfEzlhW8o
0whxulUmELq3y0bZBVh0sxbNUtUvddkuF0vQmoz9zlUln9QG9oRypH75VEEI2HI39HlsN6rYA9vZCXWYvaVTk
PRN585mUqS07AeCW9HHVOvo5wIiGDgfTtu8jNioAof51U4v1n5YQYZBr0tChVsQiblwFj6KOhkZD
Facebook Graph API – exibição
COLETA DE
Dados Relacionais
nas mídias sociais
64. Facepager - Till Keyling e Jakob junger
• Código aberto;
• Programando em Python 2.7;
• Introduz boa parte dos conceitos de data mining, como
query, data munging, data storage, log de processos...
• É uma interface para se comunicar com a API e elaborar a
query de forma personalizada;
• Alto grau de liberdade para os usuários operarem as
requisições;
• Funciona com Facebook e Twitter;
COLETA DE
Dados Relacionais
nas mídias sociais
65. Facepager - abas
COLETA DE
Dados Relacionais
nas mídias sociais
retorno
metadados
Json key
Sistema
query
66.
67. Facepager – search
Notação: /search ? type= {user, page, event, group, place}
& q= {palavra+chave} & fields=
search?type=page&q=dilma+rousseff&fields=id,name,lin
k,description,category
COLETA DE
Dados Relacionais
nas mídias sociais
70. Facepager – publicações KEYS
COLETA DE
Dados Relacionais
nas mídias sociais
name
from.name
from.category
from.id
to.data.*.id
to.data.*.name
story_tags
sharedposts.data
posts.data
story
link
caption
message_tags
message
status_type
type
shares.count
created_time
updated_time
reactions.summary.total_count
likes.summary.total_count
comments.summary.total_cou
nt
shares.count
71. Facepager – publicações - relacional
COLETA DE
Dados Relacionais
nas mídias sociais
Links – referentes aos links compartilhados nas
publicações. Só registrando quando a postagem é de
tipo LINK;
Caption – referente ao domínio do link;
Message_tags – perfis marcados na mensagem (similar
a @mention);
Status_type – identificar compartilhamentos e links;
Story_tags – fluxo de compartilhamento
To – Perfis mencionados
With_tags – Com quem estou.
72. Facepager – ligações dos posts
COLETA DE
Dados Relacionais
nas mídias sociais
/likes – quem curtiu o post
/comments – quem comentou o post, comentário e
quantos likes recebeu.
Query pode ser feita sobre objeto comentário para
extrair respostas;
/sharedposts - postagens compartilhadas
• Testar shared posts com ID conjunto e Object ID do
post!
75. Facepager ou Netvizz?
COLETA DE
Dados Relacionais
nas mídias sociais
Não há ferramenta melhor ou pior!
Isso depende do desenho e do objeto da pesquisa….
Como regra geral, podemos afirmar:
Facepager: Queries personalizadas e muitos objetos
Netvizz: requisições normais com poucos objetos.
77. Etapas do mapeamento de fan-pages
(BRUNS, 2007; ADAM et al., 2015)
COLETA DE
Dados Relacionais
nas mídias sociais
• Lista de nós-sementes;
• Nós-sementes devem ser temáticos e homogêneos.
• Bola de neve – crawling com 1 ou 2 graus de
profundidade;
• Limpeza do resultado;
• Manipulação de dados – lista de nós e arestas;
• Importação no Gephi;
• Categorização dos atores
78. A função user like
COLETA DE
Dados Relacionais
nas mídias sociais
Notação: id ? fields = likes {aninhamento de
parâmetros}
Exemplo:
dilmarousseff?fields=likes{name, category, id, link,
about}
79. TRATAMENTO DE DADOS
COLETA DE
Dados Relacionais
nas mídias sociais
1) Filtros para limpeza de logs;
2) Preparação das listas de nós e arestas
Arestas
Funçao PROC (=PROC(B684;$A$3:$A$506;$E$3:$E$506)
Criar source e target
Nós
Eliminar duplicatas
93. Referências
COLETA DE
Dados Relacionais
nas mídias sociais
ADAM, Silke et al. Identifying and Analyzing Hyperlink Issue Networks, In: VOWE ,Gerhard, HENN, Philipp. Political
Communication in the Online World (Orgs), Routledge: New York, London, p. 233-247, 2015.
ALVES, Marcelo. Coleta de dados nas mídias sociais. In: SILVA, Tarcízio; STABILE, Max (orgs.), Monitoramento e Pesquisa
em Mídias Sociais: metodologias, aplicações e inovações, Uva Limão, 2016.
BENKLER, Yochai. Political Freedom part 2: Emergence of the networked public sphere. The Wealth of Networks: How
Social Production Transforms Markets and Freedom, 2006.
BRUNS, Axel. Methodologies for mapping the political blogosphere: An exploration using the IssueCrawler research
tool. First Monday, v. 12, n. 5, 2007.
CHADWICK, Andrew. Digital network repertoires and organizational hybridity. Political Communication, v. 24, n. 3, p.
283-301, 2007.
CHADWICK, Andrew. The political information cycle in a hybrid news system: The British prime minister and the
“Bullygate” affair. The International Journal of Press/Politics, v. 16, n. 1, p. 3-29, 2011.
CHADWICK, Andrew. The hybrid media system: Politics and power. Oxford University Press, 2013.
FREELON, Deen; MCILWAIN, Charlton D.; CLARK, Meredith D. Beyond the hashtags:# Ferguson,# Blacklivesmatter, and the
online struggle for offline justice. 2016.
KLINGER, Ulrike; SVENSSON, Jakob. The emergence of network media logic in political communication: A theoretical
approach. New media & society, v. 17, n. 8, p. 1241-1257, 2015.
RECUERO, Raquel. Redes sociais na internet. Sulina, 2009.
RIEDER, Bernhard. The refraction chamber: Twitter as sphere and network. First Monday, v. 17, n. 11, 2012.
ROGERS, Richard. Information politics on the Web. MIT Press, 2004.
WASSERMAN, Stanley; FAUST, Katherine. Social network analysis: Methods and applications. Cambridge university
press, 1994.