SlideShare uma empresa Scribd logo
Carga viral
desinformativa:
léxicos e comportamento estruturais
Fábio Malini
LABIC | UFES
http://labic.net
fabiomalini@gmail.com
twitter: @fabiomalini
	
  
a url
pesquisa visual com os anúncios.
Todo anúncio é uma imagem. Possui um
tamanho padrão. Coletar (scraping) anúncios
em sites e revelar quem patrocina a
desinformação (fake news).
	
  
Frentes novas de pesquisa do labic
a rede de bots e fake news
comportamento estrutural na
distribuição de links maliciosos.
A rede distribuição da desinformação é mais
fragmentada. Contudo, na política, a
distribuição passa por clusters (grupos de
convertidos que se replicam).
	
  
os cyborgs
pesquisa de léxico político repetitivo.
Bots possuem comportamentos relativamente
simples de identificar. Já cyborgs demandam
análise lexical. Cyborgs (nova classe de bots)
possuem universo lexical empobrecido. Humanos
variam mais o seu universo vocabular.
	
  
Criamos no Labic um script
chamado “Word Suite”.
O	
  Foco	
  é	
  encontrar	
  
quais	
  são	
  as	
  palavras	
  
mais	
  frequentes	
  em	
  
blocos	
  de	
  tweets	
  (que	
  
podem	
  ser	
  semanais,	
  
mensais,	
  diários	
  etc)	
  
o	
  que	
  resulta	
  disso?	
  
	
  
Uma	
  Linha	
  do	
  tempo	
  
das	
  palavras	
  mais	
  
frequentemente	
  
uAlizados	
  por	
  um	
  
perfil,	
  por	
  exemplo.	
  	
  
WordSuite	
  de	
  perfil	
  @silva_marina.	
  
Legenda:	
  
Eixo	
  y:	
  frequência	
  da	
  palavra	
  em	
  100	
  tweets.	
  
Eixo	
  x:	
  sequência	
  de	
  13	
  blocos	
  de	
  100	
  tweets	
  (ou	
  seja,	
  coletei	
  úlDmos	
  1300	
  tweets	
  de	
  
Marina	
  Silva	
  no	
  TwiHer).	
  
	
  
WordSuite	
  de	
  perfil	
  @Lulapelobrasil.	
  
Legenda:	
  
Eixo	
  y:	
  frequência	
  da	
  palavra	
  em	
  100	
  tweets.	
  
Eixo	
  x:	
  sequência	
  de	
  33	
  blocos	
  de	
  100	
  tweets	
  (ou	
  seja,	
  coletei	
  úlDmos	
  3300	
  tweets	
  de	
  Lula	
  
da	
  Silva	
  no	
  TwiHer).	
  
	
  
wordSuite	
  de	
  perfil	
  @jairbolsonaro	
  
Legenda:	
  
Eixo	
  y:	
  frequência	
  da	
  palavra	
  em	
  100	
  tweets.	
  
Eixo	
  x:	
  sequência	
  de	
  33	
  blocos	
  de	
  100	
  tweets	
  (ou	
  seja,	
  coletei	
  úlDmos	
  3300	
  tweets	
  de	
  Jair	
  
Bolsonaro	
  no	
  TwiHer).	
  
O “Word Suite” pode também
demonstrar o fluxo de agendamento
de um perfil.
Podemos	
  separar	
  X	
  
palavras	
  mais	
  
frequentes	
  em	
  cada	
  
bloco	
  de	
  x	
  tweets.	
  
	
  
Por	
  x,	
  entende-­‐se	
  o	
  
número	
  determinado	
  
pelo	
  pesquisador.	
  	
  	
  
o	
  que	
  resulta	
  disso?	
  
	
  
Os	
  tópicos	
  de	
  
discussão	
  variam	
  
semana	
  a	
  semana,	
  o	
  
que	
  é	
  algo	
  muito	
  
caracterísAco	
  dos	
  
humanos	
  e	
  perfis	
  
insAtucionais.	
  	
  
Variação lexical de
perfis institucional.
Ex: @mblivre
Do	
  bloco	
  de	
  100	
  tweets	
  mais	
  
atuais	
  para	
  os	
  mais	
  anDgos.	
  
#WordSuite dos último 4 blocos de 100 tweets do perfil cyborg
@helena70942303
Reparem	
  a	
  baixa	
  variação	
  lexical	
  –	
  marca	
  dos	
  cyborgs	
  
datasets: http://bit.ly/2k1XJbf

Mais conteúdo relacionado

Mais de fabiomalini

Análises Automatizadas de tweets e posts: filtrando textos no twitter e no fa...
Análises Automatizadas de tweets e posts: filtrando textos no twitter e no fa...Análises Automatizadas de tweets e posts: filtrando textos no twitter e no fa...
Análises Automatizadas de tweets e posts: filtrando textos no twitter e no fa...
fabiomalini
 
Genealogia da internet (a cultura p2p)
Genealogia da internet (a cultura p2p)Genealogia da internet (a cultura p2p)
Genealogia da internet (a cultura p2p)
fabiomalini
 
Genealogia da internet (parte 3 - convergência e web 1.0 )
Genealogia da internet (parte 3 - convergência e web 1.0 )Genealogia da internet (parte 3 - convergência e web 1.0 )
Genealogia da internet (parte 3 - convergência e web 1.0 )
fabiomalini
 
A história da internet (o movimento californiano)
A história da internet (o movimento californiano)A história da internet (o movimento californiano)
A história da internet (o movimento californiano)
fabiomalini
 
Aula Pós Audiovisual Malini
Aula Pós Audiovisual MaliniAula Pós Audiovisual Malini
Aula Pós Audiovisual Malini
fabiomalini
 

Mais de fabiomalini (12)

Introdução à Teoria dos Grafos e Análise de Redes Sociais
Introdução à Teoria dos Grafos e Análise de Redes SociaisIntrodução à Teoria dos Grafos e Análise de Redes Sociais
Introdução à Teoria dos Grafos e Análise de Redes Sociais
 
Dados da Indignação: Protestos de 2013, Redes Sociais e Copa do Mundo
Dados da Indignação: Protestos de 2013, Redes Sociais e Copa do MundoDados da Indignação: Protestos de 2013, Redes Sociais e Copa do Mundo
Dados da Indignação: Protestos de 2013, Redes Sociais e Copa do Mundo
 
Análise de Redes Sociais, Grafos e #VemPRaRua
Análise de Redes Sociais, Grafos e #VemPRaRua Análise de Redes Sociais, Grafos e #VemPRaRua
Análise de Redes Sociais, Grafos e #VemPRaRua
 
Análises Automatizadas de tweets e posts: filtrando textos no twitter e no fa...
Análises Automatizadas de tweets e posts: filtrando textos no twitter e no fa...Análises Automatizadas de tweets e posts: filtrando textos no twitter e no fa...
Análises Automatizadas de tweets e posts: filtrando textos no twitter e no fa...
 
Visões preliminares do #VemPraRua
Visões preliminares do #VemPraRua Visões preliminares do #VemPraRua
Visões preliminares do #VemPraRua
 
Crítica e internet
Crítica e internetCrítica e internet
Crítica e internet
 
Genealogia da internet (a cultura p2p)
Genealogia da internet (a cultura p2p)Genealogia da internet (a cultura p2p)
Genealogia da internet (a cultura p2p)
 
Genealogia da internet (parte 3 - convergência e web 1.0 )
Genealogia da internet (parte 3 - convergência e web 1.0 )Genealogia da internet (parte 3 - convergência e web 1.0 )
Genealogia da internet (parte 3 - convergência e web 1.0 )
 
A história da internet (o movimento californiano)
A história da internet (o movimento californiano)A história da internet (o movimento californiano)
A história da internet (o movimento californiano)
 
Genealogia da internet
Genealogia da internetGenealogia da internet
Genealogia da internet
 
Aula Pós Audiovisual Malini
Aula Pós Audiovisual MaliniAula Pós Audiovisual Malini
Aula Pós Audiovisual Malini
 
Aula I Pós em Comunicação da Ufes
Aula I Pós em Comunicação da UfesAula I Pós em Comunicação da Ufes
Aula I Pós em Comunicação da Ufes
 

WordSuite: como identificar cyborgs no Twitter

  • 1. Carga viral desinformativa: léxicos e comportamento estruturais Fábio Malini LABIC | UFES http://labic.net fabiomalini@gmail.com twitter: @fabiomalini  
  • 2. a url pesquisa visual com os anúncios. Todo anúncio é uma imagem. Possui um tamanho padrão. Coletar (scraping) anúncios em sites e revelar quem patrocina a desinformação (fake news).   Frentes novas de pesquisa do labic
  • 3. a rede de bots e fake news comportamento estrutural na distribuição de links maliciosos. A rede distribuição da desinformação é mais fragmentada. Contudo, na política, a distribuição passa por clusters (grupos de convertidos que se replicam).  
  • 4. os cyborgs pesquisa de léxico político repetitivo. Bots possuem comportamentos relativamente simples de identificar. Já cyborgs demandam análise lexical. Cyborgs (nova classe de bots) possuem universo lexical empobrecido. Humanos variam mais o seu universo vocabular.  
  • 5. Criamos no Labic um script chamado “Word Suite”. O  Foco  é  encontrar   quais  são  as  palavras   mais  frequentes  em   blocos  de  tweets  (que   podem  ser  semanais,   mensais,  diários  etc)   o  que  resulta  disso?     Uma  Linha  do  tempo   das  palavras  mais   frequentemente   uAlizados  por  um   perfil,  por  exemplo.    
  • 6. WordSuite  de  perfil  @silva_marina.   Legenda:   Eixo  y:  frequência  da  palavra  em  100  tweets.   Eixo  x:  sequência  de  13  blocos  de  100  tweets  (ou  seja,  coletei  úlDmos  1300  tweets  de   Marina  Silva  no  TwiHer).    
  • 7. WordSuite  de  perfil  @Lulapelobrasil.   Legenda:   Eixo  y:  frequência  da  palavra  em  100  tweets.   Eixo  x:  sequência  de  33  blocos  de  100  tweets  (ou  seja,  coletei  úlDmos  3300  tweets  de  Lula   da  Silva  no  TwiHer).    
  • 8. wordSuite  de  perfil  @jairbolsonaro   Legenda:   Eixo  y:  frequência  da  palavra  em  100  tweets.   Eixo  x:  sequência  de  33  blocos  de  100  tweets  (ou  seja,  coletei  úlDmos  3300  tweets  de  Jair   Bolsonaro  no  TwiHer).  
  • 9. O “Word Suite” pode também demonstrar o fluxo de agendamento de um perfil. Podemos  separar  X   palavras  mais   frequentes  em  cada   bloco  de  x  tweets.     Por  x,  entende-­‐se  o   número  determinado   pelo  pesquisador.       o  que  resulta  disso?     Os  tópicos  de   discussão  variam   semana  a  semana,  o   que  é  algo  muito   caracterísAco  dos   humanos  e  perfis   insAtucionais.    
  • 10. Variação lexical de perfis institucional. Ex: @mblivre Do  bloco  de  100  tweets  mais   atuais  para  os  mais  anDgos.  
  • 11. #WordSuite dos último 4 blocos de 100 tweets do perfil cyborg @helena70942303 Reparem  a  baixa  variação  lexical  –  marca  dos  cyborgs