Data mining em redes sociais
SigaSeuTime (BREAKING NEWS)
Uso de taxa de cliques por
minuto em notícias enviadas
para o Twitter para determinar
notícias importantes / urgentes.
Primeiro experimento:
SigaSeuTime (BREAKING NEWS)
Aprendizado:
O tempo de reação de
informações enviadas em redes
sociais é muito rápido, e portanto
permite análises em tempo real
bastante úteis.
Primeiro experimento:
Uso de streaming real time
Twitter para determinar a
“temperatura” de torcedores de
futebol em tempo real
Tuitômetro das torcidas
Segundo experimento:
Na (trágica) eliminação do
Corinthians pelo Tolima,
capturamos
5500 tweets / minuto
(e depois o servidor caiu…)
Tuitômetro das torcidas
Segundo experimento:
Aprendizado 1:
O fenômeno de second screen é
real, e permite que se analise em
tempo real a opinião das
pessoas em relação a eventos.
“IBOPE SOCIAL”
Tuitômetro das torcidas
Segundo experimento:
Aprendizado 2:
O Streaming real time gratuito do
Twitter é uma fonte de
informações valiosíssima e muito
rápida.
4MM tweets / dia
Tuitômetro das torcidas
Segundo experimento:
Experimento cujo objetivo é
verificar se o valor de uma marca
se reflete no buzz online que ela
gera.
http://mosttweetedbrands.com
Most Tweeted Brands
Terceiro experimento:
Em média, 2MM de Tweets / dia
A marca mais citada no Twitter
é….
O Facebook
Most Tweeted Brands
Terceiro experimento:
BrandMagz
Quarto experimento:
Revista digital que mede o pulso
de uma marca / celebridade /
tema nas redes sociais
Quais as fontes de dados?
APIs, APIs, APIs…
• Palavras chave
• Regras de exclusão
• Hints
Como os dados são coletados?
Detecção de lingua:
• CLD (chromium compact language detector)
• https://code.google.com/p/chromium-compact-
language-detector/
Wordcloud
• NLTK (Natural Language Toolkit)
• http://www.nltk.org/
Quais dados são extraídos?
Texto
• 50% dos tweets geolocalizados
– Minoria adiciona informação de lat/long no
tweet (-5%)
– Análise de texto livre
• Base de dados própria com nomes de cidades em
diversas linguas
– 3744 nomes de cidades
– 1900 nomes de países
– 90 provincias
Quais dados são extraídos?
Geolocalização
• Fotos
–Instagram
–Facebook
–Twitter
• Video
–Facebook
–Vine
–Youtube
–Vimeo
Quais dados são extraídos?
Mídia
• Links externos encontrados em posts são
tratados separadamente
• Conteúdos de blogs e notícias são
processados por algoritmo de “limpeza”
de HTML
– Heurísticas para extração do conteúdo que
realmente importa de uma página web
– Fork próprio do readability-lxml
• https://github.com/mgalves/python-readability
Quais dados são extraídos?
Links externos
Quais tecnologias são
utilizadas?
Twitter
Youtube
Vimeo
Vine
Facebook
Instagram
CELERY
BROKER
REDIS
MySQL
Celery
Worker
Celery
Worker
Celery
Worker
Celery
Worker
Qual a arquitetura?
W
E
B
• Amazon AWS
• Duas instâncias EC2 m3.large
– 7.5GB RAM, 2vCPU, 6.5 ECU
• RDS MySQL
• OpsWork + Chef
• S3 para armazenamento de arquivos
estáticos
• CloudWatch
• Apenas um devops: eu.
Como é feito o deploy?
• Em média, 400 tweets / minuto
• Em 24h:
– 150k posts
– 5.5k links de conteúdo
– 23k imagens
– 3k videos
Qual o volume de dados
processados?
• Em dia de jogo do Barça, Neymar recebe
em média 150k menções.
• Quando o Corinthians foi campeão da
Libertadores, foram 2MM de menções em
3 horas.
Algumas curiosidades
mgalves@gmail.com
Obrigado!

Data Mining em redes sociais