Clustering é uma técnica computacional para agrupar dados semelhantes. O documento discute como clustering foi aplicado para agrupar notícias sobre debates presidenciais brasileiros de 2010, gerando agrupamentos com base nos candidatos discutidos.
2. O que é Clustering?
Clustering compreende uma família de técnicas computacionais utilizadas para
agrupar dados semelhantes entre si.
A imagem ao lado ilustra uma
aplicação de clustering a um
conjunto de dados referentes a
consumidores. Cada ponto
corresponde às respostas de um
questionário de um consumidor,
e quatro grupos de
consumidores podem ser
rapidamente visualizados. O que
os agrupa é o quanto eles
associam bebida alcóolica a uma
das seguintes características:
individualidade, status, apelo
social e esperteza.
Fonte: Wikipedia
3. Clustering e Comunicação Digital
Aplicar clustering a uma quantidade
significativa de conteúdo digital pode
revelar relações entre palavras que
evidenciam aspectos de notícias, opiniões e
outras informações veiculadas em mídias
tradicionais e sociais, direcionando leituras
e análises.
• Especialmente útil quando a quantidade de
conteúdo nas mídias é muito abundante,
requerendo muito tempo para ser lida.
4. Clustering e Comunicação Digital
Os agrupamentos obtidos
através de clustering ajudam
a entender como as mídias
estão enfocando uma
determinada marca ou pessoa
pública, evidenciando recortes
de assunto (agrupamentos
diferentes) e aquilo que é
mais relevante (agrupamentos
maiores).
Cada agrupamento de menções a uma marca
• Ou seja, têm aplicação direta X evidencia algo diferente (assunto, aceitação
etc).
a monitoramento de conteúdo
digital
5. Modelo de Tópicos L-LDA
O modelo de tópicos L-LDA é uma
técnica computacional para
agrupamento de informação por
tópicos (Ramage et al.).
Diferentemente de outras técnicas de
clustering, cada agrupamento, antes de
ser gerado, já está previamente
associado a um tópico. A interpretação
do significado de cada um deles,
portanto, torna-se mais objetiva. Um
tópico pode ser um assunto, uma tag
Agrupamento de menções à marca por
de blog, um sentimento etc. tópicos (atendimento, variedade e
promoções)
6. Modelo de Tópicos L-LDA
Imagine um conjunto de posts
marcados com tags diferentes,
Tópico Palavras
cada uma representando um
Web, search, site,
tópico. O L-LDA parte da ideia de Web blog, css, content,
que as palavras em cada post se google
associam às tags de forma Book, image, pdf,
diferente, agrupando-as de Books review,
posted, read
library,
acordo com este princípio. A Woorks, water,
tabela ao lado mostra uma Science map, human, life,
aplicação do L-LDA a um work, science
conjunto de posts do del.icio.us Comment, god,
(Ramage et al.). Observe como Religion jesus, people,
gospel, bible, reply
as palavras associadas a cada tag
se relacionam semanticamente.
7. Debate da Band: agrupando conteúdo
com um L-LDA
• Dados
– Notícias sobre o debate dos presidenciáveis do dia 05 de Agosto
de 2010, organizado pela Band.
• Portais: Globo, Folha, Terra, iG e Estadão.
• Presidenciáveis: Dilma Rousseff, José Serra, Marina Silva e
Plínio Arruda.
• Datas monitoradas: 05 e 06 de Agosto de 2010.
• Tópicos
– Cada notícia foi rotulada com três tópicos:
• presidenciável destacado (nos casos em que Serra e Dilma
foram muito discutidos, o rótulo dado foi “serdil”; no caso em
que todos foram enfocados, “todos”);
• data da notícia;
• portal.
8. Debate da Band: agrupando conteúdo
com um L-LDA
As dez palavras mais fortemente agrupadas em torno de cada presidenciável (ou
“serdil” ou “todos”), excetuando artigos, conjunções, preposições a alguns
pronomes, estão listadas na tabela abaixo.
eduardo,bandeirantes, paulo, petista, foi, candidato, dilma,
dilma são,lula,primeiro
aécio,governo,foi,diz,avaliar,psdb,pesquisa,presidenciável,conseg
serra uiu,bandeirantes
presidenciável, ter, marinasilva, receio, disse, são, candidata,
marina marina, diz,candidato
presidência,sampaio,plateia,aliados,marisa,república,foi,primeiro,f
plínio or,campanha
debate,plínio,marinasilva,candidatos,educação,distribuição,dilmar
todos ousseff,primeiro,federal,críticas
serra,luiz,candidato,nome,plínio,blocos,bandeirantes,foi,bloco,tod
serdil os
9. Debate da Band: agrupando conteúdo
com um L-LDA
Para compreender melhor estes agrupamentos, recomenda-se ler passagens das
notícias que contenham as palavras listadas.
• Dilma Rousseff
– "O primeiro debate entre os candidatos à Presidência da República,
promovido na noite da quinta-feira pela Rede Bandeirantes, teve em
seu primeiro bloco a candidata do PT, Dilma-Rousseff, buscando em
um dado momento fazer comparações entre as gestões de Luiz Inácio
Lula da Silva e Fernando Henrique Cardoso."
– “Dilma chegou acompanhada do ex-ministro Antonio Palloci, do
presidente do PT José Eduardo Dutra e João Santana Filho. Para
reforçar a plateia feminina, está presente a primeira dama Marisa Letícia.”
10. Debate da Band: agrupando conteúdo
com um L-LDA
Para compreender melhor estes agrupamentos, recomenda-se ler passagens das
notícias que contenham as palavras listadas.
• José Serra
– "O ex-governador de Minas Gerais Aécio Neves (PSDB) afirmou nesta
sexta-feira que o presidenciável tucano José-Serra saiu-se melhor no
debate na TV Bandeirantes, na noite de ontem."
– “Depois, em entrevista, Serra se recusou a avaliar seu desempenho do
primeiro debate da TV da campanha presidencial. O candidato tucano
não quis avaliar a nova pesquisa Ibope divulgada hoje, que aponta
Dilma (PT), com 39% das intenções de voto, contra 34% para o tucano.
Marina, do PV, está com 8%. 'Não comento pesquisa', declarou Serra. "
11. Debate da Band: agrupando conteúdo
com um L-LDA
Para compreender melhor estes agrupamentos, recomenda-se ler passagens das
notícias que contenham as palavras listadas.
• Marina Silva
– “Estou tranquila, graças a Deus. Preparo não significa receio, significa
respeito com o cidadão e com o concorrente."
– “Apesar das críticas pesadas, Marina disse que não se sentiu alvo
exclusivo do candidato do PSOL. Ela avalia que a estratégia de
combate e desconstrução do adversário resvalou em todos os
debatedores. 'O importante foi que me mantive tranquila. Sobre ele ter
me chamado de Poliana, não me senti triste porque na época de ler
poliana eu ainda era analfabeta', afirmou.”
12. Debate da Band: agrupando conteúdo
com um L-LDA
Para compreender melhor estes agrupamentos, recomenda-se ler passagens das
notícias que contenham as palavras listadas.
• Plínio Arruda
– “O candidato do PSOL se disse orgulhoso com o próprio desempenho
'Pimenta' do debate desta quinta-feira na TV Bandeirantes,
conforme definição dos aliados."
– “Apesar das críticas pesadas, Marina disse que não se sentiu alvo
exclusivo do candidato do PSOL. Ela avalia que a estratégia de
combate e desconstrução do adversário resvalou em todos os
debatedores. 'O importante foi que me mantive tranquila. Sobre ele ter
me chamado de Poliana, não me senti triste porque na época de ler
poliana eu ainda era analfabeta', afirmou.”
13. Debate da Band: agrupando conteúdo
com um L-LDA
Para compreender melhor estes agrupamentos, recomenda-se ler passagens das
notícias que contenham as palavras listadas.
• Todos
– “Plínio questionou as respostas de Dilma. E disse que é fundamental a
distribuição de terras. E afirmou que vai defender a igualdade social.”
– “O tucano defendeu que o governo federal entre na luta contra o crime
organizado e prometeu criar o ministério da Segurança. Na sequência
ele perguntou para Dilma quais eram suas propostas concretas para
saúde, educação e segurança.”
– “Além de protagonizarem a primeira troca de críticas sobre estradas,
Dilma e Serra falaram sobre política de emprego, após a petista se
empenhar em uma comparação entre os governos Lula e FHC.”
14. Debate da Band: agrupando conteúdo
com um L-LDA
Para compreender melhor estes agrupamentos, recomenda-se ler passagens das
notícias que contenham as palavras listadas.
• SerDil
– “'Enfim o Serra mostrou a verdadeira cara. É contra o Lula e escondeu
o Fernando Henrique', disse Rui Falcão, da coordenação da campanha
do PT.”
– “A candidata do PT à Presidência, Dilma Rousseff, preferiu utilizar a
expressão 'nosso governo' no debate desta quinta-feira na TV
Bandeirantes ao invés de citar diretamente o presidente Luiz Inácio
Lula da Silva.”
– “Um monitoramento do desempenho dos candidatos realizado pelo
marqueteiro do PSDB, Luiz González, apontou que a candidata do PV,
Marina Silva, teria se saído melhor que a petista Dilma Rousseff nos
dois últimos blocos do debate realizado pela Band.”
15. Debate da Band: agrupando conteúdo
com um L-LDA
• A escolha dos tópicos deve ser bem pensada, a
fim de gerar agrupamentos suficientemente
diferentes que evidenciem aspectos distintos de um
mesmo conjunto de documentos.
– Os tópicos por portal e por data, por
exemplo, não conduziram a uma análise
interessante sobre a cobertura do debate.
• A quantidade de documentos (notícias, posts,
tweets etc.) também deve ser a maior possível, a fim
de se garantir que os agrupamentos realmente
revelam padrões significativos. Se a quantidade de
documentos é pequena, a leitura de todos eles é
viável e certamente leva a uma compreensão melhor
dos conteúdos abordados.
– Para o debate da Band, a quantidade de
documentos analisados foi pequena (51
notícias). Não é o ideal, mas foi suficiente
para os propósitos didáticos desta
apresentação.
16. Clustering, monitoramento e análise
É possível aplicar técnicas de Clustering para aperfeiçoar e
otimizar mecânicas e metodologias de monitoramento e
análise de marcas na internet e mídias sociais.
A PaperCliQ promove a pesquisa e desenvolvimento de novas
técnicas e metodologias. O clustering é uma das muitas
técnicas que podem ser utilizadas nos relatórios de
monitoramento de marcas, concorrência, setor ou público
produzidos pela agência.
Para saber mais, veja mais relatórios ou entre em contato
através dos links dos próximos slides.
17. Fontes
Ramage D., Hall D., Nallapati R., Manning C. Labeled Lda: A supervised topic
model for credit attribution in multi-labeled corpora. In Proceddings of the
2009 Conference on Empirical Methods in Natural Language Processing,
2009.
+ sobre Monitoramento:
18. Aline Bessa – Assistente de
Pesquisa e Desenvolvimento
www.twitter.com/_alibezz
+ Conteúdo:
www.papercliq.com.br
www.papercliq.com.br/blog
www.slideshare.net/papercliq
www.twitter.com/papercliq
Tel.: (71) 3013-1432
Av. Tancredo Neves – Ed. Esplanada Tower, 939 – Sala 403
– Caminho das Árvores | CEP 41.820-021 | Salvador-BA