Utilizando Medidas de Centralidade na
Extração de Palavras-Chave de Grafos
Textuais
Willyan Daniel Abilhoa
Orientador: Pro...
Roteiro
 Introdução
 Modificações Abordadas
 Medidas Anteriores
 Antigo Funcionamento daTécnica
 Novo Funcionamento d...
Introdução
 Foco de aplicação da técnica (Twitter):
 O Twitter é um serviço de microblog fundado em 2006
 É uma rica fo...
Modificações Abordadas
4abilhoa.willyan@gmail.com
Critério Anterior Atual
Janelas de Co-
ocorrência
Tamanho 2 Tamanho |D|
...
Medidas Utilizadas:
Medidas de um vértice:
𝑑𝑖 = 𝛽𝑖𝑘
𝑘∈𝐸
|𝛽𝑖𝑘 =
1 𝑠𝑒 𝑖 ∈ 𝑘
0 𝑐𝑐
𝑓𝑖 = 𝛼 𝑡
𝑡∈𝐿
|𝛼 𝑡 =
1, 𝑠𝑒 𝑡 = 𝑡𝑖
0, 𝑐𝑐
𝑠𝑖 =...
6abilhoa.willyan@gmail.com
Antigo Funcionamento da Técnica
Passo 1: Passo 2:
L =
p1 day, beautiful,
p2 car, washed,
p3 ...
7abilhoa.willyan@gmail.com
Antigo Funcionamento da Técnica
Grafo obtido:
v t f g s w
1 day 3 2 4 9
2 beautiful 3 3 5 11
3 ...
Novo Funcionamento da Técnica
8abilhoa.willyan@gmail.com
Novo Funcionamento da Técnica
9abilhoa.willyan@gmail.com
 Novas Medidas:
 Probabilidade deTransição de (i, j) ∈ E:
 Cen...
Novo Funcionamento da Técnica
Coleção de Documentos (Tweets):
10abilhoa.willyan@gmail.com
Novo Funcionamento da Técnica
11abilhoa.willyan@gmail.com
Árvores Geradoras Mínima e Máxima
12abilhoa.willyan@gmail.com
Árv. Ger. Min. (1): Árv. Ger. Max. (1):
Medidas de Centralidade Utilizadas
13abilhoa.willyan@gmail.com
Excentricidade: Proximidade
A excentricidade equivale ao co...
14abilhoa.willyan@gmail.com
Referências Bibliográficas
• JIN, W.; SRIHARI, R. K. Graph-based text representation and knowl...
Próximos SlideShares
Carregando em…5
×

Utilizando Medidas de Centralidade na Extração de Palavras-Chave de Grafos Textuais

302 visualizações

Publicada em

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
302
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
1
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Utilizando Medidas de Centralidade na Extração de Palavras-Chave de Grafos Textuais

  1. 1. Utilizando Medidas de Centralidade na Extração de Palavras-Chave de Grafos Textuais Willyan Daniel Abilhoa Orientador: Prof. Dr. Leandro Nunes de Castro Laboratório de Computação Natural (LCoN) Universidade Presbiteriana Mackenzie Pós-graduação em Engenharia Elétrica LCoN Meetings
  2. 2. Roteiro  Introdução  Modificações Abordadas  Medidas Anteriores  Antigo Funcionamento daTécnica  Novo Funcionamento daTécnica  Árvores Geradoras Mínima e Máxima  Medidas de Centralidade Utilizadas  Referências Bibliográficas 2abilhoa.willyan@gmail.com
  3. 3. Introdução  Foco de aplicação da técnica (Twitter):  O Twitter é um serviço de microblog fundado em 2006  É uma rica fonte de informações sobre os mais diversos assuntos.  Isso desperta o interesse tanto do mercado quando da academia  Esse conteúdo está mantido em Tweets  Tweets são mensagens de 140 caracteres  Base de dados textuais:  Cada tweet corresponde a um documento de texto  Os tweets coletados são relacionados ao programa “Agora é Tarde” da emissora de TV Bandeirantes (Band)  O período de coleta foi realizada entre os dias 6 e 7 de julho de 2012 3abilhoa.willyan@gmail.com
  4. 4. Modificações Abordadas 4abilhoa.willyan@gmail.com Critério Anterior Atual Janelas de Co- ocorrência Tamanho 2 Tamanho |D| Atr. de i  V g(i) + f(i) + s(i) g(i), f(i) Atr. de e  E f(i, j) f(i, j), p(i, j), p(j, i) Orientação Não-Orientação Não-Orientação Ranking Soma dos pesos de i Centralidade
  5. 5. Medidas Utilizadas: Medidas de um vértice: 𝑑𝑖 = 𝛽𝑖𝑘 𝑘∈𝐸 |𝛽𝑖𝑘 = 1 𝑠𝑒 𝑖 ∈ 𝑘 0 𝑐𝑐 𝑓𝑖 = 𝛼 𝑡 𝑡∈𝐿 |𝛼 𝑡 = 1, 𝑠𝑒 𝑡 = 𝑡𝑖 0, 𝑐𝑐 𝑠𝑖 = 𝑓𝑒 𝑘 𝑒 𝑘∈𝐸 𝑖 | 𝐸𝑖 ⊂ 𝐸 𝑤𝑖 = 𝑑𝑖 + 𝑓𝑖 + 𝑠𝑖 𝑓𝑒 𝑖𝑗 = 𝛾𝑒 𝑒∈𝐸 |𝛾𝑒 = 1, 𝑠𝑒 𝑒 = 𝑒𝑖𝑗 𝑜𝑢 𝑒 = 𝑒𝑗𝑖 0, 𝑐𝑐 Grau: Frequência: Peso Total: Medidas de uma aresta: Frequência de Co- ocorrência: Soma da Freq. das Arestas: Medidas Anteriores 5abilhoa.willyan@gmail.com
  6. 6. 6abilhoa.willyan@gmail.com Antigo Funcionamento da Técnica Passo 1: Passo 2: L = p1 day, beautiful, p2 car, washed, p3 car, washed, beautiful, day, p4 drive, car, beautiful, day, car, washed Passo 3: • Exemplo de Funcionamento:
  7. 7. 7abilhoa.willyan@gmail.com Antigo Funcionamento da Técnica Grafo obtido: v t f g s w 1 day 3 2 4 9 2 beautiful 3 3 5 11 3 car 4 4 6 14 4 washed 3 2 4 9 5 drive 1 1 1 3 Ranking v T w 1 3 Car 14 2 2 beautiful 11 3 1 day 9 4 4 washed 9 5 5 drive 3
  8. 8. Novo Funcionamento da Técnica 8abilhoa.willyan@gmail.com
  9. 9. Novo Funcionamento da Técnica 9abilhoa.willyan@gmail.com  Novas Medidas:  Probabilidade deTransição de (i, j) ∈ E:  Centralidade de Excentricidade de i ∈V:  Centralidade de Proximidade de i ∈V: Sendo: i e j – dois vértices deV cij – a frequência de co-ocorrência de (i, j) S – o conjunto de sucessores de i 𝑃𝑖𝑗 = 𝑐𝑖𝑗 𝑐𝑖𝑘𝑘∈𝑆 𝐸𝑐𝑖 = max 𝑘∈𝑉 1 𝑐𝑖𝑘 𝐶𝑙𝑖 = 1 𝑐𝑖𝑘𝑘∈𝑉
  10. 10. Novo Funcionamento da Técnica Coleção de Documentos (Tweets): 10abilhoa.willyan@gmail.com
  11. 11. Novo Funcionamento da Técnica 11abilhoa.willyan@gmail.com
  12. 12. Árvores Geradoras Mínima e Máxima 12abilhoa.willyan@gmail.com Árv. Ger. Min. (1): Árv. Ger. Max. (1):
  13. 13. Medidas de Centralidade Utilizadas 13abilhoa.willyan@gmail.com Excentricidade: Proximidade A excentricidade equivale ao complemento da proximidade.
  14. 14. 14abilhoa.willyan@gmail.com Referências Bibliográficas • JIN, W.; SRIHARI, R. K. Graph-based text representation and knowledge discovery. Proceedings of the 2007 ACM symposium on Applied computing. v. 7, p. 807-811, 2007. • Palshikar, G. K. Keyword Extraction from a Single Document using Centrality Measures. LNCS, p. 503-510, 2007.

×