SlideShare uma empresa Scribd logo
1 de 14
Baixar para ler offline
Documentos Enormes
(Modelo do Espaço Vetorial)
Geraldo Xexéo, D.Sc.
Documentos Enormes
Geraldo Xexéo - xexeo@cos.ufrj.br
2
14
Tamanho do Documento
• A Similaridade do Coseno parte do princípio que o tamanho do documento deve ser
ignorado
• Ela evita que fatores ligados ao tamanho do documento sejam usados na
similaridade
• Usa o ângulo, mas não usa o módulo
Geraldo Xexéo - xexeo@cos.ufrj.br
3
14
Tamanho é importante
• Singhal e outros, analisando documentos do TREC-3, chegaram a conclusão que
documentos longos são mais relevantes do que a similaridade de coseno faz
entender
• Probabilidade de Recuperar x Probabilidade de Relevância
• Para documentos curtos
• p(recuperar) > p(relevência) (BOM)
• Para documentos longos
• p(relevência) > p(recuperar) (RUIM)
Geraldo Xexéo - xexeo@cos.ufrj.br
4
14
Revendo a SIM COS
• Produto escalar dividido pelo tamanho dos vetores
• Cada vetor está normalizado
• Dividido pela sua norma
• Efeito duplo contra o aumento do tamanho do documento
• Termos muito “grandes”
• Grande quantidade de termos
• Porém, há uma espécie de
“supercompensação”
Geraldo Xexéo - xexeo@cos.ufrj.br
5
 

= =
=

t
i
t
i
i
i
t
i
i
i
y
x
y
x
1 1
2
2
1
2
2
B
A
B
A•
14
Existe um ponto “pivot”
Geraldo Xexéo - xexeo@cos.ufrj.br
6
A. Singhal, C. Buckley. and M. Mitra. Pivoted Document Length Normalization. ACM SIGIR, 1996. http://citeseer.ist.psu.edu/singhal96pivoted.html
14
Podemos modelar com retas
Geraldo Xexéo - xexeo@cos.ufrj.br
7
A. Singhal, C. Buckley. and M. Mitra. Pivoted Document Length Normalization. ACM SIGIR, 1996. http://citeseer.ist.psu.edu/singhal96pivoted.html
14
Fator de Correção
Geraldo Xexéo - xexeo@cos.ufrj.br
8


=
=
+
−
t
j
ij
t
j
ji
qji
i
d
s
p
s
d
w
D
Q
sim
1
2
1
)
0
,
1
(
)
,
(
Pivot cosine normalization
14
Documentos Enormes
Geraldo Xexéo - xexeo@cos.ufrj.br
9
i
t
j
ji
qji
i
d
s
p
s
d
w
D
Q
sim
+
−

=
)
0
,
1
(
)
,
(
1
)
log(
1
)
log(
1
atf
tf
w
ij
ij
+
+
=
atf = tf médio (average)
Pivot unique normalization
14
lnc.ltc
• Peso no documento:
• Peso na consulta:
• qqq.ddd
• 3 primeiras letras indicam a consulta
• 3 últimas letras indicam o documento
Geraldo Xexéo - xexeo@cos.ufrj.br
10
( ) j
ij
ij idf
tf
w 
+
= 1
)
log(
( )
1
)
log( +
= tf
qj
14
xyz
• x – freqüência
• n – natural
• l – logarítmica (1+log(tf)
• a – “aumentado” (0,5+0,5*tf/tfmax)
• y – idf
• n – não usado
• t – usado
• z – normalização do tamanho
• n – não usado
• c – coseno
• u – pivot único
Geraldo Xexéo - xexeo@cos.ufrj.br
11
FIM
14
Bibliografia
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 1999. Modern Information
Retrieval (1 ed.). ACM Press, USA.
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 2011. Modern Information Retrieval:
The Concepts and Technology behind Search (2 ed.). Addison-Wesley Publishing
Company, USA.
• Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schüze. 2008. Introduction
to Information Retrieval. Cambridge University Press, USA.
Geraldo Xexéo - xexeo@cos.ufrj.br
13
Geraldo Xexéo
xexeo@ufrj.br
http://xexeo.net
http://line.cos.ufrj.br
Este obra está licenciado com uma Licença Creative Commons
Atribuição-NãoComercial-SemDerivações 4.0 Internacional.

Mais conteúdo relacionado

Mais de Geraldo Xexéo

PJ20222 200 100 Tetrade Elementar.pdf
PJ20222 200 100  Tetrade Elementar.pdfPJ20222 200 100  Tetrade Elementar.pdf
PJ20222 200 100 Tetrade Elementar.pdfGeraldo Xexéo
 
PJ20222 400 100 Introdução as Regras e Mecânicas.pdf
PJ20222 400 100 Introdução as Regras e Mecânicas.pdfPJ20222 400 100 Introdução as Regras e Mecânicas.pdf
PJ20222 400 100 Introdução as Regras e Mecânicas.pdfGeraldo Xexéo
 
PJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdf
PJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdfPJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdf
PJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdfGeraldo Xexéo
 
PJ20222 200 400 Emocoes e Instintos dillon 6-11.pdf
PJ20222 200 400 Emocoes e Instintos dillon 6-11.pdfPJ20222 200 400 Emocoes e Instintos dillon 6-11.pdf
PJ20222 200 400 Emocoes e Instintos dillon 6-11.pdfGeraldo Xexéo
 
PJ20222 500 050 Descrevendo Jogos.pdf
PJ20222 500 050 Descrevendo Jogos.pdfPJ20222 500 050 Descrevendo Jogos.pdf
PJ20222 500 050 Descrevendo Jogos.pdfGeraldo Xexéo
 
PJ20222 600 100 Jogos x Histórias.pdf
PJ20222 600 100 Jogos x Histórias.pdfPJ20222 600 100 Jogos x Histórias.pdf
PJ20222 600 100 Jogos x Histórias.pdfGeraldo Xexéo
 
PJ20222 600 200 Narrativa.pdf
PJ20222 600 200 Narrativa.pdfPJ20222 600 200 Narrativa.pdf
PJ20222 600 200 Narrativa.pdfGeraldo Xexéo
 
PJ20222 200 300 Elementos do Projeto de Jogos .pdf
PJ20222 200 300 Elementos do Projeto de Jogos .pdfPJ20222 200 300 Elementos do Projeto de Jogos .pdf
PJ20222 200 300 Elementos do Projeto de Jogos .pdfGeraldo Xexéo
 
PJ20222 400 200 Regras Avançado .pdf
PJ20222 400 200 Regras Avançado  .pdfPJ20222 400 200 Regras Avançado  .pdf
PJ20222 400 200 Regras Avançado .pdfGeraldo Xexéo
 
PJ20222 200 200 MDA.pdf
PJ20222 200 200 MDA.pdfPJ20222 200 200 MDA.pdf
PJ20222 200 200 MDA.pdfGeraldo Xexéo
 
PJ20222 600 400 Quests.pdf
PJ20222 600 400 Quests.pdfPJ20222 600 400 Quests.pdf
PJ20222 600 400 Quests.pdfGeraldo Xexéo
 
PJ20222 500 200 Variantes e Mutadores.pdf
PJ20222 500 200 Variantes e Mutadores.pdfPJ20222 500 200 Variantes e Mutadores.pdf
PJ20222 500 200 Variantes e Mutadores.pdfGeraldo Xexéo
 
PJ20222 300 100 Motivos Estéticos de Jogar - Bateman.pdf
PJ20222 300 100 Motivos Estéticos de Jogar  - Bateman.pdfPJ20222 300 100 Motivos Estéticos de Jogar  - Bateman.pdf
PJ20222 300 100 Motivos Estéticos de Jogar - Bateman.pdfGeraldo Xexéo
 
PJ20222 200 500 Jogo da Velha Melhorado.pdf
PJ20222 200 500  Jogo da Velha Melhorado.pdfPJ20222 200 500  Jogo da Velha Melhorado.pdf
PJ20222 200 500 Jogo da Velha Melhorado.pdfGeraldo Xexéo
 
PJ20222 100 200 Definindo Jogos.pdf
PJ20222 100 200 Definindo Jogos.pdfPJ20222 100 200 Definindo Jogos.pdf
PJ20222 100 200 Definindo Jogos.pdfGeraldo Xexéo
 
PJ20222 600 300 A Jornada do Heroi.pdf
PJ20222 600 300 A Jornada do Heroi.pdfPJ20222 600 300 A Jornada do Heroi.pdf
PJ20222 600 300 A Jornada do Heroi.pdfGeraldo Xexéo
 
PJ20222 400 300 Mecanicas Avançado.pdf
PJ20222 400 300 Mecanicas Avançado.pdfPJ20222 400 300 Mecanicas Avançado.pdf
PJ20222 400 300 Mecanicas Avançado.pdfGeraldo Xexéo
 
PJ20222 500 100 Machinations - Recursos.pdf
PJ20222 500 100 Machinations - Recursos.pdfPJ20222 500 100 Machinations - Recursos.pdf
PJ20222 500 100 Machinations - Recursos.pdfGeraldo Xexéo
 

Mais de Geraldo Xexéo (18)

PJ20222 200 100 Tetrade Elementar.pdf
PJ20222 200 100  Tetrade Elementar.pdfPJ20222 200 100  Tetrade Elementar.pdf
PJ20222 200 100 Tetrade Elementar.pdf
 
PJ20222 400 100 Introdução as Regras e Mecânicas.pdf
PJ20222 400 100 Introdução as Regras e Mecânicas.pdfPJ20222 400 100 Introdução as Regras e Mecânicas.pdf
PJ20222 400 100 Introdução as Regras e Mecânicas.pdf
 
PJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdf
PJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdfPJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdf
PJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdf
 
PJ20222 200 400 Emocoes e Instintos dillon 6-11.pdf
PJ20222 200 400 Emocoes e Instintos dillon 6-11.pdfPJ20222 200 400 Emocoes e Instintos dillon 6-11.pdf
PJ20222 200 400 Emocoes e Instintos dillon 6-11.pdf
 
PJ20222 500 050 Descrevendo Jogos.pdf
PJ20222 500 050 Descrevendo Jogos.pdfPJ20222 500 050 Descrevendo Jogos.pdf
PJ20222 500 050 Descrevendo Jogos.pdf
 
PJ20222 600 100 Jogos x Histórias.pdf
PJ20222 600 100 Jogos x Histórias.pdfPJ20222 600 100 Jogos x Histórias.pdf
PJ20222 600 100 Jogos x Histórias.pdf
 
PJ20222 600 200 Narrativa.pdf
PJ20222 600 200 Narrativa.pdfPJ20222 600 200 Narrativa.pdf
PJ20222 600 200 Narrativa.pdf
 
PJ20222 200 300 Elementos do Projeto de Jogos .pdf
PJ20222 200 300 Elementos do Projeto de Jogos .pdfPJ20222 200 300 Elementos do Projeto de Jogos .pdf
PJ20222 200 300 Elementos do Projeto de Jogos .pdf
 
PJ20222 400 200 Regras Avançado .pdf
PJ20222 400 200 Regras Avançado  .pdfPJ20222 400 200 Regras Avançado  .pdf
PJ20222 400 200 Regras Avançado .pdf
 
PJ20222 200 200 MDA.pdf
PJ20222 200 200 MDA.pdfPJ20222 200 200 MDA.pdf
PJ20222 200 200 MDA.pdf
 
PJ20222 600 400 Quests.pdf
PJ20222 600 400 Quests.pdfPJ20222 600 400 Quests.pdf
PJ20222 600 400 Quests.pdf
 
PJ20222 500 200 Variantes e Mutadores.pdf
PJ20222 500 200 Variantes e Mutadores.pdfPJ20222 500 200 Variantes e Mutadores.pdf
PJ20222 500 200 Variantes e Mutadores.pdf
 
PJ20222 300 100 Motivos Estéticos de Jogar - Bateman.pdf
PJ20222 300 100 Motivos Estéticos de Jogar  - Bateman.pdfPJ20222 300 100 Motivos Estéticos de Jogar  - Bateman.pdf
PJ20222 300 100 Motivos Estéticos de Jogar - Bateman.pdf
 
PJ20222 200 500 Jogo da Velha Melhorado.pdf
PJ20222 200 500  Jogo da Velha Melhorado.pdfPJ20222 200 500  Jogo da Velha Melhorado.pdf
PJ20222 200 500 Jogo da Velha Melhorado.pdf
 
PJ20222 100 200 Definindo Jogos.pdf
PJ20222 100 200 Definindo Jogos.pdfPJ20222 100 200 Definindo Jogos.pdf
PJ20222 100 200 Definindo Jogos.pdf
 
PJ20222 600 300 A Jornada do Heroi.pdf
PJ20222 600 300 A Jornada do Heroi.pdfPJ20222 600 300 A Jornada do Heroi.pdf
PJ20222 600 300 A Jornada do Heroi.pdf
 
PJ20222 400 300 Mecanicas Avançado.pdf
PJ20222 400 300 Mecanicas Avançado.pdfPJ20222 400 300 Mecanicas Avançado.pdf
PJ20222 400 300 Mecanicas Avançado.pdf
 
PJ20222 500 100 Machinations - Recursos.pdf
PJ20222 500 100 Machinations - Recursos.pdfPJ20222 500 100 Machinations - Recursos.pdf
PJ20222 500 100 Machinations - Recursos.pdf
 

BMT20231 300 260 Modelo Vetorial Documentos Enormes.pdf

  • 1. Documentos Enormes (Modelo do Espaço Vetorial) Geraldo Xexéo, D.Sc.
  • 2. Documentos Enormes Geraldo Xexéo - xexeo@cos.ufrj.br 2
  • 3. 14 Tamanho do Documento • A Similaridade do Coseno parte do princípio que o tamanho do documento deve ser ignorado • Ela evita que fatores ligados ao tamanho do documento sejam usados na similaridade • Usa o ângulo, mas não usa o módulo Geraldo Xexéo - xexeo@cos.ufrj.br 3
  • 4. 14 Tamanho é importante • Singhal e outros, analisando documentos do TREC-3, chegaram a conclusão que documentos longos são mais relevantes do que a similaridade de coseno faz entender • Probabilidade de Recuperar x Probabilidade de Relevância • Para documentos curtos • p(recuperar) > p(relevência) (BOM) • Para documentos longos • p(relevência) > p(recuperar) (RUIM) Geraldo Xexéo - xexeo@cos.ufrj.br 4
  • 5. 14 Revendo a SIM COS • Produto escalar dividido pelo tamanho dos vetores • Cada vetor está normalizado • Dividido pela sua norma • Efeito duplo contra o aumento do tamanho do documento • Termos muito “grandes” • Grande quantidade de termos • Porém, há uma espécie de “supercompensação” Geraldo Xexéo - xexeo@cos.ufrj.br 5    = = =  t i t i i i t i i i y x y x 1 1 2 2 1 2 2 B A B A•
  • 6. 14 Existe um ponto “pivot” Geraldo Xexéo - xexeo@cos.ufrj.br 6 A. Singhal, C. Buckley. and M. Mitra. Pivoted Document Length Normalization. ACM SIGIR, 1996. http://citeseer.ist.psu.edu/singhal96pivoted.html
  • 7. 14 Podemos modelar com retas Geraldo Xexéo - xexeo@cos.ufrj.br 7 A. Singhal, C. Buckley. and M. Mitra. Pivoted Document Length Normalization. ACM SIGIR, 1996. http://citeseer.ist.psu.edu/singhal96pivoted.html
  • 8. 14 Fator de Correção Geraldo Xexéo - xexeo@cos.ufrj.br 8   = = + − t j ij t j ji qji i d s p s d w D Q sim 1 2 1 ) 0 , 1 ( ) , ( Pivot cosine normalization
  • 9. 14 Documentos Enormes Geraldo Xexéo - xexeo@cos.ufrj.br 9 i t j ji qji i d s p s d w D Q sim + −  = ) 0 , 1 ( ) , ( 1 ) log( 1 ) log( 1 atf tf w ij ij + + = atf = tf médio (average) Pivot unique normalization
  • 10. 14 lnc.ltc • Peso no documento: • Peso na consulta: • qqq.ddd • 3 primeiras letras indicam a consulta • 3 últimas letras indicam o documento Geraldo Xexéo - xexeo@cos.ufrj.br 10 ( ) j ij ij idf tf w  + = 1 ) log( ( ) 1 ) log( + = tf qj
  • 11. 14 xyz • x – freqüência • n – natural • l – logarítmica (1+log(tf) • a – “aumentado” (0,5+0,5*tf/tfmax) • y – idf • n – não usado • t – usado • z – normalização do tamanho • n – não usado • c – coseno • u – pivot único Geraldo Xexéo - xexeo@cos.ufrj.br 11
  • 12. FIM
  • 13. 14 Bibliografia • Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 1999. Modern Information Retrieval (1 ed.). ACM Press, USA. • Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 2011. Modern Information Retrieval: The Concepts and Technology behind Search (2 ed.). Addison-Wesley Publishing Company, USA. • Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schüze. 2008. Introduction to Information Retrieval. Cambridge University Press, USA. Geraldo Xexéo - xexeo@cos.ufrj.br 13
  • 14. Geraldo Xexéo xexeo@ufrj.br http://xexeo.net http://line.cos.ufrj.br Este obra está licenciado com uma Licença Creative Commons Atribuição-NãoComercial-SemDerivações 4.0 Internacional.