BMT20231 300 260 Modelo Vetorial Documentos Enormes.pdf

Documentos Enormes
(Modelo do Espaço Vetorial)
Geraldo Xexéo, D.Sc.

Documentos Enormes
Geraldo Xexéo - xexeo@cos.ufrj.br
2

14
Tamanho do Documento
• A Similaridade do Coseno parte do princípio que o tamanho do documento deve ser
ignorado
• Ela evita que fatores ligados ao tamanho do documento sejam usados na
similaridade
• Usa o ângulo, mas não usa o módulo
3

14
Tamanho é importante
• Singhal e outros, analisando documentos do TREC-3, chegaram a conclusão que
documentos longos são mais relevantes do que a similaridade de coseno faz
entender
• Probabilidade de Recuperar x Probabilidade de Relevância
• Para documentos curtos
• p(recuperar) > p(relevência) (BOM)
• Para documentos longos
• p(relevência) > p(recuperar) (RUIM)
4

14
Revendo a SIM COS
• Produto escalar dividido pelo tamanho dos vetores
• Cada vetor está normalizado
• Dividido pela sua norma
• Efeito duplo contra o aumento do tamanho do documento
• Termos muito “grandes”
• Grande quantidade de termos
• Porém, há uma espécie de
“supercompensação”
5
 

= =
=

t
i
t
i
i
i
t
i
i
i
y
x
y
x
1 1
2
2
1
2
2
B
A
B
A•

14
Existe um ponto “pivot”
6
A. Singhal, C. Buckley. and M. Mitra. Pivoted Document Length Normalization. ACM SIGIR, 1996. http://citeseer.ist.psu.edu/singhal96pivoted.html

14
Podemos modelar com retas
7
A. Singhal, C. Buckley. and M. Mitra. Pivoted Document Length Normalization. ACM SIGIR, 1996. http://citeseer.ist.psu.edu/singhal96pivoted.html

14
Fator de Correção
8


=
=
+
−
t
j
ij
t
j
ji
qji
i
d
s
p
s
d
w
D
Q
sim
1
2
1
)
0
,
1
(
)
,
(
Pivot cosine normalization

14
Documentos Enormes
9
i
t
j
ji
qji
i
d
s
p
s
d
w
D
Q
sim
+
−

=
)
0
,
1
(
)
,
(
1
)
log(
1
)
log(
1
atf
tf
w
ij
ij
+
+
=
atf = tf médio (average)
Pivot unique normalization

14
lnc.ltc
• Peso no documento:
• Peso na consulta:
• qqq.ddd
• 3 primeiras letras indicam a consulta
• 3 últimas letras indicam o documento
10
( ) j
ij
ij idf
tf
w 
+
= 1
)
log(
( )
1
)
log( +
= tf
qj

14
xyz
• x – freqüência
• n – natural
• l – logarítmica (1+log(tf)
• a – “aumentado” (0,5+0,5*tf/tfmax)
• y – idf
• n – não usado
• t – usado
• z – normalização do tamanho
• n – não usado
• c – coseno
• u – pivot único
11

14
Bibliografia
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 1999. Modern Information
Retrieval (1 ed.). ACM Press, USA.
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 2011. Modern Information Retrieval:
The Concepts and Technology behind Search (2 ed.). Addison-Wesley Publishing
Company, USA.
• Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schüze. 2008. Introduction
to Information Retrieval. Cambridge University Press, USA.
13

Geraldo Xexéo
xexeo@ufrj.br
http://xexeo.net
http://line.cos.ufrj.br
Este obra está licenciado com uma Licença Creative Commons
Atribuição-NãoComercial-SemDerivações 4.0 Internacional.

BMT20231 300 260 Modelo Vetorial Documentos Enormes.pdf

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Geraldo Xexéo

Mais de Geraldo Xexéo (18)

BMT20231 300 260 Modelo Vetorial Documentos Enormes.pdf