O documento discute como o tamanho de documentos afeta a similaridade entre eles. A similaridade do coseno ignora o tamanho, mas estudos mostraram que documentos maiores tendem a ser mais relevantes. Várias abordagens são discutidas para levar em conta o tamanho do documento de forma a melhor avaliar a similaridade, incluindo normalização pivotada.
3. 14
Tamanho do Documento
• A Similaridade do Coseno parte do princípio que o tamanho do documento deve ser
ignorado
• Ela evita que fatores ligados ao tamanho do documento sejam usados na
similaridade
• Usa o ângulo, mas não usa o módulo
Geraldo Xexéo - xexeo@cos.ufrj.br
3
4. 14
Tamanho é importante
• Singhal e outros, analisando documentos do TREC-3, chegaram a conclusão que
documentos longos são mais relevantes do que a similaridade de coseno faz
entender
• Probabilidade de Recuperar x Probabilidade de Relevância
• Para documentos curtos
• p(recuperar) > p(relevência) (BOM)
• Para documentos longos
• p(relevência) > p(recuperar) (RUIM)
Geraldo Xexéo - xexeo@cos.ufrj.br
4
5. 14
Revendo a SIM COS
• Produto escalar dividido pelo tamanho dos vetores
• Cada vetor está normalizado
• Dividido pela sua norma
• Efeito duplo contra o aumento do tamanho do documento
• Termos muito “grandes”
• Grande quantidade de termos
• Porém, há uma espécie de
“supercompensação”
Geraldo Xexéo - xexeo@cos.ufrj.br
5
= =
=
t
i
t
i
i
i
t
i
i
i
y
x
y
x
1 1
2
2
1
2
2
B
A
B
A•
6. 14
Existe um ponto “pivot”
Geraldo Xexéo - xexeo@cos.ufrj.br
6
A. Singhal, C. Buckley. and M. Mitra. Pivoted Document Length Normalization. ACM SIGIR, 1996. http://citeseer.ist.psu.edu/singhal96pivoted.html
7. 14
Podemos modelar com retas
Geraldo Xexéo - xexeo@cos.ufrj.br
7
A. Singhal, C. Buckley. and M. Mitra. Pivoted Document Length Normalization. ACM SIGIR, 1996. http://citeseer.ist.psu.edu/singhal96pivoted.html
8. 14
Fator de Correção
Geraldo Xexéo - xexeo@cos.ufrj.br
8
=
=
+
−
t
j
ij
t
j
ji
qji
i
d
s
p
s
d
w
D
Q
sim
1
2
1
)
0
,
1
(
)
,
(
Pivot cosine normalization
9. 14
Documentos Enormes
Geraldo Xexéo - xexeo@cos.ufrj.br
9
i
t
j
ji
qji
i
d
s
p
s
d
w
D
Q
sim
+
−
=
)
0
,
1
(
)
,
(
1
)
log(
1
)
log(
1
atf
tf
w
ij
ij
+
+
=
atf = tf médio (average)
Pivot unique normalization
10. 14
lnc.ltc
• Peso no documento:
• Peso na consulta:
• qqq.ddd
• 3 primeiras letras indicam a consulta
• 3 últimas letras indicam o documento
Geraldo Xexéo - xexeo@cos.ufrj.br
10
( ) j
ij
ij idf
tf
w
+
= 1
)
log(
( )
1
)
log( +
= tf
qj
11. 14
xyz
• x – freqüência
• n – natural
• l – logarítmica (1+log(tf)
• a – “aumentado” (0,5+0,5*tf/tfmax)
• y – idf
• n – não usado
• t – usado
• z – normalização do tamanho
• n – não usado
• c – coseno
• u – pivot único
Geraldo Xexéo - xexeo@cos.ufrj.br
11
13. 14
Bibliografia
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 1999. Modern Information
Retrieval (1 ed.). ACM Press, USA.
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 2011. Modern Information Retrieval:
The Concepts and Technology behind Search (2 ed.). Addison-Wesley Publishing
Company, USA.
• Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schüze. 2008. Introduction
to Information Retrieval. Cambridge University Press, USA.
Geraldo Xexéo - xexeo@cos.ufrj.br
13