BMT20231 300 270 Relevance Feedback.pdf

Relevance
Feedback
Geraldo Xexéo, D.Sc.

31
Paradoxo da I.R.
• Se você soubesse o que está procurando, não estaria procurando
• Logo, a consulta tipicamente não é um bom parâmetro para determinar o que o
usuário precisa
• Mas só temos a consulta
Geraldo Xexéo - xexeo@cos.ufrj.br
2

31
Feedback de Relevância
• Um documento recuperado e identificado como relevante pode ser utilizado para
reformular a consulta
• Espera-se que a consulta reformulada resulte na recuperação de itens relevantes adicionais,
que serão semelhantes ao documento originalmente considerado relevante
3

31
Premissas
• Consultas são feitas em uma seção
• Iterativa
• Interativa
• Documentos relevantes a uma consulta em particular são similares
• têm vetores razoavelmente similares
4

31
Outra forma de ver
• Buscamos otimizar a consulta, isto é, encontrar os parâmetros (pesos dos termos
no vetor da consulta) que melhoram a resposta (quantidade de respostas
relevantes)
5

31
Espaço Vetorial
Feedback de Relevância Positiva
6
Documentos Relevantes
Recuperados
Consulta Original
Consulta Modificada

31
• Queremos a consulta ideal
• maximize a similaridade média dos documentos relevantes e
• minimize a similaridade média dos documentos não relevantes
• Se soubéssemos avaliar todos os documentos como relevantes ou não relevantes
poderíamos calcular essa consulta
7

31
• R é o número de documentos relevantes
• N é o número total de documentos
8










−
−
=  
Rel Nonrel
1
1
i
i
i
i
opt
D
D
R
N
D
D
R
k
Q
?

31
• Como não podemos fazer o somatório anterior…
• Podemos aproximar, após ter um conjunto de documentos relevantes
• Identificando os subconjuntos R’, dos itens relevantes, e N’, dos itens não
relevantes
9

31
10

 

+
−
+
=
'
'
)
1
(
'
1
'
1
N
D
i
R
D
i
i
i
i
i
D
N
D
R
Q
Q

 

+
−
+
=
'
'
)
1
(
N
D
i
R
D
i
i
i
i
i
D
D
Q
Q 


 

+
−
+
=
'
'
)
1
(
N
D
i
i
R
D
i
i
i
i
i
i
D
D
Q
Q 


31
RF por Divisão de Consulta
• Em alguns casos o RF não funciona satisfatoriamente pois os documentos não
formam um grupo consistente no espaço de documentos
• Uma solução é dividir a consulta em várias sub-consultas, cada uma com sua propria
modificação
11
R1
R3
R2
R4
R5
R6
R7
R8
C1

31
RF por Divisão de Consulta
12

31
Resultados
• Melhoras de 40 a 60% na precisão
• níveis fixos de recall
• média de consultas
• apenas após a segunda consulta
• Ranking Effect
• variação da posição do documento na busca
• pode se manter a posição do documento
13

31
RF: com conjunto teste
• Divide a coleção em duas partes
• coleção de teste e coleção de controle
• A coleção de teste é usada para construir a consulta modificada
• A coleção de teste é usada para avaliar as modificações
14

31
Modificando o Espaço de Docs
15

Outras Formas de RF Explícito

31
RF no Modelo Probabilístico
• O modelo apresentado na aula anterior já era um modelo de RF
17
Wij = the term weight for term i in query j
r = the number of relevant documents for query j having term i
R = te total number of relevant documents for query j
n = the number of documents in the collection having term i
N = the number of documents in the collection

31
RF em Modelo Vetorial
• Ri são os vetores dos documentos relevantes
• S é o vetor do top documento não relevante
18
𝑄1 = 𝑄0 + ෍
𝑖=1
𝑛
𝑅𝑖 − 𝑆

31
Modificando o Espaço de Docs
19

31
RF Indireto
• Em vez de usar uma informação direta de relevância, usar outra indicação que
possa ser aproximada como relevância
• Clique do usuário
• Ver o documento
20

31
Pseudo-Relevance Feedback
• Supõe que os k-top de uma consulta são relevantes e
refaz a consulta
21

31
DirectHit - Method for organizing information
22

Entendendo os Resultados
23

31
Como avaliar algoritmos de RF
• RF leva os documentos relevantes conhecidos para o topo do ranking
• Isso cria Recall/Precision artificiais simplesmente re-ranqueando para o topo os
que sabemos relevantes
• Não adicionando novos documentos
24

31
Residual Ranking
• Documentos usados no RF são tirados da coleção antes da avaliação
• Só considera os efeitos do feedback
• Não pode comparar com a consulta original
25

31
Freezing
• Full
• Congela a posição dos top N, usados para modificar a consulta
• Modified
• Congela a posição até o último relevante
• Desvantagem
• Tem cada vez mais congelados
26

31
Full Freezing
• “Congela” o ranking de todos os documentos apresentados ao usuário em prévias
iterações
• Primeiro documento recuperado na iteração i é o i*N+1, onde N documentos são
apresentados para o usuário a cada iteração
27

31
Revendo o RF
• We offer two possible implementations for rank normalization: rank-shifting and rank-freezing.
• Rank-shifting moves all feedback examples to the top of the refined retrieval result.
• Rank-freezing keeps those feedback examples’ ranks in the previous retrieval result unchanged in the refined retrieval result, as if they are “frozen” there.
• These two approaches both “normalize” the performance improvement contributed from the user feedback examples.
• Rank-shifting makes them equal by maximizing them.
• Rank-freezing makes them equal by minimizing them.
• We should note that these two techniques are not necessarily performance
• order preserving under arbitrary performance measures, although in
• general they differ only when performance is very similar.
• We can always give
• negative examples that would generate different order for some measure. But
• since the variation is very small, we still claim either technique can be used to
• compare feedback approaches (due to space limitation, we skip the discussion
• here). Rank-shifting is relatively easier to implement and rank-freezing is more
• objective when comparing the performance improvement over iterations.
28
Toward Consistent Evaluation of
Relevance
Feedback Approaches in Multimedia
Retrieval
Xiangyu Jin1, James French1, and
Jonathan Michel2

31
Bibliografia
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 1999. Modern Information
Retrieval (1 ed.). ACM Press, USA.
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 2011. Modern Information Retrieval:
The Concepts and Technology behind Search (2 ed.). Addison-Wesley Publishing
Company, USA.
• Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schüze. 2008. Introduction
to Information Retrieval. Cambridge University Press, USA.
30

BMT20231 300 270 Relevance Feedback.pdf

BMT20231 300 270 Relevance Feedback.pdf

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Geraldo Xexéo

Mais de Geraldo Xexéo (18)

BMT20231 300 270 Relevance Feedback.pdf