2. 31
Paradoxo da I.R.
• Se você soubesse o que está procurando, não estaria procurando
• Logo, a consulta tipicamente não é um bom parâmetro para determinar o que o
usuário precisa
• Mas só temos a consulta
Geraldo Xexéo - xexeo@cos.ufrj.br
2
3. 31
Feedback de Relevância
• Um documento recuperado e identificado como relevante pode ser utilizado para
reformular a consulta
• Espera-se que a consulta reformulada resulte na recuperação de itens relevantes adicionais,
que serão semelhantes ao documento originalmente considerado relevante
Geraldo Xexéo - xexeo@cos.ufrj.br
3
4. 31
Premissas
• Consultas são feitas em uma seção
• Iterativa
• Interativa
• Documentos relevantes a uma consulta em particular são similares
• têm vetores razoavelmente similares
Geraldo Xexéo - xexeo@cos.ufrj.br
4
5. 31
Outra forma de ver
• Buscamos otimizar a consulta, isto é, encontrar os parâmetros (pesos dos termos
no vetor da consulta) que melhoram a resposta (quantidade de respostas
relevantes)
Geraldo Xexéo - xexeo@cos.ufrj.br
5
6. 31
Espaço Vetorial
Feedback de Relevância Positiva
Geraldo Xexéo - xexeo@cos.ufrj.br
6
Documentos Relevantes
Recuperados
Consulta Original
Consulta Modificada
7. 31
Feedback de Relevância
• Queremos a consulta ideal
• maximize a similaridade média dos documentos relevantes e
• minimize a similaridade média dos documentos não relevantes
• Se soubéssemos avaliar todos os documentos como relevantes ou não relevantes
poderíamos calcular essa consulta
Geraldo Xexéo - xexeo@cos.ufrj.br
7
8. 31
Feedback de Relevância
• R é o número de documentos relevantes
• N é o número total de documentos
Geraldo Xexéo - xexeo@cos.ufrj.br
8
−
−
=
Rel Nonrel
1
1
i
i
i
i
opt
D
D
R
N
D
D
R
k
Q
?
9. 31
Feedback de Relevância
• Como não podemos fazer o somatório anterior…
• Podemos aproximar, após ter um conjunto de documentos relevantes
• Identificando os subconjuntos R’, dos itens relevantes, e N’, dos itens não
relevantes
Geraldo Xexéo - xexeo@cos.ufrj.br
9
10. 31
Feedback de Relevância
Geraldo Xexéo - xexeo@cos.ufrj.br
10
+
−
+
=
'
'
)
1
(
'
1
'
1
N
D
i
R
D
i
i
i
i
i
D
N
D
R
Q
Q
+
−
+
=
'
'
)
1
(
N
D
i
R
D
i
i
i
i
i
D
D
Q
Q
+
−
+
=
'
'
)
1
(
N
D
i
i
R
D
i
i
i
i
i
i
D
D
Q
Q
11. 31
RF por Divisão de Consulta
• Em alguns casos o RF não funciona satisfatoriamente pois os documentos não
formam um grupo consistente no espaço de documentos
• Uma solução é dividir a consulta em várias sub-consultas, cada uma com sua propria
modificação
Geraldo Xexéo - xexeo@cos.ufrj.br
11
R1
R3
R2
R4
R5
R6
R7
R8
C1
13. 31
Resultados
• Melhoras de 40 a 60% na precisão
• níveis fixos de recall
• média de consultas
• apenas após a segunda consulta
• Ranking Effect
• variação da posição do documento na busca
• pode se manter a posição do documento
Geraldo Xexéo - xexeo@cos.ufrj.br
13
14. 31
RF: com conjunto teste
• Divide a coleção em duas partes
• coleção de teste e coleção de controle
• A coleção de teste é usada para construir a consulta modificada
• A coleção de teste é usada para avaliar as modificações
Geraldo Xexéo - xexeo@cos.ufrj.br
14
17. 31
RF no Modelo Probabilístico
• O modelo apresentado na aula anterior já era um modelo de RF
Geraldo Xexéo - xexeo@cos.ufrj.br
17
Wij = the term weight for term i in query j
r = the number of relevant documents for query j having term i
R = te total number of relevant documents for query j
n = the number of documents in the collection having term i
N = the number of documents in the collection
18. 31
RF em Modelo Vetorial
• Ri são os vetores dos documentos relevantes
• S é o vetor do top documento não relevante
Geraldo Xexéo - xexeo@cos.ufrj.br
18
𝑄1 = 𝑄0 +
𝑖=1
𝑛
𝑅𝑖 − 𝑆
20. 31
RF Indireto
• Em vez de usar uma informação direta de relevância, usar outra indicação que
possa ser aproximada como relevância
• Clique do usuário
• Ver o documento
Geraldo Xexéo - xexeo@cos.ufrj.br
20
24. 31
Como avaliar algoritmos de RF
• RF leva os documentos relevantes conhecidos para o topo do ranking
• Isso cria Recall/Precision artificiais simplesmente re-ranqueando para o topo os
que sabemos relevantes
• Não adicionando novos documentos
Geraldo Xexéo - xexeo@cos.ufrj.br
24
25. 31
Residual Ranking
• Documentos usados no RF são tirados da coleção antes da avaliação
• Só considera os efeitos do feedback
• Não pode comparar com a consulta original
Geraldo Xexéo - xexeo@cos.ufrj.br
25
26. 31
Freezing
• Full
• Congela a posição dos top N, usados para modificar a consulta
• Modified
• Congela a posição até o último relevante
• Desvantagem
• Tem cada vez mais congelados
Geraldo Xexéo - xexeo@cos.ufrj.br
26
27. 31
Full Freezing
• “Congela” o ranking de todos os documentos apresentados ao usuário em prévias
iterações
• Primeiro documento recuperado na iteração i é o i*N+1, onde N documentos são
apresentados para o usuário a cada iteração
Geraldo Xexéo - xexeo@cos.ufrj.br
27
28. 31
Revendo o RF
• We offer two possible implementations for rank normalization: rank-shifting and rank-freezing.
• Rank-shifting moves all feedback examples to the top of the refined retrieval result.
• Rank-freezing keeps those feedback examples’ ranks in the previous retrieval result unchanged in the refined retrieval result, as if they are “frozen” there.
• These two approaches both “normalize” the performance improvement contributed from the user feedback examples.
• Rank-shifting makes them equal by maximizing them.
• Rank-freezing makes them equal by minimizing them.
• We should note that these two techniques are not necessarily performance
• order preserving under arbitrary performance measures, although in
• general they differ only when performance is very similar.
• We can always give
• negative examples that would generate different order for some measure. But
• since the variation is very small, we still claim either technique can be used to
• compare feedback approaches (due to space limitation, we skip the discussion
• here). Rank-shifting is relatively easier to implement and rank-freezing is more
• objective when comparing the performance improvement over iterations.
Geraldo Xexéo - xexeo@cos.ufrj.br
28
Toward Consistent Evaluation of
Relevance
Feedback Approaches in Multimedia
Retrieval
Xiangyu Jin1, James French1, and
Jonathan Michel2
30. 31
Bibliografia
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 1999. Modern Information
Retrieval (1 ed.). ACM Press, USA.
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 2011. Modern Information Retrieval:
The Concepts and Technology behind Search (2 ed.). Addison-Wesley Publishing
Company, USA.
• Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schüze. 2008. Introduction
to Information Retrieval. Cambridge University Press, USA.
Geraldo Xexéo - xexeo@cos.ufrj.br
30