3. 58
Eventos Independentes
• Dois eventos são independentes se um não influencia o outro
𝑃 𝐴 ∧ 𝐵 = 𝑃 𝐴 . 𝑃(𝐵)
Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão
3
4. 58
Probabilidade Condicional
• Medida de probabilidade de um evento dado que outro evento ocorreu
• Probabilidade de (acontecer) B dado (que) A (aconteceu)
Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão
4
A B
8. 58
Modelo Conceitual
• Conjunto finito de Documentos (D)
• Conjunto finito de Consultas (Q)
• Conjunto finito R de julgamentos de relevância
• R = { R , ¬R}
Geraldo Xexéo - xexeo@cos.ufrj.br
8
9. 58
Modelo Conceitual
• Um sistema de IR faz o mapeamento de pares (consulta,documento) em
julgamentos de relevância
Geraldo Xexéo - xexeo@cos.ufrj.br
9
10. 58
Modelo Conceitual
• Porém, não tratamos documentos ou consultas diretamente, mas suas
representações (D e Q)
• Para isso precisamos de mapeamentos (aQ e aD)
Geraldo Xexéo - xexeo@cos.ufrj.br
10
11. 58
Modelo Conceitual
• Em busca da generalidade, também teremos descrições das nossas representações
• E mapeamentos
Geraldo Xexéo - xexeo@cos.ufrj.br
11
12. 58
Retrieval Status Value (RSV)
• Mapeia um par consulta-documento em um conjunto de valores de status de
recuperação
• A tarefa de um sistema de IR com rankings é calcular esse valor
• Nós trabalhamos com as descrições das representações
• Ԧ
𝑑𝑗 e Ԧ
𝑞
Geraldo Xexéo - xexeo@cos.ufrj.br
12
𝑟: 𝑄′
× 𝐷′
→ ℜ
13. 58
Representação
• Nós buscamos a relevância de 𝑑𝑗 para 𝑞
• Nós podemos calcular a probabilidade Ԧ
𝑑𝑗 ser relevante a Ԧ
𝑞
Geraldo Xexéo - xexeo@cos.ufrj.br
13
15. 58
Modelo Probabilístico
• Objetivo: Capturar o problema de IR a partir de um arcabouço probabilístico
• Data uma consulta, existe um conjunto resposta ideal
• Considera consultar como especificar as propriedades desse conjunto ideal
• Quais são essas propriedades?
• Adivinhe no início
• Melhore por interação
Geraldo Xexéo - xexeo@cos.ufrj.br
15
16. 58
Princípio do Ranking Probabilístico
• Dada uma consulta q e um documento dj
• O modelo probabilístico tenta estimar a probabilidade do usuários achar o
documento dj interessante (relevante)
• O modelo assume que a probabilidade de relevância é dependente apenas da
consulta e das representações dos documentoS
• Esquece a importância do mundo externo (Contexto)
Geraldo Xexéo - xexeo@cos.ufrj.br
16
17. 58
Algoritmo Básico
• De alguma maneira, recupere um conjunto inicial de documentos
• O usuário inspeciona esses documentos, procurando por documentos relevantes
• 10 a 20 é um bom número
• Repetindo esse processo, usando a informação do usuário para melhorar a consulta,
supomos que a descrição da resposta ideal melhore
• A descrição ideal é modelada em termos probabilísticos
• Ao contrário do Booleano, é um “modelo iterativo” (e também interativo)
Geraldo Xexéo - xexeo@cos.ufrj.br
17
18. 58
Notação Básica
• 𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞) ou 𝑃(𝑅 = 1| Ԧ
𝑑𝑗, Ԧ
𝑞) – Probabilidade de que um documento 𝑑𝑗 cuja
descrição da representação é Ԧ
𝑑𝑗, ser relevante para a consulta Ԧ
𝑞
• 𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞) ou 𝑃(𝑅 = 0| Ԧ
𝑑𝑗, Ԧ
𝑞) – Probabilidade de que um documento 𝑑𝑗 cuja
descrição da representação é Ԧ
𝑑𝑗, não ser relevante para a consulta Ԧ
𝑞
Geraldo Xexéo - xexeo@cos.ufrj.br
18
19. 58
Princípio do Ranking Probabilístico
• Um desempenho ótimo de recuperação é obtido quando os documentos são
ordenados de acordo com a probabilidade de serem julgados relevantes a consulta.
• Ótimo é diferente de perfeito
• Pode ser definido
• “If a reference retrieval system’s response to each request is a ranking of the documents in
the collection in order of decreasing probability of relevance to the user who submitted the
request, where the probabilities are estimated as accurately as possible on the basis of
whatever data have been made available to the system for this purpose, the overall
effectiveness of the system to its user will be the best that is obtainable on the basis of
those data.” (Rijsbergen,1979)
Geraldo Xexéo - xexeo@cos.ufrj.br
19
20. 58
O Ranking
• Isto é, as chances (odds) do documento dj ser relevante
• Usar as chances minimiza a probabilidade de um julgamento errôneo
Geraldo Xexéo - xexeo@cos.ufrj.br
20
𝑠𝑖𝑚 Ԧ
𝑞, Ԧ
𝑑𝑗 = 𝑂𝑑𝑑𝑠 Ԧ
𝑞, Ԧ
𝑑𝑗 =
𝑃( Ԧ
𝑑𝑗ser relevante para Ԧ
𝑞)
𝑃( Ԧ
𝑑𝑗não ser relevante para Ԧ
𝑞)
𝑠𝑖𝑚 Ԧ
𝑞, Ԧ
𝑑𝑗 =
𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞)
𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞)
21. 58
Colocando Custos
• Seja 𝐶 o custo de recuperar um documento relevante
• Seja ҧ
𝐶 o custo de recuperar um documento não relevante
• A regra de decisão que é base para o PRP diz que um documento dm deve ser
recuperado em resposta a uma consulta qk , antes de qualquer outro documento di
na coleção se...
Geraldo Xexéo - xexeo@cos.ufrj.br
21
22. 58
PRP Formal
Geraldo Xexéo - xexeo@cos.ufrj.br
22
𝐶 × 𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑑𝑖) + 𝐶 × (1 − 𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑑𝑖)) ≤
≤ 𝐶 × 𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑑𝑗) + 𝐶 × (1 − 𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑑𝑗))
Custo de recuperar x Probabilidade de ser relevante
+
Custo de não recuperar x Probabilidade de não ser
relevante
Recuperar Ԧ
𝑑𝑖 antes de Ԧ
𝑑𝑗 se, para a consulta Ԧ
𝑞:
23. 58
Tarefa de IR Probabilística
• Assumindo que a resposta é binária
• Relevante (𝑅 ou 𝑅 = 1), Não Relevante (𝑅 ou 𝑅 = 0)
• Binary Independence Model (BIM)
• Um sistema de IR probabilístico deve “rankear” documentos de acordo com a
probabilidade estimada de serem relevantes
Geraldo Xexéo - xexeo@cos.ufrj.br
23
𝑃(𝑅|𝑞, 𝑑𝑗) ≈ 𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞)
24. 58
Premissas
• Representação e Descrição são a mesma
• Documentos e consultas são representados e descrito por um conjunto de termos índices
• 𝑇 = {𝑡1, 𝑡2, … , 𝑡𝑛}
• 𝐾 = 𝑘1, 𝑘2, … , 𝑘𝑡
• Representação binária dos documentos
• Ԧ
𝑥 = (𝑥1, . . . , 𝑥𝑛)
• É a representação binária em função dos termos
• xi=1 se t1 T
• xi=0 se ti T
Geraldo Xexéo - xexeo@cos.ufrj.br
24
25. 58
Premissa Básica
• A distribuição de termos dentro da coleção de documentos fornece informação
sobre a relevância de um documento para uma consulta dada, desde que seja
assumido que haja uma distribuição diferente dos termos nos documentos
relevante e não-relevantes.
• Se não houver uma diferença nessa distribuição, não podemos usar essa
representação/descrição
Geraldo Xexéo - xexeo@cos.ufrj.br
25
26. 58
Distribuição
• Provê informação sobre a probabilidade de relevância de um documento para uma
consulta
• Se assumirmos julgamentos de relevância binários
Geraldo Xexéo - xexeo@cos.ufrj.br
26
27. 58
Estimar o que?
• Não podemos estimar diretamente a probabilidade de um documento ser relevante a
uma consulta
• 𝑃(𝑅| Ԧ
𝑞, Ԧ
𝑑𝑗)
• Usamos o Teorema de Bayes (substituindo na notação Ԧ
𝑑𝑗por Ԧ
𝑥𝑗, para indicar que
mais de um documento pode ter o mesmo vetor)
Geraldo Xexéo - xexeo@cos.ufrj.br
27
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅, Ԧ
𝑞)𝑃(𝑅|Ԧ
𝑞)
𝑃( Ԧ
𝑥|Ԧ
𝑞)
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅, Ԧ
𝑞)𝑃(𝑅|Ԧ
𝑞)
𝑃( Ԧ
𝑥|Ԧ
𝑞)
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥)+ 𝑃 𝑅 Ԧ
𝑞, Ԧ
𝑥 = 1
29. 58
Lendo
• 𝑃(𝑅) – probabilidade de relevância a priori, probabilidade de um documento ser
relevante
• 𝑃( Ԧ
𝑥) – probabilidade de observar Ԧ
𝑥, probabilidade de pegar o documento na coleção
• 𝑃( Ԧ
𝑥|𝑅) – probabilidade de observar Ԧ
𝑥 se já tiver sido estabelecida a relevância
• Qual a probabilidade de, dado o conjunto de relevantes, Ԧ
𝑥 ser escolhido
Geraldo Xexéo - xexeo@cos.ufrj.br
29
𝑃(𝑅| Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅)𝑃(𝑅)
𝑃( Ԧ
𝑥)
30. 58
Com custos
• Fazendo os custos de recuperar ou não um documento relevante ou não serem:
• Devemos recuperar apenas documentos onde:
Geraldo Xexéo - xexeo@cos.ufrj.br
30
𝑃(𝑑𝑗|𝑅)
𝑃(𝑑𝑗|¬𝑅)
>
𝜆2 × 𝑃(¬𝑅)
𝜆1 × 𝑃(𝑅)
Cj(R,dec) Recuperado Não-Recuperado
Relevante 0 1
Não Relevante 2 0
33. 58
O Ranking
• Isto é, as chances (odds) do documento dj ser relevante
• Verossimilhança
• Usar as chances minimiza a probabilidade de um julgamento errôneo
Geraldo Xexéo - xexeo@cos.ufrj.br
33
)
para
relevante
ser
não
(
)
para
relevante
ser
(
)
,
(
q
d
P
q
d
P
d
q
sim
j
j
j =
34. 58
Modelo BIR
• Binary Independence Retrieval Model
• Os termos são independentes
• Premissa
• 𝑃 Ԧ
𝑥 𝑅 = ς𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
• 𝑃 Ԧ
𝑥 𝑅 = ς𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
• A probabilidade de um documento ser observado entre os (não) relevantes é o
produto das probabilidades dos termos serem observados entre os (não) relevantes
Geraldo Xexéo - xexeo@cos.ufrj.br
34
ς𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
ς𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
= ෑ
𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
𝑃(𝑥𝑖|𝑅)
35. 58
Alguma notação
• wij {0,1}
• P(R|vec(dj))
• probabilidade que dado um vetor que representa dj, dj seja relevante (dj R)
• P(¬R|vec(dj))
• probabilidade que dado um vetor que representa dj, dj seja relevante (dj R)
Geraldo Xexéo - xexeo@cos.ufrj.br
35
37. 58
Similaridade (cont...)
Geraldo Xexéo - xexeo@cos.ufrj.br
37
≈
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
P(ki|R) – probabilidade do termo ki
estar presente em um documento
selecionado aleatoriamente em R
≈ ෑ
𝑖=1
𝑡
𝑃(𝑘𝑖|𝑅)
𝑃(𝑘𝑖|¬𝑅)
É igual na premissa que a presença ou
ausência de uma palavra
Em um documento
Termos presentes indicam relevância
Termos não presentes indicam não relevância
Termos presentes indicam não relevância
Termos não presentes indicam relevância
𝑃( Ԧ
𝑥|𝑅)
𝑃( Ԧ
𝑥|¬𝑅)
ෑ 𝑃(𝑘𝑖 |𝑅) ×
39. 58
Geraldo Xexéo - xexeo@cos.ufrj.br
39
=
=
=
=
)
|
(
)
|
(
)
|
(
)
|
(
log
)
,
(
0
)
(
1
)
(
0
)
(
1
)
(
R
k
P
R
k
P
R
k
P
R
k
P
q
d
sim
i
d
g
i
d
g
i
d
g
i
d
g
j
j
i
j
i
j
i
j
i
Termos na query e no documento Termos na query, mas não no documento
−
−
=
=
=
=
=
=
=
=
)
1
(
)
1
(
log
)
,
(
1
0
1
1
0
1
i
i
i
q
x
i
q
x
j
r
r
p
p
q
d
sim
i
q
i
x
i
q
i
x
i
i
i
i
𝒑𝒊
𝒓𝒊
40. 58
Geraldo Xexéo - xexeo@cos.ufrj.br
40
−
−
=
=
=
=
=
=
=
=
)
1
(
)
1
(
log
)
,
(
1
0
1
1
0
1
i
i
i
q
x
i
q
x
j
r
r
p
p
q
d
sim
i
q
i
x
i
q
i
x
i
i
i
i
−
−
−
−
=
=
=
=
=
=
)
1
(
)
1
(
)
1
(
)
1
(
log
)
,
(
1
1
1
1
i
i
i
i
q
i
i
q
x
j
r
p
r
p
r
p
q
d
sim
i
q
i
q
i
x
i
i
i
−
+
−
=
)
|
(
)
|
(
1
log
)
|
(
1
)
|
(
log
)
,
( 1
R
k
P
R
k
P
R
k
P
R
k
P
w
w
q
d
sim
i
i
i
i
t
i ij
iq
j
−
−
−
−
=
=
=
=
=
=
)
1
(
)
1
(
)
1
(
)
1
(
log
)
,
(
1
1
1
1
i
i
q
i
i
i
i
q
x
j
r
p
p
r
r
p
q
d
sim
i
q
i
i
q
i
x
i
i
Constante
para uma
consulta
41. 58
Fórmula Final
• E qual o valor inicial de P(ki|R) e P(ki|¬R)
Geraldo Xexéo - xexeo@cos.ufrj.br
41
−
+
−
=
)
|
(
)
|
(
1
log
)
|
(
1
)
|
(
log
)
,
( 1
R
k
P
R
k
P
R
k
P
R
k
P
w
w
q
d
sim
i
i
i
i
t
i ij
iq
j
42. 58
Valores iniciais
• P(ki | R) = 0.5
• P(ki | R) = ni/N
• ni é o número de documentos que contêm ki
Geraldo Xexéo - xexeo@cos.ufrj.br
42
−
+
−
=
)
|
(
)
|
(
1
log
)
|
(
1
)
|
(
log
)
,
( 1
R
k
P
R
k
P
R
k
P
R
k
P
w
w
q
d
sim
i
i
i
i
t
i ij
iq
j
43. 58
Valores iniciais melhores
• Seja
• V : conjunto de documentos recuperados
• Vi : conjunto de documentos recuperados contendo ki
• Novas estimativas
• P(ki | R) = Vi/V
• P(ki | R) = (ni – Vi) /(N – V)
• Repetir recursivamente
Geraldo Xexéo - xexeo@cos.ufrj.br
43
44. 58
Problemas
• V=1 e Vi=0
• P(ki | R) = Vi + 0.5 V + 1
• P(ki | R) = ni - Vi + 0.5 N - V + 1
• Ou,
• P(ki | R) = Vi + ni/N V + 1
• P(ki | R) = ni - Vi + ni/N N - V + 1
Geraldo Xexéo - xexeo@cos.ufrj.br
44
45. 58
Análise
• Bom
• Ordenação em ordem decrescente de probabilidade
• Ruim
• Precisa “chutar” a primeira busca
• Não falamos de tf.idf
• Estávamos melhorando o modelo Booleano
Geraldo Xexéo - xexeo@cos.ufrj.br
45
46. 58
Pesos dos Termos
• Duas escolhas
• Escolha 1: Independência
• I1 – Distribuição dos termos em documentos relevantes é independente e a distribuição dos
termos em todos os documentos é independente
• I2 – Distribuição dos termos em documentos relevantes é independente e a distribuição dos
termos nos documentos não relevantes é independente
Geraldo Xexéo - xexeo@cos.ufrj.br
46
47. 58
Pesos dos Termos (cont)
• Escolha 2
• O1 – a probabilidade de relevância é dependente só dos termos presentes nos documentos
• O2 – a probabilidade de relevência é dependente dos termos presentes e ausentes nos
documentos
Geraldo Xexéo - xexeo@cos.ufrj.br
47
48. 58
Pesos
• N = número de
documentos
• R = número de
documentos
relevantes para uma
consulta q
• n = número de
documento que
contêm t
• r = número de
documentos
relevantes que
contêm o termo t
Geraldo Xexéo - xexeo@cos.ufrj.br
48
=
N
n
R
r
w log
1
−
−
=
R
N
r
n
R
r
w log
2
−
−
=
n
N
n
r
R
r
w log
3
( ) ( )
−
−
−
−
−
=
r
R
n
N
r
n
r
R
r
w log
4
I1 e O1
I1 e O2
I2 e O1
I2 e O2
49. 58
Exemplo
• Documentos
• D1 Carregamento de ouro danificado em fogo
• D2 Entrega de prata chegou em um caminhão prata
• D3 Carregamento de outro chegou em um caminhão
• Consulta
• Caminhão ouro prata
• Relevante
• D2 e D3
Geraldo Xexéo - xexeo@cos.ufrj.br
49
50. 58
Para cada termo
Ouro Prata Caminhão
N 3 3 3
n 2 1 2
R 2 2 2
r 1 1 2
Geraldo Xexéo - xexeo@cos.ufrj.br
50
51. 58
Probabilidades
Geraldo Xexéo - xexeo@cos.ufrj.br
51
=
N
n
R
r
w log
1
−
−
=
R
N
r
n
R
r
w log
2
−
−
=
n
N
n
r
R
r
w log
3
( ) ( )
−
−
−
−
−
=
r
R
n
N
r
n
r
R
r
w log
4
0
=
−r
n
52. 58
Probabilidades sem zero
Geraldo Xexéo - xexeo@cos.ufrj.br
52
+
+
+
+
=
2
1
1
5
,
0
log
1
N
n
R
r
w
+
−
+
−
+
+
=
1
5
,
0
1
5
,
0
log
2
R
N
r
n
R
r
w
+
−
+
+
−
+
=
1
1
5
,
0
5
,
0
log
3
n
N
n
r
R
r
w
( ) ( )
+
−
−
−
+
−
+
−
+
=
5
,
0
5
,
0
5
,
0
5
,
0
log
4
r
R
n
N
r
n
r
R
r
w
57. 58
Bibliografia
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 1999. Modern Information
Retrieval (1 ed.). ACM Press, USA.
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 2011. Modern Information Retrieval:
The Concepts and Technology behind Search (2 ed.). Addison-Wesley Publishing
Company, USA.
• Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schüze. 2008. Introduction
to Information Retrieval. Cambridge University Press, USA.
Geraldo Xexéo - xexeo@cos.ufrj.br
57