Modelo Probabilístico
Geraldo Xexéo, D.Sc.
Lembrando Probabilidade
Geraldo Xexéo - xexeo@cos.ufrj.br
2
58
Eventos Independentes
• Dois eventos são independentes se um não influencia o outro
𝑃 𝐴 ∧ 𝐵 = 𝑃 𝐴 . 𝑃(𝐵)
Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão
3
58
Probabilidade Condicional
• Medida de probabilidade de um evento dado que outro evento ocorreu
• Probabilidade de (acontecer) B dado (que) A (aconteceu)
Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão
4
A B
58
Teorema de Bayes
Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão
5
𝑃 𝐴 𝐵 =
𝑃 𝐴 ∧ 𝐵
𝑃 𝐵
𝑃 𝐵 𝐴 =
𝑃 𝐴 ∧ 𝐵
𝑃 𝐴 𝑃 𝐴 𝑃 𝐵 𝐴 = 𝑃 𝐵 𝑃(𝐴|𝐵)
58
Odds – (Chances)
Geraldo Xexéo - xexeo@cos.ufrj.br
6
𝑃(𝐴)
1 − 𝑃(𝐴)
O que realmente fazemos
Geraldo Xexéo - xexeo@cos.ufrj.br
7
58
Modelo Conceitual
• Conjunto finito de Documentos (D)
• Conjunto finito de Consultas (Q)
• Conjunto finito R de julgamentos de relevância
• R = { R , ¬R}
Geraldo Xexéo - xexeo@cos.ufrj.br
8
58
Modelo Conceitual
• Um sistema de IR faz o mapeamento de pares (consulta,documento) em
julgamentos de relevância
Geraldo Xexéo - xexeo@cos.ufrj.br
9
58
Modelo Conceitual
• Porém, não tratamos documentos ou consultas diretamente, mas suas
representações (D e Q)
• Para isso precisamos de mapeamentos (aQ e aD)
Geraldo Xexéo - xexeo@cos.ufrj.br
10
58
Modelo Conceitual
• Em busca da generalidade, também teremos descrições das nossas representações
• E mapeamentos
Geraldo Xexéo - xexeo@cos.ufrj.br
11
58
Retrieval Status Value (RSV)
• Mapeia um par consulta-documento em um conjunto de valores de status de
recuperação
• A tarefa de um sistema de IR com rankings é calcular esse valor
• Nós trabalhamos com as descrições das representações
• Ԧ
𝑑𝑗 e Ԧ
𝑞
Geraldo Xexéo - xexeo@cos.ufrj.br
12
𝑟: 𝑄′
× 𝐷′
→ ℜ
58
Representação
• Nós buscamos a relevância de 𝑑𝑗 para 𝑞
• Nós podemos calcular a probabilidade Ԧ
𝑑𝑗 ser relevante a Ԧ
𝑞
Geraldo Xexéo - xexeo@cos.ufrj.br
13
O Básico
Geraldo Xexéo - xexeo@cos.ufrj.br
14
58
Modelo Probabilístico
• Objetivo: Capturar o problema de IR a partir de um arcabouço probabilístico
• Data uma consulta, existe um conjunto resposta ideal
• Considera consultar como especificar as propriedades desse conjunto ideal
• Quais são essas propriedades?
• Adivinhe no início
• Melhore por interação
Geraldo Xexéo - xexeo@cos.ufrj.br
15
58
Princípio do Ranking Probabilístico
• Dada uma consulta q e um documento dj
• O modelo probabilístico tenta estimar a probabilidade do usuários achar o
documento dj interessante (relevante)
• O modelo assume que a probabilidade de relevância é dependente apenas da
consulta e das representações dos documentoS
• Esquece a importância do mundo externo (Contexto)
Geraldo Xexéo - xexeo@cos.ufrj.br
16
58
Algoritmo Básico
• De alguma maneira, recupere um conjunto inicial de documentos
• O usuário inspeciona esses documentos, procurando por documentos relevantes
• 10 a 20 é um bom número
• Repetindo esse processo, usando a informação do usuário para melhorar a consulta,
supomos que a descrição da resposta ideal melhore
• A descrição ideal é modelada em termos probabilísticos
• Ao contrário do Booleano, é um “modelo iterativo” (e também interativo)
Geraldo Xexéo - xexeo@cos.ufrj.br
17
58
Notação Básica
• 𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞) ou 𝑃(𝑅 = 1| Ԧ
𝑑𝑗, Ԧ
𝑞) – Probabilidade de que um documento 𝑑𝑗 cuja
descrição da representação é Ԧ
𝑑𝑗, ser relevante para a consulta Ԧ
𝑞
• 𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞) ou 𝑃(𝑅 = 0| Ԧ
𝑑𝑗, Ԧ
𝑞) – Probabilidade de que um documento 𝑑𝑗 cuja
descrição da representação é Ԧ
𝑑𝑗, não ser relevante para a consulta Ԧ
𝑞
Geraldo Xexéo - xexeo@cos.ufrj.br
18
58
Princípio do Ranking Probabilístico
• Um desempenho ótimo de recuperação é obtido quando os documentos são
ordenados de acordo com a probabilidade de serem julgados relevantes a consulta.
• Ótimo é diferente de perfeito
• Pode ser definido
• “If a reference retrieval system’s response to each request is a ranking of the documents in
the collection in order of decreasing probability of relevance to the user who submitted the
request, where the probabilities are estimated as accurately as possible on the basis of
whatever data have been made available to the system for this purpose, the overall
effectiveness of the system to its user will be the best that is obtainable on the basis of
those data.” (Rijsbergen,1979)
Geraldo Xexéo - xexeo@cos.ufrj.br
19
58
O Ranking
• Isto é, as chances (odds) do documento dj ser relevante
• Usar as chances minimiza a probabilidade de um julgamento errôneo
Geraldo Xexéo - xexeo@cos.ufrj.br
20
𝑠𝑖𝑚 Ԧ
𝑞, Ԧ
𝑑𝑗 = 𝑂𝑑𝑑𝑠 Ԧ
𝑞, Ԧ
𝑑𝑗 =
𝑃( Ԧ
𝑑𝑗ser relevante para Ԧ
𝑞)
𝑃( Ԧ
𝑑𝑗não ser relevante para Ԧ
𝑞)
𝑠𝑖𝑚 Ԧ
𝑞, Ԧ
𝑑𝑗 =
𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞)
𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞)
58
Colocando Custos
• Seja 𝐶 o custo de recuperar um documento relevante
• Seja ҧ
𝐶 o custo de recuperar um documento não relevante
• A regra de decisão que é base para o PRP diz que um documento dm deve ser
recuperado em resposta a uma consulta qk , antes de qualquer outro documento di
na coleção se...
Geraldo Xexéo - xexeo@cos.ufrj.br
21
58
PRP Formal
Geraldo Xexéo - xexeo@cos.ufrj.br
22
𝐶 × 𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑑𝑖) + 𝐶 × (1 − 𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑑𝑖)) ≤
≤ 𝐶 × 𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑑𝑗) + 𝐶 × (1 − 𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑑𝑗))
Custo de recuperar x Probabilidade de ser relevante
+
Custo de não recuperar x Probabilidade de não ser
relevante
Recuperar Ԧ
𝑑𝑖 antes de Ԧ
𝑑𝑗 se, para a consulta Ԧ
𝑞:
58
Tarefa de IR Probabilística
• Assumindo que a resposta é binária
• Relevante (𝑅 ou 𝑅 = 1), Não Relevante (𝑅 ou 𝑅 = 0)
• Binary Independence Model (BIM)
• Um sistema de IR probabilístico deve “rankear” documentos de acordo com a
probabilidade estimada de serem relevantes
Geraldo Xexéo - xexeo@cos.ufrj.br
23
𝑃(𝑅|𝑞, 𝑑𝑗) ≈ 𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞)
58
Premissas
• Representação e Descrição são a mesma
• Documentos e consultas são representados e descrito por um conjunto de termos índices
• 𝑇 = {𝑡1, 𝑡2, … , 𝑡𝑛}
• 𝐾 = 𝑘1, 𝑘2, … , 𝑘𝑡
• Representação binária dos documentos
• Ԧ
𝑥 = (𝑥1, . . . , 𝑥𝑛)
• É a representação binária em função dos termos
• xi=1 se t1  T
• xi=0 se ti T
Geraldo Xexéo - xexeo@cos.ufrj.br
24
58
Premissa Básica
• A distribuição de termos dentro da coleção de documentos fornece informação
sobre a relevância de um documento para uma consulta dada, desde que seja
assumido que haja uma distribuição diferente dos termos nos documentos
relevante e não-relevantes.
• Se não houver uma diferença nessa distribuição, não podemos usar essa
representação/descrição
Geraldo Xexéo - xexeo@cos.ufrj.br
25
58
Distribuição
• Provê informação sobre a probabilidade de relevância de um documento para uma
consulta
• Se assumirmos julgamentos de relevância binários
Geraldo Xexéo - xexeo@cos.ufrj.br
26
58
Estimar o que?
• Não podemos estimar diretamente a probabilidade de um documento ser relevante a
uma consulta
• 𝑃(𝑅| Ԧ
𝑞, Ԧ
𝑑𝑗)
• Usamos o Teorema de Bayes (substituindo na notação Ԧ
𝑑𝑗por Ԧ
𝑥𝑗, para indicar que
mais de um documento pode ter o mesmo vetor)
Geraldo Xexéo - xexeo@cos.ufrj.br
27
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅, Ԧ
𝑞)𝑃(𝑅|Ԧ
𝑞)
𝑃( Ԧ
𝑥|Ԧ
𝑞)
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅, Ԧ
𝑞)𝑃(𝑅|Ԧ
𝑞)
𝑃( Ԧ
𝑥|Ԧ
𝑞)
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥)+ 𝑃 𝑅 Ԧ
𝑞, Ԧ
𝑥 = 1
58
Ԧ
𝑞 é comum em todo nosso caso
Geraldo Xexéo - xexeo@cos.ufrj.br
28
𝑃(𝑅| Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅)𝑃(𝑅)
𝑃( Ԧ
𝑥)
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅, Ԧ
𝑞)𝑃(𝑅|Ԧ
𝑞)
𝑃( Ԧ
𝑥|Ԧ
𝑞)
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅, Ԧ
𝑞)𝑃(𝑅|Ԧ
𝑞)
𝑃( Ԧ
𝑥|Ԧ
𝑞)
𝑃(𝑅| Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅)𝑃(𝑅)
𝑃( Ԧ
𝑥)
58
Lendo
• 𝑃(𝑅) – probabilidade de relevância a priori, probabilidade de um documento ser
relevante
• 𝑃( Ԧ
𝑥) – probabilidade de observar Ԧ
𝑥, probabilidade de pegar o documento na coleção
• 𝑃( Ԧ
𝑥|𝑅) – probabilidade de observar Ԧ
𝑥 se já tiver sido estabelecida a relevância
• Qual a probabilidade de, dado o conjunto de relevantes, Ԧ
𝑥 ser escolhido
Geraldo Xexéo - xexeo@cos.ufrj.br
29
𝑃(𝑅| Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅)𝑃(𝑅)
𝑃( Ԧ
𝑥)
58
Com custos
• Fazendo os custos de recuperar ou não um documento relevante ou não serem:
• Devemos recuperar apenas documentos onde:
Geraldo Xexéo - xexeo@cos.ufrj.br
30
𝑃(𝑑𝑗|𝑅)
𝑃(𝑑𝑗|¬𝑅)
>
𝜆2 × 𝑃(¬𝑅)
𝜆1 × 𝑃(𝑅)
Cj(R,dec) Recuperado Não-Recuperado
Relevante 0 1
Não Relevante 2 0
58
Questões
• Como computar a probabilidade?
• Qual o espaço amostral?
Geraldo Xexéo - xexeo@cos.ufrj.br
31
Binary Independence Retrieval
Model
Geraldo Xexéo - xexeo@cos.ufrj.br
32
58
O Ranking
• Isto é, as chances (odds) do documento dj ser relevante
• Verossimilhança
• Usar as chances minimiza a probabilidade de um julgamento errôneo
Geraldo Xexéo - xexeo@cos.ufrj.br
33
)
para
relevante
ser
não
(
)
para
relevante
ser
(
)
,
(
q
d
P
q
d
P
d
q
sim
j
j
j =
58
Modelo BIR
• Binary Independence Retrieval Model
• Os termos são independentes
• Premissa
• 𝑃 Ԧ
𝑥 𝑅 = ς𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
• 𝑃 Ԧ
𝑥 𝑅 = ς𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
• A probabilidade de um documento ser observado entre os (não) relevantes é o
produto das probabilidades dos termos serem observados entre os (não) relevantes
Geraldo Xexéo - xexeo@cos.ufrj.br
34
ς𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
ς𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
= ෑ
𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
𝑃(𝑥𝑖|𝑅)
58
Alguma notação
• wij {0,1}
• P(R|vec(dj))
• probabilidade que dado um vetor que representa dj, dj seja relevante (dj R)
• P(¬R|vec(dj))
• probabilidade que dado um vetor que representa dj, dj seja relevante (dj  R)
Geraldo Xexéo - xexeo@cos.ufrj.br
35
58
Similaridade?
Geraldo Xexéo - xexeo@cos.ufrj.br
36
𝑠𝑖𝑚 𝑑𝑗, 𝑞 =
𝑃 𝑅 Ԧ
𝑥, 𝑞
𝑃 ¬𝑅 Ԧ
𝑥, 𝑞
=
𝑃 Ԧ
𝑥 𝑅, Ԧ
𝑞 𝑃 𝑅 Ԧ
𝑞
𝑃 Ԧ
𝑥 Ԧ
𝑞
𝑃 Ԧ
𝑥 𝑅, Ԧ
𝑞 𝑃 𝑅 Ԧ
𝑞
𝑃 Ԧ
𝑥 Ԧ
𝑞
=
𝑃 Ԧ
𝑥 𝑅, Ԧ
𝑞 𝑃 𝑅 Ԧ
𝑞
𝑃 Ԧ
𝑥 𝑅, Ԧ
𝑞 𝑃 𝑅 Ԧ
𝑞
Constante para
uma consulta
=
𝑃( Ԧ
𝑥|𝑅) × 𝑃(𝑅)
𝑃( Ԧ
𝑥|¬𝑅) × 𝑃(¬𝑅)
Na notação resumida
𝑃( Ԧ
𝑥|𝑅)
𝑃( Ԧ
𝑥|¬𝑅)
58
Similaridade (cont...)
Geraldo Xexéo - xexeo@cos.ufrj.br
37
≈
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
P(ki|R) – probabilidade do termo ki
estar presente em um documento
selecionado aleatoriamente em R
≈ ෑ
𝑖=1
𝑡
𝑃(𝑘𝑖|𝑅)
𝑃(𝑘𝑖|¬𝑅)
É igual na premissa que a presença ou
ausência de uma palavra
Em um documento
Termos presentes indicam relevância
Termos não presentes indicam não relevância
Termos presentes indicam não relevância
Termos não presentes indicam relevância
𝑃( Ԧ
𝑥|𝑅)
𝑃( Ԧ
𝑥|¬𝑅)
ෑ 𝑃(𝑘𝑖 |𝑅) ×
58
Similaridade (cont...)
Geraldo Xexéo - xexeo@cos.ufrj.br
38
𝑠𝑖𝑚(𝑑𝑗, 𝑞) ≈
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
𝑠𝑖𝑚(𝑑𝑗, 𝑞) ≈ log
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
𝑃(𝑘𝑖|𝑅) + 𝑝(¬𝑘𝑖|𝑅) = 1
58
Geraldo Xexéo - xexeo@cos.ufrj.br
39



















=
=
=
=
)
|
(
)
|
(
)
|
(
)
|
(
log
)
,
(
0
)
(
1
)
(
0
)
(
1
)
(
R
k
P
R
k
P
R
k
P
R
k
P
q
d
sim
i
d
g
i
d
g
i
d
g
i
d
g
j
j
i
j
i
j
i
j
i
Termos na query e no documento Termos na query, mas não no documento










−

−






=
=
=
=
=
=
=
=
)
1
(
)
1
(
log
)
,
(
1
0
1
1
0
1
i
i
i
q
x
i
q
x
j
r
r
p
p
q
d
sim
i
q
i
x
i
q
i
x
i
i
i
i
𝒑𝒊
𝒓𝒊
58
Geraldo Xexéo - xexeo@cos.ufrj.br
40










−

−






=
=
=
=
=
=
=
=
)
1
(
)
1
(
log
)
,
(
1
0
1
1
0
1
i
i
i
q
x
i
q
x
j
r
r
p
p
q
d
sim
i
q
i
x
i
q
i
x
i
i
i
i








−

−
−

−





=
=
=
=
=
=
)
1
(
)
1
(
)
1
(
)
1
(
log
)
,
(
1
1
1
1
i
i
i
i
q
i
i
q
x
j
r
p
r
p
r
p
q
d
sim
i
q
i
q
i
x
i
i
i
















−
+








−


 =
)
|
(
)
|
(
1
log
)
|
(
1
)
|
(
log
)
,
( 1
R
k
P
R
k
P
R
k
P
R
k
P
w
w
q
d
sim
i
i
i
i
t
i ij
iq
j








−
−

−
−





=
=
=
=
=
=
)
1
(
)
1
(
)
1
(
)
1
(
log
)
,
(
1
1
1
1
i
i
q
i
i
i
i
q
x
j
r
p
p
r
r
p
q
d
sim
i
q
i
i
q
i
x
i
i
Constante
para uma
consulta
58
Fórmula Final
• E qual o valor inicial de P(ki|R) e P(ki|¬R)
Geraldo Xexéo - xexeo@cos.ufrj.br
41
















−
+








−


 =
)
|
(
)
|
(
1
log
)
|
(
1
)
|
(
log
)
,
( 1
R
k
P
R
k
P
R
k
P
R
k
P
w
w
q
d
sim
i
i
i
i
t
i ij
iq
j
58
Valores iniciais
• P(ki | R) = 0.5
• P(ki | R) = ni/N
• ni é o número de documentos que contêm ki
Geraldo Xexéo - xexeo@cos.ufrj.br
42
















−
+








−


 =
)
|
(
)
|
(
1
log
)
|
(
1
)
|
(
log
)
,
( 1
R
k
P
R
k
P
R
k
P
R
k
P
w
w
q
d
sim
i
i
i
i
t
i ij
iq
j
58
Valores iniciais melhores
• Seja
• V : conjunto de documentos recuperados
• Vi : conjunto de documentos recuperados contendo ki
• Novas estimativas
• P(ki | R) = Vi/V
• P(ki | R) = (ni – Vi) /(N – V)
• Repetir recursivamente
Geraldo Xexéo - xexeo@cos.ufrj.br
43
58
Problemas
• V=1 e Vi=0
• P(ki | R) = Vi + 0.5 V + 1
• P(ki | R) = ni - Vi + 0.5 N - V + 1
• Ou,
• P(ki | R) = Vi + ni/N V + 1
• P(ki | R) = ni - Vi + ni/N N - V + 1
Geraldo Xexéo - xexeo@cos.ufrj.br
44
58
Análise
• Bom
• Ordenação em ordem decrescente de probabilidade
• Ruim
• Precisa “chutar” a primeira busca
• Não falamos de tf.idf
• Estávamos melhorando o modelo Booleano
Geraldo Xexéo - xexeo@cos.ufrj.br
45
58
Pesos dos Termos
• Duas escolhas
• Escolha 1: Independência
• I1 – Distribuição dos termos em documentos relevantes é independente e a distribuição dos
termos em todos os documentos é independente
• I2 – Distribuição dos termos em documentos relevantes é independente e a distribuição dos
termos nos documentos não relevantes é independente
Geraldo Xexéo - xexeo@cos.ufrj.br
46
58
Pesos dos Termos (cont)
• Escolha 2
• O1 – a probabilidade de relevância é dependente só dos termos presentes nos documentos
• O2 – a probabilidade de relevência é dependente dos termos presentes e ausentes nos
documentos
Geraldo Xexéo - xexeo@cos.ufrj.br
47
58
Pesos
• N = número de
documentos
• R = número de
documentos
relevantes para uma
consulta q
• n = número de
documento que
contêm t
• r = número de
documentos
relevantes que
contêm o termo t
Geraldo Xexéo - xexeo@cos.ufrj.br
48
























=
N
n
R
r
w log
1


















−
−






=
R
N
r
n
R
r
w log
2


















−






−
=
n
N
n
r
R
r
w log
3
( ) ( ) 





















−
−
−
−






−
=
r
R
n
N
r
n
r
R
r
w log
4
I1 e O1
I1 e O2
I2 e O1
I2 e O2
58
Exemplo
• Documentos
• D1 Carregamento de ouro danificado em fogo
• D2 Entrega de prata chegou em um caminhão prata
• D3 Carregamento de outro chegou em um caminhão
• Consulta
• Caminhão ouro prata
• Relevante
• D2 e D3
Geraldo Xexéo - xexeo@cos.ufrj.br
49
58
Para cada termo
Ouro Prata Caminhão
N 3 3 3
n 2 1 2
R 2 2 2
r 1 1 2
Geraldo Xexéo - xexeo@cos.ufrj.br
50
58
Probabilidades
Geraldo Xexéo - xexeo@cos.ufrj.br
51
























=
N
n
R
r
w log
1


















−
−






=
R
N
r
n
R
r
w log
2


















−






−
=
n
N
n
r
R
r
w log
3
( ) ( ) 





















−
−
−
−






−
=
r
R
n
N
r
n
r
R
r
w log
4
0
=
−r
n
58
Probabilidades sem zero
Geraldo Xexéo - xexeo@cos.ufrj.br
52


















+
+






+
+
=
2
1
1
5
,
0
log
1
N
n
R
r
w


















+
−
+
−






+
+
=
1
5
,
0
1
5
,
0
log
2
R
N
r
n
R
r
w




















+
−
+






+
−
+
=
1
1
5
,
0
5
,
0
log
3
n
N
n
r
R
r
w
( ) ( ) 





















+
−
−
−
+
−






+
−
+
=
5
,
0
5
,
0
5
,
0
5
,
0
log
4
r
R
n
N
r
n
r
R
r
w
58
Resultados Resumidos
Geraldo Xexéo - xexeo@cos.ufrj.br
53
Tipo Ouro Prata Caminhão
W1 -0,079 0,097 0,143
W2 -0,176 0,301 0, 523
W3 -0,176 0,176 0, 523
W4 -0,477 0,477 1,176
58
Pesos de Documentos
Geraldo Xexéo - xexeo@cos.ufrj.br
54
Tipo D1 D2 D3
W1 -0,078 0,240 0,064
W2 -0,176 0,824 0,347
W3 -0,176 0,699 1,653
W4 -0,477 1,653 0,699
58
Resultados experimentais
• W3 e w4 são melhores que w1 e w2
Geraldo Xexéo - xexeo@cos.ufrj.br
55
FIM
58
Bibliografia
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 1999. Modern Information
Retrieval (1 ed.). ACM Press, USA.
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 2011. Modern Information Retrieval:
The Concepts and Technology behind Search (2 ed.). Addison-Wesley Publishing
Company, USA.
• Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schüze. 2008. Introduction
to Information Retrieval. Cambridge University Press, USA.
Geraldo Xexéo - xexeo@cos.ufrj.br
57
Geraldo Xexéo
xexeo@ufrj.br
http://xexeo.net
http://line.cos.ufrj.br
Este obra está licenciado com uma Licença Creative Commons
Atribuição-NãoComercial-SemDerivações 4.0 Internacional.

BMT20231 300 150 Modelo Probabilistico.pdf

  • 1.
  • 2.
  • 3.
    58 Eventos Independentes • Doiseventos são independentes se um não influencia o outro 𝑃 𝐴 ∧ 𝐵 = 𝑃 𝐴 . 𝑃(𝐵) Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão 3
  • 4.
    58 Probabilidade Condicional • Medidade probabilidade de um evento dado que outro evento ocorreu • Probabilidade de (acontecer) B dado (que) A (aconteceu) Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão 4 A B
  • 5.
    58 Teorema de Bayes GeraldoXexéo xexeo@cos.ufrj.br Árvore de Decisão 5 𝑃 𝐴 𝐵 = 𝑃 𝐴 ∧ 𝐵 𝑃 𝐵 𝑃 𝐵 𝐴 = 𝑃 𝐴 ∧ 𝐵 𝑃 𝐴 𝑃 𝐴 𝑃 𝐵 𝐴 = 𝑃 𝐵 𝑃(𝐴|𝐵)
  • 6.
    58 Odds – (Chances) GeraldoXexéo - xexeo@cos.ufrj.br 6 𝑃(𝐴) 1 − 𝑃(𝐴)
  • 7.
    O que realmentefazemos Geraldo Xexéo - xexeo@cos.ufrj.br 7
  • 8.
    58 Modelo Conceitual • Conjuntofinito de Documentos (D) • Conjunto finito de Consultas (Q) • Conjunto finito R de julgamentos de relevância • R = { R , ¬R} Geraldo Xexéo - xexeo@cos.ufrj.br 8
  • 9.
    58 Modelo Conceitual • Umsistema de IR faz o mapeamento de pares (consulta,documento) em julgamentos de relevância Geraldo Xexéo - xexeo@cos.ufrj.br 9
  • 10.
    58 Modelo Conceitual • Porém,não tratamos documentos ou consultas diretamente, mas suas representações (D e Q) • Para isso precisamos de mapeamentos (aQ e aD) Geraldo Xexéo - xexeo@cos.ufrj.br 10
  • 11.
    58 Modelo Conceitual • Embusca da generalidade, também teremos descrições das nossas representações • E mapeamentos Geraldo Xexéo - xexeo@cos.ufrj.br 11
  • 12.
    58 Retrieval Status Value(RSV) • Mapeia um par consulta-documento em um conjunto de valores de status de recuperação • A tarefa de um sistema de IR com rankings é calcular esse valor • Nós trabalhamos com as descrições das representações • Ԧ 𝑑𝑗 e Ԧ 𝑞 Geraldo Xexéo - xexeo@cos.ufrj.br 12 𝑟: 𝑄′ × 𝐷′ → ℜ
  • 13.
    58 Representação • Nós buscamosa relevância de 𝑑𝑗 para 𝑞 • Nós podemos calcular a probabilidade Ԧ 𝑑𝑗 ser relevante a Ԧ 𝑞 Geraldo Xexéo - xexeo@cos.ufrj.br 13
  • 14.
    O Básico Geraldo Xexéo- xexeo@cos.ufrj.br 14
  • 15.
    58 Modelo Probabilístico • Objetivo:Capturar o problema de IR a partir de um arcabouço probabilístico • Data uma consulta, existe um conjunto resposta ideal • Considera consultar como especificar as propriedades desse conjunto ideal • Quais são essas propriedades? • Adivinhe no início • Melhore por interação Geraldo Xexéo - xexeo@cos.ufrj.br 15
  • 16.
    58 Princípio do RankingProbabilístico • Dada uma consulta q e um documento dj • O modelo probabilístico tenta estimar a probabilidade do usuários achar o documento dj interessante (relevante) • O modelo assume que a probabilidade de relevância é dependente apenas da consulta e das representações dos documentoS • Esquece a importância do mundo externo (Contexto) Geraldo Xexéo - xexeo@cos.ufrj.br 16
  • 17.
    58 Algoritmo Básico • Dealguma maneira, recupere um conjunto inicial de documentos • O usuário inspeciona esses documentos, procurando por documentos relevantes • 10 a 20 é um bom número • Repetindo esse processo, usando a informação do usuário para melhorar a consulta, supomos que a descrição da resposta ideal melhore • A descrição ideal é modelada em termos probabilísticos • Ao contrário do Booleano, é um “modelo iterativo” (e também interativo) Geraldo Xexéo - xexeo@cos.ufrj.br 17
  • 18.
    58 Notação Básica • 𝑃(𝑅|Ԧ 𝑑𝑗, Ԧ 𝑞) ou 𝑃(𝑅 = 1| Ԧ 𝑑𝑗, Ԧ 𝑞) – Probabilidade de que um documento 𝑑𝑗 cuja descrição da representação é Ԧ 𝑑𝑗, ser relevante para a consulta Ԧ 𝑞 • 𝑃(𝑅| Ԧ 𝑑𝑗, Ԧ 𝑞) ou 𝑃(𝑅 = 0| Ԧ 𝑑𝑗, Ԧ 𝑞) – Probabilidade de que um documento 𝑑𝑗 cuja descrição da representação é Ԧ 𝑑𝑗, não ser relevante para a consulta Ԧ 𝑞 Geraldo Xexéo - xexeo@cos.ufrj.br 18
  • 19.
    58 Princípio do RankingProbabilístico • Um desempenho ótimo de recuperação é obtido quando os documentos são ordenados de acordo com a probabilidade de serem julgados relevantes a consulta. • Ótimo é diferente de perfeito • Pode ser definido • “If a reference retrieval system’s response to each request is a ranking of the documents in the collection in order of decreasing probability of relevance to the user who submitted the request, where the probabilities are estimated as accurately as possible on the basis of whatever data have been made available to the system for this purpose, the overall effectiveness of the system to its user will be the best that is obtainable on the basis of those data.” (Rijsbergen,1979) Geraldo Xexéo - xexeo@cos.ufrj.br 19
  • 20.
    58 O Ranking • Istoé, as chances (odds) do documento dj ser relevante • Usar as chances minimiza a probabilidade de um julgamento errôneo Geraldo Xexéo - xexeo@cos.ufrj.br 20 𝑠𝑖𝑚 Ԧ 𝑞, Ԧ 𝑑𝑗 = 𝑂𝑑𝑑𝑠 Ԧ 𝑞, Ԧ 𝑑𝑗 = 𝑃( Ԧ 𝑑𝑗ser relevante para Ԧ 𝑞) 𝑃( Ԧ 𝑑𝑗não ser relevante para Ԧ 𝑞) 𝑠𝑖𝑚 Ԧ 𝑞, Ԧ 𝑑𝑗 = 𝑃(𝑅| Ԧ 𝑑𝑗, Ԧ 𝑞) 𝑃(𝑅| Ԧ 𝑑𝑗, Ԧ 𝑞)
  • 21.
    58 Colocando Custos • Seja𝐶 o custo de recuperar um documento relevante • Seja ҧ 𝐶 o custo de recuperar um documento não relevante • A regra de decisão que é base para o PRP diz que um documento dm deve ser recuperado em resposta a uma consulta qk , antes de qualquer outro documento di na coleção se... Geraldo Xexéo - xexeo@cos.ufrj.br 21
  • 22.
    58 PRP Formal Geraldo Xexéo- xexeo@cos.ufrj.br 22 𝐶 × 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑑𝑖) + 𝐶 × (1 − 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑑𝑖)) ≤ ≤ 𝐶 × 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑑𝑗) + 𝐶 × (1 − 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑑𝑗)) Custo de recuperar x Probabilidade de ser relevante + Custo de não recuperar x Probabilidade de não ser relevante Recuperar Ԧ 𝑑𝑖 antes de Ԧ 𝑑𝑗 se, para a consulta Ԧ 𝑞:
  • 23.
    58 Tarefa de IRProbabilística • Assumindo que a resposta é binária • Relevante (𝑅 ou 𝑅 = 1), Não Relevante (𝑅 ou 𝑅 = 0) • Binary Independence Model (BIM) • Um sistema de IR probabilístico deve “rankear” documentos de acordo com a probabilidade estimada de serem relevantes Geraldo Xexéo - xexeo@cos.ufrj.br 23 𝑃(𝑅|𝑞, 𝑑𝑗) ≈ 𝑃(𝑅| Ԧ 𝑑𝑗, Ԧ 𝑞)
  • 24.
    58 Premissas • Representação eDescrição são a mesma • Documentos e consultas são representados e descrito por um conjunto de termos índices • 𝑇 = {𝑡1, 𝑡2, … , 𝑡𝑛} • 𝐾 = 𝑘1, 𝑘2, … , 𝑘𝑡 • Representação binária dos documentos • Ԧ 𝑥 = (𝑥1, . . . , 𝑥𝑛) • É a representação binária em função dos termos • xi=1 se t1  T • xi=0 se ti T Geraldo Xexéo - xexeo@cos.ufrj.br 24
  • 25.
    58 Premissa Básica • Adistribuição de termos dentro da coleção de documentos fornece informação sobre a relevância de um documento para uma consulta dada, desde que seja assumido que haja uma distribuição diferente dos termos nos documentos relevante e não-relevantes. • Se não houver uma diferença nessa distribuição, não podemos usar essa representação/descrição Geraldo Xexéo - xexeo@cos.ufrj.br 25
  • 26.
    58 Distribuição • Provê informaçãosobre a probabilidade de relevância de um documento para uma consulta • Se assumirmos julgamentos de relevância binários Geraldo Xexéo - xexeo@cos.ufrj.br 26
  • 27.
    58 Estimar o que? •Não podemos estimar diretamente a probabilidade de um documento ser relevante a uma consulta • 𝑃(𝑅| Ԧ 𝑞, Ԧ 𝑑𝑗) • Usamos o Teorema de Bayes (substituindo na notação Ԧ 𝑑𝑗por Ԧ 𝑥𝑗, para indicar que mais de um documento pode ter o mesmo vetor) Geraldo Xexéo - xexeo@cos.ufrj.br 27 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅, Ԧ 𝑞)𝑃(𝑅|Ԧ 𝑞) 𝑃( Ԧ 𝑥|Ԧ 𝑞) 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅, Ԧ 𝑞)𝑃(𝑅|Ԧ 𝑞) 𝑃( Ԧ 𝑥|Ԧ 𝑞) 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑥)+ 𝑃 𝑅 Ԧ 𝑞, Ԧ 𝑥 = 1
  • 28.
    58 Ԧ 𝑞 é comumem todo nosso caso Geraldo Xexéo - xexeo@cos.ufrj.br 28 𝑃(𝑅| Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅)𝑃(𝑅) 𝑃( Ԧ 𝑥) 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅, Ԧ 𝑞)𝑃(𝑅|Ԧ 𝑞) 𝑃( Ԧ 𝑥|Ԧ 𝑞) 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅, Ԧ 𝑞)𝑃(𝑅|Ԧ 𝑞) 𝑃( Ԧ 𝑥|Ԧ 𝑞) 𝑃(𝑅| Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅)𝑃(𝑅) 𝑃( Ԧ 𝑥)
  • 29.
    58 Lendo • 𝑃(𝑅) –probabilidade de relevância a priori, probabilidade de um documento ser relevante • 𝑃( Ԧ 𝑥) – probabilidade de observar Ԧ 𝑥, probabilidade de pegar o documento na coleção • 𝑃( Ԧ 𝑥|𝑅) – probabilidade de observar Ԧ 𝑥 se já tiver sido estabelecida a relevância • Qual a probabilidade de, dado o conjunto de relevantes, Ԧ 𝑥 ser escolhido Geraldo Xexéo - xexeo@cos.ufrj.br 29 𝑃(𝑅| Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅)𝑃(𝑅) 𝑃( Ԧ 𝑥)
  • 30.
    58 Com custos • Fazendoos custos de recuperar ou não um documento relevante ou não serem: • Devemos recuperar apenas documentos onde: Geraldo Xexéo - xexeo@cos.ufrj.br 30 𝑃(𝑑𝑗|𝑅) 𝑃(𝑑𝑗|¬𝑅) > 𝜆2 × 𝑃(¬𝑅) 𝜆1 × 𝑃(𝑅) Cj(R,dec) Recuperado Não-Recuperado Relevante 0 1 Não Relevante 2 0
  • 31.
    58 Questões • Como computara probabilidade? • Qual o espaço amostral? Geraldo Xexéo - xexeo@cos.ufrj.br 31
  • 32.
    Binary Independence Retrieval Model GeraldoXexéo - xexeo@cos.ufrj.br 32
  • 33.
    58 O Ranking • Istoé, as chances (odds) do documento dj ser relevante • Verossimilhança • Usar as chances minimiza a probabilidade de um julgamento errôneo Geraldo Xexéo - xexeo@cos.ufrj.br 33 ) para relevante ser não ( ) para relevante ser ( ) , ( q d P q d P d q sim j j j =
  • 34.
    58 Modelo BIR • BinaryIndependence Retrieval Model • Os termos são independentes • Premissa • 𝑃 Ԧ 𝑥 𝑅 = ς𝑖=1 𝑛 𝑃(𝑥𝑖|𝑅) • 𝑃 Ԧ 𝑥 𝑅 = ς𝑖=1 𝑛 𝑃(𝑥𝑖|𝑅) • A probabilidade de um documento ser observado entre os (não) relevantes é o produto das probabilidades dos termos serem observados entre os (não) relevantes Geraldo Xexéo - xexeo@cos.ufrj.br 34 ς𝑖=1 𝑛 𝑃(𝑥𝑖|𝑅) ς𝑖=1 𝑛 𝑃(𝑥𝑖|𝑅) = ෑ 𝑖=1 𝑛 𝑃(𝑥𝑖|𝑅) 𝑃(𝑥𝑖|𝑅)
  • 35.
    58 Alguma notação • wij{0,1} • P(R|vec(dj)) • probabilidade que dado um vetor que representa dj, dj seja relevante (dj R) • P(¬R|vec(dj)) • probabilidade que dado um vetor que representa dj, dj seja relevante (dj  R) Geraldo Xexéo - xexeo@cos.ufrj.br 35
  • 36.
    58 Similaridade? Geraldo Xexéo -xexeo@cos.ufrj.br 36 𝑠𝑖𝑚 𝑑𝑗, 𝑞 = 𝑃 𝑅 Ԧ 𝑥, 𝑞 𝑃 ¬𝑅 Ԧ 𝑥, 𝑞 = 𝑃 Ԧ 𝑥 𝑅, Ԧ 𝑞 𝑃 𝑅 Ԧ 𝑞 𝑃 Ԧ 𝑥 Ԧ 𝑞 𝑃 Ԧ 𝑥 𝑅, Ԧ 𝑞 𝑃 𝑅 Ԧ 𝑞 𝑃 Ԧ 𝑥 Ԧ 𝑞 = 𝑃 Ԧ 𝑥 𝑅, Ԧ 𝑞 𝑃 𝑅 Ԧ 𝑞 𝑃 Ԧ 𝑥 𝑅, Ԧ 𝑞 𝑃 𝑅 Ԧ 𝑞 Constante para uma consulta = 𝑃( Ԧ 𝑥|𝑅) × 𝑃(𝑅) 𝑃( Ԧ 𝑥|¬𝑅) × 𝑃(¬𝑅) Na notação resumida 𝑃( Ԧ 𝑥|𝑅) 𝑃( Ԧ 𝑥|¬𝑅)
  • 37.
    58 Similaridade (cont...) Geraldo Xexéo- xexeo@cos.ufrj.br 37 ≈ ς𝑔𝑖( Ԧ 𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ 𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅) ς𝑔𝑖( Ԧ 𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ 𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅) P(ki|R) – probabilidade do termo ki estar presente em um documento selecionado aleatoriamente em R ≈ ෑ 𝑖=1 𝑡 𝑃(𝑘𝑖|𝑅) 𝑃(𝑘𝑖|¬𝑅) É igual na premissa que a presença ou ausência de uma palavra Em um documento Termos presentes indicam relevância Termos não presentes indicam não relevância Termos presentes indicam não relevância Termos não presentes indicam relevância 𝑃( Ԧ 𝑥|𝑅) 𝑃( Ԧ 𝑥|¬𝑅) ෑ 𝑃(𝑘𝑖 |𝑅) ×
  • 38.
    58 Similaridade (cont...) Geraldo Xexéo- xexeo@cos.ufrj.br 38 𝑠𝑖𝑚(𝑑𝑗, 𝑞) ≈ ς𝑔𝑖( Ԧ 𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ 𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅) ς𝑔𝑖( Ԧ 𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ 𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅) 𝑠𝑖𝑚(𝑑𝑗, 𝑞) ≈ log ς𝑔𝑖( Ԧ 𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ 𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅) ς𝑔𝑖( Ԧ 𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ 𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅) 𝑃(𝑘𝑖|𝑅) + 𝑝(¬𝑘𝑖|𝑅) = 1
  • 39.
    58 Geraldo Xexéo -xexeo@cos.ufrj.br 39                    = = = = ) | ( ) | ( ) | ( ) | ( log ) , ( 0 ) ( 1 ) ( 0 ) ( 1 ) ( R k P R k P R k P R k P q d sim i d g i d g i d g i d g j j i j i j i j i Termos na query e no documento Termos na query, mas não no documento           −  −       = = = = = = = = ) 1 ( ) 1 ( log ) , ( 1 0 1 1 0 1 i i i q x i q x j r r p p q d sim i q i x i q i x i i i i 𝒑𝒊 𝒓𝒊
  • 40.
    58 Geraldo Xexéo -xexeo@cos.ufrj.br 40           −  −       = = = = = = = = ) 1 ( ) 1 ( log ) , ( 1 0 1 1 0 1 i i i q x i q x j r r p p q d sim i q i x i q i x i i i i         −  − −  −      = = = = = = ) 1 ( ) 1 ( ) 1 ( ) 1 ( log ) , ( 1 1 1 1 i i i i q i i q x j r p r p r p q d sim i q i q i x i i i                 − +         −    = ) | ( ) | ( 1 log ) | ( 1 ) | ( log ) , ( 1 R k P R k P R k P R k P w w q d sim i i i i t i ij iq j         − −  − −      = = = = = = ) 1 ( ) 1 ( ) 1 ( ) 1 ( log ) , ( 1 1 1 1 i i q i i i i q x j r p p r r p q d sim i q i i q i x i i Constante para uma consulta
  • 41.
    58 Fórmula Final • Equal o valor inicial de P(ki|R) e P(ki|¬R) Geraldo Xexéo - xexeo@cos.ufrj.br 41                 − +         −    = ) | ( ) | ( 1 log ) | ( 1 ) | ( log ) , ( 1 R k P R k P R k P R k P w w q d sim i i i i t i ij iq j
  • 42.
    58 Valores iniciais • P(ki| R) = 0.5 • P(ki | R) = ni/N • ni é o número de documentos que contêm ki Geraldo Xexéo - xexeo@cos.ufrj.br 42                 − +         −    = ) | ( ) | ( 1 log ) | ( 1 ) | ( log ) , ( 1 R k P R k P R k P R k P w w q d sim i i i i t i ij iq j
  • 43.
    58 Valores iniciais melhores •Seja • V : conjunto de documentos recuperados • Vi : conjunto de documentos recuperados contendo ki • Novas estimativas • P(ki | R) = Vi/V • P(ki | R) = (ni – Vi) /(N – V) • Repetir recursivamente Geraldo Xexéo - xexeo@cos.ufrj.br 43
  • 44.
    58 Problemas • V=1 eVi=0 • P(ki | R) = Vi + 0.5 V + 1 • P(ki | R) = ni - Vi + 0.5 N - V + 1 • Ou, • P(ki | R) = Vi + ni/N V + 1 • P(ki | R) = ni - Vi + ni/N N - V + 1 Geraldo Xexéo - xexeo@cos.ufrj.br 44
  • 45.
    58 Análise • Bom • Ordenaçãoem ordem decrescente de probabilidade • Ruim • Precisa “chutar” a primeira busca • Não falamos de tf.idf • Estávamos melhorando o modelo Booleano Geraldo Xexéo - xexeo@cos.ufrj.br 45
  • 46.
    58 Pesos dos Termos •Duas escolhas • Escolha 1: Independência • I1 – Distribuição dos termos em documentos relevantes é independente e a distribuição dos termos em todos os documentos é independente • I2 – Distribuição dos termos em documentos relevantes é independente e a distribuição dos termos nos documentos não relevantes é independente Geraldo Xexéo - xexeo@cos.ufrj.br 46
  • 47.
    58 Pesos dos Termos(cont) • Escolha 2 • O1 – a probabilidade de relevância é dependente só dos termos presentes nos documentos • O2 – a probabilidade de relevência é dependente dos termos presentes e ausentes nos documentos Geraldo Xexéo - xexeo@cos.ufrj.br 47
  • 48.
    58 Pesos • N =número de documentos • R = número de documentos relevantes para uma consulta q • n = número de documento que contêm t • r = número de documentos relevantes que contêm o termo t Geraldo Xexéo - xexeo@cos.ufrj.br 48                         = N n R r w log 1                   − −       = R N r n R r w log 2                   −       − = n N n r R r w log 3 ( ) ( )                       − − − −       − = r R n N r n r R r w log 4 I1 e O1 I1 e O2 I2 e O1 I2 e O2
  • 49.
    58 Exemplo • Documentos • D1Carregamento de ouro danificado em fogo • D2 Entrega de prata chegou em um caminhão prata • D3 Carregamento de outro chegou em um caminhão • Consulta • Caminhão ouro prata • Relevante • D2 e D3 Geraldo Xexéo - xexeo@cos.ufrj.br 49
  • 50.
    58 Para cada termo OuroPrata Caminhão N 3 3 3 n 2 1 2 R 2 2 2 r 1 1 2 Geraldo Xexéo - xexeo@cos.ufrj.br 50
  • 51.
    58 Probabilidades Geraldo Xexéo -xexeo@cos.ufrj.br 51                         = N n R r w log 1                   − −       = R N r n R r w log 2                   −       − = n N n r R r w log 3 ( ) ( )                       − − − −       − = r R n N r n r R r w log 4 0 = −r n
  • 52.
    58 Probabilidades sem zero GeraldoXexéo - xexeo@cos.ufrj.br 52                   + +       + + = 2 1 1 5 , 0 log 1 N n R r w                   + − + −       + + = 1 5 , 0 1 5 , 0 log 2 R N r n R r w                     + − +       + − + = 1 1 5 , 0 5 , 0 log 3 n N n r R r w ( ) ( )                       + − − − + −       + − + = 5 , 0 5 , 0 5 , 0 5 , 0 log 4 r R n N r n r R r w
  • 53.
    58 Resultados Resumidos Geraldo Xexéo- xexeo@cos.ufrj.br 53 Tipo Ouro Prata Caminhão W1 -0,079 0,097 0,143 W2 -0,176 0,301 0, 523 W3 -0,176 0,176 0, 523 W4 -0,477 0,477 1,176
  • 54.
    58 Pesos de Documentos GeraldoXexéo - xexeo@cos.ufrj.br 54 Tipo D1 D2 D3 W1 -0,078 0,240 0,064 W2 -0,176 0,824 0,347 W3 -0,176 0,699 1,653 W4 -0,477 1,653 0,699
  • 55.
    58 Resultados experimentais • W3e w4 são melhores que w1 e w2 Geraldo Xexéo - xexeo@cos.ufrj.br 55
  • 56.
  • 57.
    58 Bibliografia • Ricardo Baeza-Yatesand Berthier Ribeiro-Neto. 1999. Modern Information Retrieval (1 ed.). ACM Press, USA. • Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 2011. Modern Information Retrieval: The Concepts and Technology behind Search (2 ed.). Addison-Wesley Publishing Company, USA. • Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schüze. 2008. Introduction to Information Retrieval. Cambridge University Press, USA. Geraldo Xexéo - xexeo@cos.ufrj.br 57
  • 58.
    Geraldo Xexéo xexeo@ufrj.br http://xexeo.net http://line.cos.ufrj.br Este obraestá licenciado com uma Licença Creative Commons Atribuição-NãoComercial-SemDerivações 4.0 Internacional.