SlideShare uma empresa Scribd logo
1 de 58
Baixar para ler offline
Modelo Probabilístico
Geraldo Xexéo, D.Sc.
Lembrando Probabilidade
Geraldo Xexéo - xexeo@cos.ufrj.br
2
58
Eventos Independentes
• Dois eventos são independentes se um não influencia o outro
𝑃 𝐴 ∧ 𝐵 = 𝑃 𝐴 . 𝑃(𝐵)
Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão
3
58
Probabilidade Condicional
• Medida de probabilidade de um evento dado que outro evento ocorreu
• Probabilidade de (acontecer) B dado (que) A (aconteceu)
Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão
4
A B
58
Teorema de Bayes
Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão
5
𝑃 𝐴 𝐵 =
𝑃 𝐴 ∧ 𝐵
𝑃 𝐵
𝑃 𝐵 𝐴 =
𝑃 𝐴 ∧ 𝐵
𝑃 𝐴 𝑃 𝐴 𝑃 𝐵 𝐴 = 𝑃 𝐵 𝑃(𝐴|𝐵)
58
Odds – (Chances)
Geraldo Xexéo - xexeo@cos.ufrj.br
6
𝑃(𝐴)
1 − 𝑃(𝐴)
O que realmente fazemos
Geraldo Xexéo - xexeo@cos.ufrj.br
7
58
Modelo Conceitual
• Conjunto finito de Documentos (D)
• Conjunto finito de Consultas (Q)
• Conjunto finito R de julgamentos de relevância
• R = { R , ¬R}
Geraldo Xexéo - xexeo@cos.ufrj.br
8
58
Modelo Conceitual
• Um sistema de IR faz o mapeamento de pares (consulta,documento) em
julgamentos de relevância
Geraldo Xexéo - xexeo@cos.ufrj.br
9
58
Modelo Conceitual
• Porém, não tratamos documentos ou consultas diretamente, mas suas
representações (D e Q)
• Para isso precisamos de mapeamentos (aQ e aD)
Geraldo Xexéo - xexeo@cos.ufrj.br
10
58
Modelo Conceitual
• Em busca da generalidade, também teremos descrições das nossas representações
• E mapeamentos
Geraldo Xexéo - xexeo@cos.ufrj.br
11
58
Retrieval Status Value (RSV)
• Mapeia um par consulta-documento em um conjunto de valores de status de
recuperação
• A tarefa de um sistema de IR com rankings é calcular esse valor
• Nós trabalhamos com as descrições das representações
• Ԧ
𝑑𝑗 e Ԧ
𝑞
Geraldo Xexéo - xexeo@cos.ufrj.br
12
𝑟: 𝑄′
× 𝐷′
→ ℜ
58
Representação
• Nós buscamos a relevância de 𝑑𝑗 para 𝑞
• Nós podemos calcular a probabilidade Ԧ
𝑑𝑗 ser relevante a Ԧ
𝑞
Geraldo Xexéo - xexeo@cos.ufrj.br
13
O Básico
Geraldo Xexéo - xexeo@cos.ufrj.br
14
58
Modelo Probabilístico
• Objetivo: Capturar o problema de IR a partir de um arcabouço probabilístico
• Data uma consulta, existe um conjunto resposta ideal
• Considera consultar como especificar as propriedades desse conjunto ideal
• Quais são essas propriedades?
• Adivinhe no início
• Melhore por interação
Geraldo Xexéo - xexeo@cos.ufrj.br
15
58
Princípio do Ranking Probabilístico
• Dada uma consulta q e um documento dj
• O modelo probabilístico tenta estimar a probabilidade do usuários achar o
documento dj interessante (relevante)
• O modelo assume que a probabilidade de relevância é dependente apenas da
consulta e das representações dos documentoS
• Esquece a importância do mundo externo (Contexto)
Geraldo Xexéo - xexeo@cos.ufrj.br
16
58
Algoritmo Básico
• De alguma maneira, recupere um conjunto inicial de documentos
• O usuário inspeciona esses documentos, procurando por documentos relevantes
• 10 a 20 é um bom número
• Repetindo esse processo, usando a informação do usuário para melhorar a consulta,
supomos que a descrição da resposta ideal melhore
• A descrição ideal é modelada em termos probabilísticos
• Ao contrário do Booleano, é um “modelo iterativo” (e também interativo)
Geraldo Xexéo - xexeo@cos.ufrj.br
17
58
Notação Básica
• 𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞) ou 𝑃(𝑅 = 1| Ԧ
𝑑𝑗, Ԧ
𝑞) – Probabilidade de que um documento 𝑑𝑗 cuja
descrição da representação é Ԧ
𝑑𝑗, ser relevante para a consulta Ԧ
𝑞
• 𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞) ou 𝑃(𝑅 = 0| Ԧ
𝑑𝑗, Ԧ
𝑞) – Probabilidade de que um documento 𝑑𝑗 cuja
descrição da representação é Ԧ
𝑑𝑗, não ser relevante para a consulta Ԧ
𝑞
Geraldo Xexéo - xexeo@cos.ufrj.br
18
58
Princípio do Ranking Probabilístico
• Um desempenho ótimo de recuperação é obtido quando os documentos são
ordenados de acordo com a probabilidade de serem julgados relevantes a consulta.
• Ótimo é diferente de perfeito
• Pode ser definido
• “If a reference retrieval system’s response to each request is a ranking of the documents in
the collection in order of decreasing probability of relevance to the user who submitted the
request, where the probabilities are estimated as accurately as possible on the basis of
whatever data have been made available to the system for this purpose, the overall
effectiveness of the system to its user will be the best that is obtainable on the basis of
those data.” (Rijsbergen,1979)
Geraldo Xexéo - xexeo@cos.ufrj.br
19
58
O Ranking
• Isto é, as chances (odds) do documento dj ser relevante
• Usar as chances minimiza a probabilidade de um julgamento errôneo
Geraldo Xexéo - xexeo@cos.ufrj.br
20
𝑠𝑖𝑚 Ԧ
𝑞, Ԧ
𝑑𝑗 = 𝑂𝑑𝑑𝑠 Ԧ
𝑞, Ԧ
𝑑𝑗 =
𝑃( Ԧ
𝑑𝑗ser relevante para Ԧ
𝑞)
𝑃( Ԧ
𝑑𝑗não ser relevante para Ԧ
𝑞)
𝑠𝑖𝑚 Ԧ
𝑞, Ԧ
𝑑𝑗 =
𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞)
𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞)
58
Colocando Custos
• Seja 𝐶 o custo de recuperar um documento relevante
• Seja ҧ
𝐶 o custo de recuperar um documento não relevante
• A regra de decisão que é base para o PRP diz que um documento dm deve ser
recuperado em resposta a uma consulta qk , antes de qualquer outro documento di
na coleção se...
Geraldo Xexéo - xexeo@cos.ufrj.br
21
58
PRP Formal
Geraldo Xexéo - xexeo@cos.ufrj.br
22
𝐶 × 𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑑𝑖) + 𝐶 × (1 − 𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑑𝑖)) ≤
≤ 𝐶 × 𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑑𝑗) + 𝐶 × (1 − 𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑑𝑗))
Custo de recuperar x Probabilidade de ser relevante
+
Custo de não recuperar x Probabilidade de não ser
relevante
Recuperar Ԧ
𝑑𝑖 antes de Ԧ
𝑑𝑗 se, para a consulta Ԧ
𝑞:
58
Tarefa de IR Probabilística
• Assumindo que a resposta é binária
• Relevante (𝑅 ou 𝑅 = 1), Não Relevante (𝑅 ou 𝑅 = 0)
• Binary Independence Model (BIM)
• Um sistema de IR probabilístico deve “rankear” documentos de acordo com a
probabilidade estimada de serem relevantes
Geraldo Xexéo - xexeo@cos.ufrj.br
23
𝑃(𝑅|𝑞, 𝑑𝑗) ≈ 𝑃(𝑅| Ԧ
𝑑𝑗, Ԧ
𝑞)
58
Premissas
• Representação e Descrição são a mesma
• Documentos e consultas são representados e descrito por um conjunto de termos índices
• 𝑇 = {𝑡1, 𝑡2, … , 𝑡𝑛}
• 𝐾 = 𝑘1, 𝑘2, … , 𝑘𝑡
• Representação binária dos documentos
• Ԧ
𝑥 = (𝑥1, . . . , 𝑥𝑛)
• É a representação binária em função dos termos
• xi=1 se t1  T
• xi=0 se ti T
Geraldo Xexéo - xexeo@cos.ufrj.br
24
58
Premissa Básica
• A distribuição de termos dentro da coleção de documentos fornece informação
sobre a relevância de um documento para uma consulta dada, desde que seja
assumido que haja uma distribuição diferente dos termos nos documentos
relevante e não-relevantes.
• Se não houver uma diferença nessa distribuição, não podemos usar essa
representação/descrição
Geraldo Xexéo - xexeo@cos.ufrj.br
25
58
Distribuição
• Provê informação sobre a probabilidade de relevância de um documento para uma
consulta
• Se assumirmos julgamentos de relevância binários
Geraldo Xexéo - xexeo@cos.ufrj.br
26
58
Estimar o que?
• Não podemos estimar diretamente a probabilidade de um documento ser relevante a
uma consulta
• 𝑃(𝑅| Ԧ
𝑞, Ԧ
𝑑𝑗)
• Usamos o Teorema de Bayes (substituindo na notação Ԧ
𝑑𝑗por Ԧ
𝑥𝑗, para indicar que
mais de um documento pode ter o mesmo vetor)
Geraldo Xexéo - xexeo@cos.ufrj.br
27
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅, Ԧ
𝑞)𝑃(𝑅|Ԧ
𝑞)
𝑃( Ԧ
𝑥|Ԧ
𝑞)
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅, Ԧ
𝑞)𝑃(𝑅|Ԧ
𝑞)
𝑃( Ԧ
𝑥|Ԧ
𝑞)
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥)+ 𝑃 𝑅 Ԧ
𝑞, Ԧ
𝑥 = 1
58
Ԧ
𝑞 é comum em todo nosso caso
Geraldo Xexéo - xexeo@cos.ufrj.br
28
𝑃(𝑅| Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅)𝑃(𝑅)
𝑃( Ԧ
𝑥)
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅, Ԧ
𝑞)𝑃(𝑅|Ԧ
𝑞)
𝑃( Ԧ
𝑥|Ԧ
𝑞)
𝑃(𝑅|Ԧ
𝑞, Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅, Ԧ
𝑞)𝑃(𝑅|Ԧ
𝑞)
𝑃( Ԧ
𝑥|Ԧ
𝑞)
𝑃(𝑅| Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅)𝑃(𝑅)
𝑃( Ԧ
𝑥)
58
Lendo
• 𝑃(𝑅) – probabilidade de relevância a priori, probabilidade de um documento ser
relevante
• 𝑃( Ԧ
𝑥) – probabilidade de observar Ԧ
𝑥, probabilidade de pegar o documento na coleção
• 𝑃( Ԧ
𝑥|𝑅) – probabilidade de observar Ԧ
𝑥 se já tiver sido estabelecida a relevância
• Qual a probabilidade de, dado o conjunto de relevantes, Ԧ
𝑥 ser escolhido
Geraldo Xexéo - xexeo@cos.ufrj.br
29
𝑃(𝑅| Ԧ
𝑥) =
𝑃( Ԧ
𝑥|𝑅)𝑃(𝑅)
𝑃( Ԧ
𝑥)
58
Com custos
• Fazendo os custos de recuperar ou não um documento relevante ou não serem:
• Devemos recuperar apenas documentos onde:
Geraldo Xexéo - xexeo@cos.ufrj.br
30
𝑃(𝑑𝑗|𝑅)
𝑃(𝑑𝑗|¬𝑅)
>
𝜆2 × 𝑃(¬𝑅)
𝜆1 × 𝑃(𝑅)
Cj(R,dec) Recuperado Não-Recuperado
Relevante 0 1
Não Relevante 2 0
58
Questões
• Como computar a probabilidade?
• Qual o espaço amostral?
Geraldo Xexéo - xexeo@cos.ufrj.br
31
Binary Independence Retrieval
Model
Geraldo Xexéo - xexeo@cos.ufrj.br
32
58
O Ranking
• Isto é, as chances (odds) do documento dj ser relevante
• Verossimilhança
• Usar as chances minimiza a probabilidade de um julgamento errôneo
Geraldo Xexéo - xexeo@cos.ufrj.br
33
)
para
relevante
ser
não
(
)
para
relevante
ser
(
)
,
(
q
d
P
q
d
P
d
q
sim
j
j
j =
58
Modelo BIR
• Binary Independence Retrieval Model
• Os termos são independentes
• Premissa
• 𝑃 Ԧ
𝑥 𝑅 = ς𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
• 𝑃 Ԧ
𝑥 𝑅 = ς𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
• A probabilidade de um documento ser observado entre os (não) relevantes é o
produto das probabilidades dos termos serem observados entre os (não) relevantes
Geraldo Xexéo - xexeo@cos.ufrj.br
34
ς𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
ς𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
= ෑ
𝑖=1
𝑛
𝑃(𝑥𝑖|𝑅)
𝑃(𝑥𝑖|𝑅)
58
Alguma notação
• wij {0,1}
• P(R|vec(dj))
• probabilidade que dado um vetor que representa dj, dj seja relevante (dj R)
• P(¬R|vec(dj))
• probabilidade que dado um vetor que representa dj, dj seja relevante (dj  R)
Geraldo Xexéo - xexeo@cos.ufrj.br
35
58
Similaridade?
Geraldo Xexéo - xexeo@cos.ufrj.br
36
𝑠𝑖𝑚 𝑑𝑗, 𝑞 =
𝑃 𝑅 Ԧ
𝑥, 𝑞
𝑃 ¬𝑅 Ԧ
𝑥, 𝑞
=
𝑃 Ԧ
𝑥 𝑅, Ԧ
𝑞 𝑃 𝑅 Ԧ
𝑞
𝑃 Ԧ
𝑥 Ԧ
𝑞
𝑃 Ԧ
𝑥 𝑅, Ԧ
𝑞 𝑃 𝑅 Ԧ
𝑞
𝑃 Ԧ
𝑥 Ԧ
𝑞
=
𝑃 Ԧ
𝑥 𝑅, Ԧ
𝑞 𝑃 𝑅 Ԧ
𝑞
𝑃 Ԧ
𝑥 𝑅, Ԧ
𝑞 𝑃 𝑅 Ԧ
𝑞
Constante para
uma consulta
=
𝑃( Ԧ
𝑥|𝑅) × 𝑃(𝑅)
𝑃( Ԧ
𝑥|¬𝑅) × 𝑃(¬𝑅)
Na notação resumida
𝑃( Ԧ
𝑥|𝑅)
𝑃( Ԧ
𝑥|¬𝑅)
58
Similaridade (cont...)
Geraldo Xexéo - xexeo@cos.ufrj.br
37
≈
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
P(ki|R) – probabilidade do termo ki
estar presente em um documento
selecionado aleatoriamente em R
≈ ෑ
𝑖=1
𝑡
𝑃(𝑘𝑖|𝑅)
𝑃(𝑘𝑖|¬𝑅)
É igual na premissa que a presença ou
ausência de uma palavra
Em um documento
Termos presentes indicam relevância
Termos não presentes indicam não relevância
Termos presentes indicam não relevância
Termos não presentes indicam relevância
𝑃( Ԧ
𝑥|𝑅)
𝑃( Ԧ
𝑥|¬𝑅)
ෑ 𝑃(𝑘𝑖 |𝑅) ×
58
Similaridade (cont...)
Geraldo Xexéo - xexeo@cos.ufrj.br
38
𝑠𝑖𝑚(𝑑𝑗, 𝑞) ≈
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
𝑠𝑖𝑚(𝑑𝑗, 𝑞) ≈ log
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
ς𝑔𝑖( Ԧ
𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ
𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅)
𝑃(𝑘𝑖|𝑅) + 𝑝(¬𝑘𝑖|𝑅) = 1
58
Geraldo Xexéo - xexeo@cos.ufrj.br
39



















=
=
=
=
)
|
(
)
|
(
)
|
(
)
|
(
log
)
,
(
0
)
(
1
)
(
0
)
(
1
)
(
R
k
P
R
k
P
R
k
P
R
k
P
q
d
sim
i
d
g
i
d
g
i
d
g
i
d
g
j
j
i
j
i
j
i
j
i
Termos na query e no documento Termos na query, mas não no documento










−

−






=
=
=
=
=
=
=
=
)
1
(
)
1
(
log
)
,
(
1
0
1
1
0
1
i
i
i
q
x
i
q
x
j
r
r
p
p
q
d
sim
i
q
i
x
i
q
i
x
i
i
i
i
𝒑𝒊
𝒓𝒊
58
Geraldo Xexéo - xexeo@cos.ufrj.br
40










−

−






=
=
=
=
=
=
=
=
)
1
(
)
1
(
log
)
,
(
1
0
1
1
0
1
i
i
i
q
x
i
q
x
j
r
r
p
p
q
d
sim
i
q
i
x
i
q
i
x
i
i
i
i








−

−
−

−





=
=
=
=
=
=
)
1
(
)
1
(
)
1
(
)
1
(
log
)
,
(
1
1
1
1
i
i
i
i
q
i
i
q
x
j
r
p
r
p
r
p
q
d
sim
i
q
i
q
i
x
i
i
i
















−
+








−


 =
)
|
(
)
|
(
1
log
)
|
(
1
)
|
(
log
)
,
( 1
R
k
P
R
k
P
R
k
P
R
k
P
w
w
q
d
sim
i
i
i
i
t
i ij
iq
j








−
−

−
−





=
=
=
=
=
=
)
1
(
)
1
(
)
1
(
)
1
(
log
)
,
(
1
1
1
1
i
i
q
i
i
i
i
q
x
j
r
p
p
r
r
p
q
d
sim
i
q
i
i
q
i
x
i
i
Constante
para uma
consulta
58
Fórmula Final
• E qual o valor inicial de P(ki|R) e P(ki|¬R)
Geraldo Xexéo - xexeo@cos.ufrj.br
41
















−
+








−


 =
)
|
(
)
|
(
1
log
)
|
(
1
)
|
(
log
)
,
( 1
R
k
P
R
k
P
R
k
P
R
k
P
w
w
q
d
sim
i
i
i
i
t
i ij
iq
j
58
Valores iniciais
• P(ki | R) = 0.5
• P(ki | R) = ni/N
• ni é o número de documentos que contêm ki
Geraldo Xexéo - xexeo@cos.ufrj.br
42
















−
+








−


 =
)
|
(
)
|
(
1
log
)
|
(
1
)
|
(
log
)
,
( 1
R
k
P
R
k
P
R
k
P
R
k
P
w
w
q
d
sim
i
i
i
i
t
i ij
iq
j
58
Valores iniciais melhores
• Seja
• V : conjunto de documentos recuperados
• Vi : conjunto de documentos recuperados contendo ki
• Novas estimativas
• P(ki | R) = Vi/V
• P(ki | R) = (ni – Vi) /(N – V)
• Repetir recursivamente
Geraldo Xexéo - xexeo@cos.ufrj.br
43
58
Problemas
• V=1 e Vi=0
• P(ki | R) = Vi + 0.5 V + 1
• P(ki | R) = ni - Vi + 0.5 N - V + 1
• Ou,
• P(ki | R) = Vi + ni/N V + 1
• P(ki | R) = ni - Vi + ni/N N - V + 1
Geraldo Xexéo - xexeo@cos.ufrj.br
44
58
Análise
• Bom
• Ordenação em ordem decrescente de probabilidade
• Ruim
• Precisa “chutar” a primeira busca
• Não falamos de tf.idf
• Estávamos melhorando o modelo Booleano
Geraldo Xexéo - xexeo@cos.ufrj.br
45
58
Pesos dos Termos
• Duas escolhas
• Escolha 1: Independência
• I1 – Distribuição dos termos em documentos relevantes é independente e a distribuição dos
termos em todos os documentos é independente
• I2 – Distribuição dos termos em documentos relevantes é independente e a distribuição dos
termos nos documentos não relevantes é independente
Geraldo Xexéo - xexeo@cos.ufrj.br
46
58
Pesos dos Termos (cont)
• Escolha 2
• O1 – a probabilidade de relevância é dependente só dos termos presentes nos documentos
• O2 – a probabilidade de relevência é dependente dos termos presentes e ausentes nos
documentos
Geraldo Xexéo - xexeo@cos.ufrj.br
47
58
Pesos
• N = número de
documentos
• R = número de
documentos
relevantes para uma
consulta q
• n = número de
documento que
contêm t
• r = número de
documentos
relevantes que
contêm o termo t
Geraldo Xexéo - xexeo@cos.ufrj.br
48
























=
N
n
R
r
w log
1


















−
−






=
R
N
r
n
R
r
w log
2


















−






−
=
n
N
n
r
R
r
w log
3
( ) ( ) 





















−
−
−
−






−
=
r
R
n
N
r
n
r
R
r
w log
4
I1 e O1
I1 e O2
I2 e O1
I2 e O2
58
Exemplo
• Documentos
• D1 Carregamento de ouro danificado em fogo
• D2 Entrega de prata chegou em um caminhão prata
• D3 Carregamento de outro chegou em um caminhão
• Consulta
• Caminhão ouro prata
• Relevante
• D2 e D3
Geraldo Xexéo - xexeo@cos.ufrj.br
49
58
Para cada termo
Ouro Prata Caminhão
N 3 3 3
n 2 1 2
R 2 2 2
r 1 1 2
Geraldo Xexéo - xexeo@cos.ufrj.br
50
58
Probabilidades
Geraldo Xexéo - xexeo@cos.ufrj.br
51
























=
N
n
R
r
w log
1


















−
−






=
R
N
r
n
R
r
w log
2


















−






−
=
n
N
n
r
R
r
w log
3
( ) ( ) 





















−
−
−
−






−
=
r
R
n
N
r
n
r
R
r
w log
4
0
=
−r
n
58
Probabilidades sem zero
Geraldo Xexéo - xexeo@cos.ufrj.br
52


















+
+






+
+
=
2
1
1
5
,
0
log
1
N
n
R
r
w


















+
−
+
−






+
+
=
1
5
,
0
1
5
,
0
log
2
R
N
r
n
R
r
w




















+
−
+






+
−
+
=
1
1
5
,
0
5
,
0
log
3
n
N
n
r
R
r
w
( ) ( ) 





















+
−
−
−
+
−






+
−
+
=
5
,
0
5
,
0
5
,
0
5
,
0
log
4
r
R
n
N
r
n
r
R
r
w
58
Resultados Resumidos
Geraldo Xexéo - xexeo@cos.ufrj.br
53
Tipo Ouro Prata Caminhão
W1 -0,079 0,097 0,143
W2 -0,176 0,301 0, 523
W3 -0,176 0,176 0, 523
W4 -0,477 0,477 1,176
58
Pesos de Documentos
Geraldo Xexéo - xexeo@cos.ufrj.br
54
Tipo D1 D2 D3
W1 -0,078 0,240 0,064
W2 -0,176 0,824 0,347
W3 -0,176 0,699 1,653
W4 -0,477 1,653 0,699
58
Resultados experimentais
• W3 e w4 são melhores que w1 e w2
Geraldo Xexéo - xexeo@cos.ufrj.br
55
FIM
58
Bibliografia
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 1999. Modern Information
Retrieval (1 ed.). ACM Press, USA.
• Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 2011. Modern Information Retrieval:
The Concepts and Technology behind Search (2 ed.). Addison-Wesley Publishing
Company, USA.
• Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schüze. 2008. Introduction
to Information Retrieval. Cambridge University Press, USA.
Geraldo Xexéo - xexeo@cos.ufrj.br
57
Geraldo Xexéo
xexeo@ufrj.br
http://xexeo.net
http://line.cos.ufrj.br
Este obra está licenciado com uma Licença Creative Commons
Atribuição-NãoComercial-SemDerivações 4.0 Internacional.

Mais conteúdo relacionado

Mais de Geraldo Xexéo

PJ20222 200 100 Tetrade Elementar.pdf
PJ20222 200 100  Tetrade Elementar.pdfPJ20222 200 100  Tetrade Elementar.pdf
PJ20222 200 100 Tetrade Elementar.pdfGeraldo Xexéo
 
PJ20222 400 100 Introdução as Regras e Mecânicas.pdf
PJ20222 400 100 Introdução as Regras e Mecânicas.pdfPJ20222 400 100 Introdução as Regras e Mecânicas.pdf
PJ20222 400 100 Introdução as Regras e Mecânicas.pdfGeraldo Xexéo
 
PJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdf
PJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdfPJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdf
PJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdfGeraldo Xexéo
 
PJ20222 200 400 Emocoes e Instintos dillon 6-11.pdf
PJ20222 200 400 Emocoes e Instintos dillon 6-11.pdfPJ20222 200 400 Emocoes e Instintos dillon 6-11.pdf
PJ20222 200 400 Emocoes e Instintos dillon 6-11.pdfGeraldo Xexéo
 
PJ20222 500 050 Descrevendo Jogos.pdf
PJ20222 500 050 Descrevendo Jogos.pdfPJ20222 500 050 Descrevendo Jogos.pdf
PJ20222 500 050 Descrevendo Jogos.pdfGeraldo Xexéo
 
PJ20222 600 100 Jogos x Histórias.pdf
PJ20222 600 100 Jogos x Histórias.pdfPJ20222 600 100 Jogos x Histórias.pdf
PJ20222 600 100 Jogos x Histórias.pdfGeraldo Xexéo
 
PJ20222 600 200 Narrativa.pdf
PJ20222 600 200 Narrativa.pdfPJ20222 600 200 Narrativa.pdf
PJ20222 600 200 Narrativa.pdfGeraldo Xexéo
 
PJ20222 200 300 Elementos do Projeto de Jogos .pdf
PJ20222 200 300 Elementos do Projeto de Jogos .pdfPJ20222 200 300 Elementos do Projeto de Jogos .pdf
PJ20222 200 300 Elementos do Projeto de Jogos .pdfGeraldo Xexéo
 
PJ20222 400 200 Regras Avançado .pdf
PJ20222 400 200 Regras Avançado  .pdfPJ20222 400 200 Regras Avançado  .pdf
PJ20222 400 200 Regras Avançado .pdfGeraldo Xexéo
 
PJ20222 200 200 MDA.pdf
PJ20222 200 200 MDA.pdfPJ20222 200 200 MDA.pdf
PJ20222 200 200 MDA.pdfGeraldo Xexéo
 
PJ20222 600 400 Quests.pdf
PJ20222 600 400 Quests.pdfPJ20222 600 400 Quests.pdf
PJ20222 600 400 Quests.pdfGeraldo Xexéo
 
PJ20222 500 200 Variantes e Mutadores.pdf
PJ20222 500 200 Variantes e Mutadores.pdfPJ20222 500 200 Variantes e Mutadores.pdf
PJ20222 500 200 Variantes e Mutadores.pdfGeraldo Xexéo
 
PJ20222 300 100 Motivos Estéticos de Jogar - Bateman.pdf
PJ20222 300 100 Motivos Estéticos de Jogar  - Bateman.pdfPJ20222 300 100 Motivos Estéticos de Jogar  - Bateman.pdf
PJ20222 300 100 Motivos Estéticos de Jogar - Bateman.pdfGeraldo Xexéo
 
PJ20222 200 500 Jogo da Velha Melhorado.pdf
PJ20222 200 500  Jogo da Velha Melhorado.pdfPJ20222 200 500  Jogo da Velha Melhorado.pdf
PJ20222 200 500 Jogo da Velha Melhorado.pdfGeraldo Xexéo
 
PJ20222 100 200 Definindo Jogos.pdf
PJ20222 100 200 Definindo Jogos.pdfPJ20222 100 200 Definindo Jogos.pdf
PJ20222 100 200 Definindo Jogos.pdfGeraldo Xexéo
 
PJ20222 600 300 A Jornada do Heroi.pdf
PJ20222 600 300 A Jornada do Heroi.pdfPJ20222 600 300 A Jornada do Heroi.pdf
PJ20222 600 300 A Jornada do Heroi.pdfGeraldo Xexéo
 
PJ20222 400 300 Mecanicas Avançado.pdf
PJ20222 400 300 Mecanicas Avançado.pdfPJ20222 400 300 Mecanicas Avançado.pdf
PJ20222 400 300 Mecanicas Avançado.pdfGeraldo Xexéo
 
PJ20222 500 100 Machinations - Recursos.pdf
PJ20222 500 100 Machinations - Recursos.pdfPJ20222 500 100 Machinations - Recursos.pdf
PJ20222 500 100 Machinations - Recursos.pdfGeraldo Xexéo
 

Mais de Geraldo Xexéo (18)

PJ20222 200 100 Tetrade Elementar.pdf
PJ20222 200 100  Tetrade Elementar.pdfPJ20222 200 100  Tetrade Elementar.pdf
PJ20222 200 100 Tetrade Elementar.pdf
 
PJ20222 400 100 Introdução as Regras e Mecânicas.pdf
PJ20222 400 100 Introdução as Regras e Mecânicas.pdfPJ20222 400 100 Introdução as Regras e Mecânicas.pdf
PJ20222 400 100 Introdução as Regras e Mecânicas.pdf
 
PJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdf
PJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdfPJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdf
PJ20212 100 100 Introducao ao Curso de Jogos - 7 Mitos .pdf
 
PJ20222 200 400 Emocoes e Instintos dillon 6-11.pdf
PJ20222 200 400 Emocoes e Instintos dillon 6-11.pdfPJ20222 200 400 Emocoes e Instintos dillon 6-11.pdf
PJ20222 200 400 Emocoes e Instintos dillon 6-11.pdf
 
PJ20222 500 050 Descrevendo Jogos.pdf
PJ20222 500 050 Descrevendo Jogos.pdfPJ20222 500 050 Descrevendo Jogos.pdf
PJ20222 500 050 Descrevendo Jogos.pdf
 
PJ20222 600 100 Jogos x Histórias.pdf
PJ20222 600 100 Jogos x Histórias.pdfPJ20222 600 100 Jogos x Histórias.pdf
PJ20222 600 100 Jogos x Histórias.pdf
 
PJ20222 600 200 Narrativa.pdf
PJ20222 600 200 Narrativa.pdfPJ20222 600 200 Narrativa.pdf
PJ20222 600 200 Narrativa.pdf
 
PJ20222 200 300 Elementos do Projeto de Jogos .pdf
PJ20222 200 300 Elementos do Projeto de Jogos .pdfPJ20222 200 300 Elementos do Projeto de Jogos .pdf
PJ20222 200 300 Elementos do Projeto de Jogos .pdf
 
PJ20222 400 200 Regras Avançado .pdf
PJ20222 400 200 Regras Avançado  .pdfPJ20222 400 200 Regras Avançado  .pdf
PJ20222 400 200 Regras Avançado .pdf
 
PJ20222 200 200 MDA.pdf
PJ20222 200 200 MDA.pdfPJ20222 200 200 MDA.pdf
PJ20222 200 200 MDA.pdf
 
PJ20222 600 400 Quests.pdf
PJ20222 600 400 Quests.pdfPJ20222 600 400 Quests.pdf
PJ20222 600 400 Quests.pdf
 
PJ20222 500 200 Variantes e Mutadores.pdf
PJ20222 500 200 Variantes e Mutadores.pdfPJ20222 500 200 Variantes e Mutadores.pdf
PJ20222 500 200 Variantes e Mutadores.pdf
 
PJ20222 300 100 Motivos Estéticos de Jogar - Bateman.pdf
PJ20222 300 100 Motivos Estéticos de Jogar  - Bateman.pdfPJ20222 300 100 Motivos Estéticos de Jogar  - Bateman.pdf
PJ20222 300 100 Motivos Estéticos de Jogar - Bateman.pdf
 
PJ20222 200 500 Jogo da Velha Melhorado.pdf
PJ20222 200 500  Jogo da Velha Melhorado.pdfPJ20222 200 500  Jogo da Velha Melhorado.pdf
PJ20222 200 500 Jogo da Velha Melhorado.pdf
 
PJ20222 100 200 Definindo Jogos.pdf
PJ20222 100 200 Definindo Jogos.pdfPJ20222 100 200 Definindo Jogos.pdf
PJ20222 100 200 Definindo Jogos.pdf
 
PJ20222 600 300 A Jornada do Heroi.pdf
PJ20222 600 300 A Jornada do Heroi.pdfPJ20222 600 300 A Jornada do Heroi.pdf
PJ20222 600 300 A Jornada do Heroi.pdf
 
PJ20222 400 300 Mecanicas Avançado.pdf
PJ20222 400 300 Mecanicas Avançado.pdfPJ20222 400 300 Mecanicas Avançado.pdf
PJ20222 400 300 Mecanicas Avançado.pdf
 
PJ20222 500 100 Machinations - Recursos.pdf
PJ20222 500 100 Machinations - Recursos.pdfPJ20222 500 100 Machinations - Recursos.pdf
PJ20222 500 100 Machinations - Recursos.pdf
 

Modelo Probabilístico Geral

  • 3. 58 Eventos Independentes • Dois eventos são independentes se um não influencia o outro 𝑃 𝐴 ∧ 𝐵 = 𝑃 𝐴 . 𝑃(𝐵) Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão 3
  • 4. 58 Probabilidade Condicional • Medida de probabilidade de um evento dado que outro evento ocorreu • Probabilidade de (acontecer) B dado (que) A (aconteceu) Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão 4 A B
  • 5. 58 Teorema de Bayes Geraldo Xexéo xexeo@cos.ufrj.br Árvore de Decisão 5 𝑃 𝐴 𝐵 = 𝑃 𝐴 ∧ 𝐵 𝑃 𝐵 𝑃 𝐵 𝐴 = 𝑃 𝐴 ∧ 𝐵 𝑃 𝐴 𝑃 𝐴 𝑃 𝐵 𝐴 = 𝑃 𝐵 𝑃(𝐴|𝐵)
  • 6. 58 Odds – (Chances) Geraldo Xexéo - xexeo@cos.ufrj.br 6 𝑃(𝐴) 1 − 𝑃(𝐴)
  • 7. O que realmente fazemos Geraldo Xexéo - xexeo@cos.ufrj.br 7
  • 8. 58 Modelo Conceitual • Conjunto finito de Documentos (D) • Conjunto finito de Consultas (Q) • Conjunto finito R de julgamentos de relevância • R = { R , ¬R} Geraldo Xexéo - xexeo@cos.ufrj.br 8
  • 9. 58 Modelo Conceitual • Um sistema de IR faz o mapeamento de pares (consulta,documento) em julgamentos de relevância Geraldo Xexéo - xexeo@cos.ufrj.br 9
  • 10. 58 Modelo Conceitual • Porém, não tratamos documentos ou consultas diretamente, mas suas representações (D e Q) • Para isso precisamos de mapeamentos (aQ e aD) Geraldo Xexéo - xexeo@cos.ufrj.br 10
  • 11. 58 Modelo Conceitual • Em busca da generalidade, também teremos descrições das nossas representações • E mapeamentos Geraldo Xexéo - xexeo@cos.ufrj.br 11
  • 12. 58 Retrieval Status Value (RSV) • Mapeia um par consulta-documento em um conjunto de valores de status de recuperação • A tarefa de um sistema de IR com rankings é calcular esse valor • Nós trabalhamos com as descrições das representações • Ԧ 𝑑𝑗 e Ԧ 𝑞 Geraldo Xexéo - xexeo@cos.ufrj.br 12 𝑟: 𝑄′ × 𝐷′ → ℜ
  • 13. 58 Representação • Nós buscamos a relevância de 𝑑𝑗 para 𝑞 • Nós podemos calcular a probabilidade Ԧ 𝑑𝑗 ser relevante a Ԧ 𝑞 Geraldo Xexéo - xexeo@cos.ufrj.br 13
  • 14. O Básico Geraldo Xexéo - xexeo@cos.ufrj.br 14
  • 15. 58 Modelo Probabilístico • Objetivo: Capturar o problema de IR a partir de um arcabouço probabilístico • Data uma consulta, existe um conjunto resposta ideal • Considera consultar como especificar as propriedades desse conjunto ideal • Quais são essas propriedades? • Adivinhe no início • Melhore por interação Geraldo Xexéo - xexeo@cos.ufrj.br 15
  • 16. 58 Princípio do Ranking Probabilístico • Dada uma consulta q e um documento dj • O modelo probabilístico tenta estimar a probabilidade do usuários achar o documento dj interessante (relevante) • O modelo assume que a probabilidade de relevância é dependente apenas da consulta e das representações dos documentoS • Esquece a importância do mundo externo (Contexto) Geraldo Xexéo - xexeo@cos.ufrj.br 16
  • 17. 58 Algoritmo Básico • De alguma maneira, recupere um conjunto inicial de documentos • O usuário inspeciona esses documentos, procurando por documentos relevantes • 10 a 20 é um bom número • Repetindo esse processo, usando a informação do usuário para melhorar a consulta, supomos que a descrição da resposta ideal melhore • A descrição ideal é modelada em termos probabilísticos • Ao contrário do Booleano, é um “modelo iterativo” (e também interativo) Geraldo Xexéo - xexeo@cos.ufrj.br 17
  • 18. 58 Notação Básica • 𝑃(𝑅| Ԧ 𝑑𝑗, Ԧ 𝑞) ou 𝑃(𝑅 = 1| Ԧ 𝑑𝑗, Ԧ 𝑞) – Probabilidade de que um documento 𝑑𝑗 cuja descrição da representação é Ԧ 𝑑𝑗, ser relevante para a consulta Ԧ 𝑞 • 𝑃(𝑅| Ԧ 𝑑𝑗, Ԧ 𝑞) ou 𝑃(𝑅 = 0| Ԧ 𝑑𝑗, Ԧ 𝑞) – Probabilidade de que um documento 𝑑𝑗 cuja descrição da representação é Ԧ 𝑑𝑗, não ser relevante para a consulta Ԧ 𝑞 Geraldo Xexéo - xexeo@cos.ufrj.br 18
  • 19. 58 Princípio do Ranking Probabilístico • Um desempenho ótimo de recuperação é obtido quando os documentos são ordenados de acordo com a probabilidade de serem julgados relevantes a consulta. • Ótimo é diferente de perfeito • Pode ser definido • “If a reference retrieval system’s response to each request is a ranking of the documents in the collection in order of decreasing probability of relevance to the user who submitted the request, where the probabilities are estimated as accurately as possible on the basis of whatever data have been made available to the system for this purpose, the overall effectiveness of the system to its user will be the best that is obtainable on the basis of those data.” (Rijsbergen,1979) Geraldo Xexéo - xexeo@cos.ufrj.br 19
  • 20. 58 O Ranking • Isto é, as chances (odds) do documento dj ser relevante • Usar as chances minimiza a probabilidade de um julgamento errôneo Geraldo Xexéo - xexeo@cos.ufrj.br 20 𝑠𝑖𝑚 Ԧ 𝑞, Ԧ 𝑑𝑗 = 𝑂𝑑𝑑𝑠 Ԧ 𝑞, Ԧ 𝑑𝑗 = 𝑃( Ԧ 𝑑𝑗ser relevante para Ԧ 𝑞) 𝑃( Ԧ 𝑑𝑗não ser relevante para Ԧ 𝑞) 𝑠𝑖𝑚 Ԧ 𝑞, Ԧ 𝑑𝑗 = 𝑃(𝑅| Ԧ 𝑑𝑗, Ԧ 𝑞) 𝑃(𝑅| Ԧ 𝑑𝑗, Ԧ 𝑞)
  • 21. 58 Colocando Custos • Seja 𝐶 o custo de recuperar um documento relevante • Seja ҧ 𝐶 o custo de recuperar um documento não relevante • A regra de decisão que é base para o PRP diz que um documento dm deve ser recuperado em resposta a uma consulta qk , antes de qualquer outro documento di na coleção se... Geraldo Xexéo - xexeo@cos.ufrj.br 21
  • 22. 58 PRP Formal Geraldo Xexéo - xexeo@cos.ufrj.br 22 𝐶 × 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑑𝑖) + 𝐶 × (1 − 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑑𝑖)) ≤ ≤ 𝐶 × 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑑𝑗) + 𝐶 × (1 − 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑑𝑗)) Custo de recuperar x Probabilidade de ser relevante + Custo de não recuperar x Probabilidade de não ser relevante Recuperar Ԧ 𝑑𝑖 antes de Ԧ 𝑑𝑗 se, para a consulta Ԧ 𝑞:
  • 23. 58 Tarefa de IR Probabilística • Assumindo que a resposta é binária • Relevante (𝑅 ou 𝑅 = 1), Não Relevante (𝑅 ou 𝑅 = 0) • Binary Independence Model (BIM) • Um sistema de IR probabilístico deve “rankear” documentos de acordo com a probabilidade estimada de serem relevantes Geraldo Xexéo - xexeo@cos.ufrj.br 23 𝑃(𝑅|𝑞, 𝑑𝑗) ≈ 𝑃(𝑅| Ԧ 𝑑𝑗, Ԧ 𝑞)
  • 24. 58 Premissas • Representação e Descrição são a mesma • Documentos e consultas são representados e descrito por um conjunto de termos índices • 𝑇 = {𝑡1, 𝑡2, … , 𝑡𝑛} • 𝐾 = 𝑘1, 𝑘2, … , 𝑘𝑡 • Representação binária dos documentos • Ԧ 𝑥 = (𝑥1, . . . , 𝑥𝑛) • É a representação binária em função dos termos • xi=1 se t1  T • xi=0 se ti T Geraldo Xexéo - xexeo@cos.ufrj.br 24
  • 25. 58 Premissa Básica • A distribuição de termos dentro da coleção de documentos fornece informação sobre a relevância de um documento para uma consulta dada, desde que seja assumido que haja uma distribuição diferente dos termos nos documentos relevante e não-relevantes. • Se não houver uma diferença nessa distribuição, não podemos usar essa representação/descrição Geraldo Xexéo - xexeo@cos.ufrj.br 25
  • 26. 58 Distribuição • Provê informação sobre a probabilidade de relevância de um documento para uma consulta • Se assumirmos julgamentos de relevância binários Geraldo Xexéo - xexeo@cos.ufrj.br 26
  • 27. 58 Estimar o que? • Não podemos estimar diretamente a probabilidade de um documento ser relevante a uma consulta • 𝑃(𝑅| Ԧ 𝑞, Ԧ 𝑑𝑗) • Usamos o Teorema de Bayes (substituindo na notação Ԧ 𝑑𝑗por Ԧ 𝑥𝑗, para indicar que mais de um documento pode ter o mesmo vetor) Geraldo Xexéo - xexeo@cos.ufrj.br 27 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅, Ԧ 𝑞)𝑃(𝑅|Ԧ 𝑞) 𝑃( Ԧ 𝑥|Ԧ 𝑞) 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅, Ԧ 𝑞)𝑃(𝑅|Ԧ 𝑞) 𝑃( Ԧ 𝑥|Ԧ 𝑞) 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑥)+ 𝑃 𝑅 Ԧ 𝑞, Ԧ 𝑥 = 1
  • 28. 58 Ԧ 𝑞 é comum em todo nosso caso Geraldo Xexéo - xexeo@cos.ufrj.br 28 𝑃(𝑅| Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅)𝑃(𝑅) 𝑃( Ԧ 𝑥) 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅, Ԧ 𝑞)𝑃(𝑅|Ԧ 𝑞) 𝑃( Ԧ 𝑥|Ԧ 𝑞) 𝑃(𝑅|Ԧ 𝑞, Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅, Ԧ 𝑞)𝑃(𝑅|Ԧ 𝑞) 𝑃( Ԧ 𝑥|Ԧ 𝑞) 𝑃(𝑅| Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅)𝑃(𝑅) 𝑃( Ԧ 𝑥)
  • 29. 58 Lendo • 𝑃(𝑅) – probabilidade de relevância a priori, probabilidade de um documento ser relevante • 𝑃( Ԧ 𝑥) – probabilidade de observar Ԧ 𝑥, probabilidade de pegar o documento na coleção • 𝑃( Ԧ 𝑥|𝑅) – probabilidade de observar Ԧ 𝑥 se já tiver sido estabelecida a relevância • Qual a probabilidade de, dado o conjunto de relevantes, Ԧ 𝑥 ser escolhido Geraldo Xexéo - xexeo@cos.ufrj.br 29 𝑃(𝑅| Ԧ 𝑥) = 𝑃( Ԧ 𝑥|𝑅)𝑃(𝑅) 𝑃( Ԧ 𝑥)
  • 30. 58 Com custos • Fazendo os custos de recuperar ou não um documento relevante ou não serem: • Devemos recuperar apenas documentos onde: Geraldo Xexéo - xexeo@cos.ufrj.br 30 𝑃(𝑑𝑗|𝑅) 𝑃(𝑑𝑗|¬𝑅) > 𝜆2 × 𝑃(¬𝑅) 𝜆1 × 𝑃(𝑅) Cj(R,dec) Recuperado Não-Recuperado Relevante 0 1 Não Relevante 2 0
  • 31. 58 Questões • Como computar a probabilidade? • Qual o espaço amostral? Geraldo Xexéo - xexeo@cos.ufrj.br 31
  • 32. Binary Independence Retrieval Model Geraldo Xexéo - xexeo@cos.ufrj.br 32
  • 33. 58 O Ranking • Isto é, as chances (odds) do documento dj ser relevante • Verossimilhança • Usar as chances minimiza a probabilidade de um julgamento errôneo Geraldo Xexéo - xexeo@cos.ufrj.br 33 ) para relevante ser não ( ) para relevante ser ( ) , ( q d P q d P d q sim j j j =
  • 34. 58 Modelo BIR • Binary Independence Retrieval Model • Os termos são independentes • Premissa • 𝑃 Ԧ 𝑥 𝑅 = ς𝑖=1 𝑛 𝑃(𝑥𝑖|𝑅) • 𝑃 Ԧ 𝑥 𝑅 = ς𝑖=1 𝑛 𝑃(𝑥𝑖|𝑅) • A probabilidade de um documento ser observado entre os (não) relevantes é o produto das probabilidades dos termos serem observados entre os (não) relevantes Geraldo Xexéo - xexeo@cos.ufrj.br 34 ς𝑖=1 𝑛 𝑃(𝑥𝑖|𝑅) ς𝑖=1 𝑛 𝑃(𝑥𝑖|𝑅) = ෑ 𝑖=1 𝑛 𝑃(𝑥𝑖|𝑅) 𝑃(𝑥𝑖|𝑅)
  • 35. 58 Alguma notação • wij {0,1} • P(R|vec(dj)) • probabilidade que dado um vetor que representa dj, dj seja relevante (dj R) • P(¬R|vec(dj)) • probabilidade que dado um vetor que representa dj, dj seja relevante (dj  R) Geraldo Xexéo - xexeo@cos.ufrj.br 35
  • 36. 58 Similaridade? Geraldo Xexéo - xexeo@cos.ufrj.br 36 𝑠𝑖𝑚 𝑑𝑗, 𝑞 = 𝑃 𝑅 Ԧ 𝑥, 𝑞 𝑃 ¬𝑅 Ԧ 𝑥, 𝑞 = 𝑃 Ԧ 𝑥 𝑅, Ԧ 𝑞 𝑃 𝑅 Ԧ 𝑞 𝑃 Ԧ 𝑥 Ԧ 𝑞 𝑃 Ԧ 𝑥 𝑅, Ԧ 𝑞 𝑃 𝑅 Ԧ 𝑞 𝑃 Ԧ 𝑥 Ԧ 𝑞 = 𝑃 Ԧ 𝑥 𝑅, Ԧ 𝑞 𝑃 𝑅 Ԧ 𝑞 𝑃 Ԧ 𝑥 𝑅, Ԧ 𝑞 𝑃 𝑅 Ԧ 𝑞 Constante para uma consulta = 𝑃( Ԧ 𝑥|𝑅) × 𝑃(𝑅) 𝑃( Ԧ 𝑥|¬𝑅) × 𝑃(¬𝑅) Na notação resumida 𝑃( Ԧ 𝑥|𝑅) 𝑃( Ԧ 𝑥|¬𝑅)
  • 37. 58 Similaridade (cont...) Geraldo Xexéo - xexeo@cos.ufrj.br 37 ≈ ς𝑔𝑖( Ԧ 𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ 𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅) ς𝑔𝑖( Ԧ 𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ 𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅) P(ki|R) – probabilidade do termo ki estar presente em um documento selecionado aleatoriamente em R ≈ ෑ 𝑖=1 𝑡 𝑃(𝑘𝑖|𝑅) 𝑃(𝑘𝑖|¬𝑅) É igual na premissa que a presença ou ausência de uma palavra Em um documento Termos presentes indicam relevância Termos não presentes indicam não relevância Termos presentes indicam não relevância Termos não presentes indicam relevância 𝑃( Ԧ 𝑥|𝑅) 𝑃( Ԧ 𝑥|¬𝑅) ෑ 𝑃(𝑘𝑖 |𝑅) ×
  • 38. 58 Similaridade (cont...) Geraldo Xexéo - xexeo@cos.ufrj.br 38 𝑠𝑖𝑚(𝑑𝑗, 𝑞) ≈ ς𝑔𝑖( Ԧ 𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ 𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅) ς𝑔𝑖( Ԧ 𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ 𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅) 𝑠𝑖𝑚(𝑑𝑗, 𝑞) ≈ log ς𝑔𝑖( Ԧ 𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ 𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅) ς𝑔𝑖( Ԧ 𝑥𝑗)=1 𝑃(𝑘𝑖|𝑅) × ς𝑔𝑖( Ԧ 𝑥𝑗)=0 𝑃(¬𝑘𝑖|𝑅) 𝑃(𝑘𝑖|𝑅) + 𝑝(¬𝑘𝑖|𝑅) = 1
  • 39. 58 Geraldo Xexéo - xexeo@cos.ufrj.br 39                    = = = = ) | ( ) | ( ) | ( ) | ( log ) , ( 0 ) ( 1 ) ( 0 ) ( 1 ) ( R k P R k P R k P R k P q d sim i d g i d g i d g i d g j j i j i j i j i Termos na query e no documento Termos na query, mas não no documento           −  −       = = = = = = = = ) 1 ( ) 1 ( log ) , ( 1 0 1 1 0 1 i i i q x i q x j r r p p q d sim i q i x i q i x i i i i 𝒑𝒊 𝒓𝒊
  • 40. 58 Geraldo Xexéo - xexeo@cos.ufrj.br 40           −  −       = = = = = = = = ) 1 ( ) 1 ( log ) , ( 1 0 1 1 0 1 i i i q x i q x j r r p p q d sim i q i x i q i x i i i i         −  − −  −      = = = = = = ) 1 ( ) 1 ( ) 1 ( ) 1 ( log ) , ( 1 1 1 1 i i i i q i i q x j r p r p r p q d sim i q i q i x i i i                 − +         −    = ) | ( ) | ( 1 log ) | ( 1 ) | ( log ) , ( 1 R k P R k P R k P R k P w w q d sim i i i i t i ij iq j         − −  − −      = = = = = = ) 1 ( ) 1 ( ) 1 ( ) 1 ( log ) , ( 1 1 1 1 i i q i i i i q x j r p p r r p q d sim i q i i q i x i i Constante para uma consulta
  • 41. 58 Fórmula Final • E qual o valor inicial de P(ki|R) e P(ki|¬R) Geraldo Xexéo - xexeo@cos.ufrj.br 41                 − +         −    = ) | ( ) | ( 1 log ) | ( 1 ) | ( log ) , ( 1 R k P R k P R k P R k P w w q d sim i i i i t i ij iq j
  • 42. 58 Valores iniciais • P(ki | R) = 0.5 • P(ki | R) = ni/N • ni é o número de documentos que contêm ki Geraldo Xexéo - xexeo@cos.ufrj.br 42                 − +         −    = ) | ( ) | ( 1 log ) | ( 1 ) | ( log ) , ( 1 R k P R k P R k P R k P w w q d sim i i i i t i ij iq j
  • 43. 58 Valores iniciais melhores • Seja • V : conjunto de documentos recuperados • Vi : conjunto de documentos recuperados contendo ki • Novas estimativas • P(ki | R) = Vi/V • P(ki | R) = (ni – Vi) /(N – V) • Repetir recursivamente Geraldo Xexéo - xexeo@cos.ufrj.br 43
  • 44. 58 Problemas • V=1 e Vi=0 • P(ki | R) = Vi + 0.5 V + 1 • P(ki | R) = ni - Vi + 0.5 N - V + 1 • Ou, • P(ki | R) = Vi + ni/N V + 1 • P(ki | R) = ni - Vi + ni/N N - V + 1 Geraldo Xexéo - xexeo@cos.ufrj.br 44
  • 45. 58 Análise • Bom • Ordenação em ordem decrescente de probabilidade • Ruim • Precisa “chutar” a primeira busca • Não falamos de tf.idf • Estávamos melhorando o modelo Booleano Geraldo Xexéo - xexeo@cos.ufrj.br 45
  • 46. 58 Pesos dos Termos • Duas escolhas • Escolha 1: Independência • I1 – Distribuição dos termos em documentos relevantes é independente e a distribuição dos termos em todos os documentos é independente • I2 – Distribuição dos termos em documentos relevantes é independente e a distribuição dos termos nos documentos não relevantes é independente Geraldo Xexéo - xexeo@cos.ufrj.br 46
  • 47. 58 Pesos dos Termos (cont) • Escolha 2 • O1 – a probabilidade de relevância é dependente só dos termos presentes nos documentos • O2 – a probabilidade de relevência é dependente dos termos presentes e ausentes nos documentos Geraldo Xexéo - xexeo@cos.ufrj.br 47
  • 48. 58 Pesos • N = número de documentos • R = número de documentos relevantes para uma consulta q • n = número de documento que contêm t • r = número de documentos relevantes que contêm o termo t Geraldo Xexéo - xexeo@cos.ufrj.br 48                         = N n R r w log 1                   − −       = R N r n R r w log 2                   −       − = n N n r R r w log 3 ( ) ( )                       − − − −       − = r R n N r n r R r w log 4 I1 e O1 I1 e O2 I2 e O1 I2 e O2
  • 49. 58 Exemplo • Documentos • D1 Carregamento de ouro danificado em fogo • D2 Entrega de prata chegou em um caminhão prata • D3 Carregamento de outro chegou em um caminhão • Consulta • Caminhão ouro prata • Relevante • D2 e D3 Geraldo Xexéo - xexeo@cos.ufrj.br 49
  • 50. 58 Para cada termo Ouro Prata Caminhão N 3 3 3 n 2 1 2 R 2 2 2 r 1 1 2 Geraldo Xexéo - xexeo@cos.ufrj.br 50
  • 51. 58 Probabilidades Geraldo Xexéo - xexeo@cos.ufrj.br 51                         = N n R r w log 1                   − −       = R N r n R r w log 2                   −       − = n N n r R r w log 3 ( ) ( )                       − − − −       − = r R n N r n r R r w log 4 0 = −r n
  • 52. 58 Probabilidades sem zero Geraldo Xexéo - xexeo@cos.ufrj.br 52                   + +       + + = 2 1 1 5 , 0 log 1 N n R r w                   + − + −       + + = 1 5 , 0 1 5 , 0 log 2 R N r n R r w                     + − +       + − + = 1 1 5 , 0 5 , 0 log 3 n N n r R r w ( ) ( )                       + − − − + −       + − + = 5 , 0 5 , 0 5 , 0 5 , 0 log 4 r R n N r n r R r w
  • 53. 58 Resultados Resumidos Geraldo Xexéo - xexeo@cos.ufrj.br 53 Tipo Ouro Prata Caminhão W1 -0,079 0,097 0,143 W2 -0,176 0,301 0, 523 W3 -0,176 0,176 0, 523 W4 -0,477 0,477 1,176
  • 54. 58 Pesos de Documentos Geraldo Xexéo - xexeo@cos.ufrj.br 54 Tipo D1 D2 D3 W1 -0,078 0,240 0,064 W2 -0,176 0,824 0,347 W3 -0,176 0,699 1,653 W4 -0,477 1,653 0,699
  • 55. 58 Resultados experimentais • W3 e w4 são melhores que w1 e w2 Geraldo Xexéo - xexeo@cos.ufrj.br 55
  • 56. FIM
  • 57. 58 Bibliografia • Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 1999. Modern Information Retrieval (1 ed.). ACM Press, USA. • Ricardo Baeza-Yates and Berthier Ribeiro-Neto. 2011. Modern Information Retrieval: The Concepts and Technology behind Search (2 ed.). Addison-Wesley Publishing Company, USA. • Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schüze. 2008. Introduction to Information Retrieval. Cambridge University Press, USA. Geraldo Xexéo - xexeo@cos.ufrj.br 57
  • 58. Geraldo Xexéo xexeo@ufrj.br http://xexeo.net http://line.cos.ufrj.br Este obra está licenciado com uma Licença Creative Commons Atribuição-NãoComercial-SemDerivações 4.0 Internacional.