O documento discute modelos de recuperação de informação, com foco no modelo booleano. Descreve a representação de documentos e consultas nesse modelo, assim como a função de busca binária. Apresenta também vantagens e desvantagens do modelo booleano.
2. 2
Sistemas de RI
Um sistema automático para RI pode ser visto como
n
n
n
a parte do sistema de informação responsável pelo
armazenamento ordenado dos documentos,
e sua posterior recuperação
para responder a consulta do usuário.
Todo SRI adota um modelo computacional de
recuperação de informação que determina o
modo de operação do mesmo.
3. Modelos Estruturados
Listas não-sobrepostas
Nós proximais
Recuperação:
Adhoc
Filtragem
Browsing
A
R
E
F
A
D
O
u
S
U
Á
R
I
O
Tarefas e Modelos de
Recuperação de Informação
Modelos Clássicos
T
Booleano
Espaço vetorial
Probabilista
Teoria dos conjuntos
Fuzzy
Booleano estendido
Probabilista
Redes de inferência
Redes de crença
Algebrico
E. V. generalizado
Semântica Latente
Redes Neurais
Browsing
Plano
Estruturado
Hipertextual
4. 4
Modelos Clássicos de Recuperação
de Documentos
Veremos o seguinte modelo:
n
n
n
Modelo Booleano
Para cada modelo, veremos:
n
n
n
A representação do documento
A representação da consulta
A função de busca
5. 5
Modelo Booleano
Representação do documento
Dado o conjunto de n termos representativos para o
corpus em questão (Vocabulário do Sistema)
n V = {k1, k2,...,kn}
Os documentos são representados como conjunto de
termos de indexação, sendo tais conjuntos
representados como vetores de pesos binários de
tamanho n
n
n
Cada posição no vetor corresponde a um termo usado
na indexação dos documentos
Cada valor indica apenas se determinado termo está
ou não presente no documento
6. k1 k2 k3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 1 0 0
d5 1 1 1
d6 1 1 0
d7 0 1 0
Exemplo 1
d1
d2
d3
d4 d5
d6
d7
k1
k2
k3
Por exemplo:
w documento d1 contém os termos k1 e k3, e não contém o
termo k2
w Analogamente, o documento d1 está na interseção entre os
conjuntos k1 e k3
k1 k3
d1
7. 7
Modelo Booleano
Representação da consulta
Consulta:
n
n
n
n
Expressão booleana
Termos conectados por: AND, OR, NOT
O resultado da consulta é o conjunto de
documentos cuja representação satisfazem às
restrições lógicas da expressão de busca, que
fazem a expressão booleana assumir o valor
lógico VERDADEIRO.
Exemplos:
w k1 AND k2
w k1 OR k2
w k1 AND NOT k2
9. 9
Exercício
1) Para o exemplo 1, utilizando o modelo booleano,
qual o resultado das buscas:
n
n
n
a) K2 AND K3
b) K2 OR K3
C) K2 AND NOT K3
2) Escreva em português o tipo de documentos
retornados pelas expressões de busca abaixo:
n
n
n
a) web OR informação
b) recuperação AND (web OR informação)
c) recuperação AND informação AND web
10. 10
Função de busca
Relevância “binária”:
n
n
O documento é considerado relevante se e somente se seu
“casamento” com a consulta é verdadeiro, isto é se o valor
verdade da consulta se torna verdadeiro para aquele
documento.
Não é possível ordenar os documentos recuperados, pois todos
igualmente tornam verdadeiro a expressão de busca
Exemplo de consulta
Consulta
k1 AND k2 AND k3
k1 k2
k3
Espaço de termos
de indexação
Documentos
apresentados ao
usuário
11. 11
Modelo Booleano
Vantagens
n
n
n
Modelo simples baseado em teoria bem fundamentada
Fácil de entender e implementar em computador
Permite uma maior precisão na recuperação
Desvantagens
n
n
n
n
Assume independência entre os termos usados na
indexação
Não permite casamento parcial entre consulta e
documento
Não permite ordenação dos documentos recuperados
A necessidade de informação do usuário deve ser
expressa em termos de uma expressão booleana
w Nem todo usuário é capaz disso