O documento apresenta um resumo de capítulos sobre recuperação da informação de uma tese de doutorado, incluindo:
1) Uma introdução sobre os capítulos 3 e 4 que tratam dos modelos de recuperação da informação como o vetorial, probabilístico e booleano;
2) Uma descrição dos principais modelos quantitativos de recuperação da informação.
aula de bioquímica bioquímica dos carboidratos.ppt
Modelos Quantitativos de Recuperação da Informação
1. Apresentação do texto:
FERNEDA, Edberto. Recuperação da Informação: análise da
contribuição da ciência da computação para a ciência da
informação. São Paulo, 2003. 147p. Tese (Doutorado em
Ciência da Informação e Documentação) - Universidade de
São Paulo.
agosto/2017
Curso: Pós-Graduação em GED
Disciplina: Recuperação da Informação
Grupo 6: Marcella Lacerda
Marília Gorito
Vinicius Rodrigues
Viviane Cunha
2. 22
Sumário
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
➢ Capítulo 3: A Recuperação da Informação
➢ Capítulo 4: Modelos Quantitativos
○ Modelo Vetorial
○ Modelo Probabilístico
○ Modelo Fuzzy
○ Modelo Booleano
○ Modelo Booleano Estendido
➢ Quadro Comparativo dos Modelos Quantitativos
➢ Conclusão
➢ Nuvem de Palavras
➢ Indexadores
➢ Exemplo de Procedimento de Recuperação de
Documentos em base de dados
3. 33
Cap.3: A Recuperação da Informação
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
➢Definição
○ Operação pela qual se seleciona documentos, a partir do acervo, em
função da demanda do usuário;
○ Consiste no fornecimento, a partir de uma demanda definida pelo
usuário, dos elementos de informação documentária
correspondentes;
○ Designar a operação que fornece uma resposta mais ou menos
elaborada a uma demanda, e esta resposta é convertida num
produto cujo formato é acordado com o usuário (bibliografia, nota de
síntese, e etc);
○ Tratamento da informação.
➢Processo
○ Consiste em identificar, no conjunto de documentos (corpus) de um
sistema, quais atendem à necessidade de informação do usuário.
4. 44
Cap.3: A Recuperação da Informação
➢ Sistema de Recuperação de Informação
○ Interessado em recuperar “informação” sobre um determinado assunto e não
em recuperar dados que satisfazem sua expressão de busca, nem tampouco
documentos, embora seja neste que a informação estará registrada;
○ Precisão não é tão estrita;
○ Objetos linguísticos e herdam toda a problemática inerente ao tratamento da
linguagem natural;
➢ Sistemas Gerenciadores de Bancos de Dados
○ Têm por objetivo a recuperação de todos os objetos ou itens que satisfazem
precisamente às condições formuladas através de uma expressão de busca;
○ Organiza itens de “informação” (dados), que têm uma estrutura e uma
semântica bem definidas.
➢ Os sistemas de informação podem se aproximar do padrão que caracteriza os
bancos de dados na medida em que sejam submetidos a rígidos controle, tais como
vocabulário controlado, listas de autoridades, e etc.
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Sistema de Recuperação de Informação
x
Sistemas Gerenciadores de Bancos de Dados
5. 55
Cap.3: A Recuperação da Informação
➢ Devem representar o conteúdo dos documentos do corpus e
apresentá-los ao usuário de uma maneira que lhe permita uma rápida
seleção dos itens que satisfazem total ou parcialmente à sua
necessidade de informação, formalizada através de uma expressão
de busca.
Processo de Recuperação de Informação
➢ Conceito de “informação como coisa” (Buckland, 1991b)
“Qualquer signo físico ou simbólico, preservado ou registrado, com a
intenção de representar, reconstruir ou demonstrar um fenômeno físico ou
abstrato” Suzanne Briet (1951, p.7 por Bucklan, 1997, p. 806).
Sistema de Recuperação de Informação
Documentos
(Corpus)
Representação
Função de
Busca
Expressão de
Busca
Usuário
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
6. 66
Cap.3: A Recuperação da Informação
➢ Ambiente digital
○ Os acervos de objetos digitais se multiplicam tanto no que se refere à sua
tipologia quanto à sua complexidade.
○ Novo cenário: textos, imagens, sons, vídeos, páginas Web e diversos
outros objetos digitais.
○ Requerem diferentes tipos de tratamento e representação para uma
recuperação de informação eficaz (Burke, 1999).
○ Principais mudanças: desterritorialização do documento, desvinculação
de uma forma física tradicional como o papel, possibilitando uma
integração entre diferentes suportes (texto, imagem, som) e ruptura na
linearidade do acesso aos documentos através do imenso hipertexto da
Web.
➢ Tratamento da Informação
○ Envolve elementos relacionados a diversas disciplinas, ampliando o
campo de pesquisa da Ciência da Informação e reforçando ainda mais a
sua característica interdisciplinar, principalmente no seu relacionamento
com a Ciência da Computação, mais notadamente no contexto da Web.
➢ O processo de Representação
○ Busca descrever ou identificar cada documento do corpus através de seu
conteúdo. Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Processo de Recuperação de Informação
7. 77
Cap.3: A Recuperação da Informação
➢ Indexação
○ São extraídos conceitos do documento através da análise de
seu conteúdo e traduzidos em termos de uma linguagem de
indexação, tais como cabeçalhos de assunto, tesauros, etc;
○ Identifica o documento e define seus pontos de acesso para a
busca e pode também ser utilizada como seu substituto.
➢ Análise documental
○ Interpretação de seu conteúdo com a finalidade agregar assuntos
que não estão diretamente explicitados em sua superfície textual,
mas que pode ser facilmente abstraído por um indexador
humano;
○ Análise também pode ser efetuada tendo em vista a sua
recuperação;
○ Tornar o seu conteúdo visível para os usuários de um sistema
de informação.
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Processo de Indexação
8. 88
Cap.3: A Recuperação da Informação
➢ Automação do Processo de Indexação
○ Só é possível através de uma simplificação na qual se considera
que os assuntos de documento podem ser derivados de sua
estrutura textual através de métodos algorítmicos.
○ Vantagem: Baixo custo, considerando o crescente barateamento
dos computadores e dos softwares.
➢ Métodos automáticos de Indexação
○ Amplamente utilizada, geralmente utilizam “filtros” para eliminar
palavras de pouca significação (stop words);
○ além de normalizar os termos reduzindo-os a seus radicais,
processo como stemming.;
○ Seleciona formas significantes (termos ou frases) dos
documentos, desconsiderando os significados que os mesmo
podem possuir de acordo com os contextos;
○ Desvantagens: falhas e limitações se evidenciam pela
simplificação da dimensão semântica da linguagem.Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Processo de Indexação
9. 99
Cap.3: A Recuperação da Informação
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
➢ Aumento da capacidade de armazenamento
○ Muitos sistemas conseguem manter disponíveis os textos dos documentos (chamados sistemas
de texto completo ou texto integral);
○ Não há de fato uma representação, é feita pelo conjunto formado por todas as palavras de seu
texto.
○ Atenção: Com um aumento da quantidade de documentos, mesmo os computadores moderno
podem não comportar o armazenamento dos textos dos documentos, tendo que limitar a
representação a um conjunto limitado de termos.
➢ Informação do Usuário
○ Representada através de sua expressão de busca.
○ Linguagem natural ou linguagem artificial.
○ Resulta na recuperação de um número de documentos que possibilite a verificação de cada um
deles a fim de selecionar os que são úteis.
➢ Estratégias de Buscas
○ Aumento da quantidade de documentos disponibilizados;
○ Processo de predição, que nunca é tão preciso como nos sistemas de banco de dados;
○ Dificuldade pelo número elevado de documentos resultantes das buscas;
○ É necessário evitar a recuperação de documentos não relevantes, minimizando o esforço em
verificar a relevância de tais documentos.
➢ Expressão de Busca
○ Geralmente é composta de um conjunto de palavras que tentam exprimir a semântica da
necessidade de informação do usuário.
○ O usuário tem que traduzir a sua necessidade de informação em uma expressão de busca
através de uma linguagem fornecida pelo sistema
Processo de Indexação
10. 1010
Cap.3: A Recuperação da Informação
➢ É um processo de produção e sentido por parte do usuário, o qual utiliza a informação
para construir o conhecimento.
➢ Levando-se em conta os seus padrões de comportamento na busca da informação.
➢ Um termo utilizado na expressão de busca, aparecer na representação de um
documento não significa que o documento seja relevante para a necessidade do
usuário.
1. A busca provavelmente contém mais do que um termo e, portanto, a recuperação de
um documento deve considerar a totalidade dos termos de busca.
2. O termo presente na representação de um documento pode estar em um contexto que
não é apropriado à necessidade do usuário.
3. Um documento, mesmo que fortemente relacionado com uma busca. Pode não ser
relevante para o usuário, simplesmente por ser muito antigo ou por já ter sido
recuperado anteriormente pelo mesmo.
➢ A eficiência de um sistema de recuperação de informação está diretamente ligada ao
modelo que o mesmo utiliza. Um modelo, por sua vez, influencia diretamente no
modo de operação do sistema.
➢ Apesar de alguns desses modelos terem sido criados nos anos 60 e 70 e aperfeiçoados
nos 80, ainda estão presentes na maioria dos sistemas de recuperação atuais e nos
mecanismos de busca da Web.
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Recuperação de Informação
11. 11
Cap.4: Modelos Quantitativos
➢ Definição: os modelos quantitativos são baseados na
lógica, na estatística e na teoria dos conjuntos. Esse fato
se deve pela determinação que “um modelo matemático
geralmente pressupõe uma cuidadosa análise formal do
problema e especificações de hipóteses, além de uma
formulação explícita da forma como o modelo depende das
hipóteses.” (FERNEDA, 2003, p.20)
➢ Os Modelos são: Modelo Vetorial
Modelo Probabilístico
Modelo Fuzzy
Modelo Booleano
Modelo Booleano Estendido
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
12. 12
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
➢ É possível obter um conjunto de documentos ordenados pelo grau
de similaridade (relevância) entre cada documento e a expressão
de busca formulada pelo usuário;
➢ O documento é representado por um vetor, o qual descreve a sua
posição em um espaço multidimensional;
➢ Cada vetor possui elementos que representam o peso (relevância)
do respectivo termo de indexação para o documento, o qual
representa uma dimensão ou eixo;
➢ Cada elemento do vetor (peso) pode assumir valores entre zero e
um. Quanto mais próximos do um, maior importância o termo
possui para a descrição do documento, ou seja, é mais relevante;
13. 13Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
Figura 1 – Representação vetorial de um documento com dois termos
Fonte: FERNEDA, 2003, p. 28
14. 14Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
Figura 3 – Representação de uma expressão de busca em um espaço vetorial
Fonte: FERNEDA, 2003, p. 29
➢ Assim como o documento, a expressão de busca também
é representada por um vetor, onde cada termo utilizado na
busca, possui um peso (importância);
15. 15Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
Figura 4 – Representação de um corpus contendo n documentos e i termos
Fonte: FERNEDA, 2003, p. 30
Documento
Associação de
termos com os
documentos
➢ Um corpus contendo um número indefinido de
documentos e termos de indexação, pode ser
representado também através de uma matriz;
16. 16Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
➢ Pesos:
○ Usados para computar a similaridade entre cada documento
armazenado e a consulta realizada pelo usuário;
○ Geralmente são baseados no número de ocorrências
(frequência) que o termo aparece no documento;
○ Segundo Salton e Buckey, uma das formas de calcular o
peso é através do balanceamento entre as características
em comum e as características distintas dos documentos;
➢ Similaridade:
○ Se dá a partir da associação de pesos para os termos de
indexação e para os termos da expressão de busca, ou
seja, relevância de cada documento em relação à busca;
17. 17Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
➢ Similaridade:
○ Permite restringir o resultado a um número máximo de documentos
desejados;
○ Possibilita definir um limite mínimo para o valor da similaridade, limitando a
quantidade de documento recuperados. Por exemplo: define como limite do
peso 0.5 -> a expressão de busca terá como resultado apenas os
documentos que possuem valor de similaridade maior ou igual a 0.5 (50%);
○ As distâncias entre um documento e outro no espaço indicam seu grau de
similaridade, ou seja, documentos que possuem os mesmos termos são
colocados em uma mesma região, pois é capaz de tratarem de assuntos
similares;
○ A partir da comparação entre os vetores dos documentos com o vetor da
consulta, o grau de similaridade entre eles é identificado. Logo, os
documentos mais similares à consulta, ou seja, mais próximos no espaço,
são considerados relevantes para o usuário, sendo resgatados;
18. 18Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
Sistema SMART
➢ Desenvolvido com base no modelo vetorial;
➢ Projeto SMART (Sistem for the Manipulation and Retrieval of
Text) teve início em 1961 em Harvard e mudou-se para
Universidade de Cornell após 1965;
➢ Resultado da pesquisa de Gerard Salton, prof. de Ciência da
Computação de Cornell;
➢ Teve um papel significativo no desenvolvimento de toda a
área da Recuperação da Informação. Continua sendo
referência neste setor e ainda é utilizado para pesquisas em
ambiente acadêmico;
➢ Dados são gerados automaticamente;
19. 19
Cap.4: Modelos Quantitativos - Modelo Vetorial
Figura 6 – Esquema do Inverse Document Frequency
Fonte: Autoria nossa.
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
➢ Medida Inverse document frequency: entende que um termo que aparece
em todos os documentos, provavelmente terá pouca utilidade em identificar
a relevância do documento. Logo, realiza a divisão entre o número de
documentos no corpus pelo número de documentos que contém tal termo;
20. 20
Cap.4: Modelos Quantitativos - Modelo Vetorial
➢ Processo de indexação: ocorre a partir de uma análise linguística simples
Figura 7 – Esquema do processo de indexação
Fonte: Autoria nossa.
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
21. 21Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
➢ Processo de identificação de termos compostos: alguns termos possuem
valor muito abaixo da média, sendo então agrupados a outros termos,
formando os chamados termos compostos (mais específicos):
Figura 8 – Esquema de identificação dos termos compostos
Fonte: Autoria nossa.
22. 22Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
➢ Processo de Relevance Feedback: reformulação da expressão de
busca do usuário, pode ser feita pelo usuário ou automaticamente, que
visa construir uma nova expressão de busca a partir dos documentos
(considerados relevantes) selecionados pelo próprio usuário com relação
na listagem de documentos resgatados na primeira busca:
Figura 9 – Esquema do processo de Relevance Feedback
Fonte: Autoria nossa.
23. 23
➢ Sistema SMART continua como referência no
desenvolvimento de sistemas de recuperação de
informação e ainda é utilizado para pesquisas em
ambiente acadêmico;
➢ Segundo resultados dos testes TREC (Text Retrieval
Conference), o sistema SMART ainda consegue
desempenho acima da média em relação a outros
sistemas, sob determinadas condições (BUCKLEY et al,
1995 apud FERNEDA, 2003, p. 35).
Cap.4: Modelos Quantitativos - Modelo Vetorial
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
24. 24Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
➢ Proposto em 1976 por Robertson e Sparck e posteriormente
explorado por diversos outros pesquisadores.
➢ Propõe uma solução ao problema de Recuperação da
Informação com base na teoria das probabilidades.
➢ A partir de uma consulta do usuário, existe um conjunto de
documentos que contém exatamente os documentos
relevantes (resposta ideal) e nenhum outro.
➢ Dada uma descrição desse conjunto resposta ideal,
poderíamos recuperar os documentos relevantes;
➢ O modelo probabilístico tenta representar o processo de
recuperação de informação sob um ponto de vista
probabilístico.
25. 25Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
➢ Dada uma expressão de busca, pode-se dividir o corpus (com N documentos)
em quatro subconjuntos distintos:
○ Rel: conjunto dos documentos relevantes;
○ Rec: conjunto dos documentos recuperados;
○ RR: conjunto dos documentos relevantes que foram recuperados;
○ Não recuperados e não relevantes
➢ O conjunto dos documentos relevantes e recuperados RR é resultante da
interseção dos conjuntos Rel e Rec.
Fonte: FERNEDA, 2003, p. 39
26. 26Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
➢ No modelo Probabilístico aproveitam-se os conceitos do modelo
Vetorial para otimizar a questão da relevance feedback com base
na elaboração de uma classificação, que diz que a probabilidade
de um termo aparecer em um documento depende de quão
relevante ou não ele é. Tendo em mente que um conjunto de
documentos relevantes é um pequeno subconjunto do conjunto
maior de todos os documentos, a proposta será apta à resolução
(MANNING; RAGHAVAN; SCHÜTZE, 2009).
➢ Em qualquer ambiente informacional, a questão da relevância da
informação recuperada por um sistema será relativa ao usuário
que dela necessita e no momento que necessita ao momento de
que necessita.
➢ Os que possuem características que podem ser incorporadas à
realidade da Web são somente os mais atuais, considerados
mais semânticos ou inteligentes, ou seja, as Redes Neurais e os
Algoritmos Genéticos.
27. 27Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
De acordo com Ferneda:
➢“A utilização dos algoritmos genéticos na
recuperação de informação apresenta-se como
uma possibilidade para futuras
implementações em sistemas com
características evolutivas. Sua aplicação rompe
com a rigidez dos modelos puramente
matemáticos, reconhecendo a inerente
indeterminação do processo de representação
dos conteúdos dos documentos.”
28. 28Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
Expressão chave para a computação do ranking no
modelo probabilístico
➢Regra de Bayes;
➢Hipótese de independência;
➢Uso de logaritmos;
➢Simplificação de notação;
➢Conversão de produtório de logaritmo para somatório de
logaritmo;
29. 29Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
➢ Seja R um conjunto de documentos inicialmente
estimado como relevante para o usuário para a
consulta q. Seja o complemento de R (o conjunto de
documentos não relevantes). A similaridade sim(dj,q)
entre o documento e a consulta é definida por:
30. 30Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
Estimar as probabilidades relacionadas ao conjunto de
documentos relevantes
➢Seja N o número de documentos da coleção e ni o
número de documentos que contêm o termo ki . Seja R
o número total de documentos para a consulta q (na
opinião do usuário) e ri o número de documentos
relevantes que contêm o termo k .
31. 31Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
➢Se a informação na tabela estivesse
disponível para qualquer consulta,
poderíamos escrever:
e reescrever a equação original da
seguinte forma:
32. 32Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
➢ Para lidar com valores pequenos de ri, é conveniente
somar 0,5 a cada um dos termos da fórmula anterior:
➢ Essa fórmula é conhecida como equação Robertson-
Spark Jones e é considerada a equação de
ranqueamento clássica para o modelo probabilístico.
Comporta-se bem para estimativas particulares como R
= ri .
33. 33Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
➢ Parte do princípio de que, apesar da ciência e a verdade absoluta estarem
intimamente ligadas, observa-se que o mundo real contém uma infinidade de
gradações entre o preto e branco, entre o certo e o errado, entre o verdadeiro
e o falso;
➢ “A comunicação humana é vaga e imprecisa, contendo diversas incertezas.”
(FERNEDA, 2003, P. 43). Por exemplo: o que quer dizer quando se diz que
uma pessoa é alta? A partir de qual altura determina-se que a pessoa é alta?;
○ Objetivo da lógica fuzzy: “[...] capturar e operar com a diversidade, a
incerteza e as verdades parciais dos fenômenos da natureza de uma
forma sistemática e rigorosa.” (SHAW E SIMÕES, 1999 apud FERNEDA,
2003, p. 43).
➢ A lógica fuzzy tem a capacidade de incorporar a forma humana de pensar,
funcionando conforme o raciocínio do especialista/usuário que utiliza o
sistema, capaz de definir as regras, manipular as informações do modo como
ele as conhece;
34. 34Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
➢ Conjuntos fuzzy: baseados no fato de que os conjuntos existentes no mundo
real não possuem limites precisos, onde a transição de cada elemento não-
membro para membro do conjunto é gradual. Este grau de imprecisão pode
ser visto como uma “medida de possibilidade”, ou seja, a “possibilidade” de
que um elemento seja membro do conjunto.
○ Por exemplo: ao mesmo tempo que uma pessoa está dentro do conjunto
de pessoas altas, consequentemente, pertence também ao conjunto de
pessoas não baixas. Ou seja, em um conjunto fuzzy, um mesmo objeto
pode pertencer a dois ou mais conjuntos com diferentes graus.
➢ O modelo fuzzy tem sido discutido principalmente na literatura dedicada à
teoria fuzzy, não sendo popular entre a comunidade da recuperação de
informação. Além disso, a grande maioria dos experimentos realizados
com este modelo considera apenas pequenos corpora, que não
comprovem sua efetiva superioridade em relação a outros modelos de
recuperação de informação (BAEZA-YATES e RIBEIRO-NETO, 1999, p.
38 apud FERNEDA, 2003, p. 48);
35. 35Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
➢ Proposto por Zadeh (1956), afirma que não há distinção abrupta entre
elementos pertencentes e não pertencentes a um conjunto. Ou seja, a
relação de pertinência entre um elemento e um conjunto não é de
pertencimento ou não pertencimento, mas sim de um valor real no
intervalo de 0 a 1, utilizados para representar o grau de possibilidade de
que o elemento x venha a pertencer ao conjunto A;
➢ Conceito relacionado ao conjunto nebuloso: variável linguística,
caracterizada pela quíntupla abaixo:
Fonte: Autoria nossa.
Teoria dos conjuntos nebulosos (fuzzy sets)
36. 36Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
As variáveis linguísticas também podem conter:
Fonte: Autoria nossa.
➢ A teoria fuzzy possibilita a definição de classe de elementos em
situações onde não é possível uma delimitação precisa e natural de
suas fronteiras;
○ Segundo Ferneda (2003, p. 46), “[...] Este ambiente teórico é capaz
de representar de forma mais eficiente a inerente imprecisão das
entidades envolvidas em um sistema de recuperação de
informação, muito embora seja conflitante com a teoria clássica
dos sistemas de classificação, segundo a qual as classes devem
ser auto-excludentes.”;
Eleva a 2ª
potência
cada ponto
da função
de
pertinência
Capazes de
originar
conjuntos
complexamente
definidos, mas
representados
linguisticamente
de maneira
simples
37. 37Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
Conjuntos fuzzy na recuperação da informação
➢ O peso associado a um termo expressa o quanto é significativo na
descrição do conteúdo do documento;
➢ O cálculo dos pesos não considera que, em muitos casos, as
ocorrências de um termo podem assumir significados diferentes
dependendo da seção onde ele aparece, dependendo da
necessidade do usuário:
○ Bordogna e Pasi (1995) propõem uma representação fuzzy para
documentos estruturados que pode ser ajustada de acordo com
os interesses do usuário. A importância de um termo t em um
documento d é calculada pela avaliação da importância de t em
cada uma das seções de d. Isto é feito através da aplicação de
uma função FSi(d, t) que expressa o grau de pertinência do
termo t na seção Si do documento d.
38. 38Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
Conjuntos fuzzy na recuperação da informação
➢ Exemplos:
○ Um artigo científico geralmente está organizado em título,
autores, palavras-chave, resumo, referências, etc. Uma única
ocorrência de um termo no título sugere que o artigo discorre
sobre o conceito expresso pelo termo;
○ Quando o usuário está procurando artigos de um determinado
autor, a parte mais importante a ser analisada é a seção de
autores.
○ Quando se procura artigos de um determinado assunto, o título,
as palavras-chaves, o resumo e a introdução assumem maior
importância;
39. 39Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
➣ Sistema Domino: considerado o mais eficaz em relação a outros tipos
de representação fuzzy;
U
S
U
Á
R
I
O
Grau de pertinência dos
termos em cada seção
Importância numérica
D
E
S
T
A
C
A
A
S
S
O
C
I
A
U
S
U
Á
R
I
O
E
S
C
O
L
H
E
All
last one
at least
about k
Conjunto de
quantificadores
linguísticos pré-definidos
A
G
R
E
G
A
Função de
agregação
Para obter um grau de pertinência de um termo
em relação a um documento
Responsáveis por indicar o número de seções em que um termo deve
aparecer para que o documento seja considerado relevante
40. 40Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
➢ Ideia semelhante: Molinari e Pasi (1996) propõem um método de
indexação de documentos HTML baseado na estrutura sintática
dessa linguagem de marcação:
○ Para cada seção de um documento HTML, delimitada pelas
marcações (tags), é associado um grau de importância;
○ Assim, para cada tag pode ser associado um valor numérico que
expressa a sua importância para o documento;
○ O peso de um termo em relação a um determinado documento é
obtido através de uma função de agregação que considera a
importância de cada tag do documento onde o termo aparece;
○ Por exemplo: outra forma de agregar importância ao termo é
destacando-o em negrito ou itálico em um texto na página HTML.
41. 41Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Booleano
➢ Definição: o modelo booleano é baseado no álgebra
booleana, que consiste em “um sistema binário no qual
existem somente dois valores possíveis para qualquer
símbolo algébrico: 1 ou 0, verdadeiro ou
falso.”(FERNEDA, 2003, p.21)
➢ Para a Gestão da Informação: o modelo booleano
consiste na representação dos documentos através de
um conjunto de termos descritores, que podem ser
atribuídos manualmente (por profissionais) ou
automaticamente (OCR), e que utiliza combinações de
operadores lógicos para recuperar um conjunto de
documentos satisfatórios à busca realizada.
42. 42Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Booleano
Operadores Booleanos Básicos¹
➢ AND: equivale a interseção do conjunto de documentos
indexados por dois termos descritores distintos;
➢ OR: equivale a união do conjunto de documentos
indexados por dois termos descritores distintos;
➢ NOT (AND NOT): equivale a diferença entre os conjuntos
de documentos indexados por dois termos descritores
distintos.
➢ Há, ainda, a possibilidade de associação dos operadores
numa mesma busca para um resultado mais específico.
Básicos¹: termo livre inserido para diferenciar os conjuntos de operadores booleanos.
44. 44Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Booleano
Operadores Booleanos de Proximidade
➢ WITH: recupera um conjunto de documentos onde
dois termos descritores distintos estejam no mesmo
parágrafo;
➢ SAME: recupera um conjunto de documentos onde
dois termos descritores distintos estejam na mesma
sentença;
➢ ADJ: recupera um conjunto de documentos onde dois
termos descritores distintos formam uma expressão;
➢ NEAR: recupera um conjunto de documentos onde há
uma distância entre dois termos descritores distintos.
45. 45Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Booleano Estendido
➢ Definição: o modelo booleano estendido, proposto por
Salton, Fox e Wu (1983), que consiste em “tentar unir a
potencialidade das expressões booleanas com a
precisão do modelo vetorial.”(FERNEDA, 2003, p.48)
➢ Para a Gestão da Informação: o modelo booleano
estendido consiste na recuperação de um conjunto de
documentos através da utilização de indexadores
conectados por operadores lógicos (booleanos) junto
com a atribuição de um grau de relevância e
ordenamento (modelo vetorial) para os documentos
resultantes de uma expressão de busca realizada.
46. 46Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Booleano Estendido
Figura 15 - Representação de documentos em um espaço bidimensional
Fonte: FERNEDA, 2003, p.49
Em expressões disjuntivas (OR) “quanto maior a distância de um
documento em relação a este ponto, maior será sua similaridade
em relação à expressão de busca.” (FERNEDA, 2003)
Em expressões conjuntivas (AND) “quanto
menor a distância de um documento em
relação a este ponto maior sua similaridade
em relação à expressão de busca.”
(FERNEDA, 2003)
LEGENDA:
➢ O ponto (0,0) representa a situação
que o documento recuperado não é
indexados por nenhum dos termos
escolhidos na expressão de busca.
(situação negativa)
➢ O ponto (1,1) representa a situação
que o documento recuperado é
indexados por ambos os termos
escolhidos na expressão de busca.
(situação positiva)
47. 47Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Quadro Comparativo entre os Modelos
MODELOS VANTAGENS DESVANTAGENS
VETORIAL
Os documentos são ranqueados de acordo com sua
probabilidade de serem relevantes, com base na
informação disponível ao sistema.
Relevância de um documento é afetada por diversos fatores
externos, não somente na informação disponível ao sistema.
Necessidade de estimar a separação inicial dos documentos em
conjuntos relevantes e não relevantes.
Possibilidade de ordenação dos documentos
recuperados.
Não leva em consideração a frequência na qual um termo de
indexação ocorre em um documento.
Falta de normalização pelo tamanho dos documentos.
PROBABILÍSTICO
É uma estratégia de encontro parcial (função de
similaridade), que é melhor que a exatidão do modelo
booleano.
Ausência de ortogonalidade entre os termos, isto poderia
encontrar relações entre termos que aparentemente não têm
nada em comum.
Atribuir pesos aos termos melhora o desempenho. É um modelo generalizado.
Os documentos são ordenados de acordo com seu grau
de similaridade com a consulta.
Um documento relevante pode não conter termos da consulta.
FUZZY
Facilidade de utilizar expressões utilizadas na
linguagem natural na elaboração das preposições
linguísticas.
Geralmente sua precisão é limitada pela experiência, pelo
conhecimento, da pessoa que configura os seus parâmetros.
Influência da grande quantidade de parâmetros, muitas vezes,
elaborados pelo usuário.
É possível associar importância aos termos
pertinentes as diferentes seções do documento.
Não sendo popular entre a comunidade da recuperação de
informação.
BOOLEANO
Fácil implantação e utilização pelo usuário. Não permite o ordenamento dos documentos recuperados.
Modelo mais utilizado pelos sistemas de informação. Não existe uma forma de atribuir grau de importância.
BOOLEANO
ESTENDIDO
Tenta unir a potencialidades das expressões
booleanas com a precisão do modelo vetorial.
Maior complexidade na formulação das buscas por tentar
juntar dois modelos quantitativos diferentes.
48. 48Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Conclusão
➢ O processo de recuperação de informação é inerentemente
impreciso devido a fatores que talvez nunca serão
equacionados;
➢ Informação + relevância;
➢ Representação da complexidade semântica dos textos x
Interação do usuário com os sistemas de recuperação de
informação;
➢ Modelos apresentados, transparece o seu caráter empírico,
baseado muitas vezes em suposições e levando a um aumento
progressivo da complexidade.
➢ Esgotamento dos modelos “quantitativos”, mas ainda estão
presentes na maioria dos sistemas de recuperação +
mecanismos de busca da Web;
➢ Os modelos = Arsenal teórico + instrumento de base para o
desenvolvimento de técnicas de representação do conhecimento
ligadas à Inteligência Artificial.