SlideShare uma empresa Scribd logo
1 de 50
Apresentação do texto:
FERNEDA, Edberto. Recuperação da Informação: análise da
contribuição da ciência da computação para a ciência da
informação. São Paulo, 2003. 147p. Tese (Doutorado em
Ciência da Informação e Documentação) - Universidade de
São Paulo.
agosto/2017
Curso: Pós-Graduação em GED
Disciplina: Recuperação da Informação
Grupo 6: Marcella Lacerda
Marília Gorito
Vinicius Rodrigues
Viviane Cunha
22
Sumário
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
➢ Capítulo 3: A Recuperação da Informação
➢ Capítulo 4: Modelos Quantitativos
○ Modelo Vetorial
○ Modelo Probabilístico
○ Modelo Fuzzy
○ Modelo Booleano
○ Modelo Booleano Estendido
➢ Quadro Comparativo dos Modelos Quantitativos
➢ Conclusão
➢ Nuvem de Palavras
➢ Indexadores
➢ Exemplo de Procedimento de Recuperação de
Documentos em base de dados
33
Cap.3: A Recuperação da Informação
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
➢Definição
○ Operação pela qual se seleciona documentos, a partir do acervo, em
função da demanda do usuário;
○ Consiste no fornecimento, a partir de uma demanda definida pelo
usuário, dos elementos de informação documentária
correspondentes;
○ Designar a operação que fornece uma resposta mais ou menos
elaborada a uma demanda, e esta resposta é convertida num
produto cujo formato é acordado com o usuário (bibliografia, nota de
síntese, e etc);
○ Tratamento da informação.
➢Processo
○ Consiste em identificar, no conjunto de documentos (corpus) de um
sistema, quais atendem à necessidade de informação do usuário.
44
Cap.3: A Recuperação da Informação
➢ Sistema de Recuperação de Informação
○ Interessado em recuperar “informação” sobre um determinado assunto e não
em recuperar dados que satisfazem sua expressão de busca, nem tampouco
documentos, embora seja neste que a informação estará registrada;
○ Precisão não é tão estrita;
○ Objetos linguísticos e herdam toda a problemática inerente ao tratamento da
linguagem natural;
➢ Sistemas Gerenciadores de Bancos de Dados
○ Têm por objetivo a recuperação de todos os objetos ou itens que satisfazem
precisamente às condições formuladas através de uma expressão de busca;
○ Organiza itens de “informação” (dados), que têm uma estrutura e uma
semântica bem definidas.
➢ Os sistemas de informação podem se aproximar do padrão que caracteriza os
bancos de dados na medida em que sejam submetidos a rígidos controle, tais como
vocabulário controlado, listas de autoridades, e etc.
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Sistema de Recuperação de Informação
x
Sistemas Gerenciadores de Bancos de Dados
55
Cap.3: A Recuperação da Informação
➢ Devem representar o conteúdo dos documentos do corpus e
apresentá-los ao usuário de uma maneira que lhe permita uma rápida
seleção dos itens que satisfazem total ou parcialmente à sua
necessidade de informação, formalizada através de uma expressão
de busca.
Processo de Recuperação de Informação
➢ Conceito de “informação como coisa” (Buckland, 1991b)
“Qualquer signo físico ou simbólico, preservado ou registrado, com a
intenção de representar, reconstruir ou demonstrar um fenômeno físico ou
abstrato” Suzanne Briet (1951, p.7 por Bucklan, 1997, p. 806).
Sistema de Recuperação de Informação
Documentos
(Corpus)
Representação
Função de
Busca
Expressão de
Busca
Usuário
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
66
Cap.3: A Recuperação da Informação
➢ Ambiente digital
○ Os acervos de objetos digitais se multiplicam tanto no que se refere à sua
tipologia quanto à sua complexidade.
○ Novo cenário: textos, imagens, sons, vídeos, páginas Web e diversos
outros objetos digitais.
○ Requerem diferentes tipos de tratamento e representação para uma
recuperação de informação eficaz (Burke, 1999).
○ Principais mudanças: desterritorialização do documento, desvinculação
de uma forma física tradicional como o papel, possibilitando uma
integração entre diferentes suportes (texto, imagem, som) e ruptura na
linearidade do acesso aos documentos através do imenso hipertexto da
Web.
➢ Tratamento da Informação
○ Envolve elementos relacionados a diversas disciplinas, ampliando o
campo de pesquisa da Ciência da Informação e reforçando ainda mais a
sua característica interdisciplinar, principalmente no seu relacionamento
com a Ciência da Computação, mais notadamente no contexto da Web.
➢ O processo de Representação
○ Busca descrever ou identificar cada documento do corpus através de seu
conteúdo. Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Processo de Recuperação de Informação
77
Cap.3: A Recuperação da Informação
➢ Indexação
○ São extraídos conceitos do documento através da análise de
seu conteúdo e traduzidos em termos de uma linguagem de
indexação, tais como cabeçalhos de assunto, tesauros, etc;
○ Identifica o documento e define seus pontos de acesso para a
busca e pode também ser utilizada como seu substituto.
➢ Análise documental
○ Interpretação de seu conteúdo com a finalidade agregar assuntos
que não estão diretamente explicitados em sua superfície textual,
mas que pode ser facilmente abstraído por um indexador
humano;
○ Análise também pode ser efetuada tendo em vista a sua
recuperação;
○ Tornar o seu conteúdo visível para os usuários de um sistema
de informação.
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Processo de Indexação
88
Cap.3: A Recuperação da Informação
➢ Automação do Processo de Indexação
○ Só é possível através de uma simplificação na qual se considera
que os assuntos de documento podem ser derivados de sua
estrutura textual através de métodos algorítmicos.
○ Vantagem: Baixo custo, considerando o crescente barateamento
dos computadores e dos softwares.
➢ Métodos automáticos de Indexação
○ Amplamente utilizada, geralmente utilizam “filtros” para eliminar
palavras de pouca significação (stop words);
○ além de normalizar os termos reduzindo-os a seus radicais,
processo como stemming.;
○ Seleciona formas significantes (termos ou frases) dos
documentos, desconsiderando os significados que os mesmo
podem possuir de acordo com os contextos;
○ Desvantagens: falhas e limitações se evidenciam pela
simplificação da dimensão semântica da linguagem.Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Processo de Indexação
99
Cap.3: A Recuperação da Informação
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
➢ Aumento da capacidade de armazenamento
○ Muitos sistemas conseguem manter disponíveis os textos dos documentos (chamados sistemas
de texto completo ou texto integral);
○ Não há de fato uma representação, é feita pelo conjunto formado por todas as palavras de seu
texto.
○ Atenção: Com um aumento da quantidade de documentos, mesmo os computadores moderno
podem não comportar o armazenamento dos textos dos documentos, tendo que limitar a
representação a um conjunto limitado de termos.
➢ Informação do Usuário
○ Representada através de sua expressão de busca.
○ Linguagem natural ou linguagem artificial.
○ Resulta na recuperação de um número de documentos que possibilite a verificação de cada um
deles a fim de selecionar os que são úteis.
➢ Estratégias de Buscas
○ Aumento da quantidade de documentos disponibilizados;
○ Processo de predição, que nunca é tão preciso como nos sistemas de banco de dados;
○ Dificuldade pelo número elevado de documentos resultantes das buscas;
○ É necessário evitar a recuperação de documentos não relevantes, minimizando o esforço em
verificar a relevância de tais documentos.
➢ Expressão de Busca
○ Geralmente é composta de um conjunto de palavras que tentam exprimir a semântica da
necessidade de informação do usuário.
○ O usuário tem que traduzir a sua necessidade de informação em uma expressão de busca
através de uma linguagem fornecida pelo sistema
Processo de Indexação
1010
Cap.3: A Recuperação da Informação
➢ É um processo de produção e sentido por parte do usuário, o qual utiliza a informação
para construir o conhecimento.
➢ Levando-se em conta os seus padrões de comportamento na busca da informação.
➢ Um termo utilizado na expressão de busca, aparecer na representação de um
documento não significa que o documento seja relevante para a necessidade do
usuário.
1. A busca provavelmente contém mais do que um termo e, portanto, a recuperação de
um documento deve considerar a totalidade dos termos de busca.
2. O termo presente na representação de um documento pode estar em um contexto que
não é apropriado à necessidade do usuário.
3. Um documento, mesmo que fortemente relacionado com uma busca. Pode não ser
relevante para o usuário, simplesmente por ser muito antigo ou por já ter sido
recuperado anteriormente pelo mesmo.
➢ A eficiência de um sistema de recuperação de informação está diretamente ligada ao
modelo que o mesmo utiliza. Um modelo, por sua vez, influencia diretamente no
modo de operação do sistema.
➢ Apesar de alguns desses modelos terem sido criados nos anos 60 e 70 e aperfeiçoados
nos 80, ainda estão presentes na maioria dos sistemas de recuperação atuais e nos
mecanismos de busca da Web.
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Recuperação de Informação
11
Cap.4: Modelos Quantitativos
➢ Definição: os modelos quantitativos são baseados na
lógica, na estatística e na teoria dos conjuntos. Esse fato
se deve pela determinação que “um modelo matemático
geralmente pressupõe uma cuidadosa análise formal do
problema e especificações de hipóteses, além de uma
formulação explícita da forma como o modelo depende das
hipóteses.” (FERNEDA, 2003, p.20)
➢ Os Modelos são: Modelo Vetorial
Modelo Probabilístico
Modelo Fuzzy
Modelo Booleano
Modelo Booleano Estendido
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
12
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
➢ É possível obter um conjunto de documentos ordenados pelo grau
de similaridade (relevância) entre cada documento e a expressão
de busca formulada pelo usuário;
➢ O documento é representado por um vetor, o qual descreve a sua
posição em um espaço multidimensional;
➢ Cada vetor possui elementos que representam o peso (relevância)
do respectivo termo de indexação para o documento, o qual
representa uma dimensão ou eixo;
➢ Cada elemento do vetor (peso) pode assumir valores entre zero e
um. Quanto mais próximos do um, maior importância o termo
possui para a descrição do documento, ou seja, é mais relevante;
13Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
Figura 1 – Representação vetorial de um documento com dois termos
Fonte: FERNEDA, 2003, p. 28
14Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
Figura 3 – Representação de uma expressão de busca em um espaço vetorial
Fonte: FERNEDA, 2003, p. 29
➢ Assim como o documento, a expressão de busca também
é representada por um vetor, onde cada termo utilizado na
busca, possui um peso (importância);
15Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
Figura 4 – Representação de um corpus contendo n documentos e i termos
Fonte: FERNEDA, 2003, p. 30
Documento
Associação de
termos com os
documentos
➢ Um corpus contendo um número indefinido de
documentos e termos de indexação, pode ser
representado também através de uma matriz;
16Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
➢ Pesos:
○ Usados para computar a similaridade entre cada documento
armazenado e a consulta realizada pelo usuário;
○ Geralmente são baseados no número de ocorrências
(frequência) que o termo aparece no documento;
○ Segundo Salton e Buckey, uma das formas de calcular o
peso é através do balanceamento entre as características
em comum e as características distintas dos documentos;
➢ Similaridade:
○ Se dá a partir da associação de pesos para os termos de
indexação e para os termos da expressão de busca, ou
seja, relevância de cada documento em relação à busca;
17Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
➢ Similaridade:
○ Permite restringir o resultado a um número máximo de documentos
desejados;
○ Possibilita definir um limite mínimo para o valor da similaridade, limitando a
quantidade de documento recuperados. Por exemplo: define como limite do
peso 0.5 -> a expressão de busca terá como resultado apenas os
documentos que possuem valor de similaridade maior ou igual a 0.5 (50%);
○ As distâncias entre um documento e outro no espaço indicam seu grau de
similaridade, ou seja, documentos que possuem os mesmos termos são
colocados em uma mesma região, pois é capaz de tratarem de assuntos
similares;
○ A partir da comparação entre os vetores dos documentos com o vetor da
consulta, o grau de similaridade entre eles é identificado. Logo, os
documentos mais similares à consulta, ou seja, mais próximos no espaço,
são considerados relevantes para o usuário, sendo resgatados;
18Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
Sistema SMART
➢ Desenvolvido com base no modelo vetorial;
➢ Projeto SMART (Sistem for the Manipulation and Retrieval of
Text) teve início em 1961 em Harvard e mudou-se para
Universidade de Cornell após 1965;
➢ Resultado da pesquisa de Gerard Salton, prof. de Ciência da
Computação de Cornell;
➢ Teve um papel significativo no desenvolvimento de toda a
área da Recuperação da Informação. Continua sendo
referência neste setor e ainda é utilizado para pesquisas em
ambiente acadêmico;
➢ Dados são gerados automaticamente;
19
Cap.4: Modelos Quantitativos - Modelo Vetorial
Figura 6 – Esquema do Inverse Document Frequency
Fonte: Autoria nossa.
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
➢ Medida Inverse document frequency: entende que um termo que aparece
em todos os documentos, provavelmente terá pouca utilidade em identificar
a relevância do documento. Logo, realiza a divisão entre o número de
documentos no corpus pelo número de documentos que contém tal termo;
20
Cap.4: Modelos Quantitativos - Modelo Vetorial
➢ Processo de indexação: ocorre a partir de uma análise linguística simples
Figura 7 – Esquema do processo de indexação
Fonte: Autoria nossa.
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
21Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
➢ Processo de identificação de termos compostos: alguns termos possuem
valor muito abaixo da média, sendo então agrupados a outros termos,
formando os chamados termos compostos (mais específicos):
Figura 8 – Esquema de identificação dos termos compostos
Fonte: Autoria nossa.
22Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Vetorial
➢ Processo de Relevance Feedback: reformulação da expressão de
busca do usuário, pode ser feita pelo usuário ou automaticamente, que
visa construir uma nova expressão de busca a partir dos documentos
(considerados relevantes) selecionados pelo próprio usuário com relação
na listagem de documentos resgatados na primeira busca:
Figura 9 – Esquema do processo de Relevance Feedback
Fonte: Autoria nossa.
23
➢ Sistema SMART continua como referência no
desenvolvimento de sistemas de recuperação de
informação e ainda é utilizado para pesquisas em
ambiente acadêmico;
➢ Segundo resultados dos testes TREC (Text Retrieval
Conference), o sistema SMART ainda consegue
desempenho acima da média em relação a outros
sistemas, sob determinadas condições (BUCKLEY et al,
1995 apud FERNEDA, 2003, p. 35).
Cap.4: Modelos Quantitativos - Modelo Vetorial
Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
24Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
➢ Proposto em 1976 por Robertson e Sparck e posteriormente
explorado por diversos outros pesquisadores.
➢ Propõe uma solução ao problema de Recuperação da
Informação com base na teoria das probabilidades.
➢ A partir de uma consulta do usuário, existe um conjunto de
documentos que contém exatamente os documentos
relevantes (resposta ideal) e nenhum outro.
➢ Dada uma descrição desse conjunto resposta ideal,
poderíamos recuperar os documentos relevantes;
➢ O modelo probabilístico tenta representar o processo de
recuperação de informação sob um ponto de vista
probabilístico.
25Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
➢ Dada uma expressão de busca, pode-se dividir o corpus (com N documentos)
em quatro subconjuntos distintos:
○ Rel: conjunto dos documentos relevantes;
○ Rec: conjunto dos documentos recuperados;
○ RR: conjunto dos documentos relevantes que foram recuperados;
○ Não recuperados e não relevantes
➢ O conjunto dos documentos relevantes e recuperados RR é resultante da
interseção dos conjuntos Rel e Rec.
Fonte: FERNEDA, 2003, p. 39
26Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
➢ No modelo Probabilístico aproveitam-se os conceitos do modelo
Vetorial para otimizar a questão da relevance feedback com base
na elaboração de uma classificação, que diz que a probabilidade
de um termo aparecer em um documento depende de quão
relevante ou não ele é. Tendo em mente que um conjunto de
documentos relevantes é um pequeno subconjunto do conjunto
maior de todos os documentos, a proposta será apta à resolução
(MANNING; RAGHAVAN; SCHÜTZE, 2009).
➢ Em qualquer ambiente informacional, a questão da relevância da
informação recuperada por um sistema será relativa ao usuário
que dela necessita e no momento que necessita ao momento de
que necessita.
➢ Os que possuem características que podem ser incorporadas à
realidade da Web são somente os mais atuais, considerados
mais semânticos ou inteligentes, ou seja, as Redes Neurais e os
Algoritmos Genéticos.
27Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
De acordo com Ferneda:
➢“A utilização dos algoritmos genéticos na
recuperação de informação apresenta-se como
uma possibilidade para futuras
implementações em sistemas com
características evolutivas. Sua aplicação rompe
com a rigidez dos modelos puramente
matemáticos, reconhecendo a inerente
indeterminação do processo de representação
dos conteúdos dos documentos.”
28Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
Expressão chave para a computação do ranking no
modelo probabilístico
➢Regra de Bayes;
➢Hipótese de independência;
➢Uso de logaritmos;
➢Simplificação de notação;
➢Conversão de produtório de logaritmo para somatório de
logaritmo;
29Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
➢ Seja R um conjunto de documentos inicialmente
estimado como relevante para o usuário para a
consulta q. Seja o complemento de R (o conjunto de
documentos não relevantes). A similaridade sim(dj,q)
entre o documento e a consulta é definida por:
30Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
Estimar as probabilidades relacionadas ao conjunto de
documentos relevantes
➢Seja N o número de documentos da coleção e ni o
número de documentos que contêm o termo ki . Seja R
o número total de documentos para a consulta q (na
opinião do usuário) e ri o número de documentos
relevantes que contêm o termo k .
31Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
➢Se a informação na tabela estivesse
disponível para qualquer consulta,
poderíamos escrever:
e reescrever a equação original da
seguinte forma:
32Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Probabilístico
➢ Para lidar com valores pequenos de ri, é conveniente
somar 0,5 a cada um dos termos da fórmula anterior:
➢ Essa fórmula é conhecida como equação Robertson-
Spark Jones e é considerada a equação de
ranqueamento clássica para o modelo probabilístico.
Comporta-se bem para estimativas particulares como R
= ri .
33Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
➢ Parte do princípio de que, apesar da ciência e a verdade absoluta estarem
intimamente ligadas, observa-se que o mundo real contém uma infinidade de
gradações entre o preto e branco, entre o certo e o errado, entre o verdadeiro
e o falso;
➢ “A comunicação humana é vaga e imprecisa, contendo diversas incertezas.”
(FERNEDA, 2003, P. 43). Por exemplo: o que quer dizer quando se diz que
uma pessoa é alta? A partir de qual altura determina-se que a pessoa é alta?;
○ Objetivo da lógica fuzzy: “[...] capturar e operar com a diversidade, a
incerteza e as verdades parciais dos fenômenos da natureza de uma
forma sistemática e rigorosa.” (SHAW E SIMÕES, 1999 apud FERNEDA,
2003, p. 43).
➢ A lógica fuzzy tem a capacidade de incorporar a forma humana de pensar,
funcionando conforme o raciocínio do especialista/usuário que utiliza o
sistema, capaz de definir as regras, manipular as informações do modo como
ele as conhece;
34Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
➢ Conjuntos fuzzy: baseados no fato de que os conjuntos existentes no mundo
real não possuem limites precisos, onde a transição de cada elemento não-
membro para membro do conjunto é gradual. Este grau de imprecisão pode
ser visto como uma “medida de possibilidade”, ou seja, a “possibilidade” de
que um elemento seja membro do conjunto.
○ Por exemplo: ao mesmo tempo que uma pessoa está dentro do conjunto
de pessoas altas, consequentemente, pertence também ao conjunto de
pessoas não baixas. Ou seja, em um conjunto fuzzy, um mesmo objeto
pode pertencer a dois ou mais conjuntos com diferentes graus.
➢ O modelo fuzzy tem sido discutido principalmente na literatura dedicada à
teoria fuzzy, não sendo popular entre a comunidade da recuperação de
informação. Além disso, a grande maioria dos experimentos realizados
com este modelo considera apenas pequenos corpora, que não
comprovem sua efetiva superioridade em relação a outros modelos de
recuperação de informação (BAEZA-YATES e RIBEIRO-NETO, 1999, p.
38 apud FERNEDA, 2003, p. 48);
35Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
➢ Proposto por Zadeh (1956), afirma que não há distinção abrupta entre
elementos pertencentes e não pertencentes a um conjunto. Ou seja, a
relação de pertinência entre um elemento e um conjunto não é de
pertencimento ou não pertencimento, mas sim de um valor real no
intervalo de 0 a 1, utilizados para representar o grau de possibilidade de
que o elemento x venha a pertencer ao conjunto A;
➢ Conceito relacionado ao conjunto nebuloso: variável linguística,
caracterizada pela quíntupla abaixo:
Fonte: Autoria nossa.
Teoria dos conjuntos nebulosos (fuzzy sets)
36Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
As variáveis linguísticas também podem conter:
Fonte: Autoria nossa.
➢ A teoria fuzzy possibilita a definição de classe de elementos em
situações onde não é possível uma delimitação precisa e natural de
suas fronteiras;
○ Segundo Ferneda (2003, p. 46), “[...] Este ambiente teórico é capaz
de representar de forma mais eficiente a inerente imprecisão das
entidades envolvidas em um sistema de recuperação de
informação, muito embora seja conflitante com a teoria clássica
dos sistemas de classificação, segundo a qual as classes devem
ser auto-excludentes.”;
Eleva a 2ª
potência
cada ponto
da função
de
pertinência
Capazes de
originar
conjuntos
complexamente
definidos, mas
representados
linguisticamente
de maneira
simples
37Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
Conjuntos fuzzy na recuperação da informação
➢ O peso associado a um termo expressa o quanto é significativo na
descrição do conteúdo do documento;
➢ O cálculo dos pesos não considera que, em muitos casos, as
ocorrências de um termo podem assumir significados diferentes
dependendo da seção onde ele aparece, dependendo da
necessidade do usuário:
○ Bordogna e Pasi (1995) propõem uma representação fuzzy para
documentos estruturados que pode ser ajustada de acordo com
os interesses do usuário. A importância de um termo t em um
documento d é calculada pela avaliação da importância de t em
cada uma das seções de d. Isto é feito através da aplicação de
uma função FSi(d, t) que expressa o grau de pertinência do
termo t na seção Si do documento d.
38Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
Conjuntos fuzzy na recuperação da informação
➢ Exemplos:
○ Um artigo científico geralmente está organizado em título,
autores, palavras-chave, resumo, referências, etc. Uma única
ocorrência de um termo no título sugere que o artigo discorre
sobre o conceito expresso pelo termo;
○ Quando o usuário está procurando artigos de um determinado
autor, a parte mais importante a ser analisada é a seção de
autores.
○ Quando se procura artigos de um determinado assunto, o título,
as palavras-chaves, o resumo e a introdução assumem maior
importância;
39Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
➣ Sistema Domino: considerado o mais eficaz em relação a outros tipos
de representação fuzzy;
U
S
U
Á
R
I
O
Grau de pertinência dos
termos em cada seção
Importância numérica
D
E
S
T
A
C
A
A
S
S
O
C
I
A
U
S
U
Á
R
I
O
E
S
C
O
L
H
E
All
last one
at least
about k
Conjunto de
quantificadores
linguísticos pré-definidos
A
G
R
E
G
A
Função de
agregação
Para obter um grau de pertinência de um termo
em relação a um documento
Responsáveis por indicar o número de seções em que um termo deve
aparecer para que o documento seja considerado relevante
40Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Fuzzy
➢ Ideia semelhante: Molinari e Pasi (1996) propõem um método de
indexação de documentos HTML baseado na estrutura sintática
dessa linguagem de marcação:
○ Para cada seção de um documento HTML, delimitada pelas
marcações (tags), é associado um grau de importância;
○ Assim, para cada tag pode ser associado um valor numérico que
expressa a sua importância para o documento;
○ O peso de um termo em relação a um determinado documento é
obtido através de uma função de agregação que considera a
importância de cada tag do documento onde o termo aparece;
○ Por exemplo: outra forma de agregar importância ao termo é
destacando-o em negrito ou itálico em um texto na página HTML.
41Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Booleano
➢ Definição: o modelo booleano é baseado no álgebra
booleana, que consiste em “um sistema binário no qual
existem somente dois valores possíveis para qualquer
símbolo algébrico: 1 ou 0, verdadeiro ou
falso.”(FERNEDA, 2003, p.21)
➢ Para a Gestão da Informação: o modelo booleano
consiste na representação dos documentos através de
um conjunto de termos descritores, que podem ser
atribuídos manualmente (por profissionais) ou
automaticamente (OCR), e que utiliza combinações de
operadores lógicos para recuperar um conjunto de
documentos satisfatórios à busca realizada.
42Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Booleano
Operadores Booleanos Básicos¹
➢ AND: equivale a interseção do conjunto de documentos
indexados por dois termos descritores distintos;
➢ OR: equivale a união do conjunto de documentos
indexados por dois termos descritores distintos;
➢ NOT (AND NOT): equivale a diferença entre os conjuntos
de documentos indexados por dois termos descritores
distintos.
➢ Há, ainda, a possibilidade de associação dos operadores
numa mesma busca para um resultado mais específico.
Básicos¹: termo livre inserido para diferenciar os conjuntos de operadores booleanos.
43Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Booleano
Infográfico 1: Operadores booleanos
Fonte: @cnen.cin
44Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Booleano
Operadores Booleanos de Proximidade
➢ WITH: recupera um conjunto de documentos onde
dois termos descritores distintos estejam no mesmo
parágrafo;
➢ SAME: recupera um conjunto de documentos onde
dois termos descritores distintos estejam na mesma
sentença;
➢ ADJ: recupera um conjunto de documentos onde dois
termos descritores distintos formam uma expressão;
➢ NEAR: recupera um conjunto de documentos onde há
uma distância entre dois termos descritores distintos.
45Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Booleano Estendido
➢ Definição: o modelo booleano estendido, proposto por
Salton, Fox e Wu (1983), que consiste em “tentar unir a
potencialidade das expressões booleanas com a
precisão do modelo vetorial.”(FERNEDA, 2003, p.48)
➢ Para a Gestão da Informação: o modelo booleano
estendido consiste na recuperação de um conjunto de
documentos através da utilização de indexadores
conectados por operadores lógicos (booleanos) junto
com a atribuição de um grau de relevância e
ordenamento (modelo vetorial) para os documentos
resultantes de uma expressão de busca realizada.
46Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Cap.4: Modelos Quantitativos - Modelo Booleano Estendido
Figura 15 - Representação de documentos em um espaço bidimensional
Fonte: FERNEDA, 2003, p.49
Em expressões disjuntivas (OR) “quanto maior a distância de um
documento em relação a este ponto, maior será sua similaridade
em relação à expressão de busca.” (FERNEDA, 2003)
Em expressões conjuntivas (AND) “quanto
menor a distância de um documento em
relação a este ponto maior sua similaridade
em relação à expressão de busca.”
(FERNEDA, 2003)
LEGENDA:
➢ O ponto (0,0) representa a situação
que o documento recuperado não é
indexados por nenhum dos termos
escolhidos na expressão de busca.
(situação negativa)
➢ O ponto (1,1) representa a situação
que o documento recuperado é
indexados por ambos os termos
escolhidos na expressão de busca.
(situação positiva)
47Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Quadro Comparativo entre os Modelos
MODELOS VANTAGENS DESVANTAGENS
VETORIAL
Os documentos são ranqueados de acordo com sua
probabilidade de serem relevantes, com base na
informação disponível ao sistema.
Relevância de um documento é afetada por diversos fatores
externos, não somente na informação disponível ao sistema.
Necessidade de estimar a separação inicial dos documentos em
conjuntos relevantes e não relevantes.
Possibilidade de ordenação dos documentos
recuperados.
Não leva em consideração a frequência na qual um termo de
indexação ocorre em um documento.
Falta de normalização pelo tamanho dos documentos.
PROBABILÍSTICO
É uma estratégia de encontro parcial (função de
similaridade), que é melhor que a exatidão do modelo
booleano.
Ausência de ortogonalidade entre os termos, isto poderia
encontrar relações entre termos que aparentemente não têm
nada em comum.
Atribuir pesos aos termos melhora o desempenho. É um modelo generalizado.
Os documentos são ordenados de acordo com seu grau
de similaridade com a consulta.
Um documento relevante pode não conter termos da consulta.
FUZZY
Facilidade de utilizar expressões utilizadas na
linguagem natural na elaboração das preposições
linguísticas.
Geralmente sua precisão é limitada pela experiência, pelo
conhecimento, da pessoa que configura os seus parâmetros.
Influência da grande quantidade de parâmetros, muitas vezes,
elaborados pelo usuário.
É possível associar importância aos termos
pertinentes as diferentes seções do documento.
Não sendo popular entre a comunidade da recuperação de
informação.
BOOLEANO
Fácil implantação e utilização pelo usuário. Não permite o ordenamento dos documentos recuperados.
Modelo mais utilizado pelos sistemas de informação. Não existe uma forma de atribuir grau de importância.
BOOLEANO
ESTENDIDO
Tenta unir a potencialidades das expressões
booleanas com a precisão do modelo vetorial.
Maior complexidade na formulação das buscas por tentar
juntar dois modelos quantitativos diferentes.
48Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Conclusão
➢ O processo de recuperação de informação é inerentemente
impreciso devido a fatores que talvez nunca serão
equacionados;
➢ Informação + relevância;
➢ Representação da complexidade semântica dos textos x
Interação do usuário com os sistemas de recuperação de
informação;
➢ Modelos apresentados, transparece o seu caráter empírico,
baseado muitas vezes em suposições e levando a um aumento
progressivo da complexidade.
➢ Esgotamento dos modelos “quantitativos”, mas ainda estão
presentes na maioria dos sistemas de recuperação +
mecanismos de busca da Web;
➢ Os modelos = Arsenal teórico + instrumento de base para o
desenvolvimento de técnicas de representação do conhecimento
ligadas à Inteligência Artificial.
49Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Nuvem de Palavras
50Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
Indexadores

Mais conteúdo relacionado

Semelhante a Modelos Quantitativos de Recuperação da Informação

Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01NeuroMat
 
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...Elvis Fusco
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
Representação da Informação
Representação da InformaçãoRepresentação da Informação
Representação da InformaçãoHercules Santos
 
Defesa de doutorado - Miguel Arellano
Defesa de doutorado - Miguel ArellanoDefesa de doutorado - Miguel Arellano
Defesa de doutorado - Miguel ArellanoCariniana Rede
 
Bibliotecas digitais21
Bibliotecas digitais21Bibliotecas digitais21
Bibliotecas digitais21silviaalves
 
Bibliotecas digitais21
Bibliotecas digitais21Bibliotecas digitais21
Bibliotecas digitais21silviaalves
 
Análise conteúdo documental
Análise conteúdo documentalAnálise conteúdo documental
Análise conteúdo documentalpedroapeixoto
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de DadosRenata Nunes
 
MOOC “O Essencial da Gestão de Dados de Investigação”: curso disponível na pl...
MOOC “O Essencial da Gestão de Dados de Investigação”: curso disponível na pl...MOOC “O Essencial da Gestão de Dados de Investigação”: curso disponível na pl...
MOOC “O Essencial da Gestão de Dados de Investigação”: curso disponível na pl...Pedro Príncipe
 
O comportamento do usuário final na recuperação temática da informação: um es...
O comportamento do usuário final na recuperação temática da informação: um es...O comportamento do usuário final na recuperação temática da informação: um es...
O comportamento do usuário final na recuperação temática da informação: um es...Rodrigo Moreira Garcia
 
INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...
INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...
INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...Henrique Machado Santos
 
TP5-FAA-grupo1
TP5-FAA-grupo1TP5-FAA-grupo1
TP5-FAA-grupo1Cristiana
 
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SP
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SPAula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SP
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SPCharlley Luz
 
Exercíco
ExercícoExercíco
Exercícoruanat
 
Desafios da preservação de dados de pesquisa no Brasil
Desafios da preservação de dados de pesquisa no BrasilDesafios da preservação de dados de pesquisa no Brasil
Desafios da preservação de dados de pesquisa no BrasilCariniana Rede
 
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiDocumento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiNewton Calegari
 

Semelhante a Modelos Quantitativos de Recuperação da Informação (20)

Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01
 
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
 
Principios tecnicas de_indexacao[1]
Principios tecnicas de_indexacao[1]Principios tecnicas de_indexacao[1]
Principios tecnicas de_indexacao[1]
 
Pre projeto
Pre projetoPre projeto
Pre projeto
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
Representação da Informação
Representação da InformaçãoRepresentação da Informação
Representação da Informação
 
Defesa de doutorado - Miguel Arellano
Defesa de doutorado - Miguel ArellanoDefesa de doutorado - Miguel Arellano
Defesa de doutorado - Miguel Arellano
 
Bibliotecas digitais21
Bibliotecas digitais21Bibliotecas digitais21
Bibliotecas digitais21
 
Bibliotecas digitais21
Bibliotecas digitais21Bibliotecas digitais21
Bibliotecas digitais21
 
Análise conteúdo documental
Análise conteúdo documentalAnálise conteúdo documental
Análise conteúdo documental
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de Dados
 
Sistemas periciais
Sistemas periciaisSistemas periciais
Sistemas periciais
 
MOOC “O Essencial da Gestão de Dados de Investigação”: curso disponível na pl...
MOOC “O Essencial da Gestão de Dados de Investigação”: curso disponível na pl...MOOC “O Essencial da Gestão de Dados de Investigação”: curso disponível na pl...
MOOC “O Essencial da Gestão de Dados de Investigação”: curso disponível na pl...
 
O comportamento do usuário final na recuperação temática da informação: um es...
O comportamento do usuário final na recuperação temática da informação: um es...O comportamento do usuário final na recuperação temática da informação: um es...
O comportamento do usuário final na recuperação temática da informação: um es...
 
INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...
INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...
INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...
 
TP5-FAA-grupo1
TP5-FAA-grupo1TP5-FAA-grupo1
TP5-FAA-grupo1
 
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SP
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SPAula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SP
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SP
 
Exercíco
ExercícoExercíco
Exercíco
 
Desafios da preservação de dados de pesquisa no Brasil
Desafios da preservação de dados de pesquisa no BrasilDesafios da preservação de dados de pesquisa no Brasil
Desafios da preservação de dados de pesquisa no Brasil
 
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiDocumento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
 

Último

Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...
Considere a seguinte situação fictícia:  Durante uma reunião de equipe em uma...Considere a seguinte situação fictícia:  Durante uma reunião de equipe em uma...
Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...azulassessoria9
 
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSOLeloIurk1
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...azulassessoria9
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...azulassessoria9
 
BNCC Geografia.docx objeto de conhecimento
BNCC Geografia.docx objeto de conhecimentoBNCC Geografia.docx objeto de conhecimento
BNCC Geografia.docx objeto de conhecimentoGentil Eronides
 
About Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de HotéisAbout Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de Hotéisines09cachapa
 
Dicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelDicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelGilber Rubim Rangel
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfLeloIurk1
 
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕESCOMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕESEduardaReis50
 
Urso Castanho, Urso Castanho, o que vês aqui?
Urso Castanho, Urso Castanho, o que vês aqui?Urso Castanho, Urso Castanho, o que vês aqui?
Urso Castanho, Urso Castanho, o que vês aqui?AnabelaGuerreiro7
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesFabianeMartins35
 
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteVanessaCavalcante37
 
Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"Ilda Bicacro
 
CRUZADINHA - Leitura e escrita dos números
CRUZADINHA   -   Leitura e escrita dos números CRUZADINHA   -   Leitura e escrita dos números
CRUZADINHA - Leitura e escrita dos números Mary Alvarenga
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médiorosenilrucks
 
Currículo - Ícaro Kleisson - Tutor acadêmico.pdf
Currículo - Ícaro Kleisson - Tutor acadêmico.pdfCurrículo - Ícaro Kleisson - Tutor acadêmico.pdf
Currículo - Ícaro Kleisson - Tutor acadêmico.pdfTutor de matemática Ícaro
 
Introdução a Caminhada do Interior......
Introdução a Caminhada do Interior......Introdução a Caminhada do Interior......
Introdução a Caminhada do Interior......suporte24hcamin
 
SLIDE DE Revolução Mexicana 1910 da disciplina cultura espanhola
SLIDE DE Revolução Mexicana 1910 da disciplina cultura espanholaSLIDE DE Revolução Mexicana 1910 da disciplina cultura espanhola
SLIDE DE Revolução Mexicana 1910 da disciplina cultura espanholacleanelima11
 
Slides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxSlides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxMauricioOliveira258223
 
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdfReta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdfWagnerCamposCEA
 

Último (20)

Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...
Considere a seguinte situação fictícia:  Durante uma reunião de equipe em uma...Considere a seguinte situação fictícia:  Durante uma reunião de equipe em uma...
Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...
 
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
 
BNCC Geografia.docx objeto de conhecimento
BNCC Geografia.docx objeto de conhecimentoBNCC Geografia.docx objeto de conhecimento
BNCC Geografia.docx objeto de conhecimento
 
About Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de HotéisAbout Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de Hotéis
 
Dicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelDicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim Rangel
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
 
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕESCOMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
 
Urso Castanho, Urso Castanho, o que vês aqui?
Urso Castanho, Urso Castanho, o que vês aqui?Urso Castanho, Urso Castanho, o que vês aqui?
Urso Castanho, Urso Castanho, o que vês aqui?
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividades
 
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
 
Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"
 
CRUZADINHA - Leitura e escrita dos números
CRUZADINHA   -   Leitura e escrita dos números CRUZADINHA   -   Leitura e escrita dos números
CRUZADINHA - Leitura e escrita dos números
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médio
 
Currículo - Ícaro Kleisson - Tutor acadêmico.pdf
Currículo - Ícaro Kleisson - Tutor acadêmico.pdfCurrículo - Ícaro Kleisson - Tutor acadêmico.pdf
Currículo - Ícaro Kleisson - Tutor acadêmico.pdf
 
Introdução a Caminhada do Interior......
Introdução a Caminhada do Interior......Introdução a Caminhada do Interior......
Introdução a Caminhada do Interior......
 
SLIDE DE Revolução Mexicana 1910 da disciplina cultura espanhola
SLIDE DE Revolução Mexicana 1910 da disciplina cultura espanholaSLIDE DE Revolução Mexicana 1910 da disciplina cultura espanhola
SLIDE DE Revolução Mexicana 1910 da disciplina cultura espanhola
 
Slides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxSlides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptx
 
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdfReta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
 

Modelos Quantitativos de Recuperação da Informação

  • 1. Apresentação do texto: FERNEDA, Edberto. Recuperação da Informação: análise da contribuição da ciência da computação para a ciência da informação. São Paulo, 2003. 147p. Tese (Doutorado em Ciência da Informação e Documentação) - Universidade de São Paulo. agosto/2017 Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação Grupo 6: Marcella Lacerda Marília Gorito Vinicius Rodrigues Viviane Cunha
  • 2. 22 Sumário Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 ➢ Capítulo 3: A Recuperação da Informação ➢ Capítulo 4: Modelos Quantitativos ○ Modelo Vetorial ○ Modelo Probabilístico ○ Modelo Fuzzy ○ Modelo Booleano ○ Modelo Booleano Estendido ➢ Quadro Comparativo dos Modelos Quantitativos ➢ Conclusão ➢ Nuvem de Palavras ➢ Indexadores ➢ Exemplo de Procedimento de Recuperação de Documentos em base de dados
  • 3. 33 Cap.3: A Recuperação da Informação Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 ➢Definição ○ Operação pela qual se seleciona documentos, a partir do acervo, em função da demanda do usuário; ○ Consiste no fornecimento, a partir de uma demanda definida pelo usuário, dos elementos de informação documentária correspondentes; ○ Designar a operação que fornece uma resposta mais ou menos elaborada a uma demanda, e esta resposta é convertida num produto cujo formato é acordado com o usuário (bibliografia, nota de síntese, e etc); ○ Tratamento da informação. ➢Processo ○ Consiste em identificar, no conjunto de documentos (corpus) de um sistema, quais atendem à necessidade de informação do usuário.
  • 4. 44 Cap.3: A Recuperação da Informação ➢ Sistema de Recuperação de Informação ○ Interessado em recuperar “informação” sobre um determinado assunto e não em recuperar dados que satisfazem sua expressão de busca, nem tampouco documentos, embora seja neste que a informação estará registrada; ○ Precisão não é tão estrita; ○ Objetos linguísticos e herdam toda a problemática inerente ao tratamento da linguagem natural; ➢ Sistemas Gerenciadores de Bancos de Dados ○ Têm por objetivo a recuperação de todos os objetos ou itens que satisfazem precisamente às condições formuladas através de uma expressão de busca; ○ Organiza itens de “informação” (dados), que têm uma estrutura e uma semântica bem definidas. ➢ Os sistemas de informação podem se aproximar do padrão que caracteriza os bancos de dados na medida em que sejam submetidos a rígidos controle, tais como vocabulário controlado, listas de autoridades, e etc. Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Sistema de Recuperação de Informação x Sistemas Gerenciadores de Bancos de Dados
  • 5. 55 Cap.3: A Recuperação da Informação ➢ Devem representar o conteúdo dos documentos do corpus e apresentá-los ao usuário de uma maneira que lhe permita uma rápida seleção dos itens que satisfazem total ou parcialmente à sua necessidade de informação, formalizada através de uma expressão de busca. Processo de Recuperação de Informação ➢ Conceito de “informação como coisa” (Buckland, 1991b) “Qualquer signo físico ou simbólico, preservado ou registrado, com a intenção de representar, reconstruir ou demonstrar um fenômeno físico ou abstrato” Suzanne Briet (1951, p.7 por Bucklan, 1997, p. 806). Sistema de Recuperação de Informação Documentos (Corpus) Representação Função de Busca Expressão de Busca Usuário Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
  • 6. 66 Cap.3: A Recuperação da Informação ➢ Ambiente digital ○ Os acervos de objetos digitais se multiplicam tanto no que se refere à sua tipologia quanto à sua complexidade. ○ Novo cenário: textos, imagens, sons, vídeos, páginas Web e diversos outros objetos digitais. ○ Requerem diferentes tipos de tratamento e representação para uma recuperação de informação eficaz (Burke, 1999). ○ Principais mudanças: desterritorialização do documento, desvinculação de uma forma física tradicional como o papel, possibilitando uma integração entre diferentes suportes (texto, imagem, som) e ruptura na linearidade do acesso aos documentos através do imenso hipertexto da Web. ➢ Tratamento da Informação ○ Envolve elementos relacionados a diversas disciplinas, ampliando o campo de pesquisa da Ciência da Informação e reforçando ainda mais a sua característica interdisciplinar, principalmente no seu relacionamento com a Ciência da Computação, mais notadamente no contexto da Web. ➢ O processo de Representação ○ Busca descrever ou identificar cada documento do corpus através de seu conteúdo. Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Processo de Recuperação de Informação
  • 7. 77 Cap.3: A Recuperação da Informação ➢ Indexação ○ São extraídos conceitos do documento através da análise de seu conteúdo e traduzidos em termos de uma linguagem de indexação, tais como cabeçalhos de assunto, tesauros, etc; ○ Identifica o documento e define seus pontos de acesso para a busca e pode também ser utilizada como seu substituto. ➢ Análise documental ○ Interpretação de seu conteúdo com a finalidade agregar assuntos que não estão diretamente explicitados em sua superfície textual, mas que pode ser facilmente abstraído por um indexador humano; ○ Análise também pode ser efetuada tendo em vista a sua recuperação; ○ Tornar o seu conteúdo visível para os usuários de um sistema de informação. Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Processo de Indexação
  • 8. 88 Cap.3: A Recuperação da Informação ➢ Automação do Processo de Indexação ○ Só é possível através de uma simplificação na qual se considera que os assuntos de documento podem ser derivados de sua estrutura textual através de métodos algorítmicos. ○ Vantagem: Baixo custo, considerando o crescente barateamento dos computadores e dos softwares. ➢ Métodos automáticos de Indexação ○ Amplamente utilizada, geralmente utilizam “filtros” para eliminar palavras de pouca significação (stop words); ○ além de normalizar os termos reduzindo-os a seus radicais, processo como stemming.; ○ Seleciona formas significantes (termos ou frases) dos documentos, desconsiderando os significados que os mesmo podem possuir de acordo com os contextos; ○ Desvantagens: falhas e limitações se evidenciam pela simplificação da dimensão semântica da linguagem.Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Processo de Indexação
  • 9. 99 Cap.3: A Recuperação da Informação Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 ➢ Aumento da capacidade de armazenamento ○ Muitos sistemas conseguem manter disponíveis os textos dos documentos (chamados sistemas de texto completo ou texto integral); ○ Não há de fato uma representação, é feita pelo conjunto formado por todas as palavras de seu texto. ○ Atenção: Com um aumento da quantidade de documentos, mesmo os computadores moderno podem não comportar o armazenamento dos textos dos documentos, tendo que limitar a representação a um conjunto limitado de termos. ➢ Informação do Usuário ○ Representada através de sua expressão de busca. ○ Linguagem natural ou linguagem artificial. ○ Resulta na recuperação de um número de documentos que possibilite a verificação de cada um deles a fim de selecionar os que são úteis. ➢ Estratégias de Buscas ○ Aumento da quantidade de documentos disponibilizados; ○ Processo de predição, que nunca é tão preciso como nos sistemas de banco de dados; ○ Dificuldade pelo número elevado de documentos resultantes das buscas; ○ É necessário evitar a recuperação de documentos não relevantes, minimizando o esforço em verificar a relevância de tais documentos. ➢ Expressão de Busca ○ Geralmente é composta de um conjunto de palavras que tentam exprimir a semântica da necessidade de informação do usuário. ○ O usuário tem que traduzir a sua necessidade de informação em uma expressão de busca através de uma linguagem fornecida pelo sistema Processo de Indexação
  • 10. 1010 Cap.3: A Recuperação da Informação ➢ É um processo de produção e sentido por parte do usuário, o qual utiliza a informação para construir o conhecimento. ➢ Levando-se em conta os seus padrões de comportamento na busca da informação. ➢ Um termo utilizado na expressão de busca, aparecer na representação de um documento não significa que o documento seja relevante para a necessidade do usuário. 1. A busca provavelmente contém mais do que um termo e, portanto, a recuperação de um documento deve considerar a totalidade dos termos de busca. 2. O termo presente na representação de um documento pode estar em um contexto que não é apropriado à necessidade do usuário. 3. Um documento, mesmo que fortemente relacionado com uma busca. Pode não ser relevante para o usuário, simplesmente por ser muito antigo ou por já ter sido recuperado anteriormente pelo mesmo. ➢ A eficiência de um sistema de recuperação de informação está diretamente ligada ao modelo que o mesmo utiliza. Um modelo, por sua vez, influencia diretamente no modo de operação do sistema. ➢ Apesar de alguns desses modelos terem sido criados nos anos 60 e 70 e aperfeiçoados nos 80, ainda estão presentes na maioria dos sistemas de recuperação atuais e nos mecanismos de busca da Web. Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Recuperação de Informação
  • 11. 11 Cap.4: Modelos Quantitativos ➢ Definição: os modelos quantitativos são baseados na lógica, na estatística e na teoria dos conjuntos. Esse fato se deve pela determinação que “um modelo matemático geralmente pressupõe uma cuidadosa análise formal do problema e especificações de hipóteses, além de uma formulação explícita da forma como o modelo depende das hipóteses.” (FERNEDA, 2003, p.20) ➢ Os Modelos são: Modelo Vetorial Modelo Probabilístico Modelo Fuzzy Modelo Booleano Modelo Booleano Estendido Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
  • 12. 12 Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Vetorial ➢ É possível obter um conjunto de documentos ordenados pelo grau de similaridade (relevância) entre cada documento e a expressão de busca formulada pelo usuário; ➢ O documento é representado por um vetor, o qual descreve a sua posição em um espaço multidimensional; ➢ Cada vetor possui elementos que representam o peso (relevância) do respectivo termo de indexação para o documento, o qual representa uma dimensão ou eixo; ➢ Cada elemento do vetor (peso) pode assumir valores entre zero e um. Quanto mais próximos do um, maior importância o termo possui para a descrição do documento, ou seja, é mais relevante;
  • 13. 13Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Vetorial Figura 1 – Representação vetorial de um documento com dois termos Fonte: FERNEDA, 2003, p. 28
  • 14. 14Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Vetorial Figura 3 – Representação de uma expressão de busca em um espaço vetorial Fonte: FERNEDA, 2003, p. 29 ➢ Assim como o documento, a expressão de busca também é representada por um vetor, onde cada termo utilizado na busca, possui um peso (importância);
  • 15. 15Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Vetorial Figura 4 – Representação de um corpus contendo n documentos e i termos Fonte: FERNEDA, 2003, p. 30 Documento Associação de termos com os documentos ➢ Um corpus contendo um número indefinido de documentos e termos de indexação, pode ser representado também através de uma matriz;
  • 16. 16Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Vetorial ➢ Pesos: ○ Usados para computar a similaridade entre cada documento armazenado e a consulta realizada pelo usuário; ○ Geralmente são baseados no número de ocorrências (frequência) que o termo aparece no documento; ○ Segundo Salton e Buckey, uma das formas de calcular o peso é através do balanceamento entre as características em comum e as características distintas dos documentos; ➢ Similaridade: ○ Se dá a partir da associação de pesos para os termos de indexação e para os termos da expressão de busca, ou seja, relevância de cada documento em relação à busca;
  • 17. 17Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Vetorial ➢ Similaridade: ○ Permite restringir o resultado a um número máximo de documentos desejados; ○ Possibilita definir um limite mínimo para o valor da similaridade, limitando a quantidade de documento recuperados. Por exemplo: define como limite do peso 0.5 -> a expressão de busca terá como resultado apenas os documentos que possuem valor de similaridade maior ou igual a 0.5 (50%); ○ As distâncias entre um documento e outro no espaço indicam seu grau de similaridade, ou seja, documentos que possuem os mesmos termos são colocados em uma mesma região, pois é capaz de tratarem de assuntos similares; ○ A partir da comparação entre os vetores dos documentos com o vetor da consulta, o grau de similaridade entre eles é identificado. Logo, os documentos mais similares à consulta, ou seja, mais próximos no espaço, são considerados relevantes para o usuário, sendo resgatados;
  • 18. 18Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Vetorial Sistema SMART ➢ Desenvolvido com base no modelo vetorial; ➢ Projeto SMART (Sistem for the Manipulation and Retrieval of Text) teve início em 1961 em Harvard e mudou-se para Universidade de Cornell após 1965; ➢ Resultado da pesquisa de Gerard Salton, prof. de Ciência da Computação de Cornell; ➢ Teve um papel significativo no desenvolvimento de toda a área da Recuperação da Informação. Continua sendo referência neste setor e ainda é utilizado para pesquisas em ambiente acadêmico; ➢ Dados são gerados automaticamente;
  • 19. 19 Cap.4: Modelos Quantitativos - Modelo Vetorial Figura 6 – Esquema do Inverse Document Frequency Fonte: Autoria nossa. Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 ➢ Medida Inverse document frequency: entende que um termo que aparece em todos os documentos, provavelmente terá pouca utilidade em identificar a relevância do documento. Logo, realiza a divisão entre o número de documentos no corpus pelo número de documentos que contém tal termo;
  • 20. 20 Cap.4: Modelos Quantitativos - Modelo Vetorial ➢ Processo de indexação: ocorre a partir de uma análise linguística simples Figura 7 – Esquema do processo de indexação Fonte: Autoria nossa. Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
  • 21. 21Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Vetorial ➢ Processo de identificação de termos compostos: alguns termos possuem valor muito abaixo da média, sendo então agrupados a outros termos, formando os chamados termos compostos (mais específicos): Figura 8 – Esquema de identificação dos termos compostos Fonte: Autoria nossa.
  • 22. 22Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Vetorial ➢ Processo de Relevance Feedback: reformulação da expressão de busca do usuário, pode ser feita pelo usuário ou automaticamente, que visa construir uma nova expressão de busca a partir dos documentos (considerados relevantes) selecionados pelo próprio usuário com relação na listagem de documentos resgatados na primeira busca: Figura 9 – Esquema do processo de Relevance Feedback Fonte: Autoria nossa.
  • 23. 23 ➢ Sistema SMART continua como referência no desenvolvimento de sistemas de recuperação de informação e ainda é utilizado para pesquisas em ambiente acadêmico; ➢ Segundo resultados dos testes TREC (Text Retrieval Conference), o sistema SMART ainda consegue desempenho acima da média em relação a outros sistemas, sob determinadas condições (BUCKLEY et al, 1995 apud FERNEDA, 2003, p. 35). Cap.4: Modelos Quantitativos - Modelo Vetorial Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017
  • 24. 24Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Probabilístico ➢ Proposto em 1976 por Robertson e Sparck e posteriormente explorado por diversos outros pesquisadores. ➢ Propõe uma solução ao problema de Recuperação da Informação com base na teoria das probabilidades. ➢ A partir de uma consulta do usuário, existe um conjunto de documentos que contém exatamente os documentos relevantes (resposta ideal) e nenhum outro. ➢ Dada uma descrição desse conjunto resposta ideal, poderíamos recuperar os documentos relevantes; ➢ O modelo probabilístico tenta representar o processo de recuperação de informação sob um ponto de vista probabilístico.
  • 25. 25Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Probabilístico ➢ Dada uma expressão de busca, pode-se dividir o corpus (com N documentos) em quatro subconjuntos distintos: ○ Rel: conjunto dos documentos relevantes; ○ Rec: conjunto dos documentos recuperados; ○ RR: conjunto dos documentos relevantes que foram recuperados; ○ Não recuperados e não relevantes ➢ O conjunto dos documentos relevantes e recuperados RR é resultante da interseção dos conjuntos Rel e Rec. Fonte: FERNEDA, 2003, p. 39
  • 26. 26Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Probabilístico ➢ No modelo Probabilístico aproveitam-se os conceitos do modelo Vetorial para otimizar a questão da relevance feedback com base na elaboração de uma classificação, que diz que a probabilidade de um termo aparecer em um documento depende de quão relevante ou não ele é. Tendo em mente que um conjunto de documentos relevantes é um pequeno subconjunto do conjunto maior de todos os documentos, a proposta será apta à resolução (MANNING; RAGHAVAN; SCHÜTZE, 2009). ➢ Em qualquer ambiente informacional, a questão da relevância da informação recuperada por um sistema será relativa ao usuário que dela necessita e no momento que necessita ao momento de que necessita. ➢ Os que possuem características que podem ser incorporadas à realidade da Web são somente os mais atuais, considerados mais semânticos ou inteligentes, ou seja, as Redes Neurais e os Algoritmos Genéticos.
  • 27. 27Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Probabilístico De acordo com Ferneda: ➢“A utilização dos algoritmos genéticos na recuperação de informação apresenta-se como uma possibilidade para futuras implementações em sistemas com características evolutivas. Sua aplicação rompe com a rigidez dos modelos puramente matemáticos, reconhecendo a inerente indeterminação do processo de representação dos conteúdos dos documentos.”
  • 28. 28Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Probabilístico Expressão chave para a computação do ranking no modelo probabilístico ➢Regra de Bayes; ➢Hipótese de independência; ➢Uso de logaritmos; ➢Simplificação de notação; ➢Conversão de produtório de logaritmo para somatório de logaritmo;
  • 29. 29Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Probabilístico ➢ Seja R um conjunto de documentos inicialmente estimado como relevante para o usuário para a consulta q. Seja o complemento de R (o conjunto de documentos não relevantes). A similaridade sim(dj,q) entre o documento e a consulta é definida por:
  • 30. 30Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Probabilístico Estimar as probabilidades relacionadas ao conjunto de documentos relevantes ➢Seja N o número de documentos da coleção e ni o número de documentos que contêm o termo ki . Seja R o número total de documentos para a consulta q (na opinião do usuário) e ri o número de documentos relevantes que contêm o termo k .
  • 31. 31Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Probabilístico ➢Se a informação na tabela estivesse disponível para qualquer consulta, poderíamos escrever: e reescrever a equação original da seguinte forma:
  • 32. 32Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Probabilístico ➢ Para lidar com valores pequenos de ri, é conveniente somar 0,5 a cada um dos termos da fórmula anterior: ➢ Essa fórmula é conhecida como equação Robertson- Spark Jones e é considerada a equação de ranqueamento clássica para o modelo probabilístico. Comporta-se bem para estimativas particulares como R = ri .
  • 33. 33Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Fuzzy ➢ Parte do princípio de que, apesar da ciência e a verdade absoluta estarem intimamente ligadas, observa-se que o mundo real contém uma infinidade de gradações entre o preto e branco, entre o certo e o errado, entre o verdadeiro e o falso; ➢ “A comunicação humana é vaga e imprecisa, contendo diversas incertezas.” (FERNEDA, 2003, P. 43). Por exemplo: o que quer dizer quando se diz que uma pessoa é alta? A partir de qual altura determina-se que a pessoa é alta?; ○ Objetivo da lógica fuzzy: “[...] capturar e operar com a diversidade, a incerteza e as verdades parciais dos fenômenos da natureza de uma forma sistemática e rigorosa.” (SHAW E SIMÕES, 1999 apud FERNEDA, 2003, p. 43). ➢ A lógica fuzzy tem a capacidade de incorporar a forma humana de pensar, funcionando conforme o raciocínio do especialista/usuário que utiliza o sistema, capaz de definir as regras, manipular as informações do modo como ele as conhece;
  • 34. 34Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Fuzzy ➢ Conjuntos fuzzy: baseados no fato de que os conjuntos existentes no mundo real não possuem limites precisos, onde a transição de cada elemento não- membro para membro do conjunto é gradual. Este grau de imprecisão pode ser visto como uma “medida de possibilidade”, ou seja, a “possibilidade” de que um elemento seja membro do conjunto. ○ Por exemplo: ao mesmo tempo que uma pessoa está dentro do conjunto de pessoas altas, consequentemente, pertence também ao conjunto de pessoas não baixas. Ou seja, em um conjunto fuzzy, um mesmo objeto pode pertencer a dois ou mais conjuntos com diferentes graus. ➢ O modelo fuzzy tem sido discutido principalmente na literatura dedicada à teoria fuzzy, não sendo popular entre a comunidade da recuperação de informação. Além disso, a grande maioria dos experimentos realizados com este modelo considera apenas pequenos corpora, que não comprovem sua efetiva superioridade em relação a outros modelos de recuperação de informação (BAEZA-YATES e RIBEIRO-NETO, 1999, p. 38 apud FERNEDA, 2003, p. 48);
  • 35. 35Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Fuzzy ➢ Proposto por Zadeh (1956), afirma que não há distinção abrupta entre elementos pertencentes e não pertencentes a um conjunto. Ou seja, a relação de pertinência entre um elemento e um conjunto não é de pertencimento ou não pertencimento, mas sim de um valor real no intervalo de 0 a 1, utilizados para representar o grau de possibilidade de que o elemento x venha a pertencer ao conjunto A; ➢ Conceito relacionado ao conjunto nebuloso: variável linguística, caracterizada pela quíntupla abaixo: Fonte: Autoria nossa. Teoria dos conjuntos nebulosos (fuzzy sets)
  • 36. 36Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Fuzzy As variáveis linguísticas também podem conter: Fonte: Autoria nossa. ➢ A teoria fuzzy possibilita a definição de classe de elementos em situações onde não é possível uma delimitação precisa e natural de suas fronteiras; ○ Segundo Ferneda (2003, p. 46), “[...] Este ambiente teórico é capaz de representar de forma mais eficiente a inerente imprecisão das entidades envolvidas em um sistema de recuperação de informação, muito embora seja conflitante com a teoria clássica dos sistemas de classificação, segundo a qual as classes devem ser auto-excludentes.”; Eleva a 2ª potência cada ponto da função de pertinência Capazes de originar conjuntos complexamente definidos, mas representados linguisticamente de maneira simples
  • 37. 37Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Fuzzy Conjuntos fuzzy na recuperação da informação ➢ O peso associado a um termo expressa o quanto é significativo na descrição do conteúdo do documento; ➢ O cálculo dos pesos não considera que, em muitos casos, as ocorrências de um termo podem assumir significados diferentes dependendo da seção onde ele aparece, dependendo da necessidade do usuário: ○ Bordogna e Pasi (1995) propõem uma representação fuzzy para documentos estruturados que pode ser ajustada de acordo com os interesses do usuário. A importância de um termo t em um documento d é calculada pela avaliação da importância de t em cada uma das seções de d. Isto é feito através da aplicação de uma função FSi(d, t) que expressa o grau de pertinência do termo t na seção Si do documento d.
  • 38. 38Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Fuzzy Conjuntos fuzzy na recuperação da informação ➢ Exemplos: ○ Um artigo científico geralmente está organizado em título, autores, palavras-chave, resumo, referências, etc. Uma única ocorrência de um termo no título sugere que o artigo discorre sobre o conceito expresso pelo termo; ○ Quando o usuário está procurando artigos de um determinado autor, a parte mais importante a ser analisada é a seção de autores. ○ Quando se procura artigos de um determinado assunto, o título, as palavras-chaves, o resumo e a introdução assumem maior importância;
  • 39. 39Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Fuzzy ➣ Sistema Domino: considerado o mais eficaz em relação a outros tipos de representação fuzzy; U S U Á R I O Grau de pertinência dos termos em cada seção Importância numérica D E S T A C A A S S O C I A U S U Á R I O E S C O L H E All last one at least about k Conjunto de quantificadores linguísticos pré-definidos A G R E G A Função de agregação Para obter um grau de pertinência de um termo em relação a um documento Responsáveis por indicar o número de seções em que um termo deve aparecer para que o documento seja considerado relevante
  • 40. 40Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Fuzzy ➢ Ideia semelhante: Molinari e Pasi (1996) propõem um método de indexação de documentos HTML baseado na estrutura sintática dessa linguagem de marcação: ○ Para cada seção de um documento HTML, delimitada pelas marcações (tags), é associado um grau de importância; ○ Assim, para cada tag pode ser associado um valor numérico que expressa a sua importância para o documento; ○ O peso de um termo em relação a um determinado documento é obtido através de uma função de agregação que considera a importância de cada tag do documento onde o termo aparece; ○ Por exemplo: outra forma de agregar importância ao termo é destacando-o em negrito ou itálico em um texto na página HTML.
  • 41. 41Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Booleano ➢ Definição: o modelo booleano é baseado no álgebra booleana, que consiste em “um sistema binário no qual existem somente dois valores possíveis para qualquer símbolo algébrico: 1 ou 0, verdadeiro ou falso.”(FERNEDA, 2003, p.21) ➢ Para a Gestão da Informação: o modelo booleano consiste na representação dos documentos através de um conjunto de termos descritores, que podem ser atribuídos manualmente (por profissionais) ou automaticamente (OCR), e que utiliza combinações de operadores lógicos para recuperar um conjunto de documentos satisfatórios à busca realizada.
  • 42. 42Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Booleano Operadores Booleanos Básicos¹ ➢ AND: equivale a interseção do conjunto de documentos indexados por dois termos descritores distintos; ➢ OR: equivale a união do conjunto de documentos indexados por dois termos descritores distintos; ➢ NOT (AND NOT): equivale a diferença entre os conjuntos de documentos indexados por dois termos descritores distintos. ➢ Há, ainda, a possibilidade de associação dos operadores numa mesma busca para um resultado mais específico. Básicos¹: termo livre inserido para diferenciar os conjuntos de operadores booleanos.
  • 43. 43Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Booleano Infográfico 1: Operadores booleanos Fonte: @cnen.cin
  • 44. 44Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Booleano Operadores Booleanos de Proximidade ➢ WITH: recupera um conjunto de documentos onde dois termos descritores distintos estejam no mesmo parágrafo; ➢ SAME: recupera um conjunto de documentos onde dois termos descritores distintos estejam na mesma sentença; ➢ ADJ: recupera um conjunto de documentos onde dois termos descritores distintos formam uma expressão; ➢ NEAR: recupera um conjunto de documentos onde há uma distância entre dois termos descritores distintos.
  • 45. 45Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Booleano Estendido ➢ Definição: o modelo booleano estendido, proposto por Salton, Fox e Wu (1983), que consiste em “tentar unir a potencialidade das expressões booleanas com a precisão do modelo vetorial.”(FERNEDA, 2003, p.48) ➢ Para a Gestão da Informação: o modelo booleano estendido consiste na recuperação de um conjunto de documentos através da utilização de indexadores conectados por operadores lógicos (booleanos) junto com a atribuição de um grau de relevância e ordenamento (modelo vetorial) para os documentos resultantes de uma expressão de busca realizada.
  • 46. 46Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Cap.4: Modelos Quantitativos - Modelo Booleano Estendido Figura 15 - Representação de documentos em um espaço bidimensional Fonte: FERNEDA, 2003, p.49 Em expressões disjuntivas (OR) “quanto maior a distância de um documento em relação a este ponto, maior será sua similaridade em relação à expressão de busca.” (FERNEDA, 2003) Em expressões conjuntivas (AND) “quanto menor a distância de um documento em relação a este ponto maior sua similaridade em relação à expressão de busca.” (FERNEDA, 2003) LEGENDA: ➢ O ponto (0,0) representa a situação que o documento recuperado não é indexados por nenhum dos termos escolhidos na expressão de busca. (situação negativa) ➢ O ponto (1,1) representa a situação que o documento recuperado é indexados por ambos os termos escolhidos na expressão de busca. (situação positiva)
  • 47. 47Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Quadro Comparativo entre os Modelos MODELOS VANTAGENS DESVANTAGENS VETORIAL Os documentos são ranqueados de acordo com sua probabilidade de serem relevantes, com base na informação disponível ao sistema. Relevância de um documento é afetada por diversos fatores externos, não somente na informação disponível ao sistema. Necessidade de estimar a separação inicial dos documentos em conjuntos relevantes e não relevantes. Possibilidade de ordenação dos documentos recuperados. Não leva em consideração a frequência na qual um termo de indexação ocorre em um documento. Falta de normalização pelo tamanho dos documentos. PROBABILÍSTICO É uma estratégia de encontro parcial (função de similaridade), que é melhor que a exatidão do modelo booleano. Ausência de ortogonalidade entre os termos, isto poderia encontrar relações entre termos que aparentemente não têm nada em comum. Atribuir pesos aos termos melhora o desempenho. É um modelo generalizado. Os documentos são ordenados de acordo com seu grau de similaridade com a consulta. Um documento relevante pode não conter termos da consulta. FUZZY Facilidade de utilizar expressões utilizadas na linguagem natural na elaboração das preposições linguísticas. Geralmente sua precisão é limitada pela experiência, pelo conhecimento, da pessoa que configura os seus parâmetros. Influência da grande quantidade de parâmetros, muitas vezes, elaborados pelo usuário. É possível associar importância aos termos pertinentes as diferentes seções do documento. Não sendo popular entre a comunidade da recuperação de informação. BOOLEANO Fácil implantação e utilização pelo usuário. Não permite o ordenamento dos documentos recuperados. Modelo mais utilizado pelos sistemas de informação. Não existe uma forma de atribuir grau de importância. BOOLEANO ESTENDIDO Tenta unir a potencialidades das expressões booleanas com a precisão do modelo vetorial. Maior complexidade na formulação das buscas por tentar juntar dois modelos quantitativos diferentes.
  • 48. 48Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Conclusão ➢ O processo de recuperação de informação é inerentemente impreciso devido a fatores que talvez nunca serão equacionados; ➢ Informação + relevância; ➢ Representação da complexidade semântica dos textos x Interação do usuário com os sistemas de recuperação de informação; ➢ Modelos apresentados, transparece o seu caráter empírico, baseado muitas vezes em suposições e levando a um aumento progressivo da complexidade. ➢ Esgotamento dos modelos “quantitativos”, mas ainda estão presentes na maioria dos sistemas de recuperação + mecanismos de busca da Web; ➢ Os modelos = Arsenal teórico + instrumento de base para o desenvolvimento de técnicas de representação do conhecimento ligadas à Inteligência Artificial.
  • 49. 49Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Nuvem de Palavras
  • 50. 50Curso: Pós-Graduação em GED Disciplina: Recuperação da Informação agosto/2017 Indexadores