Motivação para Recuperação da Informação
• Problema:
• “A tarefa massiva de tornar mais acessível, um acervo crescente de
conhecimento“. Vannevar Bush (1945)
• Motivação para resolver o problema:
• Importância estratégica da informação;
• Problemas relacionados:
• Explosão informacional;
• Sobrecarga de informação;
Origem
• Desde seu início, eles têm estado fortemente relacionados ao
desenvolvimento tecnológico, tanto no que concerne as
telecomunicações, quanto com a aparição dos primeiros
computadores.
• Utilizados para gerenciar a explosão da informação na literatura
científica e para facilitar a vida do usuário para que o mesmo
pudesse encontrar no emaranhado de informações aquelas que
atendessem as suas necessidades informacionais.
Definições
As definições de SRI buscam abranger as necessidades de
informação e as várias metodologias e tecnologias que, através
dos tempos, foram geradas para atender a essas necessidades,
desde as atividades de organização de coleções de documentos em
acervos bibliográficos, até os modernos sistemas informatizados que
lidam com documentos em formato digital
(SOUZA, 2006).
MOOERS (1951):
“engloba os aspectos intelectuais da descrição de informações e suas
especificidades para a busca, além de quaisquer sistemas, técnicas ou
máquinas empregadas para o desempenho da operação”.
Desde Mooers, a Recuperação de Informação (RI) tem sido desenvolvida e
aperfeiçoada, transformando-se em uma atividade multi e interdisciplinar,
podendo ser considerada como vertente tecnológica da CI (SARACEVIC,
1999).
Histórico da área de RI
6
• Os primeiros sistemas computacionais de RI surgiram para automatizar
acesso a informação em bibliotecas na década de 1960;
• Até o início dos anos 1990, as aplicações principais da área ainda eram
catálogos de bibliotecas, jornais, revistas e enci- clopédias eletrônicas e
bases de dados de empresa;
• Até então, RI era uma área periférica dentro da computação, contando
com a atuação de poucos pesquisadores e técni- cos.
No final dos anos 90, uma mudança brusca trouxe RI para o primeiro
plano: a popularização da WEB.
•
A Recuperação da Informação (RI)
• Área de pesquisa e desenvolvimento que
o investiga métodos e técnicas
o para a representação, a organização, o armazenamento, a busca e a
recuperação de itens de informação
• Objetivo principal
o facilitar o acesso a documentos (itens de informação) relevantes à
necessidade de informação do usuário
• geralmente representada através de consultas baseadas em palavras-
chaves
Embora a proposta de Mooers pareça inovadora, na realidade, o sentido de seu
conceito já vinha sendo utilizado na prática dos antigos bibliotecários. Afinal,
na preocupação do campo da Biblioteconomia os aspectos de tratamento e
recuperação de informação sempre estiveram presentes. Apesar das importantes
mudanças produzidas, nestes pouco mais de 50 anos, nos suportes e métodos
empregados bem como no tipo e formatos de informação, a essência do
significado do termo ‘Recuperação de Informação’ permanece invariável.
Missão fundamental
Permitir que um usuário recupere documentos através de certas
características específicas (por autor, título conhecido, assunto ou
qualquer combinação desses elementos).
Tarefa Típica
Dados:
•Uma coleção ou conjunto de documentos (corpus);
•Uma consulta do usuário;
Encontrar:
•Um conjunto (ordenados) de documentos que são relevantes para a consulta;
Elementos Básicos
Consulta através de uma
expressão de busca
Sistema de Recuperação
de Informação
Corpus de
Documentos
Usuário
Documento1
Documento2
Documento3
SRI
• Um sistema automático para RI pode ser visto como
o a parte do sistema de informação responsável pelo armazenamento ordenado dos
documentos em um banco de dados, e sua posterior recuperação para responder a
consulta do usuário.
• Etapas principais na construção:
o Aquisição (seleção) dos documentos
o Preparação dos documentos
o Indexação dos documentos
o Armazenamento
o Recuperação
• Busca (casamento com a consulta do usuário)
• Ordenação dos documentos recuperados
SRI´s podem ser estudados como “um conjunto de operações
consecutivas, executadas para localizar uma informação
necessária ou documentos que a contenham, com a
recuperação subsequente desses documentos”.
(CESARINO, 1985, p. 158)
Base de documentos
• Sobre a qual um SRI atua depende do contexto e pode ser composta de:
– Livros;
– Documentos;
– Imagens;
– Áudios;
– Vídeos;
– Catálogos;
– Prontuários de pacientes;
– Páginas da internet;
– Normas
– Notícias
– Registros em geral:
• Estruturados;
• Semiestruturados;
• Não estruturados
– ...
Exemplo de SRI
• Buscador de internet.
Base de documentos:
conteúdo da WEB
• Uma busca por “poesia de
amor” no Google retornou
dezenas de milhões de
resultados (já ranqueados)
em menos de meio
segundo!
Exemplos de SRI
• Sistemas de RI em DVD e CDROM
• Catálogo em linha de acesso público
• Serviços de busca em linha Engenhos de busca
• Sistemas de gerenciamento de documentos Sistemas de filtragem de
informação Sistemas de extração de informação
Catálogo em Linha de Acesso Público (OPAC):
• Sistemas que recuperam informação em bases de dados
catalográficos de bibliotecas;
• Exemplo:
Exemplos de SRI
Serviços de Busca em Linha:
• Sistemas que recuperam informação em bases de dados de
referência e de fonte;
• Exemplos:
Exemplos de SRI
Sistemas de Gerenciamento de Documentos:
•Sistemas que gerenciam versões e recuperam informação em
um corpus de documentos digitais;
•Exemplos:
• Softwares Proprietários: IBM, Xerox, Oracle e Microsoft;
• Softwares Livres: Alfresco, KnowledgeTree, Main/Pyrus DMS, Nuxeo, OpenKM, Archivista;
Exemplos de SRI
Sistemas de Filtragem de Informação:
• Sistemas que filtram a informação recuperada de acordo com o
interesse do usuário;
• Exemplo:
Exemplos de SRI
Sistemas de Extração de Informação:
•Sistemas capazes de extrair de documentos relevantes apenas a
informação requerida;
•A informação extraída pode ser apresentada ao usuário e/ou
armazenada em banco de dados;
•Exemplo: Buscapé extrai informações sobre os produtos, como preços, nas
lojas virtuais;
Exemplos de SRI
Recuperação de Informação na Web
• Recuperação por endereço, metadados, conteúdo, ontologia;
• Realizada através de SRIs especializados;
• Utilizam variações do modelo espaço vetorial para recuperação de informação;
• Mecanismos de busca (Search Engines):
• www.google.com.br
• Larry Page e Sergey Brin, 1998;
• www.yahoo.com.br
• David Filo e Jerry Yang, 1994. Atualmente utiliza o índice do Bing;
• www.bing.com.br
• Microsoft Corporation, 2009;
Definições
ROWLEY (1994):
“Conjunto de decisões tomadas e procedimentos adotados durante
uma busca”
LOPES (2002):
“Técnica ou conjunto de regras para tornar possível o encontro entre
uma pergunta formulada e a informação armazenada em uma base
de dados”.
CENDÓN (2005):
“Um plano que serve para encontrar a informação desejada em que
várias expressões de busca podem ser utilizadas”.
Modelo Booleano
• Modelo baseado na teoria de conjuntos e na álgebra de George Boole
(séc. XIX).
• Desenvolveu um sistema de álgebra e foi um dos percursores da
lógica moderna;
• Criou um modo de conduzir o raciocínio utilizando algumas
expressões simples e monossilábicas:
• Principais problemas
• Ausência de ordem na resposta;
• Respostas podem ser nulas ou muito grandes.
O que são?
• É um tipo de dado primitivo que possui dois valores, que podem ser
considerados como 0 ou 1, verdadeiro ou falso;
• É usado em operações lógicas como conjunção, disjunção, disjunção
exclusiva, equivalência lógica e negação, que correspondem a algumas
das operações da álgebra booleana;
• A implementação do booleano varia de acordo com a linguagem do
computador.
Operadores booleanos mais usados
Português Inglês
Sinais
gráficos
Características
E AND + &
Para se conseguir restringir o âmbito de uma
pesquisa, podem combinar-se termos de pesquisa
através deste operador
NÃO NOT -
Para excluir informações irrelevantes de uma
pesquisa, pode usar-se o operador NOT como
parte da expressão a pesquisar.
OU OR | !
Para maximizar as possibilidades de encontrar
informações que satisfaçam uma dada pesquisa.
Para que serve?
• Possibilitam o acesso aos grandes sistemas de recuperação de
informação e às bases de dados;
• Vieram ampliar significativamente a qualidade das buscas, visto que
essas bases proporcionam diversificados pontos de acesso à
informação;
• Possibilitam o planeamento de estratégias de busca com maior nível
de complexidade ao envolver vários conceitos;
• Ajuda a percorrer documentos, recuperar informações sobre
determinados assuntos e localizar recursos informacionais de
interesse.
Exemplo
• “biblioteconomia AND bibliotecário AND OR profissional da informação” poderia ser
representada pela seguinte operação entre conjuntos:
Coleção completa
Conj. de docs. que contêm
“bibliotecário”
Conj. de docs. que contêm
“profissional da informação”
Conj. de docs. que contêm
“biblioteconomia”
Conjunto resposta
Operadores de Proximidade
• Surgimento dos sistemas de texto completo.
• ADJ – Permite pesquisar duas palavras adjacente no texto de um documento,
na ordem especificada na expressão de busca. – Pronto ADJ Socorro/
“Pronto Socorro”
• NEAR (nº de proximidade) – Permite pesquisar uma palavra próxima da
outra, definindo o número de palavras de distância. – Recuperação NEAR/10
Informação
• WITH – Permite recuperar documentos cujos termos apareçam no mesmo
parágrafo. – Recuperação WITH Informação
• SAME – Permite recuperar documentos cujos termos apareçam na mesma
sentença – Recuperação SAME Informação
Outros Operadores Booleanos
• Asterisco (*) = truncagem
o Colocado no fim de uma palavra como substituição de uma letra que possa alterar
o significado da mesma, providencia todas as variantes que a palavra possa ter.
• COMPUT*
o Resultado dapesquisa: computação, computacional,computador, computadores, computer,
computers.
Outros Operadores Booleanos
• Aspas (“”)
o Serve para especificar uma informação exata. Por exemplo:
• “Hotel Beira Mar”
o A pesquisa vai incidir sobre esse hotel (Hotel Beira Mar), e não sobre qualquer
hotel que se situe à beira-mar.
• Parêntese ( )
o Serve para clarificar relações entre termos.
Referências
CARDOSO, Olinda Nogueira Paes. Recuperação de Informação. Lavras: UFLA, 2003.
CESARINO, Maria Augusta da Nóbrega. Sistemas de Recuperação da Informação. Revista da
Escola de Biblioteconomia da UFMG, Belo Horizonte, v.14, n.2, set., 1985.
FERNEDA, Edberto. Recuperação de Informação: análise sobre a contribuição da Ciência da
Computação para a Ciência da Informação. 2003. 147 f. Tese (Doutorado em Ciência da
Comunicação) - Escola de Comunicação e Artes, Universidade de São Paulo, São Paulo, 2003.
LOPES, Ilza Leite. Estratégica de busca na recuperação da informação: revisão de literatura.
Revista Ciência da Informação, Brasília, v.31, n.2, p.60-71, maio/ago, 2002. Disponível em:
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-19652002000200007>. Acesso em:
03 out. 2006.