Apresentação do artigo elaborado para a disciplina Recuperação Inteligente da Informação no Mestrado em Ciência da Informação da Universidade Federal de Santa Catarina.
A Experiência do CEDRIC na gestão documental do CTCL
Filtragem e recuperação da informação
1. Filtragemerecuperaçãoda
informaçãonaweb
Vanessa Levati Biff
Maio, 2016
UNIVERSIDADE FEDERAL DE SANTA CATARINA
Departamento de Ciência da Informação
Programa de Pós-Graduação em Ciência da Informação
Disciplina: Recuperação Inteligente da Informação
Profº: Dr. Angel Godoy Vieira
7. Recuperaçãodainformaçãonaweb
A recuperação da informação (RI) abrange estudos voltados
aos processos relativos ao acesso à informação, propondo
modelos que solucionem a necessidade da informação de um
usuário em determinado conjunto de dados.
8. ProblemasdeRInaweb
- Quantidade de documentos não relevantes retornados;
- Tempo dispendido pelo usuário para verificação das
buscas.
Os problemas estão relacionados ao modelo de recuperação
adotado, que muitas vezes desconsideram o contexto da
consulta.
(BAEZA-YATES; RIBEIRO-NETO; 2013)
9. sISTEMASDERECUPERAÇÃOdainformação
SRI são compostos por três processos básicos: a consulta de
informação, a indexação e o cálculo de similaridade que
basicamente verifica a ocorrência ou não dos termos da
consulta na base de dados.
Atualmente são utilizadas técnicas de mineração de dados
como indexação de termos, classificação de documentos mas a
maioria dos modelos adotados não levam em consideração
aspectos semânticos da consulta ou do perfil do usuário
10. problemasdesri
- Coincidir a representação com as necessidades dos
usuários;
- Os usuários não conseguirem expressar suas necessidades;
- Necessidade de interagir com o sistema.
(XIE; 2008)
11. técnicasderecuperaçãodainformação
Em recuperação da informação, há várias abordagens que
tentam melhorar a formulação da consulta inicial afim de
melhorar a recuperação de informações úteis. Dentre elas há
processo de feedback de relevância e a expansão da consulta.
O primeiro ocorre quando o usuário fornece explicitamente
informações sobre os documentos relevantes para uma
consulta, e o segundo quando as informações relacionadas à
consulta são utilizadas para expandi-la.
(BAEZA-YATES; RIBEIRO-NETO, 2013)
12. recuperaçãodainformaçãointerativa
Belkin et al. (2004) conclui que embora haja uma boa
quantidade de pesquisas sobre algorítimos de recuperação da
informação que atendam essas características, pouco se tem
focado em questões de recuperação interativa. Isso porque
seres humanos são mais complexos do que algoritmos
correspondentes, suas motivações e comportamentos são mais
variados e difíceis de se medir.
Entretanto, sistemas de Informação que filtram informações
relevantes para um determinado usuário baseado em seu perfil
são conhecidos como Sistemas de Recomendação.
13. Sistemasderecomendação
Sistemas de recomendação tem o efeito de orientar os
usuários de forma personalizada para objetos interessantes
em um grande espaço de opções possíveis.
(LOPS, GEMMIS; SEMERARO, 2004)
Os usuários precisam de um apoio personalizado em peneirar
grande quantidades de informação disponíveis, de acordo com
os seus interesses e gostos
14. Filtragemdeinformação
Compreende em um método para gerir grandes fluxos de
informações, cujo objetivo é expor aos usuários apenas a
informação relevante que atenda suas necessidades.
(HANANI; SHAPIRA; SHOVAL, 2001)
15. Filtragemdeinformação
Compreende em um método para gerir grandes fluxos de
informações, cujo objetivo é expor aos usuários apenas a
informação relevante que atenda suas necessidades.
(HANANI; SHAPIRA; SHOVAL, 2001)
16. exemplodeaplicações
- Filtros para resultados de pesquisa na internet;
- Filtros de e-mails personalizados com base em perfis
pessoais;
- Filtros para aplicações de e-commerce que tratam de
produtos e promoções para apenas clientes potenciais.
(HANANI; SHAPIRA; SHOVAL, 2001)
17. técnicasdeFiltragemdeinformação
Com o objetivo de gerir a sobrecarga de informação, a
Filtragem de Informação faz uso dos vários métodos,
conceitos e técnicas de diversas áreas de pesquisa, como:
Recuperação de Informação, Inteligência Artificial e Ciência
Comportamental.
- Filtragem baseada em conteúdo;
- Filtragem colaborativa;
- Filtragem Híbrida.
(HANANI; SHAPIRA; SHOVAL, 2001)
18. Filtragembaseadaemconteúdo
Baseia-se na análise do conteúdo do item e no perfil do
usuário.
Técnicas para:
- Representar os itens;
- Produzir o perfil de usuário;
- Comparar o perfil do usuário com a representação do item.
19.
20. Utiliza técnica de RI:
- Modelo vetorial
- Indexação semântica
(métodos de aprendizagem)
21. Utiliza técnica de RI:
- Aprendizado de máquina;
- Algoritmos e redes neurais;
- Feedback de relevância;
(explicito e implicito)
22.
23. Histórico de
feedback do
usuário
Itens do sistema
Perfil do usuário
Cálculo de similaridade entre
perfil do usuário e itens do
sistema
Lista de recomendações
Usuário interage com o sistema
24. DesvantagensDAFILTRAGEMBASEADAEMCONTEÚDO
Limite na análise de conteúdo Só é eficaz se os itens tiveram a quantidade considerável de
informação armazenada de forma textual.
Superespecialização O usuário fica limitado a um grau especifico de novidade,
afetando a diversidade.
Novos usuários Pois a avaliação do usuário é necessária para que o sistema
possa compreender e atender suas preferências.
(LOPS; GEMMIS; SEMERARO, 2004)
25. Filtragemcolaborativa
Tenta prever a utilidade dos itens para um determinado
usuário com base nos itens que foram previamente avaliados
por outros usuários.
29. desvantagensdafiltragemcolaborativa
Novos itens Novo item não será indicado até que tenha sido avaliado por
um número considerável de usuários
Novos usuários O insuficiente conhecimento do novo usuário afeta o
estabelecimento de vizinhança.
Dispersão Se um item for avaliado por poucas pessoas, este item
raramente será recomendado.
Escalabilidade Muitas avaliações pode ocasionar lentidão no calculo de
similaridade..
(ADOMAVICIUS; TUZHILIN, 2005)
30. Filtragemhíbrida
Combina os pontos fortes da filtragem baseada em conteúdo e
da filtragem colaborativa.
Filtragem baseada em conteúdo
- Independência do usuário
- Indicação de itens ainda não avaliados por
qualquer usuário
- Histórico de consumo
Filtragem colaborativa
- Recomendação de itens diversos e
inesperados
- Descoberta de novos relacionamentos entre
usuários
- Histórico de avaliações em comum
31. Filtragemhíbrida
Método de hibridização Descrição
Ponderada (Weighted) As pontuações das técnicas de filtragem são combinadas para
produzir uma única recomendação.
Comutação (Switching) O sistema alterna entre as técnicas dependendo da situação atual.
Misturada (Mixed) Recomendações de vários técnicas diferentes são apresentado ao
mesmo tempo.
Combinação de recurso
(Feature combination)
Características de diferentes técnicas são jogadas juntas em um único
algoritmo de recomendação.
Cascata (Cascade) Uma técnica refina as recomendações dadas por outra.
Aumento do recurso
(Feature augmentation)
A saída de uma técnica é utilizada como uma característica de entrada
para outra.
Fonte: (BURKE, 2002, p.7, tradução nossa)
33. Consideraçõesfinais
Recuperação Filtragem
Frequência de uso Usuário singular, curto prazo Uso repetitivo, longo prazo
Representação da necessidade
de informação
Palavras de consulta Perfil de usuário
Preocupações Coleta e organização dos
itens
Distribuição dos itens
Escopo do sistema Relevância dos itens para a
necessidade de informação
pontual
Processamento de um fluxo
de informações para
corresponder a gostos e
preferências
Exemplos Science Direct, Google
Acadêmico, Yahoo!
Amazon, Google News,
Youtube, Netflix
34. Consideraçõesfinais
“A recuperação da informação e filtragem de informação são
realmente dois lados da mesma moeda. Eles trabalham em
conjunto para ajudar as pessoas a obter as informações
necessárias para suas tarefas.” (BELKIN; CROFT, 1995, p.9,
tradução nossa)
A maior parte dos problemas que parecem ser exclusivos para
filtragem de informação são especializações de problemas que
aparecem na recuperação da informação, na medida em que,
grande parte da experiência e pesquisa em RI é diretamente
relevante para FI.
35. Consideraçõesfinais
Por outro lado, pesquisadores como Pariser (2011) argumentam
que o uso de técnicas de filtragem de informação aplicados a
recuperação da informação tem contribuído para o crescimento
do que ele denomina de “Filtro Bolha”, uma consequência
perigosa da personalização da web.
O emprego de tais tecnologias pode dificultar o acesso a
novas informações que poderiam ampliar a visão de mundo, uma
vez que tais técnicas adaptam a informação retornada a
partir dos gostos pessoais e, desta forma, acabam tornando o
ambiente da web um espelho unidirecional, tendo em vista que
só refletirá seus próprios interesses.
36. referênciasbibliográficas
ADOMAVICIUS, G.; TUZHILIN, A. Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art
and Possible Extensions. IEEE Transactions on Knowledge and Data Engineering, New York, v. 17, n. 6, p. 734-749,
June. 2005.
BAEZA-YATES, R.; RIBEIRO-NETO, B.. Recuperação de Informação: Conceitos e Tecnologia das Máquinas de Busca.
2ª ed. Porto Alegre: Bookman, 2013.
BELKIN, N.J.; CROFT, W.B. Information filtering and information retrieval: Two sides of the same coin?. Communications
of the ACM, v.35, n.12, p.29-38, dez., 1992.
BELKIN, N.J. et al. Evaluating interactive information retrieval systems: Opportunities and challenges. In: Proceedings of
CHI'2004, 1594-1595, 2004.
HANANI, U.; SHAPIRA, B.; SHOVAL, P. Information filtering: Overview of issues, research and systems. User Modeling
and User-Adapted Interaction, v. 11, n.3, p. 203-259, 2001.
37. referênciasbibliográficas
INTERNET LIVE STATS. 2016 Disponível em: <http://www.internetlivestats.com/> Acesso em 30 abr. 2016.
LOPS, P.; GEMMIS, M.; SEMERARO, G.. Content-based Recommender Systems: State of the Art and Trends. In: RICCI,
F. et al. Recommender Systems Handbook. New York: Springer, 2011. p. 73-105.
http://facweb.cs.depaul.edu/mobasher/classes/ect584/Papers/ContentBasedRS.pdf
MANNING, C. D.; RAGHAVAN, P.; SCHUTZE, H. I. Web search basics. In:An introduction to information retrieval.
Cambridge: Cambridge University Press, 2007, p. 385--408.
SARWAR, B. et al. Item-based Collaborative Filtering Recommendation Algorithms. In: Proceedings of the 10th
international conference on World Wide Web, ACM, New York, 2001. p. 285-295. Disponível em: http://www10.
org/cdrom/papers/519/ . Acesso em 30 abr. 2016.
XIE, I. Interactive Information Retrieval in Digital Environments. New York: IGI Publishing, 2008.
38. Filtragemerecuperaçãoda
informaçãonaweb
Vanessa Levati Biff
Maio, 2016
UNIVERSIDADE FEDERAL DE SANTA CATARINA
Departamento de Ciência da Informação
Programa de Pós-Graduação em Ciência da Informação
Disciplina: Recuperação Inteligente da Informação
Profº: Dr. Angel Godoy Vieira