1) O documento discute sistemas de recomendação, comparando filtragem colaborativa e baseada em conteúdo.
2) A filtragem colaborativa usa dados de outros usuários para fazer recomendações, enquanto a baseada em conteúdo analisa características dos itens.
3) Sistemas híbridos combinam essas abordagens para superar limitações individuais.
Sistemas de Recomendação: Filtragem Colaborativa e Baseada em Conteúdo
1. Sistemas de Recomendação
Filtragem Colaborativa e
Baseada em Conteúdo
Fabiana Lorenzi
Universidade Luterana do Brasil
2. Baseada em
Banco de dados
Conhecimento do conhecimento
de produtos
domínio
Baseada
em conteúdo
Perfis de outros Perfil do usuário
usuários
Filtragem
colaborativa
Dados demográficos Dados demográficos
Conhecimento
dos outros atuais do usuário
demográfico
3. Filtragem de informação
• Quase todo sistema de recomendação vê a filtragem de
informações ou seleção de um produto como um
problema de classificação.
– F(usuário, produto) ! {gosta, não gosta}
Não gosta
)
F( ,
Usuário Conteúdo
Gosta
4. Filtragem Colaborativa
• Utiliza informações de outras pessoas
• Trabalha com a idéia de que se o os
interesses do usuário x são similares aos
interesses do usuário y, os itens preferidos
pelo usuário y podem ser recomendados ao
usuário x.
5. Filtragem Colaborativa
• Avaliação de similaridade entre pessoas
– Pelo histórico (itens associados)
correlação item-a-item
– Pelo perfil (características ou atributos)
correlação usuário-a-usuário
6. Filtragem Colaborativa
• correlação item-a-item
(pessoas que compraram isto também
compraram …)
• correlação usuário-a- usuário
(usuários como você também compraram …)
7. FC: item-a-item
• Calcula-se a similaridade entre usuários.
• Para cada usuário encontra-se um conjunto
de usuários “mais próximos” (maior
correlação entre as avaliações passadas).
• Escores para os itens não vistos são
definidos com base na combinação de
escores conhecidos dos vizinhos mais
próximos.
8. Filtragem Colaborativa
Usuário Usuários anteriores
Não gosta
Gosta
Itens
Não conhece
Histórico das
interações
8
distância 5 6 6 5 4
9. Amazon (item-a-item)
Para cada item comprado e avaliado pelo usuário
tenta encontrar itens similares e recomendá-los ao
usuário.
Algoritmo -
Para cada item do catálogo, I1
Para cada cliente C que comprou I1
Para cada item I2 comprado pelo cliente C
Registra que o cliente C comprou I1 e I2
Para cada item I2
Calcula a similaridade entre I1 e I2
10. FC: usuário-a-usuário
• recomendar objetos relacionados a pessoas
com características semelhantes ao usuário
(atributos, preferências, hábitos ou
comportamento).
11. Exemplos - Grupolens
– Sistema que auxilia pessoas a encontrar artigos que
irão gostar, dentro de uma grande quantidade de
artigos disponíveis.
– Relaciona as avaliações para determinar quais
usuários avaliam mais semelhantemente
(vizinhanças);
– Prediz quanto os usuários vão gostar de artigos
novos, baseados nas avaliações dos usuários
similares.
12. Exemplos - Ringo
• Sistema que recomenda músicas ao usuário;
• O usuário avalia artistas e o conjunto destas
avaliações gera o perfil de cada usuário;
• Para recomendar, o perfil do usuário é comparado aos
demais perfis dos outros usuários. O sistema prediz o
quanto o usuário tende a gostar de um item/artista que
ainda não tenha sido avaliado (através da média
ponderada de todas avaliações dadas àquele álbum por
outros usuários com perfil semelhante).
13. Problemas
• Problema cold start (primeiro usuário) que ocorre no
inicio do sistema (sem avaliação de outros usuários).
• Se um usuário possui gostos bastante raros, a
recomendação pode ser fraca, pois não existe “vizinhos
próximos”. Esse problema é chamado de gray sheep
(ovelha negra).
14. Problemas
• Problema de early-rater, quando surge um novo
item, não há como ele ser recomendado a um
usuário até que alguém o avalie.
• Avaliações esparsas: quando se tem poucos
usuários para muitos itens as avaliações tornam-se
esparsas e fica difícil de encontrar usuários
similares.
15. Baseada em Conteúdo
• Recomendar objetos classificados no perfil
do usuário
• Recomendar objetos similares aos objetos
que o usuário já comprou.
16. Baseada em Conteúdo
Uso de taxonomias (classificação ou ontologia)
X
Classe Classe
17. Identificar a classe
• Pelo perfil: características da pessoa
• Pelo histórico: itens associados
• Pelos atributos
• As classes devem ser compatíveis.
18. Baseada em conteúdo
• Exemplos:
– filmes do mesmo gênero que o assistido
– outros CD’s dos artistas já adquiridos
– produtos complementares aos adquiridos (DVD
player quot; home theater)
19. Exemplos - InfoFinder
• O sistema aprende sobre os interesses do
usuário a partir de um conjunto de
mensagens ou documentos.
• Um string de consulta para cada categoria
de interesse do usuário.
• Modelo do usuário = árvore de decisão.
20. Exemplos - Referral web
• Sistema interativo que encontra redes de
pessoas envolvidas em tarefas profissionais.
• A partir do cadastro do usuário, o sistema
procura por documentos com seu nome e
recursivamente procura as outras citações
nesses trabalhos, montando uma rede global
de citações na forma de um grafo.
21. Usuário Saída Personalização Apresentação Modelo do
usuário
InfoFinder Atributos e Sugestão de Persistente Push Árvore de
palavras documentos decisão
chave
Referral Cadastro Sugestão de Persistente Pull Grafo de relações
web documentos
Obs.: Aqui não temos entrada da comunidade.
22. Problemas
• super-especialização, pois só serão
recomendados itens que o usuário avaliou no
passado, não explorando novas categorias de
itens.
• Falta de surpresa na recomendação (serendipity),
produtos que não se relacionam com o perfil do
usuário podem nunca ser recomendados.
23. Problemas
• O conteúdo de alguns tipos de dados ainda
não pode ser analisado, como vídeo e som;
24. Técnicas Vantagens Desvantages
Filtragem Colaborativa A. Pode identificar nichos cross- I. Problema do novo usuário.
gênero. J. Problema do novo item.
B. Conhecimento de domínio não é K. Problema da ovelha negra
necessário. L. Qualidade depende de um
C. Adaptativo: qualidade melhor grande conjunto de dados histórico.
com o tempo. M. Problema de estabilidade.
D. Feedback implícito é suficiente.
Baseada em Conteúdo B, C, D I, L, M
Baseada em Conhecimento E. Não tem problema de novo N. Usuário deve inserir função de
usuário e novo item. utilidade.
F. Sensível a mudanças de O. Necessita de engenheiro de
preferências conhecimento (aquisição de
G. Pode incluir características de conhecimento).
H. Pode mapear produtos através
das preferências do usuário.
25. Sistemas Híbridos
• Combinam as duas técnicas (Filtragem
Colaborativa e Baseada em Conteúdo) para
resolver os problemas encontrados em cada
uma delas.
26. FAB (http://fab.stanford.edu)
• Sistema que recomenda páginas web para
usuários.
• O perfil do usuário é criado com base na
análise do conteúdo dos documentos.
• Após utiliza-se a FC para descobrir os itens
similares de acordo com o perfil do usuário
(correlação usuário-a-usuário).
27. FAB
• O usuário recebe a recomendação de um
item se esse item se encaixa no seu perfil ou
se esse item se encaixa nos perfis de seus
usuários mais similares.
28. Vantagens da abordagem híbrida
• Utilizando recomendações colaborativas,
experiências de outros usuários são levadas em
consideração;
• Utilizando recomendações baseadas em conteúdo,
é possível lidar com itens não vistos por outros
usuários;
• É possível recomendar bons itens a um usuário
mesmo que não haja usuários semelhantes a ele.
29. Cuidados com a recomendação
• Solicitada ou espontânea ?
• Interromper ou não ? quando (online ou
offline) ?
• Recomendar tudo ou selecionar por limiar ?
• Somente o que é novo ?
• Explicações da escolha (trust)
30. Cuidados com a recomendação
• Informar origem ou recomendação anônima
(reputation)
• Relevância temporal: sazonal, idade,
crescimento
• Necessidades ou gostos ?
• Evolução do perfil ou necessidade
– Ex: leitura de documentos ou livros
básicos X avançados