SlideShare uma empresa Scribd logo
1 de 37
Aprendizagem Ativa em Sistemas de
Filtragem Colaborativa
Igor Azevedo Sampaio (ias@cin.ufpe.br)
Orientador:
Geber Lisboa Ramalho
Co-Orientador:
Ricardo Bastos Cavalcante Prudêncio
Cenário
 Explosão na quantidade de informação
disponível
 Canais de TV, filmes, livros, discos...
 Documentos eletrônicos na Internet
 Produtos nas lojas virtuais
 Como então encontrar a informação
relevante sem muito esforço?
 Sistemas de Recomendação
 Como tal sistema pode entender
satisfatoriamente o que o usuário quer
sem perturbá-lo muito?
 Aprender com as respostas/ações do
usuário, e...
 Aprender a fazer boas perguntas!
Sistemas de Recomendação
Personalizada
 Surgidos na década de 90 para tratar o
problema da sobrecarga de informação
 Utilizam técnicas de aprendizagem de máquina
e filtragem de informação
 Aprendizagem do perfil do usuário
 Geram recomendações baseada nesse perfil
 Tradicionalmente divididos em
 Filtragem Baseada em Conteúdo
 Filtragem Colaborativa
Filtragem Baseada em Conteúdo
 Recomendação com base na descrição dos
itens previamente avaliados pelo usuário
 Comparação do conteúdo do item com o perfil do
usuário
 Escolha das características dos itens é relevante
Nome: Matrix
Gênero: Ação, Ficção
Diretor: Andy Wachowsky
Ano: 1999
Atores: Keanu Reeves,
Laurence Fishburn
Filtragem Colaborativa
 Princípio
 As melhores recomendações são aquelas fornecidas
por pessoas com gostos similares
 Identificação de itens que agradaram “vizinhos”
do usuário
 “Vizinhança” baseada em avaliações passadas
 Sem necessidade de descrever o conteúdo dos itens
 Técnica mais usada em sistemas de
recomendação
Aquisição do Perfil do Usuário
 Avaliação Implícita
 As preferências do usuário são identificadas a partir do
uso que esse faz do sistema.
 Ex.: clicar em um item, comprar um produto...
 São indicadores indiretos da preferência dos usuário
 Avaliação Explícita
 O usuário indica explicitamente sua preferência sobre
um item através de uma nota
 Requer que o usuário se engaje na atividade de avaliar
os itens do sistema
 Ao utilizar avaliação explícita:
 Podem ser necessárias muitas avaliações antes que o
sistema possa gerar boas recomendações
 Problema do usuário novo.
 Gera desinteresse da parte do usuário
 Modelo de “passivo” de avaliações:
 Como adquirir o perfil do usuário de forma mais
eficiente?
Problema da Aquisição do Perfil do
Novo Usuário
Itens do Sistema
Item não
avaliado Perfil do usuário
Item
avaliado
Usuário
 Técnica utilizada em aprendizagem indutiva
onde o algoritmo tem controle sobre os
exemplos utilizados no treinamento
 Para que?
 Reduzir o número de exemplos de treinamento sem
comprometer a performance do classificador
 Como?
 Sistema seleciona os exemplos usados no treinamento
 Quando?
 Problemas de aprendizagem onde a etiquetagem dos
exemplos de treinamento é cara
Aprendizagem Ativa
 Tem sido empregada na aquisição do perfil de
usuários em sistemas de recomendação
 Para que o sistema aprenda o máximo possível com
cada avaliação feita pelo usuário
 Modelo “ativo” de avaliações:
Aprendizagem Ativa em Sistemas de
Recomendação
Itens do Sistema
Item não
avaliado Perfil do usuário
Item
avaliado
Usuário
Critério de
Seleção
Item
selecionado
ActiveCP
 Um método de aprendizagem ativa para
sistemas de filtragem colaborativa
 Avaliado em sistemas de Filtragem Colaborativa com
vizinhos mais próximos (KNN)
 Critério de seleção de itens
 Baseado na idéia de controvérsia e popularidade de
um item de informação
ActiveCP
Critério da Controvérsia
 Baseia-se na intuição de que itens consensuais
são menos discriminantes da vizinhança de um
usuário
 Semelhante ao conceito de entropia utilizado em
outros trabalhos da área
 Controvérsia dada pela variância das avaliações
de um item:
n
rr
c
n
u
iiu
i
2
1
, )(∑=
−
=
ActiveCP
Critério da Popularidade
 Quando um usuário avalia um item popular:
 O sistema torna-se capaz de calcular sua similaridade
com um grande número de outros indivíduos
 Para obter assim mais informação e maior precisão
 Popularidade de um item
 Número n de avaliações recebidas por um item
 Independente da preferência
Método ActiveCP
 Combina os critérios da controvérsia (C) e
popularidade (P) para fazer a seleção dos itens
 São produzidos duas listas:
 Uma com os itens ordenados pela controvérsia
 Outra ordenada pela popularidade
 Cada item recebe notas (entre 0 e 1)
dependendo de sua posição nas listas
 Vci – nota do item i na lista da controvérsia
 Vpi – nota do item i na lista da popularidade
 Seleção é feita com base na combinação das
notas:
ipici vpwvcwCP ∗+∗=
Método ActiveCP
Experimentos
 Executados em uma base de filmes
 10.000 usuários e 1.628 filmes
 Cada usuário avaliou parte dos filmes com notas de 1
(péssimo) a 5 (ótimo)
 Testes realizados com 1.000 usuários
aleatoriamente sorteados
 Para cada usuário são utilizados 100 filmes
 Testes com validação cruzada 5-fold
Ilustração:
Método ActiveCP
ExperimentosUsuários
...
5 conjuntos de 20
itens para cada
usuário
Validação cruzada
de 5 iterações
Critério de
Seleção CP
2, 4, 6, ...
Itens
selecionados
Conjunto
de seleção
Conjunto
de teste
Predição
FC - KNN
 Superior ao método de seleção aleatória
 Forma aproximada como os itens são avaliados em um
sistema “passivo”
 Superior ao uso da controvérsia e popularidade
sozinhos
 Melhor resultado quando os dois critérios são
usados com o mesmo peso
 wc= 0.5 e wp= 0.5
Método ActiveCP
Resultados
 Problema da “Cobertura vs. Intensidade” da
controvérsia
 A medida da variância não leva em conta a quantidade
de avaliações recebidas por um item (cobertura)
 Mede apenas a dispersão das notas (intensidade)
 Filmes com 2 ou 100 avaliações podem ter a mesma
intensidade de controvérsia porém não a mesma
cobertura
Método ActiveCP
Problemas
 Solução adotada nos experimentos do
ActiveCP:
 Número I fixo de avaliações (I = 100) usadas para
calcular a controvérsia
 Limitações:
 Problema do desprezo de filmes:
 Despreza (deixa de selecionar) filmes por não terem uma
quantidade mínima de avaliações
 Pode ser crítico em bases pequenas em formação onde
pode não haver muitos com muitas (>100) avaliações
 Problema do desprezo de avaliações:
 Sempre usa exatamente I para o cálculo da controvérsia
 Despreza informação adicional sobre o item
Método ActiveCP
Problemas
Propostas
 Nova medida de controvérsia que resolva o
problema da “Cobertura vs. Intensidade”
 Observações:
 O resultado da variância é normalizado pela
quantidade de avaliações
 Retirando essa normalização temos uma medida que
reflete a quantidade de avaliações recebidas
 Medida do Desvio:
2
1
, )(∑=
−=
n
u
iiui rrc
 Metodologia de experimentos utilizando a
medida do Desvio
 Permite que todos os itens avaliados por cada usuário
possam ser selecionados
 Usa todas as avaliações recebidas por um item no
cálculo da controvérsia
 Sem necessidade de estimar o valor do parâmetro I
Propostas
Propostas
 Avaliar a aplicação das metodologias de seleção
em uma base de dados pequena, que simula
uma base em formação
 Analisar o impacto do problema da Cobertura vs.
Intensidade
 Avaliar a aplicabilidade da nova medida de
controvérsia, comparando com os outros critérios
 Base de Dados
 Partindo da mesma base utilizada no ActiveCP
 Do total de 10.000 usuários foram selecionados
apenas a 300 os quais produziram um total de 21518
avaliações a 394 filmes
 80% dos usuários produziram menos de 100 avaliações
 82% dos filmes foram avaliados por menos de 100
usuários
Análise Experimental
 Métodos de seleção avaliados:
 Seleção aleatória (base para comparação)
 Seleção baseada apenas na controvérsia-variância
 Três valores para o parâmetro I = 20, 40 e 60
 Variância sem restrições (variância total)
 Seleção baseada apenas na controvérsia-desvio
 Seleção baseada apenas na popularidade
 Seleção combinada pelo critério ActiveCP
Análise Experimental
 Organização dos experimentos
 Validação cruzada em 3-fold
 Métricas de avaliação de resultados
 ROC - Mede a capacidade do sistema de separar
elementos relevantes dos não relevantes
 Breese - Mede a utilidade para um usuário de uma
lista com itens ordenados pelo valor de predição
Análise Experimental
Resultados Obtidos
Critérios de Seleção Isolados
Métrica Roc:
Métrica Breese:
Resultados Obtidos
Critérios de Seleção Isolados
Análise
Critérios de Seleção Isolados
 Variância Total e com I = 20, 40, 60
 Variância total obteve o pior dos resultados
 Tendem a melhorar com o aumento do valor de I
 Possível afirmar com mais segurança a existência do
problema da Cobertura vs. Intensidade
 Desvio e Popularidade
 O desvio obteve os melhores resultados em quase
todos os tamanhos de perfil, para ambas as métricas
 E não foi o pior resultado em nenhum tamanho de perfil
 Resultados da Popularidade bastante próximos
Métrica Roc:
Resultados Obtidos
Critérios de Seleção Combinados
Resultados Obtidos
Critérios de Seleção Combinados
Métrica Breese:
 CP com Desvio e CP com Variância
 Resultados bastante parecidos entre si
 Métodos utilizando Variância apresentaram grande
melhora no desempenho
 O problema da Cobertura vs. Intensidade é amenizado
com a adição da popularidade
 Nenhum dos métodos se mostrou significativamente
superior aos demais.
 O CP com Desvio continua competitivo e não há a
necessidade de estimativa do parâmetro I
Análise
Critérios de Seleção Combinados
O Desvio como Critério de Seleção
Combinado
 O Desvio já reflete em seu resultado a
quantidade de avaliações de um item
 Ou seja, a Popularidade do item já é considerada!
 Utilizar o Desvio equivale a multiplicar a
popularidade do item pela variância de suas
notas:












−
∗=
∑=
n
rr
nc
n
u
iiu
i
2
1
, )(
 Comparando o CP Desvio com o Desvio isolado
(Roc)
O Desvio como Critério de Seleção
Combinado
O Desvio como Critério de Seleção
Combinado
 Comparando o CP Desvio com o Desvio isolado
(Breese)
 Resultados bastante competitivos entre o
Desvio usado isoladamente e combinado
 Possível afirmar que Desvio sozinho já constitui
um critério de seleção que combina os
conceitos de popularidade e controvérsia
 Mais simples de implementar
 Computacionalmente mais leve
 Utilização direta e abrangente, não envolve estimativa
de parâmetros
O Desvio como Critério de Seleção
Combinado
Conclusão
 A aprendizagem ativa pode ser utilizada para
agilizar a aquisição do perfil do usuário
 Estudos mais aprofundados dos problemas e
limitações do método ActiveCP
 Proposta uma nova medida de controvérsia
(Desvio)
 Permitiu tornar a metodologia de experimentos mais
abrangente
 Torna o método mais facilmente aplicável na prática
 Bons indicativos de que o Desvio pode ser
utilizado como método de seleção
 Combina os conceitos de controvérsia e popularidade
Trabalhos Futuros
 Realizar novos experimentos comparando os
critérios de seleção em bases maiores
 Estudar a utilidade dos métodos de seleção em
outras categorias sistemas de recomendação
 Filtragem baseada em conteúdo
 Ou outros algoritmos de FC que não KNN
 Estudo de outras medidas de controvérsia
Fim

Mais conteúdo relacionado

Semelhante a Aprendizagem Ativa em Sistemas de Filtragem Colaborativa

Collaborative filtering
Collaborative filteringCollaborative filtering
Collaborative filteringZhang Yi Ling
 
[Jose Ahirton Lopes] Algoritmos de Recomendacao
[Jose Ahirton Lopes] Algoritmos de Recomendacao[Jose Ahirton Lopes] Algoritmos de Recomendacao
[Jose Ahirton Lopes] Algoritmos de RecomendacaoAhirton Lopes
 
Tchêlinux Porto Alegre 2013 - Sistemas de Recomendação
Tchêlinux  Porto Alegre 2013 - Sistemas de RecomendaçãoTchêlinux  Porto Alegre 2013 - Sistemas de Recomendação
Tchêlinux Porto Alegre 2013 - Sistemas de RecomendaçãoMárcio Bortolini dos Santos
 
[Jose Ahirton Lopes] Algoritmos de Recomendacao II
[Jose Ahirton Lopes] Algoritmos de Recomendacao II[Jose Ahirton Lopes] Algoritmos de Recomendacao II
[Jose Ahirton Lopes] Algoritmos de Recomendacao IIAhirton Lopes
 
Sistemas Cooperativos Aula 14 - Técnicas (Sistemas de recomendação)
Sistemas Cooperativos Aula 14 - Técnicas (Sistemas de recomendação)Sistemas Cooperativos Aula 14 - Técnicas (Sistemas de recomendação)
Sistemas Cooperativos Aula 14 - Técnicas (Sistemas de recomendação)Leinylson Fontinele
 
Sistema_de_Recomendacao_Publico.pptx
Sistema_de_Recomendacao_Publico.pptxSistema_de_Recomendacao_Publico.pptx
Sistema_de_Recomendacao_Publico.pptxSarahGottardi
 
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...Thiago Rocha
 
Testes de usabilidade com uma pitada de lean ux
Testes de usabilidade com uma pitada de lean uxTestes de usabilidade com uma pitada de lean ux
Testes de usabilidade com uma pitada de lean uxQualister
 
Aprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociênciaAprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociênciaWalter Hugo Lopez Pinaya
 
Principais conceitos em testes de software
Principais conceitos em testes de softwarePrincipais conceitos em testes de software
Principais conceitos em testes de softwareJoyce Bastos
 
Sistemas de Recomendação - Parte 2
Sistemas de Recomendação - Parte 2Sistemas de Recomendação - Parte 2
Sistemas de Recomendação - Parte 2Ralph Rassweiler
 
Sistemas de recomendação
Sistemas de recomendaçãoSistemas de recomendação
Sistemas de recomendaçãoLeonardo Zanette
 
Teste de Desempenho, muito além do JMeter
Teste de Desempenho, muito além do JMeterTeste de Desempenho, muito além do JMeter
Teste de Desempenho, muito além do JMeterJuliano Santos
 
COMO SE PARECE O PROCESSO DE SOLUÇÃO EM UMA STARTUP EM CRESCIMENTO
COMO SE PARECE O PROCESSO DE SOLUÇÃO EM UMA STARTUP EM CRESCIMENTOCOMO SE PARECE O PROCESSO DE SOLUÇÃO EM UMA STARTUP EM CRESCIMENTO
COMO SE PARECE O PROCESSO DE SOLUÇÃO EM UMA STARTUP EM CRESCIMENTOLeonardo Salvador
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendaçãosaspi2
 
Case Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em PythonCase Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em PythonArthur Fortes
 
AHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de Decisão
AHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de DecisãoAHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de Decisão
AHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de Decisãogutobiker
 
Apresentacao Netquest 2011
Apresentacao Netquest 2011Apresentacao Netquest 2011
Apresentacao Netquest 2011brunoparo
 
Introdução aos sistemas de recomendação usando Machine Learning
Introdução aos sistemas de recomendação usando Machine LearningIntrodução aos sistemas de recomendação usando Machine Learning
Introdução aos sistemas de recomendação usando Machine LearningRafael Leonhardt
 

Semelhante a Aprendizagem Ativa em Sistemas de Filtragem Colaborativa (20)

Collaborative filtering
Collaborative filteringCollaborative filtering
Collaborative filtering
 
[Jose Ahirton Lopes] Algoritmos de Recomendacao
[Jose Ahirton Lopes] Algoritmos de Recomendacao[Jose Ahirton Lopes] Algoritmos de Recomendacao
[Jose Ahirton Lopes] Algoritmos de Recomendacao
 
Tchêlinux Porto Alegre 2013 - Sistemas de Recomendação
Tchêlinux  Porto Alegre 2013 - Sistemas de RecomendaçãoTchêlinux  Porto Alegre 2013 - Sistemas de Recomendação
Tchêlinux Porto Alegre 2013 - Sistemas de Recomendação
 
[Jose Ahirton Lopes] Algoritmos de Recomendacao II
[Jose Ahirton Lopes] Algoritmos de Recomendacao II[Jose Ahirton Lopes] Algoritmos de Recomendacao II
[Jose Ahirton Lopes] Algoritmos de Recomendacao II
 
Sistemas Cooperativos Aula 14 - Técnicas (Sistemas de recomendação)
Sistemas Cooperativos Aula 14 - Técnicas (Sistemas de recomendação)Sistemas Cooperativos Aula 14 - Técnicas (Sistemas de recomendação)
Sistemas Cooperativos Aula 14 - Técnicas (Sistemas de recomendação)
 
Sistema_de_Recomendacao_Publico.pptx
Sistema_de_Recomendacao_Publico.pptxSistema_de_Recomendacao_Publico.pptx
Sistema_de_Recomendacao_Publico.pptx
 
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
 
Testes de usabilidade com uma pitada de lean ux
Testes de usabilidade com uma pitada de lean uxTestes de usabilidade com uma pitada de lean ux
Testes de usabilidade com uma pitada de lean ux
 
Aprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociênciaAprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociência
 
Principais conceitos em testes de software
Principais conceitos em testes de softwarePrincipais conceitos em testes de software
Principais conceitos em testes de software
 
Sistemas de Recomendação - Parte 2
Sistemas de Recomendação - Parte 2Sistemas de Recomendação - Parte 2
Sistemas de Recomendação - Parte 2
 
Sistemas de recomendação
Sistemas de recomendaçãoSistemas de recomendação
Sistemas de recomendação
 
Teste de Desempenho, muito além do JMeter
Teste de Desempenho, muito além do JMeterTeste de Desempenho, muito além do JMeter
Teste de Desempenho, muito além do JMeter
 
COMO SE PARECE O PROCESSO DE SOLUÇÃO EM UMA STARTUP EM CRESCIMENTO
COMO SE PARECE O PROCESSO DE SOLUÇÃO EM UMA STARTUP EM CRESCIMENTOCOMO SE PARECE O PROCESSO DE SOLUÇÃO EM UMA STARTUP EM CRESCIMENTO
COMO SE PARECE O PROCESSO DE SOLUÇÃO EM UMA STARTUP EM CRESCIMENTO
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
 
Case Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em PythonCase Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em Python
 
Ctai Teste De Software Aula 1
Ctai Teste De Software Aula 1Ctai Teste De Software Aula 1
Ctai Teste De Software Aula 1
 
AHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de Decisão
AHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de DecisãoAHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de Decisão
AHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de Decisão
 
Apresentacao Netquest 2011
Apresentacao Netquest 2011Apresentacao Netquest 2011
Apresentacao Netquest 2011
 
Introdução aos sistemas de recomendação usando Machine Learning
Introdução aos sistemas de recomendação usando Machine LearningIntrodução aos sistemas de recomendação usando Machine Learning
Introdução aos sistemas de recomendação usando Machine Learning
 

Aprendizagem Ativa em Sistemas de Filtragem Colaborativa

  • 1. Aprendizagem Ativa em Sistemas de Filtragem Colaborativa Igor Azevedo Sampaio (ias@cin.ufpe.br) Orientador: Geber Lisboa Ramalho Co-Orientador: Ricardo Bastos Cavalcante Prudêncio
  • 2. Cenário  Explosão na quantidade de informação disponível  Canais de TV, filmes, livros, discos...  Documentos eletrônicos na Internet  Produtos nas lojas virtuais  Como então encontrar a informação relevante sem muito esforço?  Sistemas de Recomendação  Como tal sistema pode entender satisfatoriamente o que o usuário quer sem perturbá-lo muito?  Aprender com as respostas/ações do usuário, e...  Aprender a fazer boas perguntas!
  • 3. Sistemas de Recomendação Personalizada  Surgidos na década de 90 para tratar o problema da sobrecarga de informação  Utilizam técnicas de aprendizagem de máquina e filtragem de informação  Aprendizagem do perfil do usuário  Geram recomendações baseada nesse perfil  Tradicionalmente divididos em  Filtragem Baseada em Conteúdo  Filtragem Colaborativa
  • 4. Filtragem Baseada em Conteúdo  Recomendação com base na descrição dos itens previamente avaliados pelo usuário  Comparação do conteúdo do item com o perfil do usuário  Escolha das características dos itens é relevante Nome: Matrix Gênero: Ação, Ficção Diretor: Andy Wachowsky Ano: 1999 Atores: Keanu Reeves, Laurence Fishburn
  • 5. Filtragem Colaborativa  Princípio  As melhores recomendações são aquelas fornecidas por pessoas com gostos similares  Identificação de itens que agradaram “vizinhos” do usuário  “Vizinhança” baseada em avaliações passadas  Sem necessidade de descrever o conteúdo dos itens  Técnica mais usada em sistemas de recomendação
  • 6. Aquisição do Perfil do Usuário  Avaliação Implícita  As preferências do usuário são identificadas a partir do uso que esse faz do sistema.  Ex.: clicar em um item, comprar um produto...  São indicadores indiretos da preferência dos usuário  Avaliação Explícita  O usuário indica explicitamente sua preferência sobre um item através de uma nota  Requer que o usuário se engaje na atividade de avaliar os itens do sistema
  • 7.  Ao utilizar avaliação explícita:  Podem ser necessárias muitas avaliações antes que o sistema possa gerar boas recomendações  Problema do usuário novo.  Gera desinteresse da parte do usuário  Modelo de “passivo” de avaliações:  Como adquirir o perfil do usuário de forma mais eficiente? Problema da Aquisição do Perfil do Novo Usuário Itens do Sistema Item não avaliado Perfil do usuário Item avaliado Usuário
  • 8.  Técnica utilizada em aprendizagem indutiva onde o algoritmo tem controle sobre os exemplos utilizados no treinamento  Para que?  Reduzir o número de exemplos de treinamento sem comprometer a performance do classificador  Como?  Sistema seleciona os exemplos usados no treinamento  Quando?  Problemas de aprendizagem onde a etiquetagem dos exemplos de treinamento é cara Aprendizagem Ativa
  • 9.  Tem sido empregada na aquisição do perfil de usuários em sistemas de recomendação  Para que o sistema aprenda o máximo possível com cada avaliação feita pelo usuário  Modelo “ativo” de avaliações: Aprendizagem Ativa em Sistemas de Recomendação Itens do Sistema Item não avaliado Perfil do usuário Item avaliado Usuário Critério de Seleção Item selecionado
  • 10. ActiveCP  Um método de aprendizagem ativa para sistemas de filtragem colaborativa  Avaliado em sistemas de Filtragem Colaborativa com vizinhos mais próximos (KNN)  Critério de seleção de itens  Baseado na idéia de controvérsia e popularidade de um item de informação
  • 11. ActiveCP Critério da Controvérsia  Baseia-se na intuição de que itens consensuais são menos discriminantes da vizinhança de um usuário  Semelhante ao conceito de entropia utilizado em outros trabalhos da área  Controvérsia dada pela variância das avaliações de um item: n rr c n u iiu i 2 1 , )(∑= − =
  • 12. ActiveCP Critério da Popularidade  Quando um usuário avalia um item popular:  O sistema torna-se capaz de calcular sua similaridade com um grande número de outros indivíduos  Para obter assim mais informação e maior precisão  Popularidade de um item  Número n de avaliações recebidas por um item  Independente da preferência
  • 13. Método ActiveCP  Combina os critérios da controvérsia (C) e popularidade (P) para fazer a seleção dos itens  São produzidos duas listas:  Uma com os itens ordenados pela controvérsia  Outra ordenada pela popularidade  Cada item recebe notas (entre 0 e 1) dependendo de sua posição nas listas  Vci – nota do item i na lista da controvérsia  Vpi – nota do item i na lista da popularidade  Seleção é feita com base na combinação das notas: ipici vpwvcwCP ∗+∗=
  • 14. Método ActiveCP Experimentos  Executados em uma base de filmes  10.000 usuários e 1.628 filmes  Cada usuário avaliou parte dos filmes com notas de 1 (péssimo) a 5 (ótimo)  Testes realizados com 1.000 usuários aleatoriamente sorteados  Para cada usuário são utilizados 100 filmes  Testes com validação cruzada 5-fold
  • 15. Ilustração: Método ActiveCP ExperimentosUsuários ... 5 conjuntos de 20 itens para cada usuário Validação cruzada de 5 iterações Critério de Seleção CP 2, 4, 6, ... Itens selecionados Conjunto de seleção Conjunto de teste Predição FC - KNN
  • 16.  Superior ao método de seleção aleatória  Forma aproximada como os itens são avaliados em um sistema “passivo”  Superior ao uso da controvérsia e popularidade sozinhos  Melhor resultado quando os dois critérios são usados com o mesmo peso  wc= 0.5 e wp= 0.5 Método ActiveCP Resultados
  • 17.  Problema da “Cobertura vs. Intensidade” da controvérsia  A medida da variância não leva em conta a quantidade de avaliações recebidas por um item (cobertura)  Mede apenas a dispersão das notas (intensidade)  Filmes com 2 ou 100 avaliações podem ter a mesma intensidade de controvérsia porém não a mesma cobertura Método ActiveCP Problemas
  • 18.  Solução adotada nos experimentos do ActiveCP:  Número I fixo de avaliações (I = 100) usadas para calcular a controvérsia  Limitações:  Problema do desprezo de filmes:  Despreza (deixa de selecionar) filmes por não terem uma quantidade mínima de avaliações  Pode ser crítico em bases pequenas em formação onde pode não haver muitos com muitas (>100) avaliações  Problema do desprezo de avaliações:  Sempre usa exatamente I para o cálculo da controvérsia  Despreza informação adicional sobre o item Método ActiveCP Problemas
  • 19. Propostas  Nova medida de controvérsia que resolva o problema da “Cobertura vs. Intensidade”  Observações:  O resultado da variância é normalizado pela quantidade de avaliações  Retirando essa normalização temos uma medida que reflete a quantidade de avaliações recebidas  Medida do Desvio: 2 1 , )(∑= −= n u iiui rrc
  • 20.  Metodologia de experimentos utilizando a medida do Desvio  Permite que todos os itens avaliados por cada usuário possam ser selecionados  Usa todas as avaliações recebidas por um item no cálculo da controvérsia  Sem necessidade de estimar o valor do parâmetro I Propostas
  • 21. Propostas  Avaliar a aplicação das metodologias de seleção em uma base de dados pequena, que simula uma base em formação  Analisar o impacto do problema da Cobertura vs. Intensidade  Avaliar a aplicabilidade da nova medida de controvérsia, comparando com os outros critérios
  • 22.  Base de Dados  Partindo da mesma base utilizada no ActiveCP  Do total de 10.000 usuários foram selecionados apenas a 300 os quais produziram um total de 21518 avaliações a 394 filmes  80% dos usuários produziram menos de 100 avaliações  82% dos filmes foram avaliados por menos de 100 usuários Análise Experimental
  • 23.  Métodos de seleção avaliados:  Seleção aleatória (base para comparação)  Seleção baseada apenas na controvérsia-variância  Três valores para o parâmetro I = 20, 40 e 60  Variância sem restrições (variância total)  Seleção baseada apenas na controvérsia-desvio  Seleção baseada apenas na popularidade  Seleção combinada pelo critério ActiveCP Análise Experimental
  • 24.  Organização dos experimentos  Validação cruzada em 3-fold  Métricas de avaliação de resultados  ROC - Mede a capacidade do sistema de separar elementos relevantes dos não relevantes  Breese - Mede a utilidade para um usuário de uma lista com itens ordenados pelo valor de predição Análise Experimental
  • 25. Resultados Obtidos Critérios de Seleção Isolados Métrica Roc:
  • 27. Análise Critérios de Seleção Isolados  Variância Total e com I = 20, 40, 60  Variância total obteve o pior dos resultados  Tendem a melhorar com o aumento do valor de I  Possível afirmar com mais segurança a existência do problema da Cobertura vs. Intensidade  Desvio e Popularidade  O desvio obteve os melhores resultados em quase todos os tamanhos de perfil, para ambas as métricas  E não foi o pior resultado em nenhum tamanho de perfil  Resultados da Popularidade bastante próximos
  • 29. Resultados Obtidos Critérios de Seleção Combinados Métrica Breese:
  • 30.  CP com Desvio e CP com Variância  Resultados bastante parecidos entre si  Métodos utilizando Variância apresentaram grande melhora no desempenho  O problema da Cobertura vs. Intensidade é amenizado com a adição da popularidade  Nenhum dos métodos se mostrou significativamente superior aos demais.  O CP com Desvio continua competitivo e não há a necessidade de estimativa do parâmetro I Análise Critérios de Seleção Combinados
  • 31. O Desvio como Critério de Seleção Combinado  O Desvio já reflete em seu resultado a quantidade de avaliações de um item  Ou seja, a Popularidade do item já é considerada!  Utilizar o Desvio equivale a multiplicar a popularidade do item pela variância de suas notas:             − ∗= ∑= n rr nc n u iiu i 2 1 , )(
  • 32.  Comparando o CP Desvio com o Desvio isolado (Roc) O Desvio como Critério de Seleção Combinado
  • 33. O Desvio como Critério de Seleção Combinado  Comparando o CP Desvio com o Desvio isolado (Breese)
  • 34.  Resultados bastante competitivos entre o Desvio usado isoladamente e combinado  Possível afirmar que Desvio sozinho já constitui um critério de seleção que combina os conceitos de popularidade e controvérsia  Mais simples de implementar  Computacionalmente mais leve  Utilização direta e abrangente, não envolve estimativa de parâmetros O Desvio como Critério de Seleção Combinado
  • 35. Conclusão  A aprendizagem ativa pode ser utilizada para agilizar a aquisição do perfil do usuário  Estudos mais aprofundados dos problemas e limitações do método ActiveCP  Proposta uma nova medida de controvérsia (Desvio)  Permitiu tornar a metodologia de experimentos mais abrangente  Torna o método mais facilmente aplicável na prática  Bons indicativos de que o Desvio pode ser utilizado como método de seleção  Combina os conceitos de controvérsia e popularidade
  • 36. Trabalhos Futuros  Realizar novos experimentos comparando os critérios de seleção em bases maiores  Estudar a utilidade dos métodos de seleção em outras categorias sistemas de recomendação  Filtragem baseada em conteúdo  Ou outros algoritmos de FC que não KNN  Estudo de outras medidas de controvérsia
  • 37. Fim