O documento discute avaliação e testes em sistemas de recomendação, abordando aspectos como: 1) métricas para avaliar algoritmos de recomendação; 2) testes da experiência do usuário, considerando fatores subjetivos; 3) uso de contexto para aprimorar recomendações.
2013 Policy guidelines for mobile learning by UNESCO
Avaliação e Testes em Sist. de Recomendação by Börje Karlsson & Fran Maciel
1. Avaliação e Testes em
Sistemas de Recomendação"
Börje Karlsson & Francimar Maciel
2. Recomendação
Personalização"
Otimização de Tempo Conteúdos"
relevantes
Serviço específicos
Confiança e
Conteúdo de interesse relacionamento
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
3. Quem Recomenda
Você, seus amigos,
sua família etc
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
4. Sistema de Recomendação
Personalização Automática
Usuário diferente, experiência diferente
Precisa de dados do usuário
Recomendações por contexto
Consulta Recomendações Dados usuário–item–contexto
tempo, lugar, atividade, papel
Itens! Recomendações por conteúdo
Metadados de usuário (demográficos)
Metadata dos itens (catálogo)
Produtos: websites, blogs,
notícias, músicas, livros, …
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
5. Dados e Uso
Histórico de Compilar grandes “Pessoas que gostam
acessos, consumo, quantidades de disto também …”
contatos e dados e mostrar Agregar dados
compartilhamento de tendências comportamentais
conteúdo personalizadas para realizar
que agreguem recomendações
valor ao usuário
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
6. Amazon.com
3!
1!
2!
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
7. Netflix
3!
1!
2!
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
8. Last.fm
1!
2!
3!
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
10. Também em Propaganda Personalizada
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
11. O Que é um Recomendador?
1. Coleta de 2. Treinamento do Modelo 3. Gerador de
dados • ”Aprende” ao processar os dados Recomendações
Perfis dos itens!
gostos!
constrói!
recomenda!
casa! Azul!
Círculos!
Triângulos!
Perfil do usuário!
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
12. Como se Testa um SR?
• Testes funcionais
• Testes do algoritmo de recomendação
• Teste da experiência do usuário
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
13. Avaliação do Algoritmo
• Avaliações geralmente offline"
• Comparação de predições com notas"
• Root-mean-square error (RMSE)"
• Correlações"
• Modelo 0/1 (Interessante / Não interessante)"
• Cobertura"
Deveria comparar alternativas!"
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
14. Contexto
“Contexto é qualquer informação que pode ser utilizada
para caracterizar a situação de uma entidade”
(A. K. Dey et al., Understanding and using context, 2001)
No caso de Sistemas de Recomendação:
- Contexto de usabilidade (pessoa)
- Contexto para recomendação (sistema)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
15. User Experience "
“Momentary, primarily evaluative feeling
(good-bad) while interacting with a product or
service.” (Hassenzahl 2008 apud Knijnenburg et al 2012)
“Experience is a very dynamic, complex and
subjective phenomenon. It depends of upon
the perception of multiple sensory qualities f a
design, interpreted through filters relating to
contextual factors” (Buxton, 2007)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
16. Experiência de Uso (UX) & Sistema de Recomendação"
(Aspectos subjetivos) + (Algoritmos de aprendizado)"
!
Componentes da UX"
Dificuldade! Conforto! Estes fatores não
Esforço! Contexto! tem recebido a
devida atenção
Satisfacão com a escolha! (Knijnenburg et al 2012)
Eficiência percebida do sistema!
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
17. User Experience "
Conteúdo Rapidez Necessidades
Sugestões
Processo Explorar Expectativas
Compartilhar
Flexibilidade Intuitividade Semântica
Quantidade
Controle Disponibilidade Barreiras
Custo x Benefício
“A good experience varies from person to person, product to
product, and task to task, but a good general definition is to define
something as ‘usable’ if it is funcional, efficient and desirable to its
intend audience.” (Kuniavsky, 2003)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
18. Framework para Avaliação de Sistemas de Recomendação (Knijnenburg et al 2012)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
19. Framework para Avaliação de Sistemas de Recomendação (Knijnenburg et al 2012)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
20. Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
21. Framework para Avaliação de Sistemas de Recomendação (Knijnenburg et al 2012)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
22. Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
23. Entrevistas, Grupos de Foco,
Pesquisa Contextual, Questionários
Observação Participativa,
Testes de Usabilidade.
• Recrutamento
• Criação de tarefas específicas
• Observação e registro – ferramentas e meios
utilizados, sequências de ações, métodos de
organização, como são as interações.
• Transferências e compartilhamento de
conhecimento
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
26. Escalas de Avaliação
• NPS no celular
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
27. Contexto para Recomendação
Comportamento + Ambiente + Interações
Informação fluindo dos, e para os, usuários:
extraída do conteúdo; inferida das atividades; sensorial; explícita
(comentários, bookmarks, etc.)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
28. Contexto para Recomendação
Microphone"
Camera" GPS"
WLAN Accelerometer"
positioning"
Camera"
Databases"
Time table"
Maps"
Documents" Music Catalogue"
Websites
"
Wikipedia"
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
29. Modelos de Contexto
Requisitos"
Usabilidade do
Formalismo de Lidar com
Modelagem" Imperfeições"
Provisionamento Raciocínio"
Eficiente
do Contexto" Relacionamentos e
Dependências"
Timeliness"
Heterogeneidade"
(Bettini et al., A Survey of Context Modeling and Reasoning Techniques, 2009)!
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
30. Contexto
Ambiente
Conhecimento
Atitudes
Familiaridade
Framework para Avaliação de Sistemas de Recomendação (Knijnenburg et al 2012)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
31. Níveis de Inteligência Contextual
From Xerox PARC!
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
32. Compreensão do Processo
Não em detalhes
Etapas em alto nível
!
Stern, Herbrich,
Graepel 2009!
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
33. Music Intelligence Spearhead (MIS)
- Dispositivos móveis estão sempre com os usuários
- Ouvir música é bastante pessoal e situacional
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
34. Music Intelligence Spearhead (MIS)
• Podemos usar Contexto para melhorar recomendações de música?
• A aplicação deveria “just work”
• coletar dados contextuais;
• entender o contexto do usuário;
• recomendar quando e o que tocar.!
• Arquitetura e sistema capaz de
suportar futuras pesquisas.
• Testes com usuários em
quatro países.
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
35. Music Intelligence Spearhead (MIS)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
36. MIS - Avaliação
• 10 Usuários de música no celular | 18-32 anos
• Entrevistas em profundidade
• Cada usuário, 1 semana de uso
• Lista de tarefas acompanhadas e orientadas de forma
presencial e via SMS
• Cada usuário recebeu 80 libras como estímulo para
experimentar e comprar novas músicas.
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
37. MIS - Avaliação
Procedimentos iniciais
• Tranferência de 200 músicas
• Lista de tarefas para estimular o
uso do aplicativo e familiarização
com as telas (Percepção inicial)
• Instrução sobre os próximos
passos da avaliação
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
39. MIS - Resultados
• A recomendação deveria ser
mais rápida.
• A recomendação não foi
relevante.
• Gostei! Mas eu não compraria.
• Queria entender como isso
funciona.
• Eu gostei, mas não
recomendaria para meu amigo.
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
40. MIS - Resultados
• Eu gostei mas gostaria de
receber mais conteúdos de um
gênero específico.
• Superou minhas expectativas
• Interessante, mas gostaria de
receber as músicas de acordo
com o gênero que estou
escutando naquele determinado
momento.
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
43. MIS - Aprendizados
• Quanto mais testes melhor.
• Recompensas e Bônus não foram estímulos
significativos. O que realmente importou?
Receber o conteúdo de interesse. !
• A pesquisa deve ser Qualitativa e Quantitativa
• Maior alinhamento com a equipe de software e
desenvolvimento para melhorias contínuas e maior
controle durante a avaliação destes sistemas.
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
44. “So, if we decide that we want to strive for a comparable
standard of experience in the products that we are
designing, and therefore adopt an appropriate process
for doing so, what might that process be? Making a
contribution toward answering this question is at heart
of what follows.” Bill Buxton (Sketching User Experience)
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
45. Referências
KNIJNENBURG, B. P.; WILLEMSEN, M. C.; GARTNER, Z.; SONCU, H.; NEWELL, C.
Explaining the user experience of recommender systems. User Modeling and User-
Adapted Interaction. October 2012, Volume 22, Issue 4-5. pp 441-504. Disponível em:<
http://www.usabart.nl/portfolio/KnijnenburgWillemsen-UMUAI2011_UIRecSy.pdf>.
REICHHELD, F. F. A pergunta definitiva 2.0. Como as empresas que implementam o net
promoter score prosperam em um mundo voltado aos clientes. Rio de Janeiro: Elsevier,
2011.
BUXTON, B. Sketching User Experiences, getting the design right and the right design.
San Francisco: Elsevier, 2007.
KUNIAVSKY, M. Observing the user experience. San Francisco: Morgan Kaufmann
Publishers, 2003.
KNIJNENBURG, B. P.; WILLEMSEN, M. C.; KOBSA, A. A Pragmatic Procedure to Support
the User-Centric Evaluation of Recommender Systems. Proceedings of the fifth ACM
conference on Recommender systems. Chicago, IL, 2011. Disponível em: < http://
www.ics.uci.edu/~kobsa/papers/2011-RecSys-kobsa.pdf>.
Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"
46. Avaliação e testes em Sistemas de Recomendação | Börje Karlsson & Francimar Maciel"