Sistemas de recomendação analisam as preferências dos usuários para filtrar e sugerir conteúdo personalizado. Os principais algoritmos incluem collaborative filtering, que usa preferências de outros usuários, e content-based, que recomenda itens similares. Ferramentas como Spark e plataformas de API podem implementar sistemas de recomendação em diferentes domínios.
3. Marlesson Santana
● Pesquisado no Deep Learning Brasil - UFG
● CDO na CQuantt Consultoria em Big Data e Machine
Learning
● Community Manager do Data Hackers e Data Train
4. Sumário
● Introdução a RecSys
● Principáis Algoritmos
● Arquitetura e Ferramentas
● Como avaliar um RecSys?
● Conclusão
6. RecSys é o processo que usa
as preferências do usuário
para filtrar e sugerir
conteúdo personalizado.
7. ● ~150 M de usuários
● ~10.000 títulos
● 190 Países
● 80% impactados
com RecSys
● Recomendações
além de filmes
NETFLIX
8. ● 300 M de usuários
● 120 M de produtos
● 18 países
● 35% das compras
vem de RecSys
● 20 anos usando
Recomendações
AMAZON
9. ● 217 M de usuários
● 40 M de faixas
● 50 países
● RecSys Interativo
SPOTIFY
10. RecSys
● É aplicável em diferentes domínios
● Otimiza a experiência do usuário dentro da plataforma
● Retém o usuário dentro da plataforma
● Revela padrões de consumo com base nas preferências que
podem ser utilizados em outros setores
11. Estamos a todo tempo deixando
rastros das nossas preferências pela
internet
RecSys
12. RecSys - O que são preferências?
● Suas interações e/ou notas concedidas para determinado conteúdo
● Podem ser do tipo explícita ou implícita
● São armazenadas ao longo da utilização do sistema
Ex: curtidas, ratings, pause ou rewind, tempo de leitura,
compartilhamentos.. etc
15. RecSys - Content Based
Algoritmos de CB utilizam da similaridade entre
conteúdos para recomendar.
1. Analiza histórico do consumo
2. Recomenda os conteúdos mais similares que o usuário
ainda não viu
“Já que você comprou ‘O Senhor dos Anéis’, também recomendamos ‘O Hobbit’
16. RecSys - Content Based
Algoritmos de CB utilizam da similaridade entre
conteúdos para recomendar.
1. Analiza histórico do consumo
2. Recomenda os conteúdos mais similares que o usuário
ainda não viu
Mas o que é similaridade?
23. RecSys - Content Based
Características do modelo:
● Algoritmo de rápida atualização
● Necessidade de modelagem de atributos
● Gera efeito de “bolha de consumo”
25. RecSys - Collaborative Filtering
Utiliza preferências de outros usuários para
recomendar
1. Analizar histórico de interações de todos os usuários
2. Tenta “estimar” qual seria o valor da preferência do
usuário para um item
“Pessoas que assistiram o ‘O Senhor dos Anéis’ também assistiram “Star Wars”
26. RecSys - Collaborative Filtering
Os algoritmos de FC utilizam a matriz
de interação com o objetivo de inferir
os valores faltantes.
● Similaridade - KNN
● Fatoração de Matrizes - ALS, SVD
● Deep Learning
29. RecSys - Collaborative Filtering - AutoEncoders
O modelo usa a representação do usuário
como um vetor de scores x ∈ ℝn, onde n
é o número de itens. X = [3, 4, 2, 5, 5 ...]
O AE após treinamento, a entrada do
modelo é o vetor esparso e saída o vetor
completo.
30. RecSys - Collaborative Filtering
Características do modelo:
● Simples de modelar e implementar
● Necessita de muitos dados históricos de
preferências
● Pode ser computacionalmente custoso
● Problema de Cold Start
32. RecSys - Cold Start
O que fazer quando não sabemos nada ou pouco sobre o
usuário ?
33. RecSys - Cold Start
O que fazer quando não sabemos nada ou pouco sobre o
usuário ?
● Listas de TOP-n
● Listas personalizadas por curadoria
● Clusterização por Geolocalização ou poucas informações
“Assista os filmes mais bem avaliados da nossa plataforma”
42. Métricas de RecSys
Click-Through Rate
Conversão
Tempo no Site
Retenção
….
Baseadas no Erro (MAE, MSE)
Precisão
Ranking
...
Em RecSys as métricas podem ser do tipo online ou offline.
43. Métricas de RecSys - offline - MAE
Métricas baseadas no erro médio são mais utilizadas nos algoritmos
de regressão e predição das preferências
44. Métrica simples que calcula a precisão binária. Itens mais relevantes
devem aparecer à frente de itens menos relevantes
Métricas de RecSys - offline - Precision@k
1 2 3 4 5
Precision@3 = 2/3 = 0.66
Precision@4 = 3/4 = 0.75
Precision@5 = 3/5 = 0.6
45. Métrica alternativa que contabiliza a ordem que o item aparece na lista de
recomendação.
Métricas de RecSys - offline - DCG@k
1 2 3 4 5
DCG@3 = 3,32 + 0 + 1.10 = 4.42
DCG@4 = ...
DCG@5 = ...
46. Mais Métricas...
CTR
Taxa de Cliques. Se o que foi
recomendado foi acessado.
Cobertura
Se todos os conteúdos da
base estão sendo
recomendados para alguém?
Diversidade
Se a recomendação está
diversificada.
Engajamento
Se além de clicar o usuário
engajou na recomendação
(compartilhou, comentou.. etc).
Novidade
O quão nova é a
recomendação.
Surpresa
Fator surpresa do que está
sendo recomendado.
47. Conclusão
● Qualquer sistema que ofereça conteúdo ao usuário pode ser
otimizado por RecSys independente do tipo do conteúdo.
● Conhecer os padrões de consumo do seu cliente é fundamental em
diversas outras áreas
● RecSys é um sistema complexo que envolve desde a coleta das
informações a entrega da recomendação.