Introdução aos sistemas de recomendação usando Machine Learning

Como a e a sabem
o que quer comprar e assistir?
@MumHaBR
#recommendersystems
#datascience
#predictionIO
https://br.linkedin.com/in/rafaelleonhardt

• inteligência artificial
• algoritmos e técnicas que aprendem
• extrai regras e padrões
• mineração de dados e estatísticas
Fonte: https://pt.wikipedia.org/wiki/Aprendizado_de_máquina

Áreas de aplicação
LOGÍSTICA
manutenção
rota de entrega
self-driver
carregamento
gestão de risco
ACESSO & SEGURANÇA
identificação
reconhecimento
monitoramento
robôs autônomos
ERP
manutenção
anti-fraude
otimização
ações automáticas
vendas
e-commerce
RH
turn-over
contratações
promoção
treinamentos

Areas de aplicação
COMMERCE
produtos
serviços
MARKETING
campanhas
nichos
HELP-DESK
respostas
auto-preenchimento

Métodos comuns
SUPERVISIONADO NÃO SUPERVISIONADO
Na cesta tem:
• Maça (vermelha, médio),
• Uva (verde, pequeno)
• Banana (amarela, médio), etc.
Classificações: Maça, Uva, Banana, etc
Não sei o que tem na cesta.
Atributos: cor, tamanho, etc
Grupos: A, B, C, D, E, F, etc

Coleta de dados – EXPLÍCITA
[ ? ] Eu possuo
[ ? ] Não tenho interesse
[ ? ] Avalie este item
[ ? ] Classificação
[ ? ] Minha lista
[ ? ] Gosto de: ação, suspense, etc

Vocês são sinceros ao avaliar um produto?
Gera recomendações de alta qualidade
SEMPRE avaliam um produto?
Geralmente avaliamos poucos itens.
O que os motiva avaliarem?
Geralmente nos extremos: muito bom ou muito ruim.
Quantos filmes e séries faltam assistir para “ZERAR” o Netflix?
Um usuário consome um % pequeno de itens e avalie menos ainda.
Coleta de dados – EXPLÍCITA

Coleta de dados – IMPLÍCITA
[ ! ] Porque você comprou “It´s so easy”
[ ! ] Porque você visualizou “X”
[ ! ] Porque você compartilhou “Y”
[ ! ] Porque você assistiu “Marco Polo”
Outras formas:
• Tipo do dispositivo utilizado
• Browser utilizado
• Região de onde está acessando
• Histórico de navegação

Em um site, quais informações eles sabem de vocês?
Eles sabem, gostem ou não. (Celular, Browser, Cidade, Horário, Navegação, etc)
Vocês já compraram algo que não era para vocês?
Eu comprei o livro Slash e o Peppa Pig.
Logo, quem gosta de Guns gosta de Peppa?
Mais alguém da casa usa sua conta?
Eu escuto Guns N Roses e minha filha Xuxa.
Coleta de dados – IMPLÍCITA
Como resolver?
- detectar ações fora do padrão e ignorar
- permitir aos usuários corrigirem

Passo 2 – escolher a técnica de recomendação

Técnica – Filtragem Colaborativa por Usuário
Avaliações

?
? ?
? ?
Predição

100% 20% 80%
20% 100% 50%
80% 50% 100%
Similaridade
Opções de cálculo:
• Coseno
• Distância Euclidiana
• Coeficiente de Pearson
• Coeficiente de Jaccard
• etc

80%

Vantagens
• Não precisa de detalhes sobre os itens (produtos)
• Usuários geram mais informações voluntariamente

Vantagens
Problemas
• Novos produtos e usuários

Vantagens
Problemas
• Itens populares

Vantagens
Problemas
• Itens populares
• Esparcidade
(avaliações do usuário X qtde produtos)

Vantagens
Problemas
• Itens populares
• Esparcidade
• Maior processamento - 18 milhões de usuários

Vantagens
Problemas
• Itens populares
• Esparcidade
• Maior processamento
• Precisa de um volume grande de avaliações do usuário para ser assertivo

Técnica – Filtragem Colaborativa por Produto
Avaliações

?
? ?
? ?
Predição

100% 90% 40% 10%
90% 100% 60% 40%
40% 60% 100% 50%
10% 40% 50% 100%
Similaridade

Vantagens
• Não precisa de detalhes sobre os produtos
• Menos processamento
• Menor esparcidade
• Não precisa recalcular as similaridade toda hora
Problemas
• Itens populares
• Mais complexo

Técnica – Baseada em Conteúdo
Suspense
Ação
Violência
Suspense
Violência
Sitcom
Humor
Desenho
Humor
Infantil
série dramática
e pós-
apocalíptica co
m zumbis;
sobre os
primeiros anos
de Marco Polo
no Império
Mongol
Sitcom sobre
grupo de
amigos que
vivia em Nova
York
Série britânica
de desenhos
animados para
crianças em
idade pré-
escolar
Termo Frequência Relevância
Suspense 2 8
Violência 2 8
Humor 2 8
Desenho 1 10
Amigos 1 10
de 3 6
Etc ...
TF-IDF

Termo Frequência Relevância
Suspense 2 (walking, polo) 8
Violência 2 (walking, polo) 8
Humor 2 (freinds, peppa) 8
Desenho 1 (peppa) 10
Amigos 1 (friends) 10
de 3 (polo, friends, peppa) 6
Etc ...
TF-IDF
Pesquisar por:
• “desenho”
• Peppa
• “de amigos”
• Friends (10)
• Polo (6)
• Peppa (6)

Vantagens
• Não depende de dados de outros usuários
• Novos produtos e não populares podem ser recomendados
Problemas
• Difícil identificar quais atributos são importantes descrever
• Novos usuários
• Mesmos itens (itens de maior relevância)

Técnicas – Híbrida
PONDERADA ALTERNADA COMBINADA

Como avaliar a precisão?
• Mean Absolute Error
• Mean Squared error
• Root Mean Squared Error
Acurácia
quanto a recomendação foi assertiva
Cobertura
% de produtos e usuários com
recomendação
Diversidade
variedade de produtos
recomendados

Passo 3 – escolher a tecnologia

open source machine learning stack for
building, evaluating and deploying engines
with machine learning algorithms.

Passo 1 – importar os dados e treinar

Passo 2 – Recomendar e coletar

https://www.youtube.com/watch?v=O8-EaDoBSCQ

Obrigado!
@MumHaBR
https://br.linkedin.com/in/rafaelleonhardt

Introdução aos sistemas de recomendação usando Machine Learning

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Introdução aos sistemas de recomendação usando Machine Learning

Semelhante a Introdução aos sistemas de recomendação usando Machine Learning (20)

Introdução aos sistemas de recomendação usando Machine Learning

Notas do Editor