@renan_oliveira
SISTEMAS DE RECOMENDAÇÃO
CARA QUE
GOSTA DE
DADOS
@renan_oliveira
O QUE VOCÊ TÁ
PROCURANDO?
5 2 2
? 3 4
5 3 ?
GOKU
SEIYA
SAITAMA
SIMILARIDADE ENTRE USUÁRIOS
1.0 0.75 0.5
0.75 1.0 0.25
0.5 0.25 1.0
SIMILARIDADE ENTRE ITENS
COLLABORATIVE
FILTERING
CONTENT
BASED
COLD
START
FAMÍLIAS DE ALGORTIMOS
COLLABORATIVE FILTERING
➤ São personalizadas
➤ O que usuário parecidos comigo “fizeram” que eu não fiz
➤ Famoso pela sua alta taxa de conversão, altamente assertivo
➤ Tem uma atualização lenta pois é preciso conhecer o usuário
➤ Usado em e-commerces do mundo todo.
➤ Famoso pelo seu uso na amazon e na netflix
➤ ALS é o seu algoritmo mais famoso
➤ “Quem comprou essa pizza também comprou…”
TRUE TRUE TRUE
FALSE FALSE TRUE
TRUE ? TRUE
GOKU
SEIYA
SAITAMA
COLLABORATIVE FILTERING PARA USUÁRIO
SEIYA GOKU SAITAMA
SEIYA PIKACHU DRAGONITE
SEIYA PIKACHU ASH
COLLABORATIVE FILTERING PARA ITEM
CONTENT-BASED
➤ Coisas parecidas com essa. Com as mesmas palavras-chaves, do mesmo tipo, etc.
➤ Algoritmos de rápida atualização
➤ Baseada no contexto do item
➤ Facilita a busca por semelhantes
➤ Precisa conhecimento do item ou do usuário
➤ A extração de features é um passo importante, saber categorizar o item é um passo
fundamental
➤ MLT é o meu algoritmo mais famoso
➤ “Veja mais pizzarias”
CONTENT-BASED PARA ITEM
RESTAURANTE
ORIGINAL
PIZZA
PRIME
ATENDIMENTO
BELA VISTA
TRADICIONAL
KEYWORDS
PIZZA - 5
PRIME - 4
ATENDIMENTO - 2
BELA VISTA - 1
TRADICIONAL - 1
RELEVÂNCIA
PIZZA - 5
REGULAR - 3
ATENDIMENTO - 2
PIZZA - 3
MORUMBI - 2
ESFIRRA - 2
PIZZA - 5
PRIME - 3
ATENDIMENTO -2
OUTRAS
PIZZARIAS
RELEVÂNCIA
RECOMENDAÇÃO
CONTENT-BASED PARA USUÁRIO
CONSUMIDAS
PIZZA -3
FRETE GRATIS - 1
PIZZA - 2
MUSSARELA - 1
TOSCANA - 1
HAMBURGUER - 4
FRITAS - 2
REFRIGERANTE - 2
RELEVÂNCIA
PIZZA - 5
HAMBURGUER - 4
MUSSARELA - 4
TOSCANA - 1
FRITAS - 2
MUSSARELA - 3
REFRIGERANTE - 2
HISTÓRICO
PIZZA
MUSSARELA
SUCO
SALADA
REFRIGERATE
SUCO
PIZZA
HAMBURGUER
REFRIGERANTE
KEYWORDS OUTROSRECOMENDAÇÃO
COLD START
➤ Baseado em regras
➤ Quando não sabem nada sobre usuário ou item
➤ Tempo de atualização rápido
➤ Não são personalizados mas devem ser segmentados
➤ Técnicas de reinforcement tem sido usados para otimizar
➤ Usa a experiência no produto: mais vistos, mais comprados, últimas compras, etc
➤ “Pizzarias mais famosas”
ENSEMBLE
➤ Usar mais de um algoritmo
➤ Cria um blend para cada serviço
➤ Pode ser por peso, cascade, temporal ou por votação
➤ Difícil saber o impacto de cada algoritmo
➤ Usa uma abordagem híbrida entre CF, CB e CS
➤ “Pizzarias que você deveria conhecer similar a essa”
AVALIAÇÃO DOS ALGORITMOS
CTRINDO ALÉM
ENGAGEMENT
DIVERSITY
COVERAGE
FRESHNESS
SERENDIPITY
150 MILHÕES DE USUÁRIOS
10000 TÍTULOS
190 PAÍSES
80% IMPACTADOS COM REC
NETFLIX
➤ Netlix Prize em 2009 (ainda entregava DVD)
➤ Precursor do mundo de Big Data e Recomendação
➤ Evangelista do uso de recomendação
➤ Recomenda vídeos, trilhos, focado no tempo de início do vídeo
➤ Tem como objetivo de produto ser 100% personalizado
217 MILHÕES DE USUÁRIOS
40 MILHÕES DE FAIXAS
50 PAÍSES
1.7 BI DE EXECUÇÕES DO DM
SPOTIFY
➤ Playlists personalizadas
➤ Patrocinou um desafio na última ACM RecSys
➤ Playlists usando CF e CB
➤ O seu sistema BART (multi-armed bandit) tem se mostrado muito eficiente
300 MILHÕES DE USUÁRIOS
120 MILHÕES DE PRODUTOS
18 PAÍSES
35% DAS COMPRAS VEM DE REC
AMAZON
➤ Um produto baseado em recomendação
➤ 20 anos usando recomendação
➤ Revolucionou o mundo do e-commerce graças a recomendação usando CF
➤ Não abrem muitos dados sobre os seus algoritmos
➤ Usando MAB e MVT tiveram uplift de mais de 20% em conversão
100 MILHÕES DE USUÁRIOS
100 MIL CONTEÚDOS POR MÊS
1 PAÍS
X% USUÁRIOS IMPACTADOS
GLOBO.COM
➤ Começou a usar em 2012
➤ Mais de 80 algoritmos
➤ Usa abordagem de ensemble por peso
➤ Todas recomendações são um teste A/B
➤ Lift de mais de 120% para controle em testes contra listagem por regras
➤ Presente em todas matérias e vídeos
➤ 200 mil recomendações por minuto
Sistemas de Recomendação
Sistemas de Recomendação

Sistemas de Recomendação

  • 1.
  • 2.
  • 3.
    O QUE VOCÊTÁ PROCURANDO?
  • 4.
    5 2 2 ?3 4 5 3 ? GOKU SEIYA SAITAMA SIMILARIDADE ENTRE USUÁRIOS
  • 5.
    1.0 0.75 0.5 0.751.0 0.25 0.5 0.25 1.0 SIMILARIDADE ENTRE ITENS
  • 6.
  • 7.
    COLLABORATIVE FILTERING ➤ Sãopersonalizadas ➤ O que usuário parecidos comigo “fizeram” que eu não fiz ➤ Famoso pela sua alta taxa de conversão, altamente assertivo ➤ Tem uma atualização lenta pois é preciso conhecer o usuário ➤ Usado em e-commerces do mundo todo. ➤ Famoso pelo seu uso na amazon e na netflix ➤ ALS é o seu algoritmo mais famoso ➤ “Quem comprou essa pizza também comprou…”
  • 8.
    TRUE TRUE TRUE FALSEFALSE TRUE TRUE ? TRUE GOKU SEIYA SAITAMA COLLABORATIVE FILTERING PARA USUÁRIO
  • 10.
    SEIYA GOKU SAITAMA SEIYAPIKACHU DRAGONITE SEIYA PIKACHU ASH COLLABORATIVE FILTERING PARA ITEM
  • 11.
    CONTENT-BASED ➤ Coisas parecidascom essa. Com as mesmas palavras-chaves, do mesmo tipo, etc. ➤ Algoritmos de rápida atualização ➤ Baseada no contexto do item ➤ Facilita a busca por semelhantes ➤ Precisa conhecimento do item ou do usuário ➤ A extração de features é um passo importante, saber categorizar o item é um passo fundamental ➤ MLT é o meu algoritmo mais famoso ➤ “Veja mais pizzarias”
  • 12.
    CONTENT-BASED PARA ITEM RESTAURANTE ORIGINAL PIZZA PRIME ATENDIMENTO BELAVISTA TRADICIONAL KEYWORDS PIZZA - 5 PRIME - 4 ATENDIMENTO - 2 BELA VISTA - 1 TRADICIONAL - 1 RELEVÂNCIA PIZZA - 5 REGULAR - 3 ATENDIMENTO - 2 PIZZA - 3 MORUMBI - 2 ESFIRRA - 2 PIZZA - 5 PRIME - 3 ATENDIMENTO -2 OUTRAS PIZZARIAS RELEVÂNCIA RECOMENDAÇÃO
  • 13.
    CONTENT-BASED PARA USUÁRIO CONSUMIDAS PIZZA-3 FRETE GRATIS - 1 PIZZA - 2 MUSSARELA - 1 TOSCANA - 1 HAMBURGUER - 4 FRITAS - 2 REFRIGERANTE - 2 RELEVÂNCIA PIZZA - 5 HAMBURGUER - 4 MUSSARELA - 4 TOSCANA - 1 FRITAS - 2 MUSSARELA - 3 REFRIGERANTE - 2 HISTÓRICO PIZZA MUSSARELA SUCO SALADA REFRIGERATE SUCO PIZZA HAMBURGUER REFRIGERANTE KEYWORDS OUTROSRECOMENDAÇÃO
  • 14.
    COLD START ➤ Baseadoem regras ➤ Quando não sabem nada sobre usuário ou item ➤ Tempo de atualização rápido ➤ Não são personalizados mas devem ser segmentados ➤ Técnicas de reinforcement tem sido usados para otimizar ➤ Usa a experiência no produto: mais vistos, mais comprados, últimas compras, etc ➤ “Pizzarias mais famosas”
  • 15.
    ENSEMBLE ➤ Usar maisde um algoritmo ➤ Cria um blend para cada serviço ➤ Pode ser por peso, cascade, temporal ou por votação ➤ Difícil saber o impacto de cada algoritmo ➤ Usa uma abordagem híbrida entre CF, CB e CS ➤ “Pizzarias que você deveria conhecer similar a essa”
  • 16.
    AVALIAÇÃO DOS ALGORITMOS CTRINDOALÉM ENGAGEMENT DIVERSITY COVERAGE FRESHNESS SERENDIPITY
  • 17.
    150 MILHÕES DEUSUÁRIOS 10000 TÍTULOS 190 PAÍSES 80% IMPACTADOS COM REC
  • 18.
    NETFLIX ➤ Netlix Prizeem 2009 (ainda entregava DVD) ➤ Precursor do mundo de Big Data e Recomendação ➤ Evangelista do uso de recomendação ➤ Recomenda vídeos, trilhos, focado no tempo de início do vídeo ➤ Tem como objetivo de produto ser 100% personalizado
  • 21.
    217 MILHÕES DEUSUÁRIOS 40 MILHÕES DE FAIXAS 50 PAÍSES 1.7 BI DE EXECUÇÕES DO DM
  • 22.
    SPOTIFY ➤ Playlists personalizadas ➤Patrocinou um desafio na última ACM RecSys ➤ Playlists usando CF e CB ➤ O seu sistema BART (multi-armed bandit) tem se mostrado muito eficiente
  • 24.
    300 MILHÕES DEUSUÁRIOS 120 MILHÕES DE PRODUTOS 18 PAÍSES 35% DAS COMPRAS VEM DE REC
  • 25.
    AMAZON ➤ Um produtobaseado em recomendação ➤ 20 anos usando recomendação ➤ Revolucionou o mundo do e-commerce graças a recomendação usando CF ➤ Não abrem muitos dados sobre os seus algoritmos ➤ Usando MAB e MVT tiveram uplift de mais de 20% em conversão
  • 27.
    100 MILHÕES DEUSUÁRIOS 100 MIL CONTEÚDOS POR MÊS 1 PAÍS X% USUÁRIOS IMPACTADOS
  • 28.
    GLOBO.COM ➤ Começou ausar em 2012 ➤ Mais de 80 algoritmos ➤ Usa abordagem de ensemble por peso ➤ Todas recomendações são um teste A/B ➤ Lift de mais de 120% para controle em testes contra listagem por regras ➤ Presente em todas matérias e vídeos ➤ 200 mil recomendações por minuto