SlideShare uma empresa Scribd logo
1 de 32
Baixar para ler offline
Recommender system
from Scratch
Boaz 11기 위승민
Boaz 11기 박효선
Boaz 11기 박보정
Boaz 11기 신승진
Overview
Content Based Filtering
Data
Trivago
Insight
‘Recsys from Scratch’
Implementation
Introduction
Recommendation system
Conclusion
Contents
Introduction
문제의식
글로벌 추천 개인화 추천
모든 고객에 대한 추천 모델
평점, 가격, 거리
개인 고객별 추천 모델
???
평점
거리
성급 가격
프로모션
고객의 행동
(=로그데이터)
사용해 개인화 추천시스템 모델을
만들 수 있지 않을까?
Introduction
Trivago
https://recsys.trivago.cloud/challenge/dataset/
데이터 출처
Resources
Search engine
Meta search engine
Introduction
Trivago
• 호텔과 직접 계약하는 플랫폼 X
• 호텔 검색엔진들의 검색엔진
• 일종의 중개매체
도메인
Hotels
Hotel Hotel Hotel Hotel Hotel Hotel
Introduction
Trivago
=수익발생 !!
Click out
유저가 click out, 즉 트리바고에서 상품을 클릭해서 계약된 사이트로 가면
계약된 사이트에서 Trivago 에게 비용을 지불
Trivago 는 유저가 click out 을 가장 많이 하도록 유도해야 한다.
추천의 정의
Introduction
Data
• 한 유저가 여러 번 접속한다.
• 한 유저의 세션이 여러 개이다.
유저 896,088 명
세션 1,141,446 개
유저1
유저2
유저3
유저4
2018-11-06 2018-11-082018-11-01
유저와 세션의 개념
세션1
X
세션2세션1 세션3 세션4
X X X X ?X
세션1 세션2
X X X ?
세션1 세션2
X ?
Introduction
Data
세션 내 유저행동의 개념
실제 UI 에서 행동한 하나 하나의 단위
• 어떤 행동을 했는지 .
• 무엇과 상호작용 했는지
데이터의 트랜젝션
• Action_type
• Reference .
유저의 행동 정보
세션 based
Introduction
Data 세션 내 유저행동의 개념
• 유저의 행동을 반영하는 추천 시스템
• 유저의 세션을 기반으로 분석
개인화 모델
Introduction
Trivago
Goal
유저가 click out 할 것 같은 순서로 Top 25 호텔 추천
Estimation : MRR
추천한 25개 중에 유저가 실제로 click out 한 호텔의 순위점수
목표와 평가
1.
2.
3. Test data : 121,526개의 session의 ‘click out’을 맞혀라
Content Based Filtering
Collaborative Filtering
Introduction
Recommendation system
Conclusion
Contents
Recommendation system
Content Based Filtering
Metadata
트리바고 사이트에서
얻을 수 있는 호텔의 특징
=> 크게 4 가지로 분류
Mexico City, Four Seasons Hotel
Sort by: ‘intersect count’
Mexico City, The Saint Hotel
Recommendation system
Content Based Filtering
이 유저가 실제로 상호작용한 아이템
이 유저가 실제로 Click out한 아이템
The Saint Hotel
Four Seasons Hotel
Algorithm MRR
Content
Based Filtering 0.446
Recommendation system
Content Based Filtering
Sorting Score
Recommendation system
Collaborative Filtering
두 가지 문제점
1 Feedback
유저와 아이템 간의 상호작용의 희소성유저의 선호도를 나타내는 지표가 없음
2 Sparsity
: 이용자가 직접 평가한 점수 = 선호도 지표
평점
좋아요
Explicit rating
1 Feedback
Problem
: 유저의 직접적인 평가가 아님. 유저들의 행동들을 관측하여 그들의 행동에서 그들의 선호도를 파악.
사용자가 어떤 아이템을 조회했는지 사용자의 시청 횟수, 머문 시간 등
Explicit rating → Implicit rating
1 Feedback
Solution
2. Dwelling time
더 오랜 시간 상호작용한 아이템일 수록
유저의 선호도가 높다.
1. Interaction count
상호작용(사진〮정보 보기)을 많이 한 아이템일 수록
유저의 선호도가 높다.
Explicit rating → Implicit rating
1 Feedback
Solution
Item_id
Session_id
666856 109038 1257342 … 3377332 3066244
1d688ec168932 4 2
f05ab0de907e2
26b6d294d66e7 10
…
4a01c3afbc224
07628a0f5be0b 23
928016 개
Train 에 사용한 matrix : 1141446 * 928016
Test 에 사용한 matrix : 121526 * 929016
Sparse Matrix
보통 사용자들은 굉장히 적은 item에 대해서만 interaction을 함
2 Sparsity
Problem
Session_id 당 interaction하는(implicit rating 값이 있는) item_id 수
mean 2.68132
Min 1
Q1 1
Q2 2
Q3 3
Max 166
2 Sparsity
Problem
Sparse Matrix
보통 사용자들은 굉장히 적은 item에 대해서만 interaction을 함
user
co-rated user: 6
Hilton, Busan
Highest Rating
Recommendation system
Neighborhood Model
Lotte Shilla Joseo
n
Hyatt HILTON
보정 5 7
승민 3 8 1
승진 2
효선
승현 1 10 1
대왕 2 2
Recommendation system
Neighborhood Model
Item similarity: Cosine Similarity
Paradise Hotel, BusanHilton, Busan
Recommendation system
Neighborhood Model
Recommendation system
Neighborhood Model
Algorithm MRR
Neighborhood
Model
0.645
Paradise Hotel, Busan
𝜇 : 전체 rating의 평균
𝑏 𝑢 : 특정 user의 deviation(평균과 얼마나 차이가 있나)
𝑏𝑖 : 특정 item의 deviation(평균과 얼마나 차이가 있나)
Item_id
Session_id 666856 109038 1257342 … 3377332 3066244
1d688ec168932
4 2
f05ab0de907e2
26b6d294d66e7
10
…
4a01c3afbc224
07628a0f5be0b
23
Baseline Only Algorithm
Recommendation system
Matrix Factorization
m X n m X r r X r r X n
SVD(Singular Value Decomposition) Algorithm
Data
User의 특징
Item의 특징
Recommendation system
Matrix Factorization
SVD(Singular Value Decomposition) Algorithm
추천 문제를-> 최적화 문제로 전환
한 유저에 대해서 어떤 아이템에 대한 레이팅을 얼마나 잘 예측하냐를 보는 것(RMSE)
Recommendation system
Matrix Factorization
Algorithm Test RMSE
SVD 6.5272
SVDpp 6.7223
BaselineOnly 6.3431
MRR
0.350
Reference count
Range 1 ~ 21
Recommendation system
Matrix Factorization
Dwelling time
Recommendation system
Matrix Factorization
Algorithm
Log Second
Test RMSE
Log Minute
Test RMSE
SVD 2.6106 2.2347
SVDpp 2.6097 2.2337
BaselineOnly 2.6115 2.2332
MRR 0.472 MRR 0.419
Dwelling time
Recommendation system
Matrix Factorization
Recommendation system
Best Model
Algorithm MRR
Content-based 0.446
[CF] Neighborhood 0.645
[CF] SVD
0.471
(dwelling time)
Ensemble (reference count + SVD) 0.767
1. 호텔 도메인
- 호텔의 특징(‘FILTER’, ‘호텔 특징')은 중요한 지표가 아니다.
- 중요한 지표는 ‘유저의 행동‘ (‘INTERACTION COUNT’, ‘DWELLING TIME’)
2. 모델
- Neighborhood 모델 GOOD
- 앙상블 모델과 Collaborative Filtering 함께 사용 추천
Recommendation system
Conclusion

Mais conteúdo relacionado

Mais procurados

제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드
BOAZ Bigdata
 

Mais procurados (20)

제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Find Your Style 팀] : 사용자 이미지 라벨링을 통한 의류 추천 시스템
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Find Your Style 팀] : 사용자 이미지 라벨링을 통한 의류 추천 시스템제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Find Your Style 팀] : 사용자 이미지 라벨링을 통한 의류 추천 시스템
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Find Your Style 팀] : 사용자 이미지 라벨링을 통한 의류 추천 시스템
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Indus2ry 팀] : 2022산업동향- 편의점 & OTT 완벽 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Indus2ry 팀] : 2022산업동향- 편의점 & OTT 완벽 분석제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Indus2ry 팀] : 2022산업동향- 편의점 & OTT 완벽 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Indus2ry 팀] : 2022산업동향- 편의점 & OTT 완벽 분석
 
제9회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 너의 기분 이모지(emoji)?
제9회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 너의 기분 이모지(emoji)?제9회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 너의 기분 이모지(emoji)?
제9회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 너의 기분 이모지(emoji)?
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BICS팀] : Boaz Industry Classification Standard
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BICS팀] : Boaz Industry Classification Standard제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BICS팀] : Boaz Industry Classification Standard
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BICS팀] : Boaz Industry Classification Standard
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [대법관 김보아즈팀] : 일상 속 뉴스를 신속하게 ! 뉴스 속 판례를 정확하게 !
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [대법관 김보아즈팀] : 일상 속 뉴스를 신속하게 ! 뉴스 속 판례를 정확하게 ! 제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [대법관 김보아즈팀] : 일상 속 뉴스를 신속하게 ! 뉴스 속 판례를 정확하게 !
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [대법관 김보아즈팀] : 일상 속 뉴스를 신속하게 ! 뉴스 속 판례를 정확하게 !
 
추천시스템 이제는 돈이 되어야 한다.
추천시스템 이제는 돈이 되어야 한다.추천시스템 이제는 돈이 되어야 한다.
추천시스템 이제는 돈이 되어야 한다.
 
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
 
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
 

Semelhante a 제10회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 밑바닥부터 시작하는 trivago 추천시스템

Web analytics 2.0 study ch.4-4.5
Web analytics 2.0 study ch.4-4.5Web analytics 2.0 study ch.4-4.5
Web analytics 2.0 study ch.4-4.5
Eunyoung Kim
 
Recommendation System History
Recommendation System HistoryRecommendation System History
Recommendation System History
Tae Young Lee
 
전자상거래 협업필터링
전자상거래 협업필터링전자상거래 협업필터링
전자상거래 협업필터링
InJae Hwang
 
Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9
Eunyoung Kim
 

Semelhante a 제10회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 밑바닥부터 시작하는 trivago 추천시스템 (20)

Web analytics 2.0 study ch.4-4.5
Web analytics 2.0 study ch.4-4.5Web analytics 2.0 study ch.4-4.5
Web analytics 2.0 study ch.4-4.5
 
유사 이미지 검색 기술 동향 - Pinterest 사례
유사 이미지 검색 기술 동향 - Pinterest 사례유사 이미지 검색 기술 동향 - Pinterest 사례
유사 이미지 검색 기술 동향 - Pinterest 사례
 
레코픽 설명회 15회-개인화 추천(with DMC미디어)
레코픽 설명회 15회-개인화 추천(with DMC미디어)레코픽 설명회 15회-개인화 추천(with DMC미디어)
레코픽 설명회 15회-개인화 추천(with DMC미디어)
 
Recommendatioin system basic
Recommendatioin system basicRecommendatioin system basic
Recommendatioin system basic
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
 
Recommendation System History
Recommendation System HistoryRecommendation System History
Recommendation System History
 
SKPlanet 추천 플랫폼 콜로세오 - SK ICT Tech Summit 2017 SKPlanet 추천 플랫폼 콜로세오 - SK IC...
SKPlanet 추천 플랫폼 콜로세오  - SK ICT Tech Summit 2017 SKPlanet 추천 플랫폼 콜로세오  - SK IC...SKPlanet 추천 플랫폼 콜로세오  - SK ICT Tech Summit 2017 SKPlanet 추천 플랫폼 콜로세오  - SK IC...
SKPlanet 추천 플랫폼 콜로세오 - SK ICT Tech Summit 2017 SKPlanet 추천 플랫폼 콜로세오 - SK IC...
 
[4차]왓챠 알고리즘 분석(151106)
[4차]왓챠 알고리즘 분석(151106)[4차]왓챠 알고리즘 분석(151106)
[4차]왓챠 알고리즘 분석(151106)
 
Survey - 카페 추천 기술기획 (2014-02-10)
Survey - 카페 추천 기술기획 (2014-02-10)Survey - 카페 추천 기술기획 (2014-02-10)
Survey - 카페 추천 기술기획 (2014-02-10)
 
리텐션의 산출과 활용
리텐션의 산출과 활용리텐션의 산출과 활용
리텐션의 산출과 활용
 
공예 온라인 클래스 트렌드 분석
공예 온라인 클래스 트렌드 분석공예 온라인 클래스 트렌드 분석
공예 온라인 클래스 트렌드 분석
 
전자상거래 협업필터링
전자상거래 협업필터링전자상거래 협업필터링
전자상거래 협업필터링
 
Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9
 
디지털시대 고객분석과 대응(세종대 이동일교수)
디지털시대 고객분석과 대응(세종대 이동일교수)디지털시대 고객분석과 대응(세종대 이동일교수)
디지털시대 고객분석과 대응(세종대 이동일교수)
 
키워드 광고 효과분석과 활용
키워드 광고 효과분석과 활용키워드 광고 효과분석과 활용
키워드 광고 효과분석과 활용
 
검색엔진최적화의 기본 비영리세미나용
검색엔진최적화의 기본 비영리세미나용검색엔진최적화의 기본 비영리세미나용
검색엔진최적화의 기본 비영리세미나용
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기
 
"Be careful: things can be worse than they appear": Understanding Biased Algo...
"Be careful: things can be worse than they appear": Understanding Biased Algo..."Be careful: things can be worse than they appear": Understanding Biased Algo...
"Be careful: things can be worse than they appear": Understanding Biased Algo...
 
AD fresca 서비스 소개서
AD fresca 서비스 소개서AD fresca 서비스 소개서
AD fresca 서비스 소개서
 

Mais de BOAZ Bigdata

Mais de BOAZ Bigdata (20)

제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [디버깅 드래곤즈] : 실시간 채용공고 요약 Slack Bot
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [디버깅 드래곤즈] : 실시간 채용공고 요약 Slack Bot제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [디버깅 드래곤즈] : 실시간 채용공고 요약 Slack Bot
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [디버깅 드래곤즈] : 실시간 채용공고 요약 Slack Bot
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [투니버스] : 스파크 기반 네이버 웹툰 댓글 수집 및 분석
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [투니버스] : 스파크 기반 네이버 웹툰 댓글 수집 및 분석제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [투니버스] : 스파크 기반 네이버 웹툰 댓글 수집 및 분석
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [투니버스] : 스파크 기반 네이버 웹툰 댓글 수집 및 분석
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아酒] : 리뷰 감정분석을 통한 전통주 추천 서비스
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아酒] : 리뷰 감정분석을 통한 전통주 추천 서비스제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아酒] : 리뷰 감정분석을 통한 전통주 추천 서비스
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아酒] : 리뷰 감정분석을 통한 전통주 추천 서비스
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
 

제10회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 밑바닥부터 시작하는 trivago 추천시스템

  • 1. Recommender system from Scratch Boaz 11기 위승민 Boaz 11기 박효선 Boaz 11기 박보정 Boaz 11기 신승진
  • 2. Overview Content Based Filtering Data Trivago Insight ‘Recsys from Scratch’ Implementation Introduction Recommendation system Conclusion Contents
  • 3. Introduction 문제의식 글로벌 추천 개인화 추천 모든 고객에 대한 추천 모델 평점, 가격, 거리 개인 고객별 추천 모델 ??? 평점 거리 성급 가격 프로모션 고객의 행동 (=로그데이터) 사용해 개인화 추천시스템 모델을 만들 수 있지 않을까?
  • 5. Resources Search engine Meta search engine Introduction Trivago • 호텔과 직접 계약하는 플랫폼 X • 호텔 검색엔진들의 검색엔진 • 일종의 중개매체 도메인 Hotels Hotel Hotel Hotel Hotel Hotel Hotel
  • 6. Introduction Trivago =수익발생 !! Click out 유저가 click out, 즉 트리바고에서 상품을 클릭해서 계약된 사이트로 가면 계약된 사이트에서 Trivago 에게 비용을 지불 Trivago 는 유저가 click out 을 가장 많이 하도록 유도해야 한다. 추천의 정의
  • 7. Introduction Data • 한 유저가 여러 번 접속한다. • 한 유저의 세션이 여러 개이다. 유저 896,088 명 세션 1,141,446 개 유저1 유저2 유저3 유저4 2018-11-06 2018-11-082018-11-01 유저와 세션의 개념 세션1 X 세션2세션1 세션3 세션4 X X X X ?X 세션1 세션2 X X X ? 세션1 세션2 X ?
  • 8. Introduction Data 세션 내 유저행동의 개념 실제 UI 에서 행동한 하나 하나의 단위 • 어떤 행동을 했는지 . • 무엇과 상호작용 했는지 데이터의 트랜젝션 • Action_type • Reference .
  • 9. 유저의 행동 정보 세션 based Introduction Data 세션 내 유저행동의 개념 • 유저의 행동을 반영하는 추천 시스템 • 유저의 세션을 기반으로 분석 개인화 모델
  • 10. Introduction Trivago Goal 유저가 click out 할 것 같은 순서로 Top 25 호텔 추천 Estimation : MRR 추천한 25개 중에 유저가 실제로 click out 한 호텔의 순위점수 목표와 평가 1. 2. 3. Test data : 121,526개의 session의 ‘click out’을 맞혀라
  • 11. Content Based Filtering Collaborative Filtering Introduction Recommendation system Conclusion Contents
  • 12. Recommendation system Content Based Filtering Metadata 트리바고 사이트에서 얻을 수 있는 호텔의 특징 => 크게 4 가지로 분류
  • 13. Mexico City, Four Seasons Hotel Sort by: ‘intersect count’ Mexico City, The Saint Hotel Recommendation system Content Based Filtering 이 유저가 실제로 상호작용한 아이템 이 유저가 실제로 Click out한 아이템 The Saint Hotel Four Seasons Hotel
  • 14. Algorithm MRR Content Based Filtering 0.446 Recommendation system Content Based Filtering Sorting Score
  • 15. Recommendation system Collaborative Filtering 두 가지 문제점 1 Feedback 유저와 아이템 간의 상호작용의 희소성유저의 선호도를 나타내는 지표가 없음 2 Sparsity
  • 16. : 이용자가 직접 평가한 점수 = 선호도 지표 평점 좋아요 Explicit rating 1 Feedback Problem
  • 17. : 유저의 직접적인 평가가 아님. 유저들의 행동들을 관측하여 그들의 행동에서 그들의 선호도를 파악. 사용자가 어떤 아이템을 조회했는지 사용자의 시청 횟수, 머문 시간 등 Explicit rating → Implicit rating 1 Feedback Solution
  • 18. 2. Dwelling time 더 오랜 시간 상호작용한 아이템일 수록 유저의 선호도가 높다. 1. Interaction count 상호작용(사진〮정보 보기)을 많이 한 아이템일 수록 유저의 선호도가 높다. Explicit rating → Implicit rating 1 Feedback Solution
  • 19. Item_id Session_id 666856 109038 1257342 … 3377332 3066244 1d688ec168932 4 2 f05ab0de907e2 26b6d294d66e7 10 … 4a01c3afbc224 07628a0f5be0b 23 928016 개 Train 에 사용한 matrix : 1141446 * 928016 Test 에 사용한 matrix : 121526 * 929016 Sparse Matrix 보통 사용자들은 굉장히 적은 item에 대해서만 interaction을 함 2 Sparsity Problem
  • 20. Session_id 당 interaction하는(implicit rating 값이 있는) item_id 수 mean 2.68132 Min 1 Q1 1 Q2 2 Q3 3 Max 166 2 Sparsity Problem Sparse Matrix 보통 사용자들은 굉장히 적은 item에 대해서만 interaction을 함
  • 21. user co-rated user: 6 Hilton, Busan Highest Rating Recommendation system Neighborhood Model Lotte Shilla Joseo n Hyatt HILTON 보정 5 7 승민 3 8 1 승진 2 효선 승현 1 10 1 대왕 2 2
  • 22. Recommendation system Neighborhood Model Item similarity: Cosine Similarity
  • 23. Paradise Hotel, BusanHilton, Busan Recommendation system Neighborhood Model
  • 24. Recommendation system Neighborhood Model Algorithm MRR Neighborhood Model 0.645 Paradise Hotel, Busan
  • 25. 𝜇 : 전체 rating의 평균 𝑏 𝑢 : 특정 user의 deviation(평균과 얼마나 차이가 있나) 𝑏𝑖 : 특정 item의 deviation(평균과 얼마나 차이가 있나) Item_id Session_id 666856 109038 1257342 … 3377332 3066244 1d688ec168932 4 2 f05ab0de907e2 26b6d294d66e7 10 … 4a01c3afbc224 07628a0f5be0b 23 Baseline Only Algorithm Recommendation system Matrix Factorization
  • 26. m X n m X r r X r r X n SVD(Singular Value Decomposition) Algorithm Data User의 특징 Item의 특징 Recommendation system Matrix Factorization
  • 27. SVD(Singular Value Decomposition) Algorithm 추천 문제를-> 최적화 문제로 전환 한 유저에 대해서 어떤 아이템에 대한 레이팅을 얼마나 잘 예측하냐를 보는 것(RMSE) Recommendation system Matrix Factorization
  • 28. Algorithm Test RMSE SVD 6.5272 SVDpp 6.7223 BaselineOnly 6.3431 MRR 0.350 Reference count Range 1 ~ 21 Recommendation system Matrix Factorization
  • 30. Algorithm Log Second Test RMSE Log Minute Test RMSE SVD 2.6106 2.2347 SVDpp 2.6097 2.2337 BaselineOnly 2.6115 2.2332 MRR 0.472 MRR 0.419 Dwelling time Recommendation system Matrix Factorization
  • 31. Recommendation system Best Model Algorithm MRR Content-based 0.446 [CF] Neighborhood 0.645 [CF] SVD 0.471 (dwelling time) Ensemble (reference count + SVD) 0.767
  • 32. 1. 호텔 도메인 - 호텔의 특징(‘FILTER’, ‘호텔 특징')은 중요한 지표가 아니다. - 중요한 지표는 ‘유저의 행동‘ (‘INTERACTION COUNT’, ‘DWELLING TIME’) 2. 모델 - Neighborhood 모델 GOOD - 앙상블 모델과 Collaborative Filtering 함께 사용 추천 Recommendation system Conclusion