Mais conteúdo relacionado
Semelhante a 논문리뷰: Deep Neural Networks for YouTube Recommendations (20)
Mais de keunbong kwak (7)
논문리뷰: Deep Neural Networks for YouTube Recommendations
- 2. © NBT All Rights Reserved.
이논문을선정한이유
출처 : http://www.dailysecu.com/?mod=news&act=articleView&idxno=28265
- 3. © NBT All Rights Reserved.
이논문을선정한이유
출처 : http://biz.chosun.com/site/data/html_dir/2017/05/10/2017051001161.html
- 4. © NBT All Rights Reserved.
이논문을선정한이유
출처 : http://m.post.naver.com/viewer/postView.nhn?volumeNo=10452898
- 5. © NBT All Rights Reserved.
참고 자료
최근우님의 블로그
http://keunwoochoi.blogspot.kr/2016/09/deep-neural-networks-for-youtube.html
논문 저자의 강연
https://www.youtube.com/watch?v=WK_Nr4tUtl8&t=833s
- 6. © NBT All Rights Reserved.
개요
실제서비스에적용하여성능을개선시킨추천엔진
• Candidate Generation Model
• Ranking Model
• A/B 테스트를 통한 실제 환경 개선
- 7. © NBT All Rights Reserved.
실제상황에서겪게되는이슈들
• Scale : 엄청난 양의 데이터와 제한된 컴퓨팅 파워
• Freshness : 새로운 컨텐츠의 빠른 적용
• Noise : 낮은 meta data 퀄리티, Implicit Feedback 위주 데이터
- 8. © NBT All Rights Reserved.
모델설명
Candidate Generation Model : High-Recall이 목표
Ranking Model : 다양한 다른 소스들의 적용을 통한 성능 개선
- 9. © NBT All Rights Reserved.
Candidate Generation
- 10. © NBT All Rights Reserved.
Embeddings
• Video Embedding과 Search Token Embedding
• Dense Vector (CBOW에서 영감을 받음)
• Backpropagation을 통해서 embedding도 함께 학습
- 11. © NBT All Rights Reserved.
Combiner
• 고정된 사이즈의 Input으로 바꿈
• 다양한 방법을 사용해봤는데 average가 성능이 제일 좋음
- 12. © NBT All Rights Reserved.
Additional Features
• 단순하게 옆에 전부 concatenate 해버림
- 13. © NBT All Rights Reserved.
ReLU Stack
• Fully connected “Tower”
• Output으로 user embedding이 나온다
- 14. © NBT All Rights Reserved.
Softmax Prediction
• 각 video별 가중치가 output으로 나온다
• Negative Sampling
- 15. © NBT All Rights Reserved.
Serving
• 상위 N개의 비디오
• Dot-product space에서 가
장 가까운 아이템을 찾음
• Nearest Neighbor 알고리즘
간에 성능차이는 없음
- 16. © NBT All Rights Reserved.
“ExampleAge”Feature
영상의나이가엄청나게중요!
• Freshness is very important
• 히스토리 데이터를 기반으로 학습을
시키면 오래된 아이템들이 더 추천을
많이 받는 현상
• “영상의 나이”를 추가 feature로 넣
어보자!
- 17. © NBT All Rights Reserved.
그외실제환경을고려한요소들
• 모든 비디오 시청이력을 확인해야 bias가 없다
• 학습에 사용할 이용자별 영상 횟수를 fix해야 heavy user에 치우치치 않는다
• 새로운 검색 쿼리에 즉시 추천엔진을 반영하지 않는다
• 비대칭적인 감상 패턴을 적용해서 학습 시킨다
- 18. © NBT All Rights Reserved.
실험셋팅및결과
• Embedding size : 256
• Video : 100만개
• 검색어 : 100만개
• 인당최대 개수 : 50개
- 20. Embeddings
• 앞의 모델과 같은 ID space, 같은 embedding을 사용한다
• continuous feature들은 normalize해서 사용한다
- 22. © NBT All Rights Reserved.
ModelingExpectedWatchTime
• 추천된 영상을 얼마나 오래동안 볼지 예측하는 것을 목표로 함
• 감상시간은 안봤으면 0, 봤으면 본 시간을 값으로 넣는다
• 감상 시간으로 가중치를 줌 (Weighted logistic regression)
- 23. © NBT All Rights Reserved.
FeatureEngineering
딥러닝이긴하지만..
• 각 feature들을 어느정도 가공해줘야 한다
• 특히나 시간 연속성을 가진 데이터들은 summarizing이 필요
• 사용자 이용패턴, 추천했는데 보지않았던 영상 등도 활용
• 가장 좋은 feature는 비슷한 비디오에 대한 유저의 반응
- 25. © NBT All Rights Reserved.
결론
• 이 모델로 기존의 방법보다 성능을 많이 향상 시켰다
• 모든 것을 딥러닝으로 하기는 쉽지 않다.
• “영상의 나이”가 성능을 크게 개선 시켰다
• 감상 시간별로 가중치를 주는 것도 개선점이 컸다