Enviar pesquisa
Carregar
明洪涛 个性化推荐系统@土豆
•
3 gostaram
•
1,323 visualizações
T
topgeek
Seguir
个性化推荐系统@土豆的实践
Leia menos
Leia mais
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 15
Baixar agora
Baixar para ler offline
Recomendados
空望 推荐系统@淘宝
空望 推荐系统@淘宝
topgeek
推荐系统规划
推荐系统规划
2005000613
视频网站分析挖掘思考
视频网站分析挖掘思考
学峰 司
如何做好推荐系统——冯沁原
如何做好推荐系统——冯沁原
Qinyuan Feng
项亮 推荐系统实践 从入门到精通
项亮 推荐系统实践 从入门到精通
topgeek
使用Amazon Machine Learning 建立即時推薦引擎
使用Amazon Machine Learning 建立即時推薦引擎
Amazon Web Services
用户体验的 要素 很好的资料
用户体验的 要素 很好的资料
grey0511
视频网站全视角分析解决方案 初稿
视频网站全视角分析解决方案 初稿
学峰 司
Mais conteúdo relacionado
Semelhante a 明洪涛 个性化推荐系统@土豆
dtcc-Neo4j.pdf
dtcc-Neo4j.pdf
feichen84
愛瘦美網路傳媒有限公司社群平台暨網站營運企劃
愛瘦美網路傳媒有限公司社群平台暨網站營運企劃
Cheng Hsuing Wang
快播科技简介V8
快播科技简介V8
liuyang0703
Jira live demo_2020_v20
Jira live demo_2020_v20
Linktech
基于Ht rca缺陷分析的测试改进-china test-张玲玲
基于Ht rca缺陷分析的测试改进-china test-张玲玲
drewz lin
视频Cdn架构浅淡 守住每一天
视频Cdn架构浅淡 守住每一天
liuyu105
精益创业讨论
精益创业讨论
Robbin Fan
摸索着去做产品线的Owner
摸索着去做产品线的Owner
fangdeng
[ECX 2015] 數據輔助設計 ─ 大數據的電商使用者體驗研究和方法 ─ 張必勇 / 阿里巴巴 用戶體驗研究專家
[ECX 2015] 數據輔助設計 ─ 大數據的電商使用者體驗研究和方法 ─ 張必勇 / 阿里巴巴 用戶體驗研究專家
悠識學院
Web Analytics 2.0 的新世界
Web Analytics 2.0 的新世界
Vista Cheng
互联网视频发展和演进 网络新媒体-侯自强
互联网视频发展和演进 网络新媒体-侯自强
xobo
网站分析 让网站在你的面前裸奔
网站分析 让网站在你的面前裸奔
ericyaocn
Beta
Beta
roytanlu
Offerme2_Introduction
Offerme2_Introduction
Fred Lin
活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦
Etu Solution
好耶网站分析服务介绍
好耶网站分析服务介绍
ricky yang
Internet System Security Overview
Internet System Security Overview
ChinaNetCloud
360度精準式行銷實務--精準式影音行銷
360度精準式行銷實務--精準式影音行銷
Neo Marketing Workshop
Ku6 Sns Ppt
Ku6 Sns Ppt
kacifa
Jira live demo 2017
Jira live demo 2017
Linktech
Semelhante a 明洪涛 个性化推荐系统@土豆
(20)
dtcc-Neo4j.pdf
dtcc-Neo4j.pdf
愛瘦美網路傳媒有限公司社群平台暨網站營運企劃
愛瘦美網路傳媒有限公司社群平台暨網站營運企劃
快播科技简介V8
快播科技简介V8
Jira live demo_2020_v20
Jira live demo_2020_v20
基于Ht rca缺陷分析的测试改进-china test-张玲玲
基于Ht rca缺陷分析的测试改进-china test-张玲玲
视频Cdn架构浅淡 守住每一天
视频Cdn架构浅淡 守住每一天
精益创业讨论
精益创业讨论
摸索着去做产品线的Owner
摸索着去做产品线的Owner
[ECX 2015] 數據輔助設計 ─ 大數據的電商使用者體驗研究和方法 ─ 張必勇 / 阿里巴巴 用戶體驗研究專家
[ECX 2015] 數據輔助設計 ─ 大數據的電商使用者體驗研究和方法 ─ 張必勇 / 阿里巴巴 用戶體驗研究專家
Web Analytics 2.0 的新世界
Web Analytics 2.0 的新世界
互联网视频发展和演进 网络新媒体-侯自强
互联网视频发展和演进 网络新媒体-侯自强
网站分析 让网站在你的面前裸奔
网站分析 让网站在你的面前裸奔
Beta
Beta
Offerme2_Introduction
Offerme2_Introduction
活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦
好耶网站分析服务介绍
好耶网站分析服务介绍
Internet System Security Overview
Internet System Security Overview
360度精準式行銷實務--精準式影音行銷
360度精準式行銷實務--精準式影音行銷
Ku6 Sns Ppt
Ku6 Sns Ppt
Jira live demo 2017
Jira live demo 2017
Mais de topgeek
从长津湖战役看团队建设
从长津湖战役看团队建设
topgeek
Agile changes in liba
Agile changes in liba
topgeek
I hate unit test
I hate unit test
topgeek
百姓网的网速优化之路
百姓网的网速优化之路
topgeek
Ruby agile development_of_game_operation_platform
Ruby agile development_of_game_operation_platform
topgeek
图形组件技术杂谈
图形组件技术杂谈
topgeek
Rest与面向资源的web开发
Rest与面向资源的web开发
topgeek
腾讯大讲堂42 数据库内核设计思路浅析
腾讯大讲堂42 数据库内核设计思路浅析
topgeek
腾讯大讲堂38 oracle基础体系结构及性能优化
腾讯大讲堂38 oracle基础体系结构及性能优化
topgeek
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析
topgeek
腾讯大讲堂46 自由cgi之路v3
腾讯大讲堂46 自由cgi之路v3
topgeek
腾讯大讲堂45 解剖ttc
腾讯大讲堂45 解剖ttc
topgeek
腾讯大讲堂26 带宽优化之道
腾讯大讲堂26 带宽优化之道
topgeek
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
topgeek
腾讯大讲堂24 qq show2.0重构历程
腾讯大讲堂24 qq show2.0重构历程
topgeek
腾讯大讲堂19 系统优化的方向
腾讯大讲堂19 系统优化的方向
topgeek
腾讯大讲堂17 性能优化不是仅局限于后台(qzone)
腾讯大讲堂17 性能优化不是仅局限于后台(qzone)
topgeek
腾讯大讲堂13 soso访问速度优化
腾讯大讲堂13 soso访问速度优化
topgeek
腾讯大讲堂09 如何建设高性能网站
腾讯大讲堂09 如何建设高性能网站
topgeek
腾讯大讲堂08 可扩展web架构探讨
腾讯大讲堂08 可扩展web架构探讨
topgeek
Mais de topgeek
(20)
从长津湖战役看团队建设
从长津湖战役看团队建设
Agile changes in liba
Agile changes in liba
I hate unit test
I hate unit test
百姓网的网速优化之路
百姓网的网速优化之路
Ruby agile development_of_game_operation_platform
Ruby agile development_of_game_operation_platform
图形组件技术杂谈
图形组件技术杂谈
Rest与面向资源的web开发
Rest与面向资源的web开发
腾讯大讲堂42 数据库内核设计思路浅析
腾讯大讲堂42 数据库内核设计思路浅析
腾讯大讲堂38 oracle基础体系结构及性能优化
腾讯大讲堂38 oracle基础体系结构及性能优化
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂46 自由cgi之路v3
腾讯大讲堂46 自由cgi之路v3
腾讯大讲堂45 解剖ttc
腾讯大讲堂45 解剖ttc
腾讯大讲堂26 带宽优化之道
腾讯大讲堂26 带宽优化之道
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂24 qq show2.0重构历程
腾讯大讲堂24 qq show2.0重构历程
腾讯大讲堂19 系统优化的方向
腾讯大讲堂19 系统优化的方向
腾讯大讲堂17 性能优化不是仅局限于后台(qzone)
腾讯大讲堂17 性能优化不是仅局限于后台(qzone)
腾讯大讲堂13 soso访问速度优化
腾讯大讲堂13 soso访问速度优化
腾讯大讲堂09 如何建设高性能网站
腾讯大讲堂09 如何建设高性能网站
腾讯大讲堂08 可扩展web架构探讨
腾讯大讲堂08 可扩展web架构探讨
Último
20200323 - AI Intro
20200323 - AI Intro
Jamie (Taka) Wang
函數畫圖_習題7.pptx 函數畫圖_習題7.pptx 函數畫圖_習題7.pptx
函數畫圖_習題7.pptx 函數畫圖_習題7.pptx 函數畫圖_習題7.pptx
NCU MCL
20151111 - IoT Sync Up
20151111 - IoT Sync Up
Jamie (Taka) Wang
20161027 - edge part2
20161027 - edge part2
Jamie (Taka) Wang
Entities in DCPS (DDS)
Entities in DCPS (DDS)
Jamie (Taka) Wang
20211119 - demystified artificial intelligence with NLP
20211119 - demystified artificial intelligence with NLP
Jamie (Taka) Wang
20170104 - transaction_pattern
20170104 - transaction_pattern
Jamie (Taka) Wang
SymPy 在微積分上的應用_5.pptx SymPy 在微積分上的應用_5.pptx
SymPy 在微積分上的應用_5.pptx SymPy 在微積分上的應用_5.pptx
NCU MCL
函數畫圖_習題5.pptx 函數畫圖_習題5.pptx 函數畫圖_習題5.pptx
函數畫圖_習題5.pptx 函數畫圖_習題5.pptx 函數畫圖_習題5.pptx
NCU MCL
20200226 - AI Overview
20200226 - AI Overview
Jamie (Taka) Wang
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
NCU MCL
函數微分_習題4.pptx 函數微分_習題4.pptx 函數微分_習題4.pptx
函數微分_習題4.pptx 函數微分_習題4.pptx 函數微分_習題4.pptx
NCU MCL
20161220 - domain-driven design
20161220 - domain-driven design
Jamie (Taka) Wang
函數畫圖_習題6.pptx 函數畫圖_習題6.pptx 函數畫圖_習題6.pptx
函數畫圖_習題6.pptx 函數畫圖_習題6.pptx 函數畫圖_習題6.pptx
NCU MCL
买假和真英国驾驶执照买了假的英国驾照,那跟真的有什么区别吗?买假和真正的澳大利亚驾驶执照【微信qoqoqdqd】
买假和真英国驾驶执照买了假的英国驾照,那跟真的有什么区别吗?买假和真正的澳大利亚驾驶执照【微信qoqoqdqd】
黑客 接单【TG/微信qoqoqdqd】
Último
(15)
20200323 - AI Intro
20200323 - AI Intro
函數畫圖_習題7.pptx 函數畫圖_習題7.pptx 函數畫圖_習題7.pptx
函數畫圖_習題7.pptx 函數畫圖_習題7.pptx 函數畫圖_習題7.pptx
20151111 - IoT Sync Up
20151111 - IoT Sync Up
20161027 - edge part2
20161027 - edge part2
Entities in DCPS (DDS)
Entities in DCPS (DDS)
20211119 - demystified artificial intelligence with NLP
20211119 - demystified artificial intelligence with NLP
20170104 - transaction_pattern
20170104 - transaction_pattern
SymPy 在微積分上的應用_5.pptx SymPy 在微積分上的應用_5.pptx
SymPy 在微積分上的應用_5.pptx SymPy 在微積分上的應用_5.pptx
函數畫圖_習題5.pptx 函數畫圖_習題5.pptx 函數畫圖_習題5.pptx
函數畫圖_習題5.pptx 函數畫圖_習題5.pptx 函數畫圖_習題5.pptx
20200226 - AI Overview
20200226 - AI Overview
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
函數微分_習題4.pptx 函數微分_習題4.pptx 函數微分_習題4.pptx
函數微分_習題4.pptx 函數微分_習題4.pptx 函數微分_習題4.pptx
20161220 - domain-driven design
20161220 - domain-driven design
函數畫圖_習題6.pptx 函數畫圖_習題6.pptx 函數畫圖_習題6.pptx
函數畫圖_習題6.pptx 函數畫圖_習題6.pptx 函數畫圖_習題6.pptx
买假和真英国驾驶执照买了假的英国驾照,那跟真的有什么区别吗?买假和真正的澳大利亚驾驶执照【微信qoqoqdqd】
买假和真英国驾驶执照买了假的英国驾照,那跟真的有什么区别吗?买假和真正的澳大利亚驾驶执照【微信qoqoqdqd】
明洪涛 个性化推荐系统@土豆
1.
个性化视频推荐系统@土豆
明洪涛 htming@tudou.com 2012推荐系统大会
2.
内容提纲 推荐系统的目标 土豆网的数据与算法
推荐系统的流程 遇到的问题及其解决方法 实际转化率数据分享
3.
推荐系统的目标 视频推荐系统定义:
根据用户的兴趣,为用户推送与他兴趣相 关的视频。 服务用户群: 进入土豆网看视频娱乐,但是不明确知道自 己想要看什么视频,无法用词描述出来。与搜索、 分类导航有差异。 考核指标:转化率=点击数/页面PV
4.
数据与算法 被观看的总视频数千万/天左右,7天重合30% 隐性数据(挖、埋、收藏、评论、转帖)几十万/天,平均每个视 频得到0.025/天,可推荐的视频平均0.043/天,用户信息可忽略, 非登陆用户的历史记录随用户cookie的清空而消失。50%用户每 天看两个视频。
数据处理后,推荐的视频库中有200万个视频,这些视频获得 大约5千万/天的浏览量。 填充矩阵,数据的稀疏性在五万分之一,放弃了SVD、 slopeone等算法。
5.
数据与算法 协同过滤:Item-based 假设:用户观看的视频是用户喜欢的。
I1 I2 I3 … … In U1 U2 1 1 : 1 1 1 : 1 1 Un 1 1 1
6.
土豆推荐系统的流程
User Viewed History Offline System OnlineServerCalc view Covert Ranking & Filtering
7.
目前的应用到的产品 一、首页的“推荐给我” 。 二、播放页下的“相关视频”。 三、频道首页:风尚、美容、女性、娱乐、原创频道。 即将上线的:搜索结果、排行榜下的推荐。
8.
遇到的问题及其解决方法
冷启动问题 数据的稀疏问题 转化率的提高 多样性问题 准确性问题 一、系统服务性能问题 C/C++实现整套系统、通过Http对外服务.采用线下 离线计算与线上实时计算相结合。 二、数据问题 爬虫数据、非典型性用户和视频数据。用群 体用户的浏览来区分。
9.
遇到的问题及其解决方法
脏视频:多个用户上传同一个视频、用不同的标签 不同的视频ID号。使用视频MD5进行数据融合处理。 V1 V2 video V2 Vx Vn 数据量的选择与清理数据问题?通过离线评测方式。 通过用户观看量和视频被观看量来进行过滤。 CleanDataByUser(Cmin,Cmax) CleanDataByItem(Vmin,Vmax) 三、覆盖率、准确性和转化率三者的关系。覆盖 率越小,准确性越高,冷启动问题就越严重,整 体转化率越低。
10.
遇到的问题及其解决方法 四、怎么推荐?
I1 I2 ….. Ix … In Simtable i1 i2 i3 i4 i5 ... i9 … i20 … ix ……….. in Rank&filter R1 R2 R3 R4 Rank:根据视频的质量和相似性来排序,视频的质量涉及 到视频的浏览量,用户对视频的动作等数据。 Filter:过滤用户已经观看的,限定与用户兴趣不 相关频道的视频个数。过滤掉已经推荐。
11.
遇到的问题及其解决方法 相似度的问题:设定阀值,在计算时只保留N列,在排序 前安比例去掉相似性差。 公式的选择(意义不大):余弦、修正余弦等距离公式。 用户的兴趣:分长短兴趣和频道的偏好,最近观看视频反映
用户短兴趣,长期的一个观看历史记录反映的用户长兴 趣,可以对用户长兴趣建模。 过热和过冷视频,直接CleanData的时候处理掉。
12.
遇到的问题及其解决方法 五、评估方法:常用的MAE、CTR。 离线评测时使用过CTR,推荐与点击比30%左右,与实际点击比相差 10倍。现在使用的是线上实时CTR,分流量做A/Btest。 六、产品、位置、转化率
13.
遇到的问题及其解决方法 位置优势?同一位置不同算法的PK,转化率是其他算法的三倍。 推荐与美女PK 失败的经验………….
14.
实际转化率数据分享 在当天使用推荐的用户中, 有40%左右的用户是二次以上用户。
15.
优化无止境,细节决定成败
Q&A THANKS! 推荐讨论QQ群:167485994 微薄:http://weibo.com/htming
Baixar agora