SlideShare uma empresa Scribd logo
1 de 36
Baixar para ler offline
推荐系统@淘宝



     魏虎(空望) 2012.5
     http://weibo.com/skyhope
     kongwang@taobao.com


                                1
主要内容
—  推荐系统概念	
  
—  淘宝的数据	
  
—  淘宝推荐系统应用场景	
  
—  淘宝推荐系统核心算法	
  
—  淘宝推荐系统的设计	
  
主要内容
—  推荐系统概念	
  
—  淘宝的数据	
  
—  淘宝推荐系统应用场景	
  
—  淘宝推荐系统核心算法	
  
—  淘宝推荐系统的设计	
  
推荐系统定义
—  维基百科:form	
  or	
  work	
  from	
  a	
  specific	
  type	
  of	
  
       information	
  filtering	
  system	
  technique	
  that	
  attempts	
  
       to	
  recommend	
  information	
  items	
  (item,	
  music,	
  books,	
  
       news,	
  images	
  etc.)	
  or	
  social	
  elements	
  (e.g.	
  people,	
  
       events	
  or	
  groups)	
  that	
  are	
  likely	
  to	
  be	
  of	
  interest	
  to	
  
       the	
  user.	
  
	
  
推荐系统作用
—  提高用户忠诚度	
  
—  提高成交转化率	
  
—  提高网站交叉销售能力	
  
分类
—  个性化推荐	
  
—  非个性化推荐
推荐系统与搜索
—  搜索注重结果(如网页)之间的关系和排序,推荐还研究
用户模型和用户的喜好,基于社会网络或者协同思想进
行个性化的计算;	
  

—  搜索的进行由用户主导,包括输入查询词和选择结果,结
果不好用户会修改查询再次搜索.而推荐是由系统主导
用户的浏览顺序,引导用户发现需要的结果.
推荐系统的核心
            产品


       核心


  系统


             算法
推荐系统产品
—  同类或者相关商品、店铺推荐	
  
—  买了还买、看来还看等	
  
—  猜你喜欢	
  
—  群体信息披露	
  
—  热门排行榜	
  
—  etc
推荐系统产品
—  兴趣点披露	
  
—  推荐逻辑考虑	
  
—  图片效果	
  
—  。。。	
  
推荐系统组成
—  数据	
  
—  算法(online	
  &	
  offline)	
  
—  Messaging	
  system	
  
—  Search	
  engine	
  
—  NoSQL	
  
—  分布式计算	
  
—  效果评测
数据
—  explicit(显式) :能准确的反应用户对物品的真实喜好,
    但需要用户付出额外的代价	
  
          	
  用户收藏	
  
          	
  用户评价	
  
	
  	
  	
  	
  	
  	
  	
  
	
  
—  Implicit(隐式):通过一些分析和处理,才能反映用户的喜好,
 只是数据不是很精确,有些行为的分析存在较大的噪音	
  
	
  	
  用户浏览	
  
	
  	
  用户页面停留时间、访问次数	
  
	
  	
  	
  
	
  
算法
—  算法计算方式	
  
	
  	
  	
  	
  	
  离线: 用户类目偏好、用户购买力分析、关联性分
             析	
  
	
  	
  	
  	
  	
  在线:排序、过滤、增量计算	
  

—  没有最好,只有更好!	
  
Messaging	
  system
—  大型系统不可或缺的重要组成部分	
  
—  与其他系统解耦,消息转发
Search	
  engine
—  文本分析 抽取关键词	
  
—  作为推荐系统的一个信息检索技术,全文检索 内容相
 关性匹配
NoSQL	
  	
  
	
  	
  	
  
	
  	
  
分布式计算
—  大规模数据统计和运算	
  
—  大数据集合的ETL	
  
	
  
	
  	
  	
  MapReduce	
  ,	
  	
  	
  Hadoop	
  	
  、Hive
主要内容
—  推荐系统概念	
  
—  淘宝的数据	
  
—  淘宝推荐系统应用场景	
  
—  淘宝推荐系统核心算法	
  
—  淘宝推荐系统的设计	
  
淘宝数据特点
—  数据量巨大 	
  
	
  数百万店铺	
  
	
  数亿激活用户	
  
	
  数亿的在线商品	
  	
  
	
  数十亿的收藏信息	
  
	
  ……	
  	
  	
  	
  
—  商品问题	
  
	
  	
  同一类商品多个卖家	
  
	
  	
  标类 非标类	
  
	
  	
  类目属性正确性	
  	
  	
  
	
  	
  恶意收藏、刷信誉	
  
—  商品涉及的行业广泛
主要内容
—  推荐系统概念	
  
—  淘宝的数据	
  
—  淘宝推荐系统应用场景	
  
—  淘宝推荐系统核心算法	
  
—  淘宝推荐系统的设计	
  
主要的应用场景
目前覆盖大小场景60多个,主要包括	
  
—  Detail	
  浏览了还浏览	
  
—  收藏夹弹出层推荐	
  
—  购物车弹出层推荐	
  
—  已买到宝贝 你可能感兴趣	
  
—  淘宝无线应用	
  
—  聚划算推荐	
  
—  EDM(重复购买提醒)	
  
—  各个垂直频道	
  
—  开放平台api	
  
—  etc	
  
淘宝推荐产品
—  淘宝业务产品丰富,推荐功能穿插其中	
  
—  推荐功能涵盖的范围更广	
  
—  很多场景与业务相关	
  
主要内容
—  推荐系统概念	
  
—  淘宝的数据	
  
—  淘宝推荐系统应用场景	
  
—  淘宝推荐系统核心算法	
  
—  淘宝推荐系统的设计	
  
淘宝推荐系统算法
—  基础算法	
  
         	
  聚类算法,预测算法,分类算法等,主要用于产生基础
             知识库	
  
—  推荐算法	
  
         	
  content-­‐based,collaborative-­‐based	
  
	
  	
  	
  Association	
  Rules	
  
基础算法
—  预测算法	
  
   	
  logistic	
  回归,通过以点击率为目标,以商品,卖家等因素
       作为指标,建立预测模型构建淘宝优质宝贝库	
  
—  分类算法	
  
   	
  朴素贝叶斯方法	
  
   	
  商品性别判断(男性,女性,中性)	
  
   	
  用户性别判断	
  
   	
  用于降维	
  
—  聚类算法	
  
   	
  人群,用户细分	
  
   	
  用于降维 	
  
推荐算法
—  基于内容推荐	
  
     	
  通过给用户和商品标注Tag,通过内容匹配算法,推荐商品
         给用户	
  
	
  
          优点:简单,搜索引擎支持,解决部分冷启动问题	
  
          缺点:难以区分商品信息的品质,而且不能为用户发现新
         的感兴趣的商品,只能发现和用户已有兴趣相似的商品
推荐算法
—  协同思想
   	
  	
  
   	
  优点:新奇特,个性化程度高	
  
   	
  缺点:冷启动,稀疏性	
  
推荐算法
—  关联规则:a	
  method	
  for	
  discovering	
  interesting	
  
             relations	
  between	
  variables	
  in	
  large	
  databases	
  
         	
  支持度	
   support(A ⇒ B)=P(A ∪ B)
	
  	
  	
  置信度 confidence(A ⇒ B)=P(B|A)
                         	
  
	
  	
  	
  	
  
效果评测
—  推荐系统的效果需要数据来评测	
  
	
  Offline:	
  给定输入输出,验证系统的输出	
  
	
  Online	
  :	
  ABTest	
  
	
  
	
  	
  衡量指标	
  CTR	
  	
  GMV	
  	
  PV	
  	
  UV
主要内容
—  推荐系统概念	
  
—  淘宝的数据	
  
—  淘宝推荐系统应用场景	
  
—  淘宝推荐系统核心算法	
  
—  淘宝推荐系统的设计	
  
淘宝推荐系统设计
—  提供统一的平台管理各个推荐模块	
  
—  提供高性能分布式存储	
  
—  提供算法的AbTest和效果统计	
  
—  提供灵活算法配置
推荐系统分层结构
Treasure系统结构
Treasure存储的数据
—  存储云梯上对用户、商品等原始数据分析的结果	
  
—  云梯周期性同步,无实时更新	
  
—  为推荐系统提供ABTest存储支持	
  
—  为个性化推荐提供数据基础	
  
—  可直接存储部分推荐算法的结果供推荐使用	
  
—  动态部署	
  
—  应用访问云梯的梯子	
  
空望 推荐系统@淘宝

Mais conteúdo relacionado

Semelhante a 空望 推荐系统@淘宝

活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦Etu Solution
 
动态推荐系统关键技术研究
动态推荐系统关键技术研究动态推荐系统关键技术研究
动态推荐系统关键技术研究Liang Xiang
 
Vsp Search 2010 Ecommerce V6
Vsp Search 2010 Ecommerce V6Vsp Search 2010 Ecommerce V6
Vsp Search 2010 Ecommerce V6Yu Zhang
 
推荐与广告
推荐与广告推荐与广告
推荐与广告agawu
 
特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践Leo Zhou
 
Recommender Systems in E-Commerce V2.0
Recommender Systems in E-Commerce V2.0Recommender Systems in E-Commerce V2.0
Recommender Systems in E-Commerce V2.0chuan liang
 
使用者行為分析
使用者行為分析使用者行為分析
使用者行為分析newegg
 
中小网站搜索引擎优化策略
中小网站搜索引擎优化策略中小网站搜索引擎优化策略
中小网站搜索引擎优化策略Wang Feng
 
搜索 VS 查询
搜索 VS 查询搜索 VS 查询
搜索 VS 查询liluming
 
從 GA 的 API 來看 SEO 的 KPI 加強版!
從 GA 的 API 來看 SEO 的 KPI 加強版!從 GA 的 API 來看 SEO 的 KPI 加強版!
從 GA 的 API 來看 SEO 的 KPI 加強版!Gene Hong
 
「沙中撈金術」﹣談開放原始碼的推薦系統
「沙中撈金術」﹣談開放原始碼的推薦系統 「沙中撈金術」﹣談開放原始碼的推薦系統
「沙中撈金術」﹣談開放原始碼的推薦系統 建興 王
 
優化宅的日常-數據分析篇
優化宅的日常-數據分析篇優化宅的日常-數據分析篇
優化宅的日常-數據分析篇Wanju Wang
 
网站分析案例-汽车行业
网站分析案例-汽车行业网站分析案例-汽车行业
网站分析案例-汽车行业ricky yang
 
欧赛斯搜索引擎优化Seo解决方案2012
欧赛斯搜索引擎优化Seo解决方案2012欧赛斯搜索引擎优化Seo解决方案2012
欧赛斯搜索引擎优化Seo解决方案2012hpeter2002
 
用户体验的 要素 很好的资料
用户体验的 要素 很好的资料用户体验的 要素 很好的资料
用户体验的 要素 很好的资料grey0511
 
汽车领域社交数据分析简介及应用场景举例公开版 20150712
汽车领域社交数据分析简介及应用场景举例公开版 20150712汽车领域社交数据分析简介及应用场景举例公开版 20150712
汽车领域社交数据分析简介及应用场景举例公开版 20150712Yu Zhang
 
电商行业案例分享(苏宁、乐酷天).pptx.pptx
电商行业案例分享(苏宁、乐酷天).pptx.pptx电商行业案例分享(苏宁、乐酷天).pptx.pptx
电商行业案例分享(苏宁、乐酷天).pptx.pptxcubead
 
Top100summit 当当网打造个性化推荐 精准营销生态系统傅强
Top100summit 当当网打造个性化推荐 精准营销生态系统傅强Top100summit 当当网打造个性化推荐 精准营销生态系统傅强
Top100summit 当当网打造个性化推荐 精准营销生态系统傅强drewz lin
 
WiseLog v6 Chinese
WiseLog v6 ChineseWiseLog v6 Chinese
WiseLog v6 ChineseNethru
 

Semelhante a 空望 推荐系统@淘宝 (20)

活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦
 
动态推荐系统关键技术研究
动态推荐系统关键技术研究动态推荐系统关键技术研究
动态推荐系统关键技术研究
 
Vsp Search 2010 Ecommerce V6
Vsp Search 2010 Ecommerce V6Vsp Search 2010 Ecommerce V6
Vsp Search 2010 Ecommerce V6
 
推荐与广告
推荐与广告推荐与广告
推荐与广告
 
特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践
 
Recommender Systems in E-Commerce V2.0
Recommender Systems in E-Commerce V2.0Recommender Systems in E-Commerce V2.0
Recommender Systems in E-Commerce V2.0
 
使用者行為分析
使用者行為分析使用者行為分析
使用者行為分析
 
中小网站搜索引擎优化策略
中小网站搜索引擎优化策略中小网站搜索引擎优化策略
中小网站搜索引擎优化策略
 
搜索 VS 查询
搜索 VS 查询搜索 VS 查询
搜索 VS 查询
 
從 GA 的 API 來看 SEO 的 KPI 加強版!
從 GA 的 API 來看 SEO 的 KPI 加強版!從 GA 的 API 來看 SEO 的 KPI 加強版!
從 GA 的 API 來看 SEO 的 KPI 加強版!
 
「沙中撈金術」﹣談開放原始碼的推薦系統
「沙中撈金術」﹣談開放原始碼的推薦系統 「沙中撈金術」﹣談開放原始碼的推薦系統
「沙中撈金術」﹣談開放原始碼的推薦系統
 
優化宅的日常-數據分析篇
優化宅的日常-數據分析篇優化宅的日常-數據分析篇
優化宅的日常-數據分析篇
 
传媒梦工场分享
传媒梦工场分享传媒梦工场分享
传媒梦工场分享
 
网站分析案例-汽车行业
网站分析案例-汽车行业网站分析案例-汽车行业
网站分析案例-汽车行业
 
欧赛斯搜索引擎优化Seo解决方案2012
欧赛斯搜索引擎优化Seo解决方案2012欧赛斯搜索引擎优化Seo解决方案2012
欧赛斯搜索引擎优化Seo解决方案2012
 
用户体验的 要素 很好的资料
用户体验的 要素 很好的资料用户体验的 要素 很好的资料
用户体验的 要素 很好的资料
 
汽车领域社交数据分析简介及应用场景举例公开版 20150712
汽车领域社交数据分析简介及应用场景举例公开版 20150712汽车领域社交数据分析简介及应用场景举例公开版 20150712
汽车领域社交数据分析简介及应用场景举例公开版 20150712
 
电商行业案例分享(苏宁、乐酷天).pptx.pptx
电商行业案例分享(苏宁、乐酷天).pptx.pptx电商行业案例分享(苏宁、乐酷天).pptx.pptx
电商行业案例分享(苏宁、乐酷天).pptx.pptx
 
Top100summit 当当网打造个性化推荐 精准营销生态系统傅强
Top100summit 当当网打造个性化推荐 精准营销生态系统傅强Top100summit 当当网打造个性化推荐 精准营销生态系统傅强
Top100summit 当当网打造个性化推荐 精准营销生态系统傅强
 
WiseLog v6 Chinese
WiseLog v6 ChineseWiseLog v6 Chinese
WiseLog v6 Chinese
 

Mais de topgeek

从长津湖战役看团队建设
从长津湖战役看团队建设从长津湖战役看团队建设
从长津湖战役看团队建设topgeek
 
Agile changes in liba
Agile changes in libaAgile changes in liba
Agile changes in libatopgeek
 
I hate unit test
I hate unit testI hate unit test
I hate unit testtopgeek
 
百姓网的网速优化之路
百姓网的网速优化之路百姓网的网速优化之路
百姓网的网速优化之路topgeek
 
Ruby agile development_of_game_operation_platform
Ruby agile development_of_game_operation_platformRuby agile development_of_game_operation_platform
Ruby agile development_of_game_operation_platformtopgeek
 
图形组件技术杂谈
图形组件技术杂谈图形组件技术杂谈
图形组件技术杂谈topgeek
 
Rest与面向资源的web开发
Rest与面向资源的web开发Rest与面向资源的web开发
Rest与面向资源的web开发topgeek
 
腾讯大讲堂42 数据库内核设计思路浅析
腾讯大讲堂42 数据库内核设计思路浅析腾讯大讲堂42 数据库内核设计思路浅析
腾讯大讲堂42 数据库内核设计思路浅析topgeek
 
腾讯大讲堂38 oracle基础体系结构及性能优化
腾讯大讲堂38 oracle基础体系结构及性能优化腾讯大讲堂38 oracle基础体系结构及性能优化
腾讯大讲堂38 oracle基础体系结构及性能优化topgeek
 
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析topgeek
 
腾讯大讲堂46 自由cgi之路v3
腾讯大讲堂46 自由cgi之路v3腾讯大讲堂46 自由cgi之路v3
腾讯大讲堂46 自由cgi之路v3topgeek
 
腾讯大讲堂45 解剖ttc
腾讯大讲堂45 解剖ttc腾讯大讲堂45 解剖ttc
腾讯大讲堂45 解剖ttctopgeek
 
腾讯大讲堂26 带宽优化之道
腾讯大讲堂26 带宽优化之道腾讯大讲堂26 带宽优化之道
腾讯大讲堂26 带宽优化之道topgeek
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍topgeek
 
腾讯大讲堂24 qq show2.0重构历程
腾讯大讲堂24 qq show2.0重构历程腾讯大讲堂24 qq show2.0重构历程
腾讯大讲堂24 qq show2.0重构历程topgeek
 
腾讯大讲堂19 系统优化的方向
腾讯大讲堂19 系统优化的方向腾讯大讲堂19 系统优化的方向
腾讯大讲堂19 系统优化的方向topgeek
 
腾讯大讲堂17 性能优化不是仅局限于后台(qzone)
腾讯大讲堂17 性能优化不是仅局限于后台(qzone)腾讯大讲堂17 性能优化不是仅局限于后台(qzone)
腾讯大讲堂17 性能优化不是仅局限于后台(qzone)topgeek
 
腾讯大讲堂13 soso访问速度优化
腾讯大讲堂13 soso访问速度优化腾讯大讲堂13 soso访问速度优化
腾讯大讲堂13 soso访问速度优化topgeek
 
腾讯大讲堂09 如何建设高性能网站
腾讯大讲堂09 如何建设高性能网站腾讯大讲堂09 如何建设高性能网站
腾讯大讲堂09 如何建设高性能网站topgeek
 
腾讯大讲堂08 可扩展web架构探讨
腾讯大讲堂08 可扩展web架构探讨腾讯大讲堂08 可扩展web架构探讨
腾讯大讲堂08 可扩展web架构探讨topgeek
 

Mais de topgeek (20)

从长津湖战役看团队建设
从长津湖战役看团队建设从长津湖战役看团队建设
从长津湖战役看团队建设
 
Agile changes in liba
Agile changes in libaAgile changes in liba
Agile changes in liba
 
I hate unit test
I hate unit testI hate unit test
I hate unit test
 
百姓网的网速优化之路
百姓网的网速优化之路百姓网的网速优化之路
百姓网的网速优化之路
 
Ruby agile development_of_game_operation_platform
Ruby agile development_of_game_operation_platformRuby agile development_of_game_operation_platform
Ruby agile development_of_game_operation_platform
 
图形组件技术杂谈
图形组件技术杂谈图形组件技术杂谈
图形组件技术杂谈
 
Rest与面向资源的web开发
Rest与面向资源的web开发Rest与面向资源的web开发
Rest与面向资源的web开发
 
腾讯大讲堂42 数据库内核设计思路浅析
腾讯大讲堂42 数据库内核设计思路浅析腾讯大讲堂42 数据库内核设计思路浅析
腾讯大讲堂42 数据库内核设计思路浅析
 
腾讯大讲堂38 oracle基础体系结构及性能优化
腾讯大讲堂38 oracle基础体系结构及性能优化腾讯大讲堂38 oracle基础体系结构及性能优化
腾讯大讲堂38 oracle基础体系结构及性能优化
 
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析
 
腾讯大讲堂46 自由cgi之路v3
腾讯大讲堂46 自由cgi之路v3腾讯大讲堂46 自由cgi之路v3
腾讯大讲堂46 自由cgi之路v3
 
腾讯大讲堂45 解剖ttc
腾讯大讲堂45 解剖ttc腾讯大讲堂45 解剖ttc
腾讯大讲堂45 解剖ttc
 
腾讯大讲堂26 带宽优化之道
腾讯大讲堂26 带宽优化之道腾讯大讲堂26 带宽优化之道
腾讯大讲堂26 带宽优化之道
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
腾讯大讲堂24 qq show2.0重构历程
腾讯大讲堂24 qq show2.0重构历程腾讯大讲堂24 qq show2.0重构历程
腾讯大讲堂24 qq show2.0重构历程
 
腾讯大讲堂19 系统优化的方向
腾讯大讲堂19 系统优化的方向腾讯大讲堂19 系统优化的方向
腾讯大讲堂19 系统优化的方向
 
腾讯大讲堂17 性能优化不是仅局限于后台(qzone)
腾讯大讲堂17 性能优化不是仅局限于后台(qzone)腾讯大讲堂17 性能优化不是仅局限于后台(qzone)
腾讯大讲堂17 性能优化不是仅局限于后台(qzone)
 
腾讯大讲堂13 soso访问速度优化
腾讯大讲堂13 soso访问速度优化腾讯大讲堂13 soso访问速度优化
腾讯大讲堂13 soso访问速度优化
 
腾讯大讲堂09 如何建设高性能网站
腾讯大讲堂09 如何建设高性能网站腾讯大讲堂09 如何建设高性能网站
腾讯大讲堂09 如何建设高性能网站
 
腾讯大讲堂08 可扩展web架构探讨
腾讯大讲堂08 可扩展web架构探讨腾讯大讲堂08 可扩展web架构探讨
腾讯大讲堂08 可扩展web架构探讨
 

空望 推荐系统@淘宝