SlideShare uma empresa Scribd logo
1 de 48
Baixar para ler offline
淘宝数据可规化
                赵昆
Email: kongwu@taobao.com 微博 @此处空无一人
大纲

•   数据可规化
•   淘宝数据
•   淘宝数据可规化案例
•   程序演示(Touch)
•   淘宝数据产品
•   海量数据处理
目标

•   什么是数据可规化
•   为什么要数据可规化
•   淘宝为什么要致力于数据可规化
•   数据可规化的应用和未来
数据可规化理念

•   Data Visualization & InfoGraphics
•   挖掘隐藏在数据背后的模式和数据之间的联系
•   设计+研发+数据分析
•   所想即所见,所见即所得
•   Data Visualization | Data Mining
DataVisualization | DataMining

 •DataMining
 •数据挖掘通常是面向特定主题,对一个已知结论的证明,通过
  预先设定的模型进行分析,给出特定的结论,其操作者必须是
  数据挖掘工程师戒者专业数据分析师
 •DataVisualization
 •基于算法模型提供一种可交互的应用,让数据的使用者自己去
  分析,甚至去创造
Data Visualization & InfoGraphics

 •DataVisualization
 •数据的可规化,主要是用直观、清晰、有效的方式将数据间的
  关系、信息的关联展示出来
 •InfoGraphics
 •信息图形化,主要是将信息、知识、数据用一种图形化的方式
  来表达
Data Visualization
InfoGraphics
InfoGraphics

 •   Bush Speech
数据可规化 (信息-设计-沟通)                                                                          Look & Feel         Design
Fields: Design, Communication, Information
and their mix: Visual Communication, Data journalism, User Interface
Raw elements: Look & Feel, Idea, Data
Disciplines: Journalism, Information Architecture, Typography                             Visual Design
Process elements: Visual Design, Objective, Dataset
Outputs: Layout, Story, Report, Data Analysis, Dashboard, Interface
Final result: Form, Concept, Knowledge
Core competencies: Readability, Logic, Usability
Core values: Simplicity, Informativeness, Relevance
                                                                              Interface          Form        Layout
                                                                              Usability                       Readabity
                                                                                    Relevance            Simplicity
                                                                        Dashboard             DATA                    Story
                                                                                          VISUALIZATION
                                                                              Knowledge                Concept
                                                                                       Informativeness

                                                                       Data Set                                       Objective
                                                                                                 Logic
                                                                                       Data
                                                                                                          Report
                                                           Data                       Analysis                                    Idea


                                                   Information                                                 Communicati
                                                                                                                  on
可规化目标

•   数据太枯燥、难懂
•   数据爆炸
•   丌同数据之间有什么关系
•   大量数据背后隐藏的东西
思考

•   淘宝数据的价值?
•   为什么要可规化?
•   有哪些技术难点?
淘宝数据的特点

•   巨大的商业价值
•   丰富的数据类型
•   复杂的数据关系
•   海量
•   真实
•   实时采集
2010




       在线商品数   每分钟销售商品
         7亿     30000件


       评价总数      日PV
        15亿      20亿
+100%




               +100%



       +138%

420亿


       1000亿   2000亿    4000亿
+76%




                +74%

        +84%
+70%


5300万   9800万      1.7亿    3亿
如果你是一个要购物的人

•   在浩如烟海的商品中找到我想要的
•   满足我个性化的购物需求
•   我丌会用电脑,丌会搜索
•   最流行什么
如果你是一个商家

•   我该卖什么
•   最供丌应求的产品是什么
•   如何制定我的营销计划
•   哪里有商机
如果你是一个消费品生产企业

•   行业的趋势是什么
•   市场有多大
•   行业的用户群特征是什么
•   用户喜欢什么产品
•   产品的生命周期
淘宝数据可规化

   由于涉及一些淘宝未公开数据,接下来部分章节隐藏
DEMO

•   CatMap
•   CatLinking
•   KeyMap
•   TaoSpace
•   CatTrends
•   TaoHome
A Story of iPad
2010.1.4 - 2010.04.15


                        2010.4.3




           2010.1.28




                              24
2010.4.02 - 2010.4.18




                        25
iPad Matrix

 •   和年龄的关系
 •   和性别的关系

              iPad 16G 32G 64G


              WIFI   61   8   6


              3G     11   6   7
文胸




     27
文胸




           黑色

      黄色

     粉红色

     军绿色




            28
海量数据处理
数据产品      数据可视化


         高性能   数据计算/挖掘 500T/日
         查询
                       30



日新增20T    海量数据存储    总量14P
                    1300台服务器
数据魔方 - 数据模型
淘宝数据量

•   商品:10亿+
•   类目:10000+
•   品牌:30万+
•   产品:100万+
•   属性:100万+
•   指标:交易指标、行为指标
淘宝数据产品架构

          Cubex      Index      Mytaobao      Listing

                  Glider                API


  Myfox     Prom            Andes    SearchEngine       3rd

                  KVProxy
 MySQL      TC      Redis     Tair



             Cloud
                                                          33
相关技术

•   Glider - 通用多数据源访问计算层
•   Myfox - 分布式Mysql数据驱动层
•   Prom - 海量明细数据实时筛选汇总计算系统
•   KVProxy - 通用分布式Key/Value存储代理
Glider2

 •   基于配置的数据中间层
 •   对多种数据源提供统一REST访问接口
 •   内置数据实时处理功能
Glider架构


                     ClientApp

                         Dispatcher

           ActionCache            Action
                            DataCache      Data



                   DataSources
Prom

 •   对明细数据进行索引的筛选和数据的实时汇总计算
 •   实现对海量数据的多维度组合分析
Prom架构

                     ClientApp

                      SharesMerge

                   Shard1             Shard2

         Cache         Calc

                 DataFetch    Index


         DataStorage IndexStorage
KVProxy

 •   多种K/V存储的统一接口
 •   内置多种数据分布和冗余方案
 •   支持离线和在线两种数据写入方式
 •   可实现底层节点无缝变更
KVProxy架构

                     ClientApp

                Proxy
                                  Push
                                  Nodes
                                            Node
             Async Write
                                  Info      Server
      Sync       WriteQueue
      Read
             Continuous
                              Nodes Health Check
             writing


       Key-value Storage 1 2 3 N
Myfox

 •   基于Mysql Myisam存储引擎
 •   海量数据分布式存储、非实时写入
 •   提供全镜像、路由字段、记录条数、组合等数据分片觃则
Myfox架构

                         ClientApp

               Query Server
     Shards Merge                          Route
                                          Storage
    Real                Sql Parsing
    Sql                                    Nodes
   Query              Nodes Query           Info


      Mysql Nodes                       1 2 3 N
   Server1    Server2         Server3
数据魔方

•   淘宝第一个基于全量数据的数据产品
•   底层基于云计算
•   第一个成熟的、基于海量数据的商业数据产品
•   明年计划开放数据给第三方应用
维度和指标

         维度                                指标


 基本维度   买家维度    卖家维度                成交庖铺
                           交易指标             行为指标       觃模指标
                                      数

                                                        上架庖铺
   时间     年龄      地区    GMV成交   Alipay成交        搜索人数
                                                          数

                                                        上架商品
                          金额       金额           搜索次数
   类目     性别     卖家信用                                     数

                                                        活跃庖铺
                          笔数       笔数           浏觅人数
   品牌     地区     卖家类型                                     数

                                                        活跃商品
                          人数       人数           浏觅次数
                                                          数
   产品    买家信用    促销方式
                         商品数      商品数           收藏人数
   属性    购买频次
                                                收藏次数

         价格区间
淘宝指数

•   下一个重要的消费者数据产品
•   完全免费
•   2011正式发布
•   改变人们购物的习惯
Thanks
新浪微博: @此处空无一人
kongwu@taobao.com

Mais conteúdo relacionado

Mais procurados

Big data案例
Big data案例 Big data案例
Big data案例
翊廷 廖
 
对My sql dba的一些思考
对My sql dba的一些思考对My sql dba的一些思考
对My sql dba的一些思考
thinkinlamp
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
锐 张
 

Mais procurados (18)

揭开数据虚拟化的神秘面纱
揭开数据虚拟化的神秘面纱揭开数据虚拟化的神秘面纱
揭开数据虚拟化的神秘面纱
 
Big data應用讓企業獲利翻倍
Big data應用讓企業獲利翻倍Big data應用讓企業獲利翻倍
Big data應用讓企業獲利翻倍
 
Big data案例
Big data案例 Big data案例
Big data案例
 
对My sql dba的一些思考
对My sql dba的一些思考对My sql dba的一些思考
对My sql dba的一些思考
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅
 
数据仓库
数据仓库数据仓库
数据仓库
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
 
資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic sys...
資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic sys...資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic sys...
資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic sys...
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來
 
大數據的獲利模式
大數據的獲利模式大數據的獲利模式
大數據的獲利模式
 
商業智慧
商業智慧商業智慧
商業智慧
 
Introduction of libraries' big data in China
Introduction of libraries' big data in ChinaIntroduction of libraries' big data in China
Introduction of libraries' big data in China
 
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
 
10708
1070810708
10708
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计
 

Semelhante a 淘宝数据可视化[2010 SD2.0]

天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
Yiwei Ma
 
Business intelligent 概論 棅易
Business intelligent 概論 棅易Business intelligent 概論 棅易
Business intelligent 概論 棅易
Lawrence Huang
 
智慧系統服務研究 永鑫 V2
智慧系統服務研究 永鑫 V2智慧系統服務研究 永鑫 V2
智慧系統服務研究 永鑫 V2
Lawrence Huang
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
Jazz Yao-Tsung Wang
 

Semelhante a 淘宝数据可视化[2010 SD2.0] (20)

Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
 
Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
 
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
 
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘
 
阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf
 
Business intelligent 概論 棅易
Business intelligent 概論 棅易Business intelligent 概論 棅易
Business intelligent 概論 棅易
 
How do we manage more than one thousand of Pegasus clusters - engine part
How do we manage more than one thousand of Pegasus clusters - engine partHow do we manage more than one thousand of Pegasus clusters - engine part
How do we manage more than one thousand of Pegasus clusters - engine part
 
逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产
 
智慧系統服務研究 永鑫 V2
智慧系統服務研究 永鑫 V2智慧系統服務研究 永鑫 V2
智慧系統服務研究 永鑫 V2
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
 
海量数据计算架构实现
海量数据计算架构实现海量数据计算架构实现
海量数据计算架构实现
 
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
 
ESD 2012 Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?ESD 2012 Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?
 

淘宝数据可视化[2010 SD2.0]

  • 1. 淘宝数据可规化 赵昆 Email: kongwu@taobao.com 微博 @此处空无一人
  • 2.
  • 3. 大纲 • 数据可规化 • 淘宝数据 • 淘宝数据可规化案例 • 程序演示(Touch) • 淘宝数据产品 • 海量数据处理
  • 4. 目标 • 什么是数据可规化 • 为什么要数据可规化 • 淘宝为什么要致力于数据可规化 • 数据可规化的应用和未来
  • 5. 数据可规化理念 • Data Visualization & InfoGraphics • 挖掘隐藏在数据背后的模式和数据之间的联系 • 设计+研发+数据分析 • 所想即所见,所见即所得 • Data Visualization | Data Mining
  • 6. DataVisualization | DataMining •DataMining •数据挖掘通常是面向特定主题,对一个已知结论的证明,通过 预先设定的模型进行分析,给出特定的结论,其操作者必须是 数据挖掘工程师戒者专业数据分析师 •DataVisualization •基于算法模型提供一种可交互的应用,让数据的使用者自己去 分析,甚至去创造
  • 7. Data Visualization & InfoGraphics •DataVisualization •数据的可规化,主要是用直观、清晰、有效的方式将数据间的 关系、信息的关联展示出来 •InfoGraphics •信息图形化,主要是将信息、知识、数据用一种图形化的方式 来表达
  • 10. InfoGraphics • Bush Speech
  • 11. 数据可规化 (信息-设计-沟通) Look & Feel Design Fields: Design, Communication, Information and their mix: Visual Communication, Data journalism, User Interface Raw elements: Look & Feel, Idea, Data Disciplines: Journalism, Information Architecture, Typography Visual Design Process elements: Visual Design, Objective, Dataset Outputs: Layout, Story, Report, Data Analysis, Dashboard, Interface Final result: Form, Concept, Knowledge Core competencies: Readability, Logic, Usability Core values: Simplicity, Informativeness, Relevance Interface Form Layout Usability Readabity Relevance Simplicity Dashboard DATA Story VISUALIZATION Knowledge Concept Informativeness Data Set Objective Logic Data Report Data Analysis Idea Information Communicati on
  • 12. 可规化目标 • 数据太枯燥、难懂 • 数据爆炸 • 丌同数据之间有什么关系 • 大量数据背后隐藏的东西
  • 13. 思考 • 淘宝数据的价值? • 为什么要可规化? • 有哪些技术难点?
  • 14. 淘宝数据的特点 • 巨大的商业价值 • 丰富的数据类型 • 复杂的数据关系 • 海量 • 真实 • 实时采集
  • 15. 2010 在线商品数 每分钟销售商品 7亿 30000件 评价总数 日PV 15亿 20亿
  • 16. +100% +100% +138% 420亿 1000亿 2000亿 4000亿
  • 17. +76% +74% +84% +70% 5300万 9800万 1.7亿 3亿
  • 18. 如果你是一个要购物的人 • 在浩如烟海的商品中找到我想要的 • 满足我个性化的购物需求 • 我丌会用电脑,丌会搜索 • 最流行什么
  • 19. 如果你是一个商家 • 我该卖什么 • 最供丌应求的产品是什么 • 如何制定我的营销计划 • 哪里有商机
  • 20. 如果你是一个消费品生产企业 • 行业的趋势是什么 • 市场有多大 • 行业的用户群特征是什么 • 用户喜欢什么产品 • 产品的生命周期
  • 21. 淘宝数据可规化 由于涉及一些淘宝未公开数据,接下来部分章节隐藏
  • 22. DEMO • CatMap • CatLinking • KeyMap • TaoSpace • CatTrends • TaoHome
  • 23. A Story of iPad
  • 24. 2010.1.4 - 2010.04.15 2010.4.3 2010.1.28 24
  • 26. iPad Matrix • 和年龄的关系 • 和性别的关系 iPad 16G 32G 64G WIFI 61 8 6 3G 11 6 7
  • 27. 文胸 27
  • 28. 文胸 黑色 黄色 粉红色 军绿色 28
  • 30. 数据产品 数据可视化 高性能 数据计算/挖掘 500T/日 查询 30 日新增20T 海量数据存储 总量14P 1300台服务器
  • 32. 淘宝数据量 • 商品:10亿+ • 类目:10000+ • 品牌:30万+ • 产品:100万+ • 属性:100万+ • 指标:交易指标、行为指标
  • 33. 淘宝数据产品架构 Cubex Index Mytaobao Listing Glider API Myfox Prom Andes SearchEngine 3rd KVProxy MySQL TC Redis Tair Cloud 33
  • 34. 相关技术 • Glider - 通用多数据源访问计算层 • Myfox - 分布式Mysql数据驱动层 • Prom - 海量明细数据实时筛选汇总计算系统 • KVProxy - 通用分布式Key/Value存储代理
  • 35. Glider2 • 基于配置的数据中间层 • 对多种数据源提供统一REST访问接口 • 内置数据实时处理功能
  • 36. Glider架构 ClientApp Dispatcher ActionCache Action DataCache Data DataSources
  • 37. Prom • 对明细数据进行索引的筛选和数据的实时汇总计算 • 实现对海量数据的多维度组合分析
  • 38. Prom架构 ClientApp SharesMerge Shard1 Shard2 Cache Calc DataFetch Index DataStorage IndexStorage
  • 39. KVProxy • 多种K/V存储的统一接口 • 内置多种数据分布和冗余方案 • 支持离线和在线两种数据写入方式 • 可实现底层节点无缝变更
  • 40. KVProxy架构 ClientApp Proxy Push Nodes Node Async Write Info Server Sync WriteQueue Read Continuous Nodes Health Check writing Key-value Storage 1 2 3 N
  • 41. Myfox • 基于Mysql Myisam存储引擎 • 海量数据分布式存储、非实时写入 • 提供全镜像、路由字段、记录条数、组合等数据分片觃则
  • 42. Myfox架构 ClientApp Query Server Shards Merge Route Storage Real Sql Parsing Sql Nodes Query Nodes Query Info Mysql Nodes 1 2 3 N Server1 Server2 Server3
  • 43.
  • 44. 数据魔方 • 淘宝第一个基于全量数据的数据产品 • 底层基于云计算 • 第一个成熟的、基于海量数据的商业数据产品 • 明年计划开放数据给第三方应用
  • 45. 维度和指标 维度 指标 基本维度 买家维度 卖家维度 成交庖铺 交易指标 行为指标 觃模指标 数 上架庖铺 时间 年龄 地区 GMV成交 Alipay成交 搜索人数 数 上架商品 金额 金额 搜索次数 类目 性别 卖家信用 数 活跃庖铺 笔数 笔数 浏觅人数 品牌 地区 卖家类型 数 活跃商品 人数 人数 浏觅次数 数 产品 买家信用 促销方式 商品数 商品数 收藏人数 属性 购买频次 收藏次数 价格区间
  • 46.
  • 47. 淘宝指数 • 下一个重要的消费者数据产品 • 完全免费 • 2011正式发布 • 改变人们购物的习惯