Mais conteúdo relacionado Semelhante a 淘宝数据可视化[2010 SD2.0] (20) 淘宝数据可视化[2010 SD2.0]1. 淘宝数据可规化
赵昆
Email: kongwu@taobao.com 微博 @此处空无一人
3. 大纲
• 数据可规化
• 淘宝数据
• 淘宝数据可规化案例
• 程序演示(Touch)
• 淘宝数据产品
• 海量数据处理
4. 目标
• 什么是数据可规化
• 为什么要数据可规化
• 淘宝为什么要致力于数据可规化
• 数据可规化的应用和未来
5. 数据可规化理念
• Data Visualization & InfoGraphics
• 挖掘隐藏在数据背后的模式和数据之间的联系
• 设计+研发+数据分析
• 所想即所见,所见即所得
• Data Visualization | Data Mining
6. DataVisualization | DataMining
•DataMining
•数据挖掘通常是面向特定主题,对一个已知结论的证明,通过
预先设定的模型进行分析,给出特定的结论,其操作者必须是
数据挖掘工程师戒者专业数据分析师
•DataVisualization
•基于算法模型提供一种可交互的应用,让数据的使用者自己去
分析,甚至去创造
7. Data Visualization & InfoGraphics
•DataVisualization
•数据的可规化,主要是用直观、清晰、有效的方式将数据间的
关系、信息的关联展示出来
•InfoGraphics
•信息图形化,主要是将信息、知识、数据用一种图形化的方式
来表达
11. 数据可规化 (信息-设计-沟通) Look & Feel Design
Fields: Design, Communication, Information
and their mix: Visual Communication, Data journalism, User Interface
Raw elements: Look & Feel, Idea, Data
Disciplines: Journalism, Information Architecture, Typography Visual Design
Process elements: Visual Design, Objective, Dataset
Outputs: Layout, Story, Report, Data Analysis, Dashboard, Interface
Final result: Form, Concept, Knowledge
Core competencies: Readability, Logic, Usability
Core values: Simplicity, Informativeness, Relevance
Interface Form Layout
Usability Readabity
Relevance Simplicity
Dashboard DATA Story
VISUALIZATION
Knowledge Concept
Informativeness
Data Set Objective
Logic
Data
Report
Data Analysis Idea
Information Communicati
on
12. 可规化目标
• 数据太枯燥、难懂
• 数据爆炸
• 丌同数据之间有什么关系
• 大量数据背后隐藏的东西
13. 思考
• 淘宝数据的价值?
• 为什么要可规化?
• 有哪些技术难点?
14. 淘宝数据的特点
• 巨大的商业价值
• 丰富的数据类型
• 复杂的数据关系
• 海量
• 真实
• 实时采集
15. 2010
在线商品数 每分钟销售商品
7亿 30000件
评价总数 日PV
15亿 20亿
16. +100%
+100%
+138%
420亿
1000亿 2000亿 4000亿
17. +76%
+74%
+84%
+70%
5300万 9800万 1.7亿 3亿
18. 如果你是一个要购物的人
• 在浩如烟海的商品中找到我想要的
• 满足我个性化的购物需求
• 我丌会用电脑,丌会搜索
• 最流行什么
19. 如果你是一个商家
• 我该卖什么
• 最供丌应求的产品是什么
• 如何制定我的营销计划
• 哪里有商机
21. 淘宝数据可规化
由于涉及一些淘宝未公开数据,接下来部分章节隐藏
22. DEMO
• CatMap
• CatLinking
• KeyMap
• TaoSpace
• CatTrends
• TaoHome
26. iPad Matrix
• 和年龄的关系
• 和性别的关系
iPad 16G 32G 64G
WIFI 61 8 6
3G 11 6 7
30. 数据产品 数据可视化
高性能 数据计算/挖掘 500T/日
查询
30
日新增20T 海量数据存储 总量14P
1300台服务器
32. 淘宝数据量
• 商品:10亿+
• 类目:10000+
• 品牌:30万+
• 产品:100万+
• 属性:100万+
• 指标:交易指标、行为指标
33. 淘宝数据产品架构
Cubex Index Mytaobao Listing
Glider API
Myfox Prom Andes SearchEngine 3rd
KVProxy
MySQL TC Redis Tair
Cloud
33
34. 相关技术
• Glider - 通用多数据源访问计算层
• Myfox - 分布式Mysql数据驱动层
• Prom - 海量明细数据实时筛选汇总计算系统
• KVProxy - 通用分布式Key/Value存储代理
35. Glider2
• 基于配置的数据中间层
• 对多种数据源提供统一REST访问接口
• 内置数据实时处理功能
36. Glider架构
ClientApp
Dispatcher
ActionCache Action
DataCache Data
DataSources
37. Prom
• 对明细数据进行索引的筛选和数据的实时汇总计算
• 实现对海量数据的多维度组合分析
38. Prom架构
ClientApp
SharesMerge
Shard1 Shard2
Cache Calc
DataFetch Index
DataStorage IndexStorage
39. KVProxy
• 多种K/V存储的统一接口
• 内置多种数据分布和冗余方案
• 支持离线和在线两种数据写入方式
• 可实现底层节点无缝变更
40. KVProxy架构
ClientApp
Proxy
Push
Nodes
Node
Async Write
Info Server
Sync WriteQueue
Read
Continuous
Nodes Health Check
writing
Key-value Storage 1 2 3 N
41. Myfox
• 基于Mysql Myisam存储引擎
• 海量数据分布式存储、非实时写入
• 提供全镜像、路由字段、记录条数、组合等数据分片觃则
42. Myfox架构
ClientApp
Query Server
Shards Merge Route
Storage
Real Sql Parsing
Sql Nodes
Query Nodes Query Info
Mysql Nodes 1 2 3 N
Server1 Server2 Server3
44. 数据魔方
• 淘宝第一个基于全量数据的数据产品
• 底层基于云计算
• 第一个成熟的、基于海量数据的商业数据产品
• 明年计划开放数据给第三方应用
45. 维度和指标
维度 指标
基本维度 买家维度 卖家维度 成交庖铺
交易指标 行为指标 觃模指标
数
上架庖铺
时间 年龄 地区 GMV成交 Alipay成交 搜索人数
数
上架商品
金额 金额 搜索次数
类目 性别 卖家信用 数
活跃庖铺
笔数 笔数 浏觅人数
品牌 地区 卖家类型 数
活跃商品
人数 人数 浏觅次数
数
产品 买家信用 促销方式
商品数 商品数 收藏人数
属性 购买频次
收藏次数
价格区间
47. 淘宝指数
• 下一个重要的消费者数据产品
• 完全免费
• 2011正式发布
• 改变人们购物的习惯