Mais conteúdo relacionado 05 杨志丰3. 淘宝年度交易额
亿元人民币
4500
4000
6000万用户登录/天
3500
3000
2500 2083
20亿PV/天
2000
1500 999.6
1000
443
500 80.2149.96
0
2003 2004 2005 2006 2007 2008 2009 2010
数据来自公开媒体
5. 淘宝数据(1)
离线数据:39PB+, 2000+台Hadoop机
群, 40000+个MapReduce作业/天
手机价格区间百分比
2010年淘宝上最畅销手机价格区间?
2010年什么年货最畅销?
14
16 30 1千以下
1千~2千
什么地方人最爱大闸蟹? 2千~3千
糖果、蜜饯、炒货、冲饮品、饼干
40
3千以上
广东、上海、浙江、江苏、北京
14. 解决方案
从前
• Oracle
• 小型机
• 高端存储
现在
• MySQL,OceanBase,
Hbase,Oracle,MongoDB
等
• 普通PC服务器
16. 典型解决方案对比
Bigtable
Percolato
数 r
万亿记录 据
(十PB) 规
模 OceanBas
HBase
千亿记录 Dynamo e
(百TB)
Oracle/DB2
Cassandr …
a
千万记录 事务与数据一致性
(百GB) 最终一致 单行事务 跨行跨表事务
DBMS:事务 + 一致性,但扩展性欠缺
NoSQL:扩展性好,但事务、一致性欠缺
16
19. 系统架构
RootServer/ RootServer/ 元数据
UpdateServe UpdateServ
r er 增量数据
(主) (备)
Clien
t
基准数据
ChunkServer ChunkServe
/MergeServer r/MergeServ
er
数据融合
26. 数据丢失概率
年故 设备 处理 单台故 2台故 3台故 4台故
障率 数量 时长 障率 障率 障率 障率
5% 10 0.5 2.9E-05 3.8E-08 2.9E-12 4.0E-16
5% 10 1 5.8E-05 1.5E-07 2.3E-11 2.8E-15
5% 10 2 1.2E-04 6.0E-07 1.9E-10 3.8E-14
5% 50 0.5 1.4E-04 2.6E-05 5.9E-08 1.0E-10
5% 50 1 2.9E-04 1.0E-04 4.7E-07 1.6E-09
5% 50 2 5.8E-04 4.0E-04 3.7E-06 2.5E-08
5% 100 0.5 2.9E-04 4.1E-04 3.8E-06 2.7E-08
5% 100 1 5.8E-04 1.6E-03 3.0E-05 4.2E-07
5% 100 2 1.2E-03 6.2E-03 2.3E-04 6.4E-06
35. SQL
部分支持
SELECT ipv, count(iuv) AS ci, ipv * ci
FROM lz_rpt_auction_info_d
WHERE unit_id=3 AND day=D'2011-10-31'
GROUP BY ipv
HAVING ci>5
ORDER BY ci DESC;
39. Q&A
Thanks
邮件: yangzhifeng83@gmail.com
主页: http://net.pku.edu.cn/~yzf/
微博: http://weibo.com/yangzhifeng83