SlideShare uma empresa Scribd logo
1 de 31
Baixar para ler offline
机房选择算法

        司学峰
sxfmol@gmail.com 2010.12
目标
•   大多数文件大小与下载时间范围?
•   样本选取及合适的下载速度区间?
•   主力及备用机房的判断标准?
•   地市到机房的选择规则?
•   新旧算法结果对比分析
5万样本数据
20万样本数据
30万数据样本
文件大小区间(kByte)占比            记录数
700-800           41.06%         122969
1000-2000         16.07%          48117
5000-10000        14.32%          42888
大于10000           13.19%          39492
2000-5000         11.65%          34877
800-1000           2.71%           8128
小于700              0.99%           2979
广州3天数据
      广州全天数据记 文件小于10000kbyte且时
                               占总数比
      录总数     间小于150s
22号       1655306        1343211 81.15%
23号       3685079        3036116 82.39%
24号       3357109        2710902 80.75%
文件大小与时长结论

• 数据样本选取文件小于10000时间且时间小
  于150范围的数据记录
速度分布
文件小于10000kByte,时长小于150s,广州22号30万数据样本
下载速度      占比(%)      记录数
100-250        52.01    155743
250-600        19.43     58195
60-100         11.94     35756
大于600           4.03     12087
小于60           12.57     37669
全部数据
                 文件小于               文件小于
                 10000时间            10000时间
      广州全天数据                                    占筛选后样
日期    记录总数
                 小于150范 占总数比 小于150速
                 围数据记录              度60-600数
                                                本比
                 数                  据记录数
22号      1655306     1343211 81.15%     1096079    81.60%
23号      3685079     3036116 82.39%     2416723    79.60%
24号      3357109     2710902 80.75%     2115789    78.05%
平均速度样本选取结论
• 数据样本选取文件小于10000kbyte&时间小
  于150s&速度60-600kbyte/s,通过这部分
  样本求出各服务器均速。
权重系数考虑因素
• 连接数影响
• 速度小于60的影响
平均速度与连接数散点图
广州3天2个时间点主力机房样本数据
平均速度与连接数散点图
20、6点3天备用机房全部数据
连接数影响结论
• 连接数多少与服务器速度无明显对应关系,
  暂不考虑连接数对服务器性能的影响
• 备用机房与主力机房相比,备用机房连接
  数远远小于主力机房,平均速度分布高于
  主力机房
关键少数—导致客户流失
             文件小于             文件小于
                                       占文件小
             10000时           10000时
                                       于10000
     数据记录 间小于         占全部数 间小于
广州全天                                   时间小于
     总数      150范围 据比率 150数据
                                       150范围
             数据记录             速度小于
                                       数据
             数                60记录数
22号   1655306 1343211  81.15%    197066 14.67%
23号   3685079 3036116  82.39%    504650 16.62%
24号   3357109 2710902  80.75%    481418 17.76%
22号样本数据
速度小于            速度小于60 速度小于60 总记录占                 小于60记录/总记录服务器性能较
                                           总记录数
60servip        占比%       记录数      比%              数            差单位比
121.14.14.24        25.32     9790    8.81   26380         0.37      2.87
121.10.240.12       10.47     4048    8.99   26923         0.15      1.16
121.10.240.13        5.44     2105    5.00   14985         0.14      1.09
121.14.15.40         1.40      541    1.32    3940         0.14      1.06
121.14.15.24         1.22      472    1.18    3524         0.13      1.04
121.10.240.14        7.40     2861    8.05   24111         0.12      0.92
121.14.15.34         1.25      484    1.51    4508         0.11      0.83
121.15.253.72        5.89     2277    7.12   21324         0.11      0.83
121.15.253.68        5.62     2173    6.87   20567         0.11      0.82
121.14.14.40         5.81     2247    7.23   21639         0.10      0.80
121.14.14.48         5.82     2252    7.30   21862         0.10      0.80
121.14.14.36         4.31     1665    5.50   16478         0.10      0.78
121.14.15.48         0.82      316    1.09    3277         0.10      0.75
121.14.14.34         6.53     2524    9.04   27079         0.09      0.72
113.106.201.220      2.32      896    3.24    9688         0.09      0.72
121.15.253.90        4.92     1902    6.95   20797         0.09      0.71
121.14.15.37         0.22       86    0.32     966         0.09      0.69
121.14.14.37         0.99      381    1.69    5055         0.08      0.58
121.15.253.86        1.77      683    3.26    9767         0.07      0.54
121.14.15.36         0.40      156    0.81    2413         0.06      0.50
广州22号20点全部数据
关于权重系数小结
1. 对于文件小于10000&时长小于150&速
   度小于60的数据样本,其作用是确定服
   务器均速的加强系数。
2. 权重系数=(1-速度小于60占比)
结论:机房选择算法
符号定义:
设xij为某地区用户到i机房的第j条记录,f ij为该用户在i机房第j条记录下载文件大小,
tij为该用户i机房第j条记录下载文件的所用时间,
vij为该用户i机房第j条记录的下载速度 vij  f ij tij ,
其中,文件大小fij的单位为Kbyte, 下载时间tij的单位为s。
样本筛选条件:
fij  10000且tij  150,i  1, 2,    , m; j  1, 2,   ,n
几个重要指标:
设ui整体为该地区用户到i机房的整体平均速度
   ui整体  avg (vij )
设 i为该地区所有用户到i机房记录数占该地区全部记录数的比率
        n        m     n
  i   xij     x          ij
       j 1     i 1   j 1
当60  vij  600
     ui速度60600  avg (vij )
当vij <60, i为该地区用户到i机房速度小于60的记录数占该地区用户到i机房记录数的比率
            k        n
     i   xij     x      ij
           j 1      j 1

ui主力机房排序速度  ui速度60600 *(1  i )
ui备用机房排序速度  ui速度60600 *(1  i )
是否主力机房判断条件:
如果该地区所有用户到i机房记录数占该地区全部记录数的比率 i  10%且 ui整体  100,
则i机房为该地区的主力机房;否则,为备用机房。
主力机房排序:
按ui主力机房排序速度降序排列,对应的机房编号cdnid即为主力机房优先选择的排序。
设主力机房的个数为q, 一般找到的主力机房个数q在3个左右。
备用机房排序:
按ui备用机房排序速度降序排列,取前(10  q )个。


这样,得到的10个机房由q个主力机房、(10-q )个备用机房组成。
新旧算法结果分析
新旧算法比较
           新算法               旧算法
样本选取条件     文件小于10000kb且下载时   按速度降序排列,选择10%-
           长小于150s           30%区间数据

数据量        总体80%左右的数据量       总体20%的数据量

是否考虑差性能带   考虑                不考虑
来的影响
速度权重考虑因素   连接数、合理速度、差速度 速度
           比率
结果是否区分主力   判断是否主力机房;先降序 不区分
机房         排列主力机房,再降序排列
           非主力机房
结果数据说明
• 计算结果数据源:23-28号6天数据
• 地市:选取1>19>246 广州,1>1>1 北京东
  城,1>27>376 西安;
• 时间:选择1,3两个点即6-12点,18-24点时
  间段数据计算结果。
新旧算法对比结论
• 分别探讨广州、北京东城、西安新旧算法
  对比结果
广州
• 新算法中,广州6天2个时间段12条记录中,机房排
  名第1的均为广州,速度权重范围15-16;旧算法排
  名第一的为东莞,速度权重范围173-192。
• 新算法中,广州6天2个时间段12条记录中,机房排
  名第2的为广州或肇庆,速度权重范围8-15;旧算法
  排名第2的都是长沙,速度权重范围79-82。
• 在新算法中前2位的机房判定为主力机房
• 新算法判定的主力机房在旧算法列出的机房中只有
  广州机房在其列出的机房中出现过一次,占1/12%,
  并且还排在后面。
• 结论:新算法判定的主力机房没有在旧算法中出现;
  旧算法机房排序速度异常偏高。
北京东城
• 旧算法中,北京东城东城给出的机房只有
  北京和天津两个,速度权重范围17-21;
• 新算法中,北京东城给出的机房个数有5-9
  个;前2位是北京和天津,并判断为主力机
  房,速度权重范围10-16;
• 针对北京东城,新算法给出的机房个数优
  于新算法。
西安
• 新算法中,西安6天2个时间段12条记录中,
  甘肃排在第一的有10条记录占10/12%,速度
  权重范围17-19;找到的主力机房1-3个;
• 旧算法中,西安6天2个时间段12条记录中,
  甘肃排在第一的有4个占4/12%,速度权重范
  围34-40;其他第一非甘肃的速度权重范围:
  33-141;
• 针对西安,新算法给出了1-3个主力机房;
  旧算法整体速度权重较高,甚至异常超高。
综合结论
• 1:新算法从数据样本选择上优于旧算法,样
  本数据量由原来总体的20%提高到总体的80%,
  在样本筛选上更具科学性。
• 2:新算法综合考虑了差性能占比对机房选择
  的影响。旧算法速度权重仅以下载速度作为排
  序标准,产生了很多异常高的速度权重,而基
  于此选择的机房并不合理。新算法的速度权重
  综合考虑了连接数、合理速度、差性能占比,
  使机房选择排序标准更具合理性。
• 3:新算法给出了主力机房与非主力机房,新
  算法排序结果更具可参考性。
附表-新旧算法结果明细
• 新算法结果举例:广州147,16,19,1其中广州
  147表示机房,16为速度权重,19为不考虑
  差性能时的速度权重,1表示判定为主力机
  房(如果是0表示判断为非主力机房)
• 旧算法结果举例:东莞152,183其中东莞152
  表示机房,183为速度权重。
附表-新旧算法结果明细
• 新算法结果举例:广州147,16,19,1其中广州
  147表示机房,16为速度权重,19为不考虑
  差性能时的速度权重,1表示判定为主力机
  房(如果是0表示判断为非主力机房)
• 旧算法结果举例:东莞152,183其中东莞152
  表示机房,183为速度权重。

Mais conteúdo relacionado

Semelhante a Cdn调度策略优化

腾讯大讲堂40 web类服务用户体验优化综述
腾讯大讲堂40 web类服务用户体验优化综述腾讯大讲堂40 web类服务用户体验优化综述
腾讯大讲堂40 web类服务用户体验优化综述PMCamp
 
低功耗服务器定制与绿色计算
低功耗服务器定制与绿色计算低功耗服务器定制与绿色计算
低功耗服务器定制与绿色计算Wensong Zhang
 
低功耗服务器定制与绿色计算——章文嵩(淘宝)
低功耗服务器定制与绿色计算——章文嵩(淘宝)低功耗服务器定制与绿色计算——章文嵩(淘宝)
低功耗服务器定制与绿色计算——章文嵩(淘宝)drewz lin
 
Tokyo系列介绍(一)
Tokyo系列介绍(一)Tokyo系列介绍(一)
Tokyo系列介绍(一)jiandong yang
 
設計公差與Cpk 2023.pdf
設計公差與Cpk 2023.pdf設計公差與Cpk 2023.pdf
設計公差與Cpk 2023.pdfCasey Jen
 
CPU平行粒子群最佳化應用於平面桁架結構最佳化設計
CPU平行粒子群最佳化應用於平面桁架結構最佳化設計CPU平行粒子群最佳化應用於平面桁架結構最佳化設計
CPU平行粒子群最佳化應用於平面桁架結構最佳化設計Jay Hung
 
整合灰關聯分析技術與實驗設計法於再生混凝土多重品質特性綜合評估
整合灰關聯分析技術與實驗設計法於再生混凝土多重品質特性綜合評估整合灰關聯分析技術與實驗設計法於再生混凝土多重品質特性綜合評估
整合灰關聯分析技術與實驗設計法於再生混凝土多重品質特性綜合評估AlanLee
 
我國寬頻上網速率評量試驗計畫第一階段成果摘要報告
我國寬頻上網速率評量試驗計畫第一階段成果摘要報告我國寬頻上網速率評量試驗計畫第一階段成果摘要報告
我國寬頻上網速率評量試驗計畫第一階段成果摘要報告jessie0203
 
阿里巴巴 叶正盛 数据库性能量化
阿里巴巴 叶正盛 数据库性能量化阿里巴巴 叶正盛 数据库性能量化
阿里巴巴 叶正盛 数据库性能量化colderboy17
 
阿里巴巴 叶正盛 数据库性能量化
阿里巴巴 叶正盛 数据库性能量化阿里巴巴 叶正盛 数据库性能量化
阿里巴巴 叶正盛 数据库性能量化guiyingshenxia
 
Infiniflash benchmark
Infiniflash benchmarkInfiniflash benchmark
Infiniflash benchmarkLouis liu
 
Performance Data Analyze
Performance Data AnalyzePerformance Data Analyze
Performance Data Analyzeanysql
 
SEM與Amos論文寫作班-三星統計張偉豪
SEM與Amos論文寫作班-三星統計張偉豪SEM與Amos論文寫作班-三星統計張偉豪
SEM與Amos論文寫作班-三星統計張偉豪Beckett Hsieh
 
Analytics in a Day.pptx
Analytics in a Day.pptxAnalytics in a Day.pptx
Analytics in a Day.pptxLigangJin
 
It Report 2008 09 Haven
It Report 2008 09 HavenIt Report 2008 09 Haven
It Report 2008 09 Haventurnroll
 
It Report 2008 09 Haven
It Report 2008 09 HavenIt Report 2008 09 Haven
It Report 2008 09 Havenguest0e0774
 
Linux性能监控cpu内存io网络
Linux性能监控cpu内存io网络Linux性能监控cpu内存io网络
Linux性能监控cpu内存io网络lovingprince58
 
Java 性能瓶劲分析之最佳实践
Java 性能瓶劲分析之最佳实践Java 性能瓶劲分析之最佳实践
Java 性能瓶劲分析之最佳实践Denger Tung
 

Semelhante a Cdn调度策略优化 (20)

腾讯大讲堂40 web类服务用户体验优化综述
腾讯大讲堂40 web类服务用户体验优化综述腾讯大讲堂40 web类服务用户体验优化综述
腾讯大讲堂40 web类服务用户体验优化综述
 
低功耗服务器定制与绿色计算
低功耗服务器定制与绿色计算低功耗服务器定制与绿色计算
低功耗服务器定制与绿色计算
 
低功耗服务器定制与绿色计算——章文嵩(淘宝)
低功耗服务器定制与绿色计算——章文嵩(淘宝)低功耗服务器定制与绿色计算——章文嵩(淘宝)
低功耗服务器定制与绿色计算——章文嵩(淘宝)
 
Slide
SlideSlide
Slide
 
Tokyo系列介绍(一)
Tokyo系列介绍(一)Tokyo系列介绍(一)
Tokyo系列介绍(一)
 
設計公差與Cpk 2023.pdf
設計公差與Cpk 2023.pdf設計公差與Cpk 2023.pdf
設計公差與Cpk 2023.pdf
 
CPU平行粒子群最佳化應用於平面桁架結構最佳化設計
CPU平行粒子群最佳化應用於平面桁架結構最佳化設計CPU平行粒子群最佳化應用於平面桁架結構最佳化設計
CPU平行粒子群最佳化應用於平面桁架結構最佳化設計
 
整合灰關聯分析技術與實驗設計法於再生混凝土多重品質特性綜合評估
整合灰關聯分析技術與實驗設計法於再生混凝土多重品質特性綜合評估整合灰關聯分析技術與實驗設計法於再生混凝土多重品質特性綜合評估
整合灰關聯分析技術與實驗設計法於再生混凝土多重品質特性綜合評估
 
15 w cob-module
15 w cob-module15 w cob-module
15 w cob-module
 
我國寬頻上網速率評量試驗計畫第一階段成果摘要報告
我國寬頻上網速率評量試驗計畫第一階段成果摘要報告我國寬頻上網速率評量試驗計畫第一階段成果摘要報告
我國寬頻上網速率評量試驗計畫第一階段成果摘要報告
 
阿里巴巴 叶正盛 数据库性能量化
阿里巴巴 叶正盛 数据库性能量化阿里巴巴 叶正盛 数据库性能量化
阿里巴巴 叶正盛 数据库性能量化
 
阿里巴巴 叶正盛 数据库性能量化
阿里巴巴 叶正盛 数据库性能量化阿里巴巴 叶正盛 数据库性能量化
阿里巴巴 叶正盛 数据库性能量化
 
Infiniflash benchmark
Infiniflash benchmarkInfiniflash benchmark
Infiniflash benchmark
 
Performance Data Analyze
Performance Data AnalyzePerformance Data Analyze
Performance Data Analyze
 
SEM與Amos論文寫作班-三星統計張偉豪
SEM與Amos論文寫作班-三星統計張偉豪SEM與Amos論文寫作班-三星統計張偉豪
SEM與Amos論文寫作班-三星統計張偉豪
 
Analytics in a Day.pptx
Analytics in a Day.pptxAnalytics in a Day.pptx
Analytics in a Day.pptx
 
It Report 2008 09 Haven
It Report 2008 09 HavenIt Report 2008 09 Haven
It Report 2008 09 Haven
 
It Report 2008 09 Haven
It Report 2008 09 HavenIt Report 2008 09 Haven
It Report 2008 09 Haven
 
Linux性能监控cpu内存io网络
Linux性能监控cpu内存io网络Linux性能监控cpu内存io网络
Linux性能监控cpu内存io网络
 
Java 性能瓶劲分析之最佳实践
Java 性能瓶劲分析之最佳实践Java 性能瓶劲分析之最佳实践
Java 性能瓶劲分析之最佳实践
 

Mais de 学峰 司

微软BI开发工程师认证
微软BI开发工程师认证微软BI开发工程师认证
微软BI开发工程师认证学峰 司
 
司学峰 Mcitp bi认证
司学峰 Mcitp bi认证司学峰 Mcitp bi认证
司学峰 Mcitp bi认证学峰 司
 
来自 Google 的 r 语言编码风格指南
来自 Google 的 r 语言编码风格指南来自 Google 的 r 语言编码风格指南
来自 Google 的 r 语言编码风格指南学峰 司
 
视频网站全视角分析解决方案 初稿
视频网站全视角分析解决方案 初稿视频网站全视角分析解决方案 初稿
视频网站全视角分析解决方案 初稿学峰 司
 
201101社交网站情报分析
201101社交网站情报分析201101社交网站情报分析
201101社交网站情报分析学峰 司
 
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究学峰 司
 

Mais de 学峰 司 (9)

微软BI开发工程师认证
微软BI开发工程师认证微软BI开发工程师认证
微软BI开发工程师认证
 
司学峰 Mcitp bi认证
司学峰 Mcitp bi认证司学峰 Mcitp bi认证
司学峰 Mcitp bi认证
 
演示文稿1
演示文稿1演示文稿1
演示文稿1
 
来自 Google 的 r 语言编码风格指南
来自 Google 的 r 语言编码风格指南来自 Google 的 r 语言编码风格指南
来自 Google 的 r 语言编码风格指南
 
视频网站全视角分析解决方案 初稿
视频网站全视角分析解决方案 初稿视频网站全视角分析解决方案 初稿
视频网站全视角分析解决方案 初稿
 
201101社交网站情报分析
201101社交网站情报分析201101社交网站情报分析
201101社交网站情报分析
 
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
 
心得汇报
心得汇报心得汇报
心得汇报
 
心得汇报
心得汇报心得汇报
心得汇报
 

Cdn调度策略优化