Mais conteúdo relacionado Semelhante a 腾讯大讲堂30 运维工具让你的开发运营更轻松 (20) 腾讯大讲堂30 运维工具让你的开发运营更轻松4. 服务器数 25867
进程数 64025
域名数 4864
机房 111
业务集合 322
业务总数 5075
我们为什么要建ITIL
2894
4008
5400
8095
5446
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
2004年 2005年 2006年 2007年 2008年
服务器增量
还将以每年80%的速度增长
8. IT管理国际规范--ITIL
• 全称 IT Infrastructure Library
• 从1986年开始被使用
• 英国政府电脑局(CCTA)开发制定
• 国际上唯一的关于IT服务管理的综合性准则
• 国际性资格认证(基础级/主管级/经理级)
• 有自己的国际性用户组织 (ITSMF)
• 全球十万多家大型企业采用的管理模式
• 最新国际标准ISO 20000
Change
Config
HelpDesk
Problem
Cost
SLM
Avail
Contingency
Operations
Capacity
Security
http://www.itil.co.uk
19. 价值-运维的工作及重心转变
22
1. 日常发布及相关沟通协调工作 ×
2. 扩容工作 ×
3. 投诉的二线支持 ×
4. 数据迁移/提取 ×
5. IDC软硬件故障维护 ×
1. 配置管理
2. 运营数据分析
3. 立体化监控及异常发现
4. 代码编译检查
5. 可运营规范及推进开发优化
6. … …
重心
日常操作
救火
运营分析
优化改进
监控预防
工具化、智能化及自动化
持续优化和规范环境,降低复杂度
举措
进化
44. 产品架构
Qzone Service
QQshow Service
QQ音乐 Service
Log local
Api
Log msg
Log msg
Log Server
Local log agernt
Local file
Log msg
Log files
Log msg
DataProcess
处理插件
处理插件
Result Files
Data Sender
Qzone QQshow QQ音乐
Collector
FileCache
Alarmsvr NMData
NMTASK
IIS 中间件
告警库
内存cache数
据
数据采集服务器
部门二级网管服务器
业务数据
部门网管web服务器
用户IE
部门二级网管日志预处理机制日志集中平台
Collector接收所有agent数据并转发
订阅该数据的各级网管服务器
FileCache接收agent数据包,做cache
和历史转存文件
Alarmsvr分析agent数据产生存储告
警
NMTask接收Web端的数据查询告警
功能
NMData对agent数据进行叠加等运
算
提供客户端页面浏览服务器
54
64. ARS发布推广情况
部门 对象业务 接口人 现状
ISD
Qzone
waynewang
1、已经覆盖ISD80%的发布工作;
2、剩余20%的ISD发布计划在Q2实现覆
盖(主要是包的增量发布);
QQ秀
QQ会员
QQ相册
QQ交友
QQ音乐
Imagecache
IED
寻仙
leoxiong、
felixwang
1、飞行岛发布稳定。
2、PET 1.0正常进行了多次正式环境发布。
3、CF进行了多次正式发布。
4、其它多个产品处于试用中。
QQ宠物1.0
飞行岛
QQ宠物2.0
CF
QQ幻想
无线
手机QQ
amyli,yen,stev
eqiao,wingzho
u
1、手机QQ发布稳定。
2、VOIP进行了多次正式发布。
3、其它多个产品处于试用中。
无线音乐
无线平台服务
VOIP
创新中心 QQ客服
jackye
1、频道应用发布稳定。网站部 频道应用
国际产品中心 美国QQGame
广告部 QQlive
运营支持部 pay.qq.com hairyxie 发布数量稳定。
电子商务部 eagle 已完成部署,试用中
在线支付部 财富通 aaronzheng 完成了新环境的部署,试用中。
红色代
表基本
覆盖所
有产品
蓝色代
表部分
产品覆
盖
白色代
表正在
试用中
66. 公共运维平台的规划
发布管理 任务管理 TSH监控管理
用户管理 权限管理 操作日志管理安全管理
公共运维平台
发布自动化
发布平台化
发布审批
发布计划管理
版本管理
公共软件的发布管理
命令/脚本集中管理(编辑/查看/保
存)
任务的权限管理
任务手工/定时自动调用
任务执行结果查看
进程状态监控;
版本状态查询;
自动/手工重启进程;
用户分权分组管理
操作进行分类管理
记录/查看用户在公共运维平台的
所有操作
Notas do Editor 事件管理是一个很关键的流程,它为组织提供首先检测事件然后准确确定正确的支持资源以便尽快解决事件的能力。该流程还为管理层提供关于影响组织的事件的准确信息,以便他们能够确定必需的支持资源,并为支持资源的供给做好计划。 通过利用事件管理流程,组织能够确保他们的支持资源集中在最紧迫并且可能对业务产生最大影响的问题上。如果没有该流程提供的控制和管理信息,组织将无法确保他们在 IT 支持方面的投资(经常是很重大的投资)是否真正满足其目标。