SlideShare uma empresa Scribd logo
1 de 10
Baixar para ler offline
中国移动研究院的Hadoop
中国移动研究院的Hadoop
   相关研发工作

   中国移动研究院
      王旭
大云研发历程

中国移动启动“大云”
      “大云”研发计划,打造公司云计算核心竞争力
   “大云”计划是中国移动研究院为打造中国移动云计算基础设施而实施
   的关键技术研究及原型系统开发计划
目标
   为满足中国移动IT支撑系统
      中国移动IT支撑系统高性能、低成本、可扩展、高可靠性的IT计算
   和存储的需要
   为满足中国移动提供互联网业务和服务
             互联网业务和服务的需要

确定大云研        用闲置资源搭              建 设 256 节 点          发布大         搭建1024
                                                                  搭建           云计算大会上
究方向          建 第 一 个                   分 析工
                                 集群 和 分析 工            云 0.5       节点集群         发布大云
                                                                                 大云1.0
                                                                               发布大云
                   平台
             Hadoop平台            具


   2007.3    2007.7     2008.3      2008.10 2008.12    2009.8   2009.12    2010.5
                                    并行数据挖掘工具开发
                                    与应用试验                       云计算技术路标、引入策略、
                                                                云计算技术路标、引入策略、
                                                                总体解决方案研究、
                                                                总体解决方案研究、产品研
 研究Hadoop等
 研究      等        开源架构/关键
                  开源架构 关键           系统改进、
                                    系统改进、完善与试验                  发、应用试验、产业链培育、
                                                                  应用试验、产业链培育、
 云计算关键技术          技术研究                                          商务模式研究
                                   系统评估
建设1024节点规模的大规模实验室
实验室建设
•       年 月完成了大规模运算实验室一期工程的
    2008年9月完成了大规模运算实验室一期工程的
    建设,配置了256台PC服务器,初步建立了大
    建设,配置了       服务器,
              台 服务器
    规模运算平台研发和试验环境
•       年 月完成了大规模实验室二期扩容工程
    2009年12月完成了大规模实验室二期扩容工程
    建设



实验室环境                                          实验室部署
•   节点:
    节点:1036个服务器;5208个CPU核,10T内
               个服务器;
               个服务器      个     核        内
    存;2.8P硬盘 硬盘
•   交换机: 个万兆 千兆兼容以太网交换机,
              个万兆/千兆兼容以太网交换机
    交换机:9个万兆 千兆兼容以太网交换机,树
    形结构互联
•   软件:
    软件:Centos Linux 5.4,kernel 2.6.18, jdk
                       ,
                    等
    1.6, hadoop-0.20等
•    部署的应用:数据挖掘,弹性计算平台
     部署的应用:数据挖掘,弹性计算平台BC-EC,               ,
    结构化海量数据管理平台HugeTable,搜索引
    结构化海量数据管理平台                 ,
    擎,云存储
中国移动大云技术架构
                     CMCC IT Supporting Systems                                Internet App      IDC 。。。
                                                                                                               Application
                                                                                                                • IT Supporting System of CMCC
                                                                                                                • IDC and Internet Applications
                                          Cloud Storage                Data Mining             Search Engine
System Management :CloudMaster
System Management :CloudMaster




                                                 BC-NAS                    BC-PDM                 BC-SE        Enabler
                                                                                                               • BC-PDM: Cloud base Data Mining
                                                                                                               • BC-NAS: File and Object Storage with
                                                                      Sturcture Data Storage
                                                                                                               web Interface and REST API
                                                                            HugeTable
                                                                                                               • BC-SE: Search Engine
                                 CloudSecurity
                                 CloudSecurity




                                                                       Hadoop MapReduce
                                                                       with CMRI Extension                     Platform
                                                                                                               • MapReduce & HDFS: based on Hadoop
                                                          Object Storage             Distributed Filesystem    and with some extensions by CMRI
                                                                                            based on
                                                              oNest
                                                                                         Hadoop HDFS                       :
                                                                                                               • HugeTable:Structure Storage with
                                                                                                               SQL interface
                                                              Elastic Computing: BC-EC                               :
                                                                                                               •oNest:Object Storage for Web Apps.
                                                                   Linux, Xen/KVM
                                                                                                               • CloudMaster: System Management

                                                                                                               Resource
                                                                                                               • PC Server and SATA Disk based
                                                                                                               • BC-EC: IaaS based on OpenNebula
                                                                                                               • Based on FOSS: Linux, KVM, Xen
大云与Hadoop
                     CMCC IT Supporting Systems                                Internet App      IDC 。。。
                                                                                                               Development based on Hadoop
                                                                                                                  Parallel ETL and Data Mining
                                          Cloud Storage                Data Mining             Search Engine      based on MapReduce
System Management :
System Management :CloudMaster




                                                 BC-NAS                    BC-PDM                 BC-SE           Search Engine based on
                                                                                                                  MapReduce
                                                                                                                  HugeTable (Structure data
                                                                      Sturcture Data Storage
                                                                            HugeTable
                                                                                                                  storage for data warehouse)
                                                                                                                  based on Hive, HBase & MR
                                 CloudSecurity
                                 CloudSecurity




                                                                       Hadoop MapReduce
                                                                       with CMRI Extension                     Development extending Hadoop

                                                          Object Storage             Distributed Filesystem       Volume Management of
                                                                                            based on              DataNode in HDFS
                                                              oNest
                                                                                         Hadoop HDFS
                                                                                                                  NameNode Cluster for HDFS
                                                              Elastic Computing: BC-EC                            Multi-queue scheduler with
                                                                   Linux, Xen/KVM                                 queue priority enhancement
                                                                                                               External facilities for Hadoop
                                                                                                                  Test tools for Hadoop HDFS
                                                                                                                  Inside job performance
                                                                                                                  evaluation tool
                                                                                                                  MapReduce Job Submission
                                                                                                                  Web Interface
Development on Hadoop in CMRI
 Contributing to Mainline
    Online Volume Management of DataNode (by Wang Xu etc., HDFS-
    1362)
 Off-Tree and Opened
    NameNode Cluster for HA (by Wang Xu, hosted in GitHub)
 Off-Tree and not Maintained
    hdfs-fuse (by Zhao Peng, hosted in Google Code)
    Multi-queue scheduler with queue priority enhancement (by Guo Leitao)
 External Facilities
    hadoop-test (by Wang Xu, hosted in Google Code)
    MapReduce Job Submission Web Interface and Inside job performance
    evaluation tool (by Guo Leitao, etc.)
 Bug Fixes
DataNode Online Volume Management
 http://github.com/gnawux/hadoop-cmri
 https://issues.apache.org/jira/browse/HDFS-1362

  Current State:
      Disk failure Node
      Decommission
  Online Volume
  Management:
      Online removal of
      failed disk
      Migrate Data in faild
      volume if still
      readable
      Change Disk online
NameNode Cluster
 http://github.com/gnawux/hadoop-cmri [code]
 http://gnawux.info/hadoop/2010/01/pratice-of-namenode-cluster-for-hdfs-ha/
 http://gnawux.info/hadoop/2010/05/namenode-cluster-code-github/
HDFS Stress Test
  http://code.google.com/p/hadoop-test/
  http://gnawux.info/hadoop/2010/01/a-simple-hdfs-performance-test-tool/
谢谢关注
http://labs.chinamobile.com/cloud/

Mais conteúdo relacionado

Mais procurados

Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanZhong Bo Tian
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012James Chen
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Schubert Zhang
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群hdhappy001
 
Greenplum: A Bigdata Platform
Greenplum: A Bigdata PlatformGreenplum: A Bigdata Platform
Greenplum: A Bigdata PlatformYandong Yao
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術Wei-Yu Chen
 
Bdwf11 netezza james_zheng
Bdwf11 netezza james_zhengBdwf11 netezza james_zheng
Bdwf11 netezza james_zhengbigdatawf
 
查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统hdhappy001
 
Couchbase introduction - Chinese
Couchbase introduction - Chinese Couchbase introduction - Chinese
Couchbase introduction - Chinese Vickie Zeng
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介Herman Wu
 
浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华zhuozhe
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lakeJames Chen
 
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Jianwei Li
 
Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系Wei-Yu Chen
 
数据科学分析协作平台CDSW
数据科学分析协作平台CDSW数据科学分析协作平台CDSW
数据科学分析协作平台CDSWJianwei Li
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Wei-Yu Chen
 

Mais procurados (20)

Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ Douban
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群罗李:构建一个跨机房的Hadoop集群
罗李:构建一个跨机房的Hadoop集群
 
Greenplum: A Bigdata Platform
Greenplum: A Bigdata PlatformGreenplum: A Bigdata Platform
Greenplum: A Bigdata Platform
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
 
Bdwf11 netezza james_zheng
Bdwf11 netezza james_zhengBdwf11 netezza james_zheng
Bdwf11 netezza james_zheng
 
查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统查礼 -大数据技术如何用于传统信息系统
查礼 -大数据技术如何用于传统信息系统
 
Couchbase introduction - Chinese
Couchbase introduction - Chinese Couchbase introduction - Chinese
Couchbase introduction - Chinese
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 
浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
 
Hadoop 介紹 20141024
Hadoop 介紹 20141024Hadoop 介紹 20141024
Hadoop 介紹 20141024
 
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Cloudera企业数据中枢平台
Cloudera企业数据中枢平台
 
Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系Hadoop ecosystem - hadoop 生態系
Hadoop ecosystem - hadoop 生態系
 
Hadoop
HadoopHadoop
Hadoop
 
数据科学分析协作平台CDSW
数据科学分析协作平台CDSW数据科学分析协作平台CDSW
数据科学分析协作平台CDSW
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
 

Destaque

Borthakur hadoop univ-research
Borthakur hadoop univ-researchBorthakur hadoop univ-research
Borthakur hadoop univ-researchsaintdevil163
 
Boston Apache Spark User Group (the Spahk group) - Introduction to Spark - 15...
Boston Apache Spark User Group (the Spahk group) - Introduction to Spark - 15...Boston Apache Spark User Group (the Spahk group) - Introduction to Spark - 15...
Boston Apache Spark User Group (the Spahk group) - Introduction to Spark - 15...spinningmatt
 
Big Data Beyond Hadoop*: Research Directions for the Future
Big Data Beyond Hadoop*: Research Directions for the FutureBig Data Beyond Hadoop*: Research Directions for the Future
Big Data Beyond Hadoop*: Research Directions for the FutureOdinot Stanislas
 
Solaris cluster roadshow day 1 sales overview
Solaris cluster roadshow day 1 sales overviewSolaris cluster roadshow day 1 sales overview
Solaris cluster roadshow day 1 sales overviewxKinAnx
 
关于云的那些事
关于云的那些事关于云的那些事
关于云的那些事Yan Wang
 
Cloud Computing Integration for EFL Teachers in Schools
Cloud Computing Integration for EFL Teachers in SchoolsCloud Computing Integration for EFL Teachers in Schools
Cloud Computing Integration for EFL Teachers in Schoolseducation research section
 
企业变革时代的云化之路
企业变革时代的云化之路企业变革时代的云化之路
企业变革时代的云化之路Hardway Hou
 
Graffiti in context
Graffiti in contextGraffiti in context
Graffiti in contextPDD
 
شرح مقرر البرمجة 2 لغة جافا - الوحدة الثانية
شرح مقرر البرمجة 2   لغة جافا - الوحدة الثانيةشرح مقرر البرمجة 2   لغة جافا - الوحدة الثانية
شرح مقرر البرمجة 2 لغة جافا - الوحدة الثانيةجامعة القدس المفتوحة
 
Using google appengine_1027
Using google appengine_1027Using google appengine_1027
Using google appengine_1027Wei Sun
 
Hw09 Hadoop Based Data Mining Platform For The Telecom Industry
Hw09   Hadoop Based Data Mining Platform For The Telecom IndustryHw09   Hadoop Based Data Mining Platform For The Telecom Industry
Hw09 Hadoop Based Data Mining Platform For The Telecom IndustryCloudera, Inc.
 
The combination of Cloud Computing, Web2.0 and Innovation
The combination of Cloud Computing, Web2.0 and InnovationThe combination of Cloud Computing, Web2.0 and Innovation
The combination of Cloud Computing, Web2.0 and InnovationJeff Yang
 
创新内容计算网络 拥抱万物互联
创新内容计算网络 拥抱万物互联创新内容计算网络 拥抱万物互联
创新内容计算网络 拥抱万物互联Hardway Hou
 
شرح مقرر البرمجة 2 لغة جافا - الوحدة الرابعة
شرح مقرر البرمجة 2   لغة جافا - الوحدة الرابعةشرح مقرر البرمجة 2   لغة جافا - الوحدة الرابعة
شرح مقرر البرمجة 2 لغة جافا - الوحدة الرابعةجامعة القدس المفتوحة
 
BDTC2015-新加坡管理大学-朱飞达
BDTC2015-新加坡管理大学-朱飞达BDTC2015-新加坡管理大学-朱飞达
BDTC2015-新加坡管理大学-朱飞达Jerry Wen
 
云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路li luo
 
云趋势和实践 - 上海有孚网络股份有限公司
云趋势和实践 - 上海有孚网络股份有限公司云趋势和实践 - 上海有孚网络股份有限公司
云趋势和实践 - 上海有孚网络股份有限公司Hardway Hou
 
跳过私有云建设的“坑” 私有云建设经验教训以及IBM PMC2.0 简介
跳过私有云建设的“坑” 私有云建设经验教训以及IBM PMC2.0 简介跳过私有云建设的“坑” 私有云建设经验教训以及IBM PMC2.0 简介
跳过私有云建设的“坑” 私有云建设经验教训以及IBM PMC2.0 简介Hardway Hou
 

Destaque (20)

Borthakur hadoop univ-research
Borthakur hadoop univ-researchBorthakur hadoop univ-research
Borthakur hadoop univ-research
 
Boston Apache Spark User Group (the Spahk group) - Introduction to Spark - 15...
Boston Apache Spark User Group (the Spahk group) - Introduction to Spark - 15...Boston Apache Spark User Group (the Spahk group) - Introduction to Spark - 15...
Boston Apache Spark User Group (the Spahk group) - Introduction to Spark - 15...
 
Big Data Beyond Hadoop*: Research Directions for the Future
Big Data Beyond Hadoop*: Research Directions for the FutureBig Data Beyond Hadoop*: Research Directions for the Future
Big Data Beyond Hadoop*: Research Directions for the Future
 
Solaris cluster roadshow day 1 sales overview
Solaris cluster roadshow day 1 sales overviewSolaris cluster roadshow day 1 sales overview
Solaris cluster roadshow day 1 sales overview
 
关于云的那些事
关于云的那些事关于云的那些事
关于云的那些事
 
Cloud Computing Integration for EFL Teachers in Schools
Cloud Computing Integration for EFL Teachers in SchoolsCloud Computing Integration for EFL Teachers in Schools
Cloud Computing Integration for EFL Teachers in Schools
 
ION Hangzhou - The Prospect of the Alibaba Next Generation Internet
ION Hangzhou - The Prospect of the Alibaba Next Generation InternetION Hangzhou - The Prospect of the Alibaba Next Generation Internet
ION Hangzhou - The Prospect of the Alibaba Next Generation Internet
 
企业变革时代的云化之路
企业变革时代的云化之路企业变革时代的云化之路
企业变革时代的云化之路
 
Graffiti in context
Graffiti in contextGraffiti in context
Graffiti in context
 
شرح مقرر البرمجة 2 لغة جافا - الوحدة الثانية
شرح مقرر البرمجة 2   لغة جافا - الوحدة الثانيةشرح مقرر البرمجة 2   لغة جافا - الوحدة الثانية
شرح مقرر البرمجة 2 لغة جافا - الوحدة الثانية
 
Using google appengine_1027
Using google appengine_1027Using google appengine_1027
Using google appengine_1027
 
Hw09 Hadoop Based Data Mining Platform For The Telecom Industry
Hw09   Hadoop Based Data Mining Platform For The Telecom IndustryHw09   Hadoop Based Data Mining Platform For The Telecom Industry
Hw09 Hadoop Based Data Mining Platform For The Telecom Industry
 
The combination of Cloud Computing, Web2.0 and Innovation
The combination of Cloud Computing, Web2.0 and InnovationThe combination of Cloud Computing, Web2.0 and Innovation
The combination of Cloud Computing, Web2.0 and Innovation
 
创新内容计算网络 拥抱万物互联
创新内容计算网络 拥抱万物互联创新内容计算网络 拥抱万物互联
创新内容计算网络 拥抱万物互联
 
شرح مقرر البرمجة 2 لغة جافا - الوحدة الرابعة
شرح مقرر البرمجة 2   لغة جافا - الوحدة الرابعةشرح مقرر البرمجة 2   لغة جافا - الوحدة الرابعة
شرح مقرر البرمجة 2 لغة جافا - الوحدة الرابعة
 
BDTC2015-新加坡管理大学-朱飞达
BDTC2015-新加坡管理大学-朱飞达BDTC2015-新加坡管理大学-朱飞达
BDTC2015-新加坡管理大学-朱飞达
 
云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路云梯的多Namenode和跨机房之路
云梯的多Namenode和跨机房之路
 
云趋势和实践 - 上海有孚网络股份有限公司
云趋势和实践 - 上海有孚网络股份有限公司云趋势和实践 - 上海有孚网络股份有限公司
云趋势和实践 - 上海有孚网络股份有限公司
 
跳过私有云建设的“坑” 私有云建设经验教训以及IBM PMC2.0 简介
跳过私有云建设的“坑” 私有云建设经验教训以及IBM PMC2.0 简介跳过私有云建设的“坑” 私有云建设经验教训以及IBM PMC2.0 简介
跳过私有云建设的“坑” 私有云建设经验教训以及IBM PMC2.0 简介
 
An Introduction to the World of Hadoop
An Introduction to the World of HadoopAn Introduction to the World of Hadoop
An Introduction to the World of Hadoop
 

Semelhante a Hadoop development in China Mobile Research Institute

云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘Riquelme624
 
雲端技術的新趨勢
雲端技術的新趨勢雲端技術的新趨勢
雲端技術的新趨勢Ben Huang
 
Big Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingBig Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingRen-Hao (PAN) Pan
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
課程1 1:雲端運算初探
課程1 1:雲端運算初探課程1 1:雲端運算初探
課程1 1:雲端運算初探vaemon
 
美团技术沙龙04 美团下一代分布式存储系统
美团技术沙龙04   美团下一代分布式存储系统美团技术沙龙04   美团下一代分布式存储系统
美团技术沙龙04 美团下一代分布式存储系统美团点评技术团队
 
Challenges and opportunities computing Kuo-Yi Chen
Challenges and opportunities computing   Kuo-Yi ChenChallenges and opportunities computing   Kuo-Yi Chen
Challenges and opportunities computing Kuo-Yi Chenkuoyichen
 
美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010Jiang Zhu
 
淺談雲端運算
淺談雲端運算淺談雲端運算
淺談雲端運算永昇 陳
 
Train.IO 【第六期-OpenStack 二三事】
Train.IO 【第六期-OpenStack 二三事】Train.IO 【第六期-OpenStack 二三事】
Train.IO 【第六期-OpenStack 二三事】inwin stack
 
Hybrid Cloud Based on Ceph Object Storage - ShanChun
Hybrid Cloud Based on Ceph Object Storage - ShanChunHybrid Cloud Based on Ceph Object Storage - ShanChun
Hybrid Cloud Based on Ceph Object Storage - ShanChunCeph Community
 
Cloud Computing for Bioinformatics
Cloud Computing for BioinformaticsCloud Computing for Bioinformatics
Cloud Computing for BioinformaticsJazz Yao-Tsung Wang
 
Paas研究介绍
Paas研究介绍Paas研究介绍
Paas研究介绍snakebbf
 
Iaa s管理平台的规划与研发 社区
Iaa s管理平台的规划与研发 社区Iaa s管理平台的规划与研发 社区
Iaa s管理平台的规划与研发 社区benbenhappy
 
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011Yiwei Ma
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲Herman Wu
 
华为软件定义存储架构分析
华为软件定义存储架构分析华为软件定义存储架构分析
华为软件定义存储架构分析Liang Ming
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forumbigdatawf
 

Semelhante a Hadoop development in China Mobile Research Institute (20)

云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
 
雲端技術的新趨勢
雲端技術的新趨勢雲端技術的新趨勢
雲端技術的新趨勢
 
Big Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingBig Data Technology - Cloud Computing
Big Data Technology - Cloud Computing
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
課程1 1:雲端運算初探
課程1 1:雲端運算初探課程1 1:雲端運算初探
課程1 1:雲端運算初探
 
雲端技術的新趨勢
雲端技術的新趨勢雲端技術的新趨勢
雲端技術的新趨勢
 
美团技术沙龙04 美团下一代分布式存储系统
美团技术沙龙04   美团下一代分布式存储系统美团技术沙龙04   美团下一代分布式存储系统
美团技术沙龙04 美团下一代分布式存储系统
 
Challenges and opportunities computing Kuo-Yi Chen
Challenges and opportunities computing   Kuo-Yi ChenChallenges and opportunities computing   Kuo-Yi Chen
Challenges and opportunities computing Kuo-Yi Chen
 
美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010美国云计算发展现状及趋势-2010
美国云计算发展现状及趋势-2010
 
淺談雲端運算
淺談雲端運算淺談雲端運算
淺談雲端運算
 
Train.IO 【第六期-OpenStack 二三事】
Train.IO 【第六期-OpenStack 二三事】Train.IO 【第六期-OpenStack 二三事】
Train.IO 【第六期-OpenStack 二三事】
 
Hybrid Cloud Based on Ceph Object Storage - ShanChun
Hybrid Cloud Based on Ceph Object Storage - ShanChunHybrid Cloud Based on Ceph Object Storage - ShanChun
Hybrid Cloud Based on Ceph Object Storage - ShanChun
 
Cloud Computing for Bioinformatics
Cloud Computing for BioinformaticsCloud Computing for Bioinformatics
Cloud Computing for Bioinformatics
 
Paas研究介绍
Paas研究介绍Paas研究介绍
Paas研究介绍
 
Iaa s管理平台的规划与研发 社区
Iaa s管理平台的规划与研发 社区Iaa s管理平台的规划与研发 社区
Iaa s管理平台的规划与研发 社区
 
天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011天涯论坛的技术进化史-Qcon2011
天涯论坛的技术进化史-Qcon2011
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
华为软件定义存储架构分析
华为软件定义存储架构分析华为软件定义存储架构分析
华为软件定义存储架构分析
 
Portfolio
PortfolioPortfolio
Portfolio
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forum
 

Mais de Xu Wang

Re-Think of Virtualization and Containerization
Re-Think of Virtualization and ContainerizationRe-Think of Virtualization and Containerization
Re-Think of Virtualization and ContainerizationXu Wang
 
Hyper: 让Pod以VM为边界
Hyper: 让Pod以VM为边界Hyper: 让Pod以VM为边界
Hyper: 让Pod以VM为边界Xu Wang
 
Hyper 基于hypervisor的docker引擎.pptx
Hyper 基于hypervisor的docker引擎.pptxHyper 基于hypervisor的docker引擎.pptx
Hyper 基于hypervisor的docker引擎.pptxXu Wang
 
Rethink of PaaS
Rethink of PaaSRethink of PaaS
Rethink of PaaSXu Wang
 
Cassandra Technical and history overview
Cassandra Technical and history overviewCassandra Technical and history overview
Cassandra Technical and history overviewXu Wang
 
ZeroMQ简介
ZeroMQ简介ZeroMQ简介
ZeroMQ简介Xu Wang
 
何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)
何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)
何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)Xu Wang
 
Tgtd illustration
Tgtd illustrationTgtd illustration
Tgtd illustrationXu Wang
 
Metro Beijing
Metro BeijingMetro Beijing
Metro BeijingXu Wang
 
Cloud Computing Seminar with BUPT WTI
Cloud Computing Seminar with BUPT WTICloud Computing Seminar with BUPT WTI
Cloud Computing Seminar with BUPT WTIXu Wang
 

Mais de Xu Wang (10)

Re-Think of Virtualization and Containerization
Re-Think of Virtualization and ContainerizationRe-Think of Virtualization and Containerization
Re-Think of Virtualization and Containerization
 
Hyper: 让Pod以VM为边界
Hyper: 让Pod以VM为边界Hyper: 让Pod以VM为边界
Hyper: 让Pod以VM为边界
 
Hyper 基于hypervisor的docker引擎.pptx
Hyper 基于hypervisor的docker引擎.pptxHyper 基于hypervisor的docker引擎.pptx
Hyper 基于hypervisor的docker引擎.pptx
 
Rethink of PaaS
Rethink of PaaSRethink of PaaS
Rethink of PaaS
 
Cassandra Technical and history overview
Cassandra Technical and history overviewCassandra Technical and history overview
Cassandra Technical and history overview
 
ZeroMQ简介
ZeroMQ简介ZeroMQ简介
ZeroMQ简介
 
何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)
何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)
何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)
 
Tgtd illustration
Tgtd illustrationTgtd illustration
Tgtd illustration
 
Metro Beijing
Metro BeijingMetro Beijing
Metro Beijing
 
Cloud Computing Seminar with BUPT WTI
Cloud Computing Seminar with BUPT WTICloud Computing Seminar with BUPT WTI
Cloud Computing Seminar with BUPT WTI
 

Hadoop development in China Mobile Research Institute

  • 1. 中国移动研究院的Hadoop 中国移动研究院的Hadoop 相关研发工作 中国移动研究院 王旭
  • 2. 大云研发历程 中国移动启动“大云” “大云”研发计划,打造公司云计算核心竞争力 “大云”计划是中国移动研究院为打造中国移动云计算基础设施而实施 的关键技术研究及原型系统开发计划 目标 为满足中国移动IT支撑系统 中国移动IT支撑系统高性能、低成本、可扩展、高可靠性的IT计算 和存储的需要 为满足中国移动提供互联网业务和服务 互联网业务和服务的需要 确定大云研 用闲置资源搭 建 设 256 节 点 发布大 搭建1024 搭建 云计算大会上 究方向 建 第 一 个 分 析工 集群 和 分析 工 云 0.5 节点集群 发布大云 大云1.0 发布大云 平台 Hadoop平台 具 2007.3 2007.7 2008.3 2008.10 2008.12 2009.8 2009.12 2010.5 并行数据挖掘工具开发 与应用试验 云计算技术路标、引入策略、 云计算技术路标、引入策略、 总体解决方案研究、 总体解决方案研究、产品研 研究Hadoop等 研究 等 开源架构/关键 开源架构 关键 系统改进、 系统改进、完善与试验 发、应用试验、产业链培育、 应用试验、产业链培育、 云计算关键技术 技术研究 商务模式研究 系统评估
  • 3. 建设1024节点规模的大规模实验室 实验室建设 • 年 月完成了大规模运算实验室一期工程的 2008年9月完成了大规模运算实验室一期工程的 建设,配置了256台PC服务器,初步建立了大 建设,配置了 服务器, 台 服务器 规模运算平台研发和试验环境 • 年 月完成了大规模实验室二期扩容工程 2009年12月完成了大规模实验室二期扩容工程 建设 实验室环境 实验室部署 • 节点: 节点:1036个服务器;5208个CPU核,10T内 个服务器; 个服务器 个 核 内 存;2.8P硬盘 硬盘 • 交换机: 个万兆 千兆兼容以太网交换机, 个万兆/千兆兼容以太网交换机 交换机:9个万兆 千兆兼容以太网交换机,树 形结构互联 • 软件: 软件:Centos Linux 5.4,kernel 2.6.18, jdk , 等 1.6, hadoop-0.20等 • 部署的应用:数据挖掘,弹性计算平台 部署的应用:数据挖掘,弹性计算平台BC-EC, , 结构化海量数据管理平台HugeTable,搜索引 结构化海量数据管理平台 , 擎,云存储
  • 4. 中国移动大云技术架构 CMCC IT Supporting Systems Internet App IDC 。。。 Application • IT Supporting System of CMCC • IDC and Internet Applications Cloud Storage Data Mining Search Engine System Management :CloudMaster System Management :CloudMaster BC-NAS BC-PDM BC-SE Enabler • BC-PDM: Cloud base Data Mining • BC-NAS: File and Object Storage with Sturcture Data Storage web Interface and REST API HugeTable • BC-SE: Search Engine CloudSecurity CloudSecurity Hadoop MapReduce with CMRI Extension Platform • MapReduce & HDFS: based on Hadoop Object Storage Distributed Filesystem and with some extensions by CMRI based on oNest Hadoop HDFS : • HugeTable:Structure Storage with SQL interface Elastic Computing: BC-EC : •oNest:Object Storage for Web Apps. Linux, Xen/KVM • CloudMaster: System Management Resource • PC Server and SATA Disk based • BC-EC: IaaS based on OpenNebula • Based on FOSS: Linux, KVM, Xen
  • 5. 大云与Hadoop CMCC IT Supporting Systems Internet App IDC 。。。 Development based on Hadoop Parallel ETL and Data Mining Cloud Storage Data Mining Search Engine based on MapReduce System Management : System Management :CloudMaster BC-NAS BC-PDM BC-SE Search Engine based on MapReduce HugeTable (Structure data Sturcture Data Storage HugeTable storage for data warehouse) based on Hive, HBase & MR CloudSecurity CloudSecurity Hadoop MapReduce with CMRI Extension Development extending Hadoop Object Storage Distributed Filesystem Volume Management of based on DataNode in HDFS oNest Hadoop HDFS NameNode Cluster for HDFS Elastic Computing: BC-EC Multi-queue scheduler with Linux, Xen/KVM queue priority enhancement External facilities for Hadoop Test tools for Hadoop HDFS Inside job performance evaluation tool MapReduce Job Submission Web Interface
  • 6. Development on Hadoop in CMRI Contributing to Mainline Online Volume Management of DataNode (by Wang Xu etc., HDFS- 1362) Off-Tree and Opened NameNode Cluster for HA (by Wang Xu, hosted in GitHub) Off-Tree and not Maintained hdfs-fuse (by Zhao Peng, hosted in Google Code) Multi-queue scheduler with queue priority enhancement (by Guo Leitao) External Facilities hadoop-test (by Wang Xu, hosted in Google Code) MapReduce Job Submission Web Interface and Inside job performance evaluation tool (by Guo Leitao, etc.) Bug Fixes
  • 7. DataNode Online Volume Management http://github.com/gnawux/hadoop-cmri https://issues.apache.org/jira/browse/HDFS-1362 Current State: Disk failure Node Decommission Online Volume Management: Online removal of failed disk Migrate Data in faild volume if still readable Change Disk online
  • 8. NameNode Cluster http://github.com/gnawux/hadoop-cmri [code] http://gnawux.info/hadoop/2010/01/pratice-of-namenode-cluster-for-hdfs-ha/ http://gnawux.info/hadoop/2010/05/namenode-cluster-code-github/
  • 9. HDFS Stress Test http://code.google.com/p/hadoop-test/ http://gnawux.info/hadoop/2010/01/a-simple-hdfs-performance-test-tool/