SlideShare a Scribd company logo
1 of 22
Download to read offline
HDFS的透明压缩存储

           刘景龙
 邮箱:baggioss@gmail.com
 twitter:baggioss
主要内容


 Hadoop @baidu
  过去一年的工作
  进行中的项目
 透明压缩
  目标
  实现
  如何解决核心问题
  如何规避风险
  未来计划
Hadoop @baidu

             16000+ 机器,10个集群
             最大集群机器数3000台
             存储 127.2PB/174.5PB 72%
             处理 17PB+ 数据/每天

16000                                  180
14000                                  160

12000                                  140
                                       120
10000                           2009                                 2009
                                       100
 8000                           2010                                 2010
                                        80
 6000                           2011                                 2011
                                        60
 4000                                   40
 2000                                   20
    0                                    0
         总集群规模(台)   单集群机器数(台)                存储容量(P)   每天处理数据量 (P)
过去一年的工作


 HDFS:
  规模问题改进:
    Namenode 启劢优化
      Split()
      并行加载fsimage
    Namenode rpc优化
      registerChannel 锁优化 HADOOP-7105
      使用独立线程RegisterChannel 和cleanup
  数据安全问题改进
    块复制机制改进
过去一年的工作

 新功能:
   Hard link
      Why not symbol link?
   跨机房优化
      跨机房提交作业
        listStatus + getBlockLocation = too many rpc ?
      跨机房数据传输
        dfs.send.socket.buffer.size (datanode, client)
        dfs.datanode.recv.buffer.size (datanode)
过去一年的工作


 Mapred:
  Shuffle独立
  Hce 2.0
     Hce基础上支持streaming 接口
  作业断点重启
     Job / Task
进行中的项目


 存储
            可扩展
             性




            存储
      存储空
      间利用         可用性
       率
主要内容


 Hadoop @baidu
  过去一年的工作
  进行中的项目
 透明压缩
  目标
  实现
  如何解决关键问题
  如何规避风险
  未来计划
目标


 节省存储空间
 避免压缩影响计算作业
 用户透明
实现

                           NameNode
                                                       Client




 Block report                   hearbeat


                           DataNode
                                                       Compressor Service
                                             getTask
      Block access layer




                              Scheduler
                                                          compressor

                            Storage module
如何解决关键问题?


 如何控制资源使用
 Datanode 任务分配 (Xceiver 数)
 2.6.32 内核进程/ io 优先级调度
 如何确定冷数据
  增加block的atime,1周没有访问?
 如何处理特殊操作
 append
 随机读
存储结构


              DataNode Storage


 未压缩块                         压缩块

 Block file                Compressed
                           Block file

                           Index file
 meta file

                           meta file
收益
如何规避风险


 尝试解压
 目的: 规避压缩算法bug
 小流量上线
 目的:上线一个机架datanode,避免透明压缩bug导
 致数据丢失
 黑白名单
In the future


  开源
   https://issues.apache.org/jira/browse/HDFS-
   2542
  多出的Quota分给谁
  协处理器应用
In the future


  透明压缩传输
Q&A




      谢 谢!
透明压缩黑名单实现

                                       NameNode
                                                                     Compressor
                                                                       admin
Client


         Block report                       heartbeat

                                    DataNode

                                         Scheduler
               Block access layer




                                                                    Compressor Service
                                      Policy controller
                                                          getTask
                                       Storage module                  compressor
Fsimage并行加载

              HDFS-1070 短路
              径优化




              并行加载fsimage
Shuffle独立- 解决问题


 map/reduce 槽位隔离,槽位利用率低
 shuffle占用 reduce槽位,资源利用率低
 shuffle和reduce串行,对大作业,运行时间
 长
 Shuffle/reduce自身的问题,内存利用率不高
 ,连接数打满
Shuffle独立 – 结构
传输项目

More Related Content

What's hot

Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Wensong Zhang
 
Ocean base 千亿级海量数据库-日照
Ocean base 千亿级海量数据库-日照Ocean base 千亿级海量数据库-日照
Ocean base 千亿级海量数据库-日照Shaoning Pan
 
Mysql企业备份发展及实践
Mysql企业备份发展及实践Mysql企业备份发展及实践
Mysql企业备份发展及实践maclean liu
 
Redis 常见使用模式分析
Redis 常见使用模式分析Redis 常见使用模式分析
Redis 常见使用模式分析vincent253
 
淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统Dai Jun
 
分区表基础知识培训
分区表基础知识培训分区表基础知识培训
分区表基础知识培训maclean liu
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Hanborq Inc.
 
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践淘宝软件基础设施构建实践
淘宝软件基础设施构建实践Wensong Zhang
 
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践淘宝软件基础设施构建实践
淘宝软件基础设施构建实践drewz lin
 
Ted yu:h base and hoya
Ted yu:h base and hoyaTed yu:h base and hoya
Ted yu:h base and hoyahdhappy001
 
稳定、高效、低碳 -淘宝软件基础设施构建实践
稳定、高效、低碳  -淘宝软件基础设施构建实践稳定、高效、低碳  -淘宝软件基础设施构建实践
稳定、高效、低碳 -淘宝软件基础设施构建实践Wensong Zhang
 
Hadoop 設定與配置
Hadoop 設定與配置Hadoop 設定與配置
Hadoop 設定與配置鳥 藍
 
Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Awei Hsu
 
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬Hang Geng
 

What's hot (15)

Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务
 
Ocean base 千亿级海量数据库-日照
Ocean base 千亿级海量数据库-日照Ocean base 千亿级海量数据库-日照
Ocean base 千亿级海量数据库-日照
 
Mysql企业备份发展及实践
Mysql企业备份发展及实践Mysql企业备份发展及实践
Mysql企业备份发展及实践
 
Redis 常见使用模式分析
Redis 常见使用模式分析Redis 常见使用模式分析
Redis 常见使用模式分析
 
Redis介绍
Redis介绍Redis介绍
Redis介绍
 
淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统淘宝图片存储与Cdn系统
淘宝图片存储与Cdn系统
 
分区表基础知识培训
分区表基础知识培训分区表基础知识培训
分区表基础知识培训
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
 
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
 
Ted yu:h base and hoya
Ted yu:h base and hoyaTed yu:h base and hoya
Ted yu:h base and hoya
 
稳定、高效、低碳 -淘宝软件基础设施构建实践
稳定、高效、低碳  -淘宝软件基础设施构建实践稳定、高效、低碳  -淘宝软件基础设施构建实践
稳定、高效、低碳 -淘宝软件基础设施构建实践
 
Hadoop 設定與配置
Hadoop 設定與配置Hadoop 設定與配置
Hadoop 設定與配置
 
Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威
 
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
Ceph中国社区9.19 Ceph FS-基于RADOS的高性能分布式文件系统02-袁冬
 

Viewers also liked

CETS 2013, Greg Owen-Boger, Dale Ludwig, & Seth Kannof, Producing eLearning V...
CETS 2013, Greg Owen-Boger, Dale Ludwig, & Seth Kannof, Producing eLearning V...CETS 2013, Greg Owen-Boger, Dale Ludwig, & Seth Kannof, Producing eLearning V...
CETS 2013, Greg Owen-Boger, Dale Ludwig, & Seth Kannof, Producing eLearning V...Chicago eLearning & Technology Showcase
 
투이컨설팅 제16회 Y세미나 : 설문결과
투이컨설팅 제16회 Y세미나 : 설문결과투이컨설팅 제16회 Y세미나 : 설문결과
투이컨설팅 제16회 Y세미나 : 설문결과2econsulting
 
CETS 2012, Greg Owen-Boger, slides for Lights, Camera…ENGAGE! Connecting with...
CETS 2012, Greg Owen-Boger, slides for Lights, Camera…ENGAGE! Connecting with...CETS 2012, Greg Owen-Boger, slides for Lights, Camera…ENGAGE! Connecting with...
CETS 2012, Greg Owen-Boger, slides for Lights, Camera…ENGAGE! Connecting with...Chicago eLearning & Technology Showcase
 
Chris Goundry introduction
Chris Goundry introductionChris Goundry introduction
Chris Goundry introductioncgoundry
 
El cuadro de mando integral (cmi)
El cuadro de mando integral (cmi)El cuadro de mando integral (cmi)
El cuadro de mando integral (cmi)Al Cougar
 
Cets 2014 hartman handouts deploying technology learning with minimal resources
Cets 2014 hartman handouts deploying technology learning with minimal resourcesCets 2014 hartman handouts deploying technology learning with minimal resources
Cets 2014 hartman handouts deploying technology learning with minimal resourcesChicago eLearning & Technology Showcase
 
Les Meilleures Campagnes Digitales de 2013
Les Meilleures Campagnes Digitales de 2013Les Meilleures Campagnes Digitales de 2013
Les Meilleures Campagnes Digitales de 2013Sabrina Xenofontos
 
PromoJam - Front End Design Guide
PromoJam - Front End Design GuidePromoJam - Front End Design Guide
PromoJam - Front End Design GuidePromoJam
 
CETS 2012, Bruce Mabee, slides for Why Do the Winners Win? How Are Award Winn...
CETS 2012, Bruce Mabee, slides for Why Do the Winners Win? How Are Award Winn...CETS 2012, Bruce Mabee, slides for Why Do the Winners Win? How Are Award Winn...
CETS 2012, Bruce Mabee, slides for Why Do the Winners Win? How Are Award Winn...Chicago eLearning & Technology Showcase
 
Respiration (includingFermentation)
Respiration (includingFermentation)Respiration (includingFermentation)
Respiration (includingFermentation)LM9
 
Symbiosis sam
Symbiosis samSymbiosis sam
Symbiosis samLM9
 
CETS 2012, Maureen Haga, slides for Mobile Coaching: The New Lifeline for You...
CETS 2012, Maureen Haga, slides for Mobile Coaching: The New Lifeline for You...CETS 2012, Maureen Haga, slides for Mobile Coaching: The New Lifeline for You...
CETS 2012, Maureen Haga, slides for Mobile Coaching: The New Lifeline for You...Chicago eLearning & Technology Showcase
 
GSAE 2015: Tech Tips to Boost Office Productivity
GSAE 2015: Tech Tips to Boost Office ProductivityGSAE 2015: Tech Tips to Boost Office Productivity
GSAE 2015: Tech Tips to Boost Office ProductivityJohn Chen
 

Viewers also liked (20)

CETS 2013, Greg Owen-Boger, Dale Ludwig, & Seth Kannof, Producing eLearning V...
CETS 2013, Greg Owen-Boger, Dale Ludwig, & Seth Kannof, Producing eLearning V...CETS 2013, Greg Owen-Boger, Dale Ludwig, & Seth Kannof, Producing eLearning V...
CETS 2013, Greg Owen-Boger, Dale Ludwig, & Seth Kannof, Producing eLearning V...
 
투이컨설팅 제16회 Y세미나 : 설문결과
투이컨설팅 제16회 Y세미나 : 설문결과투이컨설팅 제16회 Y세미나 : 설문결과
투이컨설팅 제16회 Y세미나 : 설문결과
 
CETS 2012, Greg Owen-Boger, slides for Lights, Camera…ENGAGE! Connecting with...
CETS 2012, Greg Owen-Boger, slides for Lights, Camera…ENGAGE! Connecting with...CETS 2012, Greg Owen-Boger, slides for Lights, Camera…ENGAGE! Connecting with...
CETS 2012, Greg Owen-Boger, slides for Lights, Camera…ENGAGE! Connecting with...
 
Chris Goundry introduction
Chris Goundry introductionChris Goundry introduction
Chris Goundry introduction
 
El cuadro de mando integral (cmi)
El cuadro de mando integral (cmi)El cuadro de mando integral (cmi)
El cuadro de mando integral (cmi)
 
Cets 2014 hartman handouts deploying technology learning with minimal resources
Cets 2014 hartman handouts deploying technology learning with minimal resourcesCets 2014 hartman handouts deploying technology learning with minimal resources
Cets 2014 hartman handouts deploying technology learning with minimal resources
 
Les Meilleures Campagnes Digitales de 2013
Les Meilleures Campagnes Digitales de 2013Les Meilleures Campagnes Digitales de 2013
Les Meilleures Campagnes Digitales de 2013
 
Go Global Project 2012 by TeAM
Go Global Project 2012 by TeAMGo Global Project 2012 by TeAM
Go Global Project 2012 by TeAM
 
Sponsorship package
Sponsorship packageSponsorship package
Sponsorship package
 
PromoJam - Front End Design Guide
PromoJam - Front End Design GuidePromoJam - Front End Design Guide
PromoJam - Front End Design Guide
 
SMEConnect.Asia for SME and MSC Companies
SMEConnect.Asia for SME and MSC CompaniesSMEConnect.Asia for SME and MSC Companies
SMEConnect.Asia for SME and MSC Companies
 
CETS 2012, Bruce Mabee, slides for Why Do the Winners Win? How Are Award Winn...
CETS 2012, Bruce Mabee, slides for Why Do the Winners Win? How Are Award Winn...CETS 2012, Bruce Mabee, slides for Why Do the Winners Win? How Are Award Winn...
CETS 2012, Bruce Mabee, slides for Why Do the Winners Win? How Are Award Winn...
 
Respiration (includingFermentation)
Respiration (includingFermentation)Respiration (includingFermentation)
Respiration (includingFermentation)
 
Pharma
PharmaPharma
Pharma
 
KL International Venture Capital Symposium 2011 flyer
KL International Venture Capital Symposium 2011 flyerKL International Venture Capital Symposium 2011 flyer
KL International Venture Capital Symposium 2011 flyer
 
Symbiosis sam
Symbiosis samSymbiosis sam
Symbiosis sam
 
Benh ly cot song
Benh ly cot songBenh ly cot song
Benh ly cot song
 
2011 sponsorship invitation
2011 sponsorship invitation2011 sponsorship invitation
2011 sponsorship invitation
 
CETS 2012, Maureen Haga, slides for Mobile Coaching: The New Lifeline for You...
CETS 2012, Maureen Haga, slides for Mobile Coaching: The New Lifeline for You...CETS 2012, Maureen Haga, slides for Mobile Coaching: The New Lifeline for You...
CETS 2012, Maureen Haga, slides for Mobile Coaching: The New Lifeline for You...
 
GSAE 2015: Tech Tips to Boost Office Productivity
GSAE 2015: Tech Tips to Boost Office ProductivityGSAE 2015: Tech Tips to Boost Office Productivity
GSAE 2015: Tech Tips to Boost Office Productivity
 

Similar to Hic2011

淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务drewz lin
 
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践Wensong Zhang
 
Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统智杰 付
 
Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Wensong Zhang
 
Taobao 海量图片存储与CDN系统02
Taobao 海量图片存储与CDN系统02Taobao 海量图片存储与CDN系统02
Taobao 海量图片存储与CDN系统02lovingprince58
 
Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Michael Zhang
 
Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改yp_fangdong
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理airsex
 
20130626联动优势数据访问层DAL架构和实践5(刘胜)数据分片和分页
20130626联动优势数据访问层DAL架构和实践5(刘胜)数据分片和分页20130626联动优势数据访问层DAL架构和实践5(刘胜)数据分片和分页
20130626联动优势数据访问层DAL架构和实践5(刘胜)数据分片和分页liu sheng
 
优酷 Web网站架构案例分析
优酷   Web网站架构案例分析优酷   Web网站架构案例分析
优酷 Web网站架构案例分析George Ang
 
Key value store
Key value storeKey value store
Key value storexuanhan863
 
Youku arch qcon2009_beijing
Youku arch qcon2009_beijingYouku arch qcon2009_beijing
Youku arch qcon2009_beijingdrewz lin
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践淘宝软件基础设施构建实践
淘宝软件基础设施构建实践lovingprince58
 
淘宝商品库MySQL优化实践
淘宝商品库MySQL优化实践淘宝商品库MySQL优化实践
淘宝商品库MySQL优化实践Feng Yu
 
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured StreamingDelta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured StreamingXiao Li
 

Similar to Hic2011 (20)

淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务
 
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
 
Cdc@ganji.com
Cdc@ganji.comCdc@ganji.com
Cdc@ganji.com
 
Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统
 
Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统
 
Taobao 海量图片存储与CDN系统02
Taobao 海量图片存储与CDN系统02Taobao 海量图片存储与CDN系统02
Taobao 海量图片存储与CDN系统02
 
Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统Taobao海量图片存储与cdn系统
Taobao海量图片存储与cdn系统
 
Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
20130626联动优势数据访问层DAL架构和实践5(刘胜)数据分片和分页
20130626联动优势数据访问层DAL架构和实践5(刘胜)数据分片和分页20130626联动优势数据访问层DAL架构和实践5(刘胜)数据分片和分页
20130626联动优势数据访问层DAL架构和实践5(刘胜)数据分片和分页
 
Hadoop 介紹 20141024
Hadoop 介紹 20141024Hadoop 介紹 20141024
Hadoop 介紹 20141024
 
优酷 Web网站架构案例分析
优酷   Web网站架构案例分析优酷   Web网站架构案例分析
优酷 Web网站架构案例分析
 
Key value store
Key value storeKey value store
Key value store
 
Youku arch qcon2009_beijing
Youku arch qcon2009_beijingYouku arch qcon2009_beijing
Youku arch qcon2009_beijing
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
Taobao base
Taobao baseTaobao base
Taobao base
 
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
 
淘宝商品库MySQL优化实践
淘宝商品库MySQL优化实践淘宝商品库MySQL优化实践
淘宝商品库MySQL优化实践
 
Hbase
HbaseHbase
Hbase
 
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured StreamingDelta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
 

More from baggioss

Hdfs写流程异常处理
Hdfs写流程异常处理Hdfs写流程异常处理
Hdfs写流程异常处理baggioss
 
Hbase性能测试文档
Hbase性能测试文档Hbase性能测试文档
Hbase性能测试文档baggioss
 
Hbase使用hadoop分析
Hbase使用hadoop分析Hbase使用hadoop分析
Hbase使用hadoop分析baggioss
 
Hadoop基线选定
Hadoop基线选定Hadoop基线选定
Hadoop基线选定baggioss
 
Hic 2011 realtime_analytics_at_facebook
Hic 2011 realtime_analytics_at_facebookHic 2011 realtime_analytics_at_facebook
Hic 2011 realtime_analytics_at_facebookbaggioss
 
[Hi c2011]building mission critical messaging system(guoqiang jerry)
[Hi c2011]building mission critical messaging system(guoqiang jerry)[Hi c2011]building mission critical messaging system(guoqiang jerry)
[Hi c2011]building mission critical messaging system(guoqiang jerry)baggioss
 
Hdfs introduction
Hdfs introductionHdfs introduction
Hdfs introductionbaggioss
 
Hdfs原理及实现
Hdfs原理及实现Hdfs原理及实现
Hdfs原理及实现baggioss
 

More from baggioss (10)

Hdfs写流程异常处理
Hdfs写流程异常处理Hdfs写流程异常处理
Hdfs写流程异常处理
 
Hbase性能测试文档
Hbase性能测试文档Hbase性能测试文档
Hbase性能测试文档
 
Hbase使用hadoop分析
Hbase使用hadoop分析Hbase使用hadoop分析
Hbase使用hadoop分析
 
Hadoop基线选定
Hadoop基线选定Hadoop基线选定
Hadoop基线选定
 
Hic 2011 realtime_analytics_at_facebook
Hic 2011 realtime_analytics_at_facebookHic 2011 realtime_analytics_at_facebook
Hic 2011 realtime_analytics_at_facebook
 
[Hi c2011]building mission critical messaging system(guoqiang jerry)
[Hi c2011]building mission critical messaging system(guoqiang jerry)[Hi c2011]building mission critical messaging system(guoqiang jerry)
[Hi c2011]building mission critical messaging system(guoqiang jerry)
 
Hdfs introduction
Hdfs introductionHdfs introduction
Hdfs introduction
 
Hdfs
HdfsHdfs
Hdfs
 
Hdfs
HdfsHdfs
Hdfs
 
Hdfs原理及实现
Hdfs原理及实现Hdfs原理及实现
Hdfs原理及实现
 

Hic2011

  • 1. HDFS的透明压缩存储 刘景龙 邮箱:baggioss@gmail.com twitter:baggioss
  • 2. 主要内容 Hadoop @baidu 过去一年的工作 进行中的项目 透明压缩 目标 实现 如何解决核心问题 如何规避风险 未来计划
  • 3. Hadoop @baidu 16000+ 机器,10个集群 最大集群机器数3000台 存储 127.2PB/174.5PB 72% 处理 17PB+ 数据/每天 16000 180 14000 160 12000 140 120 10000 2009 2009 100 8000 2010 2010 80 6000 2011 2011 60 4000 40 2000 20 0 0 总集群规模(台) 单集群机器数(台) 存储容量(P) 每天处理数据量 (P)
  • 4. 过去一年的工作 HDFS: 规模问题改进: Namenode 启劢优化 Split() 并行加载fsimage Namenode rpc优化 registerChannel 锁优化 HADOOP-7105 使用独立线程RegisterChannel 和cleanup 数据安全问题改进 块复制机制改进
  • 5. 过去一年的工作 新功能: Hard link Why not symbol link? 跨机房优化 跨机房提交作业 listStatus + getBlockLocation = too many rpc ? 跨机房数据传输 dfs.send.socket.buffer.size (datanode, client) dfs.datanode.recv.buffer.size (datanode)
  • 6. 过去一年的工作 Mapred: Shuffle独立 Hce 2.0 Hce基础上支持streaming 接口 作业断点重启 Job / Task
  • 7. 进行中的项目 存储 可扩展 性 存储 存储空 间利用 可用性 率
  • 8. 主要内容 Hadoop @baidu 过去一年的工作 进行中的项目 透明压缩 目标 实现 如何解决关键问题 如何规避风险 未来计划
  • 10. 实现 NameNode Client Block report hearbeat DataNode Compressor Service getTask Block access layer Scheduler compressor Storage module
  • 11. 如何解决关键问题? 如何控制资源使用 Datanode 任务分配 (Xceiver 数) 2.6.32 内核进程/ io 优先级调度 如何确定冷数据 增加block的atime,1周没有访问? 如何处理特殊操作 append 随机读
  • 12. 存储结构 DataNode Storage 未压缩块 压缩块 Block file Compressed Block file Index file meta file meta file
  • 14. 如何规避风险 尝试解压 目的: 规避压缩算法bug 小流量上线 目的:上线一个机架datanode,避免透明压缩bug导 致数据丢失 黑白名单
  • 15. In the future 开源 https://issues.apache.org/jira/browse/HDFS- 2542 多出的Quota分给谁 协处理器应用
  • 16. In the future 透明压缩传输
  • 17. Q&A 谢 谢!
  • 18. 透明压缩黑名单实现 NameNode Compressor admin Client Block report heartbeat DataNode Scheduler Block access layer Compressor Service Policy controller getTask Storage module compressor
  • 19. Fsimage并行加载 HDFS-1070 短路 径优化 并行加载fsimage
  • 20. Shuffle独立- 解决问题 map/reduce 槽位隔离,槽位利用率低 shuffle占用 reduce槽位,资源利用率低 shuffle和reduce串行,对大作业,运行时间 长 Shuffle/reduce自身的问题,内存利用率不高 ,连接数打满