Mais conteúdo relacionado
Semelhante a Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料) (20)
Mais de NTT DATA OSS Professional Services (17)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
- 1. Copyright © 2014 NTT DATA Corporation 1
(株) NTTデータ 基盤システム事業本部
鯵坂 明
2014/11/6 Cloudera World Tokyo 2014
Hadoop 2.6の最新機能
- 2. Copyright © 2014 NTT DATA Corporation 2
NTTデータ OSSプロフェッショナルサービス
Hadoop関連のR&Dやシステム開発に従事
約1年前からHadoop本体の開発に参加
ドキュメント
バグフィックス
運用強化
などなど
パッチのマージ数通算約100件
日本にいる人の中では、トップ
自己紹介:鯵坂 明 (あじさか あきら)
- 3. Copyright © 2014 NTT DATA Corporation 3
Hadoop 2系のGA(2.2.0)以来、最も大きなリリース
848件のissueが解決された
-
2.3だと606件、2.4や2.5はそれより少ない
JDK6での動作をサポートするのは、これで最後
2.7以降は、JDK6で動作しない
まだrelease voteが始まっていないが、11月中にリリースさ れると思われる
Hadoop 2.6
- 4. Copyright © 2014 NTT DATA Corporation 4
バージョンごとの機能一覧はwikiで確認できる
http://wiki.apache.org/hadoop/Roadmap
Hadoop 2.6の最新機能
- 5. Copyright © 2014 NTT DATA Corporation 5
今回紹介する機能は、以下の通り
HDFS
Transparent Encryption (HDFS-6134)
Archival Storage (HDFS-6584)
YARN
ResourceManager Restart Phase 2 (YARN-556)
NodeManager Restart (YARN-1336)
どれも現在開発が進められている最新機能
Hadoop 2.6の最新機能
- 6. Copyright © 2014 NTT DATA Corporation 6
背景
HDFSに暗号化の機能は存在しなかった
-
ブロックの中身はDataNodeのディスクからそのまま読めてしまう
もともと、Hadoopに対するセキュリティは、クラスタへのアクセスを 隔離することで担保されていた
だが、金融、公共、ヘルスケアなどの業界では隔離するだけでは 要求を満たせない
HDFS Transparent Encryption (HDFS-6134)
- 7. Copyright © 2014 NTT DATA Corporation 7
ファイルを暗号化してHDFSを構成するディスクに書き込む
暗号化方式として、AES-CTRを採用
-
ファイルサイズに変化がない
-
暗号/復号処理が並列化可能
-
seek、appendも可能
暗号/復号鍵は、Key Management Server(HADOOP-10433)で 管理
HDFS Transparent Encryption (HDFS-6134)
- 8. Copyright © 2014 NTT DATA Corporation 8
背景
HDFSに入れるデータにも、よく処理されるものとそうでないものがある
頻繁に処理されるデータをSSDに置いて、データの読み込み/書き込 みを高速化したい(例: HBaseのWAL)
逆に、ほとんど処理されないデータは、CPUやメモリが低スペックなアー カイブ領域に配置したい
レプリカ配置をより細かく管理する仕組みを実装
HDFSを構成する各ディスクに対して、Storage Typeを指定
管理者が各ディレクトリにStorage Policy(Lasy_Persist, All_SSD, One_SSD, Hot, Warm, Cold...)を指定
Archival Storage (HDFS-6584)
$ hdfs dfsadmin -setStoragePolicy <path> <policyName>
- 9. Copyright © 2014 NTT DATA Corporation 9
レプリカは以下のように配置される
Storage Typeに関する補足
RAM_DISK: 各DataNodeでtmpfsを設定して、"RAM_DISK"に指定
-tmpfsへの書き込みは、HDFS-6581で実装済
-書き込み速度を上げるため、レプリカ数は1を想定
ARCHIVE: ディスク容量に対してCPUやメモリが低スペックな環境を "ARCHIVE"に指定
Archival Storage (HDFS-6584)
Storage Policy
Block Placement (n replicas)
Lazy_Persist
RAM_DISK: 1, DISK: n-1
All_SSD
SSD: n
One_SSD
SSD: 1, DISK: n-1
Hot(default)
DISK: n
Warm
DISK: 1, ARCHIVE: n-1
Cold
ARCHIVE: n
- 10. Copyright © 2014 NTT DATA Corporation 10
背景
ResourceManagerは、YARNにおける単一障害点
Hadoop 2.4でHA化された (YARN-149)が、機能に制限があった
-
ResourceManagerがfail overすると、全てのApplicationMasterを再起動
-
動作中のcontainerは全てkillされる
-
つまり、長期ジョブが走っている場合にやり直しになってしまう
Phase 2での改善
ApplicationMasterの再起動は不要
動作中のcontainerがkillされることもない
ResourceManager Restart Ph.2(YARN-556)
- 11. Copyright © 2014 NTT DATA Corporation 11
背景
NodeManagerはYARNの単一障害点ではない
-
NodeManagerが停止すると、別のNodeManagerで処理が再実行される
メンテナンスやアップグレードによる停止の場合には、別の NodeManagerで処理を再実行させるのではなく、再起動後に処理を 途中から実行したい
処理状況をローカルに保存
ローカルディスクにcontainerの処理状況と、Applicationの処理状況 を書き込む
NodeManager起動時に処理状況を読みこんで、途中から処理
RM Restart Phase 2との組み合わせで、Rolling Upgrade(YARN-666)が実現可能
NodeManager Restart (YARN-1336)
- 12. Copyright © 2014 NTT DATA Corporation 12
今後も次々と機能が追加されていく予定
YARN Rolling Upgrades (YARN-666)
Support for admin-specified labels in YARN (YARN- 796)
Automatic, shared cache for YARN application artifacts (YARN-1492)
Erasure Coding Support inside HDFS (HDFS-7285)
などなど
今後の開発予定
- 13. Copyright © 2011 NTT DATA Corporation
Copyright © 2014 NTT DATA Corporation
お問い合わせ先:
株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス
URL: http://oss.nttdata.co.jp/hadoop
メール: hadoop@kits.nttdata.co.jp TEL: 050-5546-2496