Hadoop 2.6の最新機能（Cloudera World Tokyo 2014 LT講演資料）

Copyright © 2014 NTT DATA Corporation 1
(株) NTTデータ基盤システム事業本部
鯵坂明
2014/11/6 Cloudera World Tokyo 2014
Hadoop 2.6の最新機能


NTTデータ OSSプロフェッショナルサービス

Hadoop関連のR&Dやシステム開発に従事

約1年前からHadoop本体の開発に参加

ドキュメント

バグフィックス

運用強化

などなど

パッチのマージ数通算約100件

日本にいる人の中では、トップ
自己紹介：鯵坂明 (あじさかあきら)


Hadoop 2系のGA(2.2.0)以来、最も大きなリリース

848件のissueが解決された
-
2.3だと606件、2.4や2.5はそれより少ない

JDK6での動作をサポートするのは、これで最後

2.7以降は、JDK6で動作しない

まだrelease voteが始まっていないが、11月中にリリースされると思われる
Hadoop 2.6


バージョンごとの機能一覧はwikiで確認できる

http://wiki.apache.org/hadoop/Roadmap


今回紹介する機能は、以下の通り

HDFS

Transparent Encryption (HDFS-6134)

Archival Storage (HDFS-6584)

YARN

ResourceManager Restart Phase 2 (YARN-556)

NodeManager Restart (YARN-1336)

どれも現在開発が進められている最新機能


背景

HDFSに暗号化の機能は存在しなかった
-
ブロックの中身はDataNodeのディスクからそのまま読めてしまう

もともと、Hadoopに対するセキュリティは、クラスタへのアクセスを隔離することで担保されていた

だが、金融、公共、ヘルスケアなどの業界では隔離するだけでは要求を満たせない
HDFS Transparent Encryption (HDFS-6134)


ファイルを暗号化してHDFSを構成するディスクに書き込む

暗号化方式として、AES-CTRを採用
-
ファイルサイズに変化がない
-
暗号/復号処理が並列化可能
-
seek、appendも可能

暗号/復号鍵は、Key Management Server(HADOOP-10433)で管理
HDFS Transparent Encryption (HDFS-6134)


背景

HDFSに入れるデータにも、よく処理されるものとそうでないものがある

頻繁に処理されるデータをSSDに置いて、データの読み込み/書き込みを高速化したい(例: HBaseのWAL)

逆に、ほとんど処理されないデータは、CPUやメモリが低スペックなアーカイブ領域に配置したい

レプリカ配置をより細かく管理する仕組みを実装

HDFSを構成する各ディスクに対して、Storage Typeを指定

管理者が各ディレクトリにStorage Policy(Lasy_Persist, All_SSD, One_SSD, Hot, Warm, Cold...)を指定
$ hdfs dfsadmin -setStoragePolicy <path> <policyName>


レプリカは以下のように配置される
Storage Typeに関する補足
RAM_DISK: 各DataNodeでtmpfsを設定して、"RAM_DISK"に指定
-tmpfsへの書き込みは、HDFS-6581で実装済
-書き込み速度を上げるため、レプリカ数は1を想定
ARCHIVE: ディスク容量に対してCPUやメモリが低スペックな環境を "ARCHIVE"に指定
Storage Policy
Block Placement (n replicas)
Lazy_Persist
RAM_DISK: 1, DISK: n-1
All_SSD
SSD: n
One_SSD
SSD: 1, DISK: n-1
Hot(default)
DISK: n
Warm
DISK: 1, ARCHIVE: n-1
Cold
ARCHIVE: n


背景

ResourceManagerは、YARNにおける単一障害点

Hadoop 2.4でHA化された (YARN-149)が、機能に制限があった
-
ResourceManagerがfail overすると、全てのApplicationMasterを再起動
-
動作中のcontainerは全てkillされる
-
つまり、長期ジョブが走っている場合にやり直しになってしまう

Phase 2での改善

ApplicationMasterの再起動は不要

動作中のcontainerがkillされることもない
ResourceManager Restart Ph.2(YARN-556)


背景

NodeManagerはYARNの単一障害点ではない
-
NodeManagerが停止すると、別のNodeManagerで処理が再実行される

メンテナンスやアップグレードによる停止の場合には、別の NodeManagerで処理を再実行させるのではなく、再起動後に処理を途中から実行したい

処理状況をローカルに保存

ローカルディスクにcontainerの処理状況と、Applicationの処理状況を書き込む

NodeManager起動時に処理状況を読みこんで、途中から処理

RM Restart Phase 2との組み合わせで、Rolling Upgrade(YARN-666)が実現可能
NodeManager Restart (YARN-1336)


今後も次々と機能が追加されていく予定

YARN Rolling Upgrades (YARN-666)

Support for admin-specified labels in YARN (YARN- 796)

Automatic, shared cache for YARN application artifacts (YARN-1492)

Erasure Coding Support inside HDFS (HDFS-7285)

などなど
今後の開発予定

Copyright © 2011 NTT DATA Corporation
Copyright © 2014 NTT DATA Corporation
お問い合わせ先：
株式会社ＮＴＴデータ基盤システム事業本部 OSSプロフェッショナルサービス
URL: http：//oss.nttdata.co.jp/hadoop
メール： hadoop@kits.nttdata.co.jp TEL： 050-5546-2496

Hadoop 2.6の最新機能（Cloudera World Tokyo 2014 LT講演資料）

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Hadoop 2.6の最新機能（Cloudera World Tokyo 2014 LT講演資料）

Semelhante a Hadoop 2.6の最新機能（Cloudera World Tokyo 2014 LT講演資料） (20)

Mais de NTT DATA OSS Professional Services

Mais de NTT DATA OSS Professional Services (17)

Último

Último (7)

Hadoop 2.6の最新機能（Cloudera World Tokyo 2014 LT講演資料）