SlideShare uma empresa Scribd logo
1 de 13
Copyright © 2014 NTT DATA Corporation 1 
(株) NTTデータ 基盤システム事業本部 
鯵坂 明 
2014/11/6 Cloudera World Tokyo 2014 
Hadoop 2.6の最新機能
Copyright © 2014 NTT DATA Corporation 2 
 
NTTデータ OSSプロフェッショナルサービス 
 
Hadoop関連のR&Dやシステム開発に従事 
 
約1年前からHadoop本体の開発に参加 
 
ドキュメント 
 
バグフィックス 
 
運用強化 
 
などなど 
 
パッチのマージ数通算約100件 
 
日本にいる人の中では、トップ 
自己紹介:鯵坂 明 (あじさか あきら)
Copyright © 2014 NTT DATA Corporation 3 
 
Hadoop 2系のGA(2.2.0)以来、最も大きなリリース 
 
848件のissueが解決された 
- 
2.3だと606件、2.4や2.5はそれより少ない 
 
JDK6での動作をサポートするのは、これで最後 
 
2.7以降は、JDK6で動作しない 
 
まだrelease voteが始まっていないが、11月中にリリースさ れると思われる 
Hadoop 2.6
Copyright © 2014 NTT DATA Corporation 4 
 
バージョンごとの機能一覧はwikiで確認できる 
 
http://wiki.apache.org/hadoop/Roadmap 
Hadoop 2.6の最新機能
Copyright © 2014 NTT DATA Corporation 5 
 
今回紹介する機能は、以下の通り 
 
HDFS 
 
Transparent Encryption (HDFS-6134) 
 
Archival Storage (HDFS-6584) 
 
YARN 
 
ResourceManager Restart Phase 2 (YARN-556) 
 
NodeManager Restart (YARN-1336) 
 
どれも現在開発が進められている最新機能 
Hadoop 2.6の最新機能
Copyright © 2014 NTT DATA Corporation 6 
 
背景 
 
HDFSに暗号化の機能は存在しなかった 
- 
ブロックの中身はDataNodeのディスクからそのまま読めてしまう 
 
もともと、Hadoopに対するセキュリティは、クラスタへのアクセスを 隔離することで担保されていた 
 
だが、金融、公共、ヘルスケアなどの業界では隔離するだけでは 要求を満たせない 
HDFS Transparent Encryption (HDFS-6134)
Copyright © 2014 NTT DATA Corporation 7 
 
ファイルを暗号化してHDFSを構成するディスクに書き込む 
 
暗号化方式として、AES-CTRを採用 
- 
ファイルサイズに変化がない 
- 
暗号/復号処理が並列化可能 
- 
seek、appendも可能 
 
暗号/復号鍵は、Key Management Server(HADOOP-10433)で 管理 
HDFS Transparent Encryption (HDFS-6134)
Copyright © 2014 NTT DATA Corporation 8 
 
背景 
 
HDFSに入れるデータにも、よく処理されるものとそうでないものがある 
 
頻繁に処理されるデータをSSDに置いて、データの読み込み/書き込 みを高速化したい(例: HBaseのWAL) 
 
逆に、ほとんど処理されないデータは、CPUやメモリが低スペックなアー カイブ領域に配置したい 
 
レプリカ配置をより細かく管理する仕組みを実装 
 
HDFSを構成する各ディスクに対して、Storage Typeを指定 
 
管理者が各ディレクトリにStorage Policy(Lasy_Persist, All_SSD, One_SSD, Hot, Warm, Cold...)を指定 
Archival Storage (HDFS-6584) 
$ hdfs dfsadmin -setStoragePolicy <path> <policyName>
Copyright © 2014 NTT DATA Corporation 9 
 
レプリカは以下のように配置される 
Storage Typeに関する補足 
RAM_DISK: 各DataNodeでtmpfsを設定して、"RAM_DISK"に指定 
-tmpfsへの書き込みは、HDFS-6581で実装済 
-書き込み速度を上げるため、レプリカ数は1を想定 
ARCHIVE: ディスク容量に対してCPUやメモリが低スペックな環境を "ARCHIVE"に指定 
Archival Storage (HDFS-6584) 
Storage Policy 
Block Placement (n replicas) 
Lazy_Persist 
RAM_DISK: 1, DISK: n-1 
All_SSD 
SSD: n 
One_SSD 
SSD: 1, DISK: n-1 
Hot(default) 
DISK: n 
Warm 
DISK: 1, ARCHIVE: n-1 
Cold 
ARCHIVE: n
Copyright © 2014 NTT DATA Corporation 10 
 
背景 
 
ResourceManagerは、YARNにおける単一障害点 
 
Hadoop 2.4でHA化された (YARN-149)が、機能に制限があった 
- 
ResourceManagerがfail overすると、全てのApplicationMasterを再起動 
- 
動作中のcontainerは全てkillされる 
- 
つまり、長期ジョブが走っている場合にやり直しになってしまう 
 
Phase 2での改善 
 
ApplicationMasterの再起動は不要 
 
動作中のcontainerがkillされることもない 
ResourceManager Restart Ph.2(YARN-556)
Copyright © 2014 NTT DATA Corporation 11 
 
背景 
 
NodeManagerはYARNの単一障害点ではない 
- 
NodeManagerが停止すると、別のNodeManagerで処理が再実行される 
 
メンテナンスやアップグレードによる停止の場合には、別の NodeManagerで処理を再実行させるのではなく、再起動後に処理を 途中から実行したい 
 
処理状況をローカルに保存 
 
ローカルディスクにcontainerの処理状況と、Applicationの処理状況 を書き込む 
 
NodeManager起動時に処理状況を読みこんで、途中から処理 
 
RM Restart Phase 2との組み合わせで、Rolling Upgrade(YARN-666)が実現可能 
NodeManager Restart (YARN-1336)
Copyright © 2014 NTT DATA Corporation 12 
 
今後も次々と機能が追加されていく予定 
 
YARN Rolling Upgrades (YARN-666) 
 
Support for admin-specified labels in YARN (YARN- 796) 
 
Automatic, shared cache for YARN application artifacts (YARN-1492) 
 
Erasure Coding Support inside HDFS (HDFS-7285) 
 
などなど 
今後の開発予定
Copyright © 2011 NTT DATA Corporation 
Copyright © 2014 NTT DATA Corporation 
お問い合わせ先: 
株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 
URL: http://oss.nttdata.co.jp/hadoop 
メール: hadoop@kits.nttdata.co.jp TEL: 050-5546-2496

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
 
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
 
HDFS basics from API perspective
HDFS basics from API perspectiveHDFS basics from API perspective
HDFS basics from API perspective
 
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystemDistributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
 
Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
ストリームデータ分散処理基盤Storm
ストリームデータ分散処理基盤Stormストリームデータ分散処理基盤Storm
ストリームデータ分散処理基盤Storm
 
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 

Semelhante a Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)

今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
 
Rubyによるお手軽分散処理
Rubyによるお手軽分散処理Rubyによるお手軽分散処理
Rubyによるお手軽分散処理
maebashi
 

Semelhante a Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料) (20)

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
 
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
 
20210731_OSC_Kyoto_PGStrom3.0
20210731_OSC_Kyoto_PGStrom3.020210731_OSC_Kyoto_PGStrom3.0
20210731_OSC_Kyoto_PGStrom3.0
 
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...
 
Apache spark 2.3 and beyond
Apache spark 2.3 and beyondApache spark 2.3 and beyond
Apache spark 2.3 and beyond
 
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
 
Hadoop基盤を知る
Hadoop基盤を知るHadoop基盤を知る
Hadoop基盤を知る
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
 
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
 
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
 
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
 
Rubyによるお手軽分散処理
Rubyによるお手軽分散処理Rubyによるお手軽分散処理
Rubyによるお手軽分散処理
 
20171212_GTCJapan_InceptionSummt_HeteroDB
20171212_GTCJapan_InceptionSummt_HeteroDB20171212_GTCJapan_InceptionSummt_HeteroDB
20171212_GTCJapan_InceptionSummt_HeteroDB
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
 

Mais de NTT DATA OSS Professional Services

Mais de NTT DATA OSS Professional Services (17)

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
 
Spark SQL - The internal -
Spark SQL - The internal -Spark SQL - The internal -
Spark SQL - The internal -
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
HDFS Router-based federation
HDFS Router-based federationHDFS Router-based federation
HDFS Router-based federation
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
Structured Streaming - The Internal -
Structured Streaming - The Internal -Structured Streaming - The Internal -
Structured Streaming - The Internal -
 
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
 
20170303 java9 hadoop
20170303 java9 hadoop20170303 java9 hadoop
20170303 java9 hadoop
 
ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)
 
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jpApplication of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jp
 
Application of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructureApplication of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructure
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
 
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
 
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
 
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
 
PostgreSQLコミュニティに飛び込もう
PostgreSQLコミュニティに飛び込もうPostgreSQLコミュニティに飛び込もう
PostgreSQLコミュニティに飛び込もう
 

Último

Último (7)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)

  • 1. Copyright © 2014 NTT DATA Corporation 1 (株) NTTデータ 基盤システム事業本部 鯵坂 明 2014/11/6 Cloudera World Tokyo 2014 Hadoop 2.6の最新機能
  • 2. Copyright © 2014 NTT DATA Corporation 2  NTTデータ OSSプロフェッショナルサービス  Hadoop関連のR&Dやシステム開発に従事  約1年前からHadoop本体の開発に参加  ドキュメント  バグフィックス  運用強化  などなど  パッチのマージ数通算約100件  日本にいる人の中では、トップ 自己紹介:鯵坂 明 (あじさか あきら)
  • 3. Copyright © 2014 NTT DATA Corporation 3  Hadoop 2系のGA(2.2.0)以来、最も大きなリリース  848件のissueが解決された - 2.3だと606件、2.4や2.5はそれより少ない  JDK6での動作をサポートするのは、これで最後  2.7以降は、JDK6で動作しない  まだrelease voteが始まっていないが、11月中にリリースさ れると思われる Hadoop 2.6
  • 4. Copyright © 2014 NTT DATA Corporation 4  バージョンごとの機能一覧はwikiで確認できる  http://wiki.apache.org/hadoop/Roadmap Hadoop 2.6の最新機能
  • 5. Copyright © 2014 NTT DATA Corporation 5  今回紹介する機能は、以下の通り  HDFS  Transparent Encryption (HDFS-6134)  Archival Storage (HDFS-6584)  YARN  ResourceManager Restart Phase 2 (YARN-556)  NodeManager Restart (YARN-1336)  どれも現在開発が進められている最新機能 Hadoop 2.6の最新機能
  • 6. Copyright © 2014 NTT DATA Corporation 6  背景  HDFSに暗号化の機能は存在しなかった - ブロックの中身はDataNodeのディスクからそのまま読めてしまう  もともと、Hadoopに対するセキュリティは、クラスタへのアクセスを 隔離することで担保されていた  だが、金融、公共、ヘルスケアなどの業界では隔離するだけでは 要求を満たせない HDFS Transparent Encryption (HDFS-6134)
  • 7. Copyright © 2014 NTT DATA Corporation 7  ファイルを暗号化してHDFSを構成するディスクに書き込む  暗号化方式として、AES-CTRを採用 - ファイルサイズに変化がない - 暗号/復号処理が並列化可能 - seek、appendも可能  暗号/復号鍵は、Key Management Server(HADOOP-10433)で 管理 HDFS Transparent Encryption (HDFS-6134)
  • 8. Copyright © 2014 NTT DATA Corporation 8  背景  HDFSに入れるデータにも、よく処理されるものとそうでないものがある  頻繁に処理されるデータをSSDに置いて、データの読み込み/書き込 みを高速化したい(例: HBaseのWAL)  逆に、ほとんど処理されないデータは、CPUやメモリが低スペックなアー カイブ領域に配置したい  レプリカ配置をより細かく管理する仕組みを実装  HDFSを構成する各ディスクに対して、Storage Typeを指定  管理者が各ディレクトリにStorage Policy(Lasy_Persist, All_SSD, One_SSD, Hot, Warm, Cold...)を指定 Archival Storage (HDFS-6584) $ hdfs dfsadmin -setStoragePolicy <path> <policyName>
  • 9. Copyright © 2014 NTT DATA Corporation 9  レプリカは以下のように配置される Storage Typeに関する補足 RAM_DISK: 各DataNodeでtmpfsを設定して、"RAM_DISK"に指定 -tmpfsへの書き込みは、HDFS-6581で実装済 -書き込み速度を上げるため、レプリカ数は1を想定 ARCHIVE: ディスク容量に対してCPUやメモリが低スペックな環境を "ARCHIVE"に指定 Archival Storage (HDFS-6584) Storage Policy Block Placement (n replicas) Lazy_Persist RAM_DISK: 1, DISK: n-1 All_SSD SSD: n One_SSD SSD: 1, DISK: n-1 Hot(default) DISK: n Warm DISK: 1, ARCHIVE: n-1 Cold ARCHIVE: n
  • 10. Copyright © 2014 NTT DATA Corporation 10  背景  ResourceManagerは、YARNにおける単一障害点  Hadoop 2.4でHA化された (YARN-149)が、機能に制限があった - ResourceManagerがfail overすると、全てのApplicationMasterを再起動 - 動作中のcontainerは全てkillされる - つまり、長期ジョブが走っている場合にやり直しになってしまう  Phase 2での改善  ApplicationMasterの再起動は不要  動作中のcontainerがkillされることもない ResourceManager Restart Ph.2(YARN-556)
  • 11. Copyright © 2014 NTT DATA Corporation 11  背景  NodeManagerはYARNの単一障害点ではない - NodeManagerが停止すると、別のNodeManagerで処理が再実行される  メンテナンスやアップグレードによる停止の場合には、別の NodeManagerで処理を再実行させるのではなく、再起動後に処理を 途中から実行したい  処理状況をローカルに保存  ローカルディスクにcontainerの処理状況と、Applicationの処理状況 を書き込む  NodeManager起動時に処理状況を読みこんで、途中から処理  RM Restart Phase 2との組み合わせで、Rolling Upgrade(YARN-666)が実現可能 NodeManager Restart (YARN-1336)
  • 12. Copyright © 2014 NTT DATA Corporation 12  今後も次々と機能が追加されていく予定  YARN Rolling Upgrades (YARN-666)  Support for admin-specified labels in YARN (YARN- 796)  Automatic, shared cache for YARN application artifacts (YARN-1492)  Erasure Coding Support inside HDFS (HDFS-7285)  などなど 今後の開発予定
  • 13. Copyright © 2011 NTT DATA Corporation Copyright © 2014 NTT DATA Corporation お問い合わせ先: 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス URL: http://oss.nttdata.co.jp/hadoop メール: hadoop@kits.nttdata.co.jp TEL: 050-5546-2496