SlideShare uma empresa Scribd logo
1 de 38
1Copyright © 2015 NTT DATA Corporation
(株) NTTデータ 基盤システム事業本部
鯵坂 明
並列分散処理基盤Hadoopの紹介と、
開発者が語るHadoopの使いどころ
2015/04/17 Silicon Valley x 日本 / Tech x Business Meetup #12
2Copyright © 2015 NTT DATA Corporation
NTTデータ社員 (2011/04~現在)
担当でHadoopを利用したシステムを数多く構築
その利用者からのQ&A対応
Apache Hadoop Committer (2014/12~現在)
ソースコードの変更権限を持つ
世界に100人程度、日本企業だと初
自己紹介:鯵坂 明 (あじさか あきら)
3Copyright © 2015 NTT DATA Corporation
Hadoop概要
Hadoopとは
Hadoopの最新動向
NTTデータのHadoopに対する取り組み
アジェンダ
Copyright © 2015 NTT DATA Corporation 4
Hadoop概要
5Copyright © 2015 NTT DATA Corporation
Apache Hadoop とは
オープンソースの
大規模分散処理フレームワーク
Googleの基盤ソフトウェアの
オープンソース実装の一つ
Yahoo! Research の
Doug Cutting 氏
(現Cloudera)が Java で開発
お子さんのお気に入り
だったぬいぐるみ
6Copyright © 2015 NTT DATA Corporation
大量データの蓄積と
高スループットな処理
Apache Hadoop とは
がもたらしてくれたもの
柔軟なスケーラビリティと
現実的な運用性
7Copyright © 2015 NTT DATA Corporation
HDFS
大量データを高スループットに読み込める
サーバが故障しても、データの安全性は担保
サーバ数を増やせば、格納できるデータ量はスケールする
MapReduceフレームワーク
Mapタスク、Reduceタスクのみ指定すれば、
(原則はJavaで処理を記述)
あとはフレームワークが並列分散処理を実現
サーバが故障しても、タスクが再実行され、ジョブは成功
サーバ数を増やせば、処理性能は基本スケールする
Hadoopを構成する2つのコンポーネント
8Copyright © 2015 NTT DATA Corporation
HDFS
大量データを高スループットに読み込める
サーバが故障しても、データの安全性は担保
サーバ数を増やせば、格納できるデータ量はスケールする
MapReduceフレームワーク
Mapタスク、Reduceタスクのみ指定すれば、
(原則はJavaで処理を記述)
あとはフレームワークが並列分散処理を実現
サーバが故障しても、タスクが再実行され、ジョブは成功
サーバ数を増やせば、処理性能は基本スケールする
Hadoopを構成する2つのコンポーネント
並列分散処理の
面倒な部分を
解決してくれる
ミドルウェア
9Copyright © 2015 NTT DATA Corporation
Hadoopは「貯める」「処理する」機能に特化。Hadoop
を活用した大量データ分析を実現するため、様々な
周辺ツールが出現。エコシステムが広がった。
エコシステムを形成
10Copyright © 2015 NTT DATA Corporation
Apache Hive
HiveQLというSQLライクな言語でMapReduceを実行
Apache Pig
Pig Latinという独自の言語でMapReduceを実行
Apache Mahout
機械学習アルゴリズムのMapReduce実装のライブラリ
エコシステム ~アプリ記述の抽象化・ライブラリ化~
hive> SELECT COUNT(uid) FROM access_log GROUP BY date;
A = LOAD 'data' USING PigStorage() AS (f1:int, f2:int, f3:int);
B = GROUP A BY f1;
(省略)
$ mahout kmeans --input inputfile --output outputfile
11Copyright © 2015 NTT DATA Corporation
Apache Sqoop
RDBMS-Hadoop間のデータ連携ツール
Apache Flume
ログ収集のための分散フレームワーク
エコシステム ~データ連携~
MapReduce
Sqoop
RDBMS
HDFS
import
export
内部的にはMapReduceが動
作。並列でRDBとテーブルの
情報をやりとりする。
HDFS
ログ
ログ
ログ
12Copyright © 2015 NTT DATA Corporation
Hadoopコア部分に加えてエコシステムが充実するこ
とで、データの収集や分析など、「大量データ活用」を
身近なものにした。
エコシステムの浸透
HDFS
MapReduce
PigHive Mahout
HBase
SqoopRDBMS
外部システム
Flume
13Copyright © 2015 NTT DATA Corporation
 分析系のデータ集計・抽出と言った大容量処理だけではなく、純バッチの
高スループット化など大件数処理にも向いている
 データを蓄積、変換するといった使い方でコストパフォーマンスが高い
大容量データ処理 & 大件数データ処理
秒
分
時間
日
処
理
の
レ
イ
テ
ン
シ
バッチ処理
リアルタイム処理
データサイズ少ない 多い
オンライン処理
汎用検索
GB(ギガバイト) TB(テラバイト) PB(ペタバイト)
TB(テラバイト)
大容量データ処理
オンバッチ処理
純バッチ処理
Hadoop
適応領域
RDBMS
適応領域
大件数データ処理
既存処理の高速化 蓄積・分析
14Copyright © 2015 NTT DATA Corporation
 Hadoop導入は大きく2つの傾向に分かれている
 共通するものも多いが、それぞれの分野で必要となる機能・非機能の条件は異なる
Hadoopが活用されている領域
秒
分
時間
日
処
理
の
レ
イ
テ
ン
シ
バッチ処理
リアルタイム処理
データサイズ少ない 多い
オンライン処理
汎用検索
GB(ギガバイト) TB(テラバイト) PB(ペタバイト)
TB(テラバイト)
オンバッチ処理
純バッチ処理
Hadoop
適応領域
RDBMS
適応領域
金融
メディア
公共
メディア
通信
通信
公共
通信
既存の処理の高速化
- サーバ規模は10~20台程度
大規模データの活用
- 今まで捨てていたデータの活用
- サーバ規模は数百~数千台
ソーシャル
Copyright © 2015 NTT DATA Corporation 15
Hadoopの最新動向
16Copyright © 2015 NTT DATA Corporation
Hadoopとエコシステムはユーザーとともに進化を遂
げた。活用事例の増加や取り巻く環境の変化から、
新たな潮流が生まれる…
Hadoopと周辺環境の変化
•一部のユーザは数千台クラスのHadoopクラスタを構築・利用クラスタ”超”巨大化
•企業の利用拡大に伴い、Hadoopにアクセスしてデータ分析をする
利用者が増えたアクセスユーザ増加
•大量データ活用が一般的になるにつれて、「速報値を知りたい」
「もっとインタラクティブに分析したい」といった要求が生まれるデータ処理高速化の追求
•Hadoop黎明期はサーバあたりのメモリ4~8Gが一般的だったが、
現在は100GB以上のメモリを積んだサーバも普及。ハードウェアの進化
主な”変化”の例
17Copyright © 2015 NTT DATA Corporation
近年のHadoopおよびエコシステムについて、
以下の3点について最新動向を紹介
近年のHadoopの潮流
クラスタ”超”巨大化
アクセスユーザ増加
データ処理高速化の追求
ハードウェアの進化
1.YARN登場
2.新たな並列分散処理エンジンの出現
3.非機能面の強化
時間の都合で
省略
18Copyright © 2015 NTT DATA Corporation
YARNの前に:Hadoop1系、Hadoop2系について
 Hadoop1系は2007年から開発が始まり、安定化志向。2014年6月に開発は凍結。
 Hadoop2系は2012年に分岐。根本のアーキテクチャに変更を入れ、現在も進化を続けている。
20142010 2011 201320122009
branch-2
2.2.0
2.3.0
2.4.02.0.0-alpha
2.1.0-beta
branch-1
(branch-0.20)
1.0.0 1.1.0 1.2.1(stable)0.20.1 0.20.205
0.22.0
0.21.0
New append
Security
0.23.0
0.23.11(final)
NameNode Federation, YARN
NameNode HA
2015
2.5.0
2.6.0
これまでお伝えした範囲
これからお伝えする範囲
19Copyright © 2015 NTT DATA Corporation
 YARN = Yet Another Resource Negotiator
YARN登場
分散ファイルシステム
HDFS
バッチ処理
MapReduce
Hadoop 1
分散ファイルシステム
HDFS
バッチ処理
MapReduceV2
Hadoop 2
リソース制御
YARN
「蓄積+処理」の構成からリソース制御を切り出した
20Copyright © 2015 NTT DATA Corporation
YARNの意義
リソース制御を分離することで…
つまり何が嬉しいの?
柔軟なリソース制御による
スループット向上
Hadoopのスケーラビリティを
さらに向上させる
MapReduce以外の分散処理を実行する
時間の都合上、
これだけ紹介
21Copyright © 2015 NTT DATA Corporation
MapReduceは、ディスクIOを並列化することでスルー
プットを最大化するが、低レイテンシな処理は苦手。
新たな並列分散処理エンジンの出現
M RM R
Reduce処理
MapReduce
ジョブ ・・・
M
M R
M R M R
・・・
・・・
・・・
・・・
Map処理
・・・・・・
HDFS
HDFSHDFS
HDFS
ApplicationMaster
MapReduceのフレームワークの縛りの中で複雑な処理を行うには、多数のMapReduceを組み
合わせることになる。都度HDFSに中間データを書き出すためのオーバーヘッドや、ジョブ
(ApplicationMaster)の起動のオーバーヘッドは分析処理の遅延に繋がる。
HiveやPig(on MapReduce)による一連の処理のイメージ
HDFSに書き出し
HDFSから読み出し
22Copyright © 2015 NTT DATA Corporation
MapReduceで実現が難しいデータ処理の課題に対
して、新たな分散処理フレームワーク・実行エンジン
が出現。
新たな並列分散処理エンジンの出現
次ページより概要を紹介します!
23Copyright © 2015 NTT DATA Corporation
Apache Tez : YARN上での処理に最適化された実行エ
ンジン
 Apache Tez : DAG(Directed Acyclic Graph)により実行計画を作成
 ApplicationMasterの起動回数削減
 HiveやPigといったMRv1で実行していたクエリ・コードを流用できる
• Hive on Tez
• Pig on Tez
Tez
Plan
Plan Plan
Plan
ローカルディスクを利用
(HDFSへの書き込みより高速)
Plan
Plan
特定のノードのみでShuffle
(通信量・リソース削減)
処理量ベースで
実行ノード数を制御
(リソース削減・性能改善)
MapReduceの仕組みに
あてはめない 1つのApplicationMasterで処理
ローカル ローカル
ローカル ローカル
Hive、Pigを利用するユーザは、プログラムの言語(HiveQL、Pig Latin)はそのままで処理時間
の短縮が可能。MRが多段になる複雑な処理であるほど、処理時間短縮効果が大きい。
24Copyright © 2015 NTT DATA Corporation
Apache Spark : Hadoop上で動作する低レイテイシ技術
 Apache Spark : 大規模データの分散処理をオンメモリで実現
• データ処理を極力メモリ上で実現するため、高速な処理を実現
• Hadoop MapReduceが不得意な繰り返し処理に威力を発揮
• 機械学習やHadoop MapReduceよりも短時間で処理したいものが得意領域
RDD(Resilient Distributed Dataset)の変換で処理を表現
RDD RDD RDD
Stage Stage
RDD
Sparkができるだけ
処理をまとめこむ
ユーザ定義の
処理の流れ
Sparkによる
実際の処理 ステージ間は
シャッフルが発生
変換 変換 変換 出力入力
Stageに基づいて
サーバ群がタスク実行
25Copyright © 2015 NTT DATA Corporation
 Twitter社のエンジニアにより開発された、並列分散ストリーム処理のた
めのフレームワーク
Apache Storm : 分散ストリーム処理フレームワーク
Storm Topology
Spout:ストリーム処理の入力を担う
Bolt:データへの
処理を実行する
HBase
HDFS
ストリームデー
タ
・ログ
・センサーデータ
アプリケーションエンジニアは、Bolt・Spoutで処理するロジックを記述、それらを組み合わせた
Topologyを定義することで分散ストリーム処理を実現できる。耐障害性やスケーラビリティを意
識せずに享受可能!
処理したデータをKVSや
HDFSに永続化し可視化や
通知を行う
Storm処理の前段にMQ等のシス
テムを配置し、ストリームデータを
受け取る
26Copyright © 2015 NTT DATA Corporation
SparkやStormは元々Hadoopとは独立したプロジェク
トだったが、機能追加によりYARN上での動作が可能
に。(TezはYARNでの実行を前提としている)
メリット
- 専用のクラスタを構築する必要が無く、必要なリソースを払いだしながら多様
な分析処理を実行できる
- 同一のデータ(HDFS)にアクセスできる。(データを移動させる必要が無い)
YARNで、Hadoopに乗る
MRv2
PigHive
HDFS
YARN
Tez Spark Storm
MLlib Streaming
…
SQL GraphX
スケーラブルなデータストアの上で、様々な分析処理のワークロードが動作。
「Hadoopはビッグデータの”OS”カーネル」という声も。
http://itpro.nikkeibp.co.jp/article/NEWS/20140708/569985/
27Copyright © 2015 NTT DATA Corporation
 お話した内容
 YARN登場
 新たな並列分散処理エンジンの出現
 非機能面の強化(単一障害点の排除、暗号化/ACL)
Hadoopの最新動向のまとめ
根本的なアーキテクチャも見直しを入れて
Hadoopはさらに進化をつづけている
Hadoopがユーザへ浸透することで生まれた新たな課題
に対しても、様々なエコシステムが生まれ活用されている
大量データ保持・活用の様々な課題に対する
Hadoopの適用領域は広がりつづけている
Copyright © 2015 NTT DATA Corporation 28
Hadoopに対するNTTデータの取り組み
29Copyright © 2015 NTT DATA Corporation
NTTデータのHadoopサービス
2008年よりHadoopを使ったインテグレーションを開始
2010年「Hadoop構築・運用ソリューション」を発表
企画 設計~試験 移行 運用
Hadoop
コンサルティング
サービス
Hadoop
構築サービス
Hadoop
評価支援サービス
Hadoop教育サービス
Hadoop
サポートサービス
これまでに数台~千台規模のサーバによる
Hadoopシステムを構築・運用してきた
国内有数の実績を持ち、業務システムや社
会基盤システムとしてHadoopを活用する
ノウハウを保持しています。
30Copyright © 2015 NTT DATA Corporation
 ストリームで大量データを受信し、利用者に配信するサービスを実現する
 トラフィック増に柔軟に対応できるようオープンソースソフトウェアをフル活用
 データロスト回避、バースト対応など難しい課題をインテグレーションでクリア
適用例:Twitterデータ提供サービス
31Copyright © 2015 NTT DATA Corporation
Twitterデータ提供システムの構成
受信サーバ
……
ツイートデータをいずれか1つ
の宛先に送信(負荷分散)
ツイートデータをすべての宛
先に送信
分配サーバ
出力サーバ
配信サーバ(サンプルホース)
配信サーバ(フィルターホース)
Hadoopクラスタ
配信サーバ
(ヒストリカルサーチ)
バックアップサーバ
待機系
現用系
受信サーバ フィルタリングサーバ
オンプレミス環境
Firehose#1
Firehose#2
……
受信部
配信部
蓄積部
クラウド環境
フィルタリングサーバ
プログラム上の
バッファ
メッセージング
キュー
日本語ユーザDB
32Copyright © 2015 NTT DATA Corporation
 モバイルネットワークの統計情報から人口推計を可視化して表示するシステム
 IAサーバ1,000台超から構成され、監視、運用にはオープンソースソフトウェアを活用
 NTTデータがHadoopクラスタを含むシステムのインテグレーションを担当
適用例:NTTドコモ様 「社会の頭脳システム」
https://www.nttdocomo.co.jp/english/binary/pdf/corporate/technology/rd/technical_journal/bn/vol14_3/vol14_3_024en.pdf
情報処理学会「デジタルプラクティス」第18号にも詳細を掲載
id.nii.ac.jp/1001/00100784/
33Copyright © 2015 NTT DATA Corporation
 NTTデータはお客様とOSS開発コミュニティとの間に立ち、お客様のOSS活用及びイノ
ベーションの実現を支援していきます。
NTTデータのOSSに対するアプローチ
お客様
OSS開発コミュニティ
お客様 お客様
ニーズ 問い合わせ
トラブル情報
インテグレーション
コンサルティング サポート
…
フィードバック
方向付け
新規機能
バージョンアップ
見極め
34Copyright © 2015 NTT DATA Corporation
 Hadoopディストリビュータ
Hortonworks (Microsoft と連携)
Cloudera (Intel と提携)
EMC
 Hadoopユーザ
Yahoo!
NTT, NTTDATA
Twitter
eBay
Huawei
Facebook
...
Hadoopの開発コミュニティ
貢献コード行数
244,975
131,609
30,595
第6位
21,10723,197 21,780 20,540
14,764 14,534
2014年 Hadoopコミュニティ貢献指標
Hadoop専業ベンダのHortonworksやCloudera、Hadoopを開発したYahoo! Inc.に
次いで、NTTデータもHadoopコミュニティにグローバルレベルで貢献しています
35Copyright © 2015 NTT DATA Corporation
NTTデータ社員 (2011/04~現在)
担当でHadoopを利用したシステムを数多く構築
その利用者からのQ&A対応
Apache Hadoop Committer (2014/12~現在)
ソースコードの変更権限を持つ
世界に100人程度、日本企業だと初
再び自己紹介:鯵坂 明 (あじさか あきら)
36Copyright © 2015 NTT DATA Corporation
コミッタになる理由
利用中に見つかった問題を、確実に修正する
お客様に安心してHadoopを使ってもらう
そのために、大量のパッチを書いた
今後は
PMC(Project Management Committee) Member
を目指す
再び自己紹介:鯵坂 明 (あじさか あきら)
37Copyright © 2015 NTT DATA Corporation
 Hadoopは1台のマシンで扱えない規模の大量データを高速に処理する
ためのフレームワークです
数台から始めて、数千台(データ量にして数十PB)までスケールアウ
トします
 Hadoopエコシステムの開発の勢いは今も活発です
性能面、運用面で便利な機能がどんどん追加されています
より低レイテンシな分散処理フレームワークや分析のためのライブラ
リも充実し、大量データ活用の可能性を広げています
 NTTデータは、Hadoopを利用したシステムを数多く構築・サポートして
います
お客様にHadoopを安心して使ってもらうため、Hadoop本体の開発
にも力を入れています
まとめ
Copyright © 2011 NTT DATA Corporation
Copyright © 2015 NTT DATA Corporation
お問い合わせ先:
株式会社NTTデータ 基盤システム事業本部
OSSプロフェッショナルサービス
URL: http://oss.nttdata.co.jp/hadoop
メール: hadoop@kits.nttdata.co.jp TEL: 050-5546-2496

Mais conteúdo relacionado

Mais procurados

[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送Google Cloud Platform - Japan
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...NTT DATA Technology & Innovation
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
JVMパラメータチューニングにおけるOptunaの活用事例 ( Optuna Meetup #1 )
JVMパラメータチューニングにおけるOptunaの活用事例 ( Optuna Meetup #1 ) JVMパラメータチューニングにおけるOptunaの活用事例 ( Optuna Meetup #1 )
JVMパラメータチューニングにおけるOptunaの活用事例 ( Optuna Meetup #1 ) Hironobu Isoda
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...NTT DATA Technology & Innovation
 
事例で学ぶApache Cassandra
事例で学ぶApache Cassandra事例で学ぶApache Cassandra
事例で学ぶApache CassandraYuki Morishita
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
 
異次元のグラフデータベースNeo4j
異次元のグラフデータベースNeo4j異次元のグラフデータベースNeo4j
異次元のグラフデータベースNeo4j昌桓 李
 
トランザクションの設計と進化
トランザクションの設計と進化トランザクションの設計と進化
トランザクションの設計と進化Kumazaki Hiroki
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントCloudera Japan
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208 次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208 Kazuhiro Mitsuhashi
 
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)NTT DATA Technology & Innovation
 
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019  #hc...HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019  #hc...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...Yahoo!デベロッパーネットワーク
 

Mais procurados (20)

[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
JVMパラメータチューニングにおけるOptunaの活用事例 ( Optuna Meetup #1 )
JVMパラメータチューニングにおけるOptunaの活用事例 ( Optuna Meetup #1 ) JVMパラメータチューニングにおけるOptunaの活用事例 ( Optuna Meetup #1 )
JVMパラメータチューニングにおけるOptunaの活用事例 ( Optuna Meetup #1 )
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
 
Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)
 
事例で学ぶApache Cassandra
事例で学ぶApache Cassandra事例で学ぶApache Cassandra
事例で学ぶApache Cassandra
 
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知るMapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
 
Hadoop入門
Hadoop入門Hadoop入門
Hadoop入門
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
異次元のグラフデータベースNeo4j
異次元のグラフデータベースNeo4j異次元のグラフデータベースNeo4j
異次元のグラフデータベースNeo4j
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
トランザクションの設計と進化
トランザクションの設計と進化トランザクションの設計と進化
トランザクションの設計と進化
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
 
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208 次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208
 
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
 
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
 
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019  #hc...HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019  #hc...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
 

Destaque

課題解決エンジンを支えるデータ処理システムと利活用事例
課題解決エンジンを支えるデータ処理システムと利活用事例課題解決エンジンを支えるデータ処理システムと利活用事例
課題解決エンジンを支えるデータ処理システムと利活用事例Yahoo!デベロッパーネットワーク
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Cloudera Japan
 
非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料Takuya Minagawa
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
国際安全保障学会20121209配布用最終
国際安全保障学会20121209配布用最終国際安全保障学会20121209配布用最終
国際安全保障学会20121209配布用最終Kunihiro Maeda
 
オープンデータをつかう図書館、オープンデータをつくる図書館(完全版)@京都図書館大会(2015.8.17)
オープンデータをつかう図書館、オープンデータをつくる図書館(完全版)@京都図書館大会(2015.8.17)オープンデータをつかう図書館、オープンデータをつくる図書館(完全版)@京都図書館大会(2015.8.17)
オープンデータをつかう図書館、オープンデータをつくる図書館(完全版)@京都図書館大会(2015.8.17)Ikki Ohmukai
 
オープンデータとアプリがつなぐ次世代の地域情報活用法
オープンデータとアプリがつなぐ次世代の地域情報活用法オープンデータとアプリがつなぐ次世代の地域情報活用法
オープンデータとアプリがつなぐ次世代の地域情報活用法Taisuke Fukuno
 
オープンデータカフェ@盛岡 Vol.1 「オープンデータとはなにか?」
オープンデータカフェ@盛岡 Vol.1 「オープンデータとはなにか?」オープンデータカフェ@盛岡 Vol.1 「オープンデータとはなにか?」
オープンデータカフェ@盛岡 Vol.1 「オープンデータとはなにか?」Issei Komatsu
 
201306 オープンデータ
201306 オープンデータ201306 オープンデータ
201306 オープンデータTomihiko Azuma
 
難しくない! これから始めようオープンデータ
難しくない! これから始めようオープンデータ難しくない! これから始めようオープンデータ
難しくない! これから始めようオープンデータKouichi Kita
 
横浜でのオープンデータ実践
横浜でのオープンデータ実践横浜でのオープンデータ実践
横浜でのオープンデータ実践Iwao KOBAYASHI
 
オープンデータ活用による地域課題解決とCode for Japan @ 福岡 BODIK セミナー
オープンデータ活用による地域課題解決とCode for Japan @ 福岡 BODIK セミナーオープンデータ活用による地域課題解決とCode for Japan @ 福岡 BODIK セミナー
オープンデータ活用による地域課題解決とCode for Japan @ 福岡 BODIK セミナーCode for Japan
 
企画提案書「北海道のオープンデータをもっと進めたい」(最終審査用)
企画提案書「北海道のオープンデータをもっと進めたい」(最終審査用) 企画提案書「北海道のオープンデータをもっと進めたい」(最終審査用)
企画提案書「北海道のオープンデータをもっと進めたい」(最終審査用) Kouichi Kita
 
【データサイエンティスト協会】20140314オープンデータ意見交換会_政府におけるオープンデータの推進について 土井様講演資料
【データサイエンティスト協会】20140314オープンデータ意見交換会_政府におけるオープンデータの推進について 土井様講演資料【データサイエンティスト協会】20140314オープンデータ意見交換会_政府におけるオープンデータの推進について 土井様講演資料
【データサイエンティスト協会】20140314オープンデータ意見交換会_政府におけるオープンデータの推進について 土井様講演資料datascientist_
 
オープンデータと環境未来都市
オープンデータと環境未来都市オープンデータと環境未来都市
オープンデータと環境未来都市Iwao KOBAYASHI
 
オープンデータによる地方創生が日本を変える
オープンデータによる地方創生が日本を変えるオープンデータによる地方創生が日本を変える
オープンデータによる地方創生が日本を変えるTaisuke Fukuno
 
自治体広報誌オープンデータ実証説明20131220
自治体広報誌オープンデータ実証説明20131220自治体広報誌オープンデータ実証説明20131220
自治体広報誌オープンデータ実証説明20131220Tomihiko Azuma
 

Destaque (20)

課題解決エンジンを支えるデータ処理システムと利活用事例
課題解決エンジンを支えるデータ処理システムと利活用事例課題解決エンジンを支えるデータ処理システムと利活用事例
課題解決エンジンを支えるデータ処理システムと利活用事例
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 
非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
国際安全保障学会20121209配布用最終
国際安全保障学会20121209配布用最終国際安全保障学会20121209配布用最終
国際安全保障学会20121209配布用最終
 
Tamagawa univ20110426
Tamagawa univ20110426Tamagawa univ20110426
Tamagawa univ20110426
 
オープンデータをつかう図書館、オープンデータをつくる図書館(完全版)@京都図書館大会(2015.8.17)
オープンデータをつかう図書館、オープンデータをつくる図書館(完全版)@京都図書館大会(2015.8.17)オープンデータをつかう図書館、オープンデータをつくる図書館(完全版)@京都図書館大会(2015.8.17)
オープンデータをつかう図書館、オープンデータをつくる図書館(完全版)@京都図書館大会(2015.8.17)
 
オープンデータとアプリがつなぐ次世代の地域情報活用法
オープンデータとアプリがつなぐ次世代の地域情報活用法オープンデータとアプリがつなぐ次世代の地域情報活用法
オープンデータとアプリがつなぐ次世代の地域情報活用法
 
オープンデータカフェ@盛岡 Vol.1 「オープンデータとはなにか?」
オープンデータカフェ@盛岡 Vol.1 「オープンデータとはなにか?」オープンデータカフェ@盛岡 Vol.1 「オープンデータとはなにか?」
オープンデータカフェ@盛岡 Vol.1 「オープンデータとはなにか?」
 
201306 オープンデータ
201306 オープンデータ201306 オープンデータ
201306 オープンデータ
 
難しくない! これから始めようオープンデータ
難しくない! これから始めようオープンデータ難しくない! これから始めようオープンデータ
難しくない! これから始めようオープンデータ
 
横浜でのオープンデータ実践
横浜でのオープンデータ実践横浜でのオープンデータ実践
横浜でのオープンデータ実践
 
20151020 オープンデータビジネス3種類のタイプとその特徴
20151020 オープンデータビジネス3種類のタイプとその特徴20151020 オープンデータビジネス3種類のタイプとその特徴
20151020 オープンデータビジネス3種類のタイプとその特徴
 
オープンデータ活用による地域課題解決とCode for Japan @ 福岡 BODIK セミナー
オープンデータ活用による地域課題解決とCode for Japan @ 福岡 BODIK セミナーオープンデータ活用による地域課題解決とCode for Japan @ 福岡 BODIK セミナー
オープンデータ活用による地域課題解決とCode for Japan @ 福岡 BODIK セミナー
 
企画提案書「北海道のオープンデータをもっと進めたい」(最終審査用)
企画提案書「北海道のオープンデータをもっと進めたい」(最終審査用) 企画提案書「北海道のオープンデータをもっと進めたい」(最終審査用)
企画提案書「北海道のオープンデータをもっと進めたい」(最終審査用)
 
【データサイエンティスト協会】20140314オープンデータ意見交換会_政府におけるオープンデータの推進について 土井様講演資料
【データサイエンティスト協会】20140314オープンデータ意見交換会_政府におけるオープンデータの推進について 土井様講演資料【データサイエンティスト協会】20140314オープンデータ意見交換会_政府におけるオープンデータの推進について 土井様講演資料
【データサイエンティスト協会】20140314オープンデータ意見交換会_政府におけるオープンデータの推進について 土井様講演資料
 
オープンデータと環境未来都市
オープンデータと環境未来都市オープンデータと環境未来都市
オープンデータと環境未来都市
 
オープンデータ推進の課題とポイント
オープンデータ推進の課題とポイントオープンデータ推進の課題とポイント
オープンデータ推進の課題とポイント
 
オープンデータによる地方創生が日本を変える
オープンデータによる地方創生が日本を変えるオープンデータによる地方創生が日本を変える
オープンデータによる地方創生が日本を変える
 
自治体広報誌オープンデータ実証説明20131220
自治体広報誌オープンデータ実証説明20131220自治体広報誌オープンデータ実証説明20131220
自治体広報誌オープンデータ実証説明20131220
 

Semelhante a 並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business Meetup #12 発表資料)

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTT DATA OSS Professional Services
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組みNTT DATA OSS Professional Services
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...DataWorks Summit/Hadoop Summit
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...NTT DATA Technology & Innovation
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)NTT DATA OSS Professional Services
 
Hadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックHadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックAdvancedTechNight
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)NTT DATA OSS Professional Services
 
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編Kotaro Tsukui
 
Hadoop for programmer
Hadoop for programmerHadoop for programmer
Hadoop for programmerSho Shimauchi
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方Recruit Technologies
 
関西Hadoop勉強会#1 Hadoopの紹介
関西Hadoop勉強会#1 Hadoopの紹介関西Hadoop勉強会#1 Hadoopの紹介
関西Hadoop勉強会#1 Hadoopの紹介Ryuji Tamagawa
 

Semelhante a 並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business Meetup #12 発表資料) (20)

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATAApache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
 
大規模HDFS & ErasureCoding#yjdsw3
大規模HDFS & ErasureCoding#yjdsw3大規模HDFS & ErasureCoding#yjdsw3
大規模HDFS & ErasureCoding#yjdsw3
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
 
Hadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックHadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバック
 
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development statusApache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
 
Hadoop for programmer
Hadoop for programmerHadoop for programmer
Hadoop for programmer
 
20170303 java9 hadoop
20170303 java9 hadoop20170303 java9 hadoop
20170303 java9 hadoop
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
 
関西Hadoop勉強会#1 Hadoopの紹介
関西Hadoop勉強会#1 Hadoopの紹介関西Hadoop勉強会#1 Hadoopの紹介
関西Hadoop勉強会#1 Hadoopの紹介
 

Mais de NTT DATA OSS Professional Services

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力NTT DATA OSS Professional Services
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~NTT DATA OSS Professional Services
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~NTT DATA OSS Professional Services
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのことNTT DATA OSS Professional Services
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~NTT DATA OSS Professional Services
 
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)NTT DATA OSS Professional Services
 
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...NTT DATA OSS Professional Services
 

Mais de NTT DATA OSS Professional Services (20)

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
 
Spark SQL - The internal -
Spark SQL - The internal -Spark SQL - The internal -
Spark SQL - The internal -
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
HDFS Router-based federation
HDFS Router-based federationHDFS Router-based federation
HDFS Router-based federation
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
 
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystemDistributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
 
Structured Streaming - The Internal -
Structured Streaming - The Internal -Structured Streaming - The Internal -
Structured Streaming - The Internal -
 
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
 
HDFS basics from API perspective
HDFS basics from API perspectiveHDFS basics from API perspective
HDFS basics from API perspective
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
 
ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)
 
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jpApplication of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jp
 
Application of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructureApplication of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructure
 
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
 
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
 
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
 

並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business Meetup #12 発表資料)

  • 1. 1Copyright © 2015 NTT DATA Corporation (株) NTTデータ 基盤システム事業本部 鯵坂 明 並列分散処理基盤Hadoopの紹介と、 開発者が語るHadoopの使いどころ 2015/04/17 Silicon Valley x 日本 / Tech x Business Meetup #12
  • 2. 2Copyright © 2015 NTT DATA Corporation NTTデータ社員 (2011/04~現在) 担当でHadoopを利用したシステムを数多く構築 その利用者からのQ&A対応 Apache Hadoop Committer (2014/12~現在) ソースコードの変更権限を持つ 世界に100人程度、日本企業だと初 自己紹介:鯵坂 明 (あじさか あきら)
  • 3. 3Copyright © 2015 NTT DATA Corporation Hadoop概要 Hadoopとは Hadoopの最新動向 NTTデータのHadoopに対する取り組み アジェンダ
  • 4. Copyright © 2015 NTT DATA Corporation 4 Hadoop概要
  • 5. 5Copyright © 2015 NTT DATA Corporation Apache Hadoop とは オープンソースの 大規模分散処理フレームワーク Googleの基盤ソフトウェアの オープンソース実装の一つ Yahoo! Research の Doug Cutting 氏 (現Cloudera)が Java で開発 お子さんのお気に入り だったぬいぐるみ
  • 6. 6Copyright © 2015 NTT DATA Corporation 大量データの蓄積と 高スループットな処理 Apache Hadoop とは がもたらしてくれたもの 柔軟なスケーラビリティと 現実的な運用性
  • 7. 7Copyright © 2015 NTT DATA Corporation HDFS 大量データを高スループットに読み込める サーバが故障しても、データの安全性は担保 サーバ数を増やせば、格納できるデータ量はスケールする MapReduceフレームワーク Mapタスク、Reduceタスクのみ指定すれば、 (原則はJavaで処理を記述) あとはフレームワークが並列分散処理を実現 サーバが故障しても、タスクが再実行され、ジョブは成功 サーバ数を増やせば、処理性能は基本スケールする Hadoopを構成する2つのコンポーネント
  • 8. 8Copyright © 2015 NTT DATA Corporation HDFS 大量データを高スループットに読み込める サーバが故障しても、データの安全性は担保 サーバ数を増やせば、格納できるデータ量はスケールする MapReduceフレームワーク Mapタスク、Reduceタスクのみ指定すれば、 (原則はJavaで処理を記述) あとはフレームワークが並列分散処理を実現 サーバが故障しても、タスクが再実行され、ジョブは成功 サーバ数を増やせば、処理性能は基本スケールする Hadoopを構成する2つのコンポーネント 並列分散処理の 面倒な部分を 解決してくれる ミドルウェア
  • 9. 9Copyright © 2015 NTT DATA Corporation Hadoopは「貯める」「処理する」機能に特化。Hadoop を活用した大量データ分析を実現するため、様々な 周辺ツールが出現。エコシステムが広がった。 エコシステムを形成
  • 10. 10Copyright © 2015 NTT DATA Corporation Apache Hive HiveQLというSQLライクな言語でMapReduceを実行 Apache Pig Pig Latinという独自の言語でMapReduceを実行 Apache Mahout 機械学習アルゴリズムのMapReduce実装のライブラリ エコシステム ~アプリ記述の抽象化・ライブラリ化~ hive> SELECT COUNT(uid) FROM access_log GROUP BY date; A = LOAD 'data' USING PigStorage() AS (f1:int, f2:int, f3:int); B = GROUP A BY f1; (省略) $ mahout kmeans --input inputfile --output outputfile
  • 11. 11Copyright © 2015 NTT DATA Corporation Apache Sqoop RDBMS-Hadoop間のデータ連携ツール Apache Flume ログ収集のための分散フレームワーク エコシステム ~データ連携~ MapReduce Sqoop RDBMS HDFS import export 内部的にはMapReduceが動 作。並列でRDBとテーブルの 情報をやりとりする。 HDFS ログ ログ ログ
  • 12. 12Copyright © 2015 NTT DATA Corporation Hadoopコア部分に加えてエコシステムが充実するこ とで、データの収集や分析など、「大量データ活用」を 身近なものにした。 エコシステムの浸透 HDFS MapReduce PigHive Mahout HBase SqoopRDBMS 外部システム Flume
  • 13. 13Copyright © 2015 NTT DATA Corporation  分析系のデータ集計・抽出と言った大容量処理だけではなく、純バッチの 高スループット化など大件数処理にも向いている  データを蓄積、変換するといった使い方でコストパフォーマンスが高い 大容量データ処理 & 大件数データ処理 秒 分 時間 日 処 理 の レ イ テ ン シ バッチ処理 リアルタイム処理 データサイズ少ない 多い オンライン処理 汎用検索 GB(ギガバイト) TB(テラバイト) PB(ペタバイト) TB(テラバイト) 大容量データ処理 オンバッチ処理 純バッチ処理 Hadoop 適応領域 RDBMS 適応領域 大件数データ処理 既存処理の高速化 蓄積・分析
  • 14. 14Copyright © 2015 NTT DATA Corporation  Hadoop導入は大きく2つの傾向に分かれている  共通するものも多いが、それぞれの分野で必要となる機能・非機能の条件は異なる Hadoopが活用されている領域 秒 分 時間 日 処 理 の レ イ テ ン シ バッチ処理 リアルタイム処理 データサイズ少ない 多い オンライン処理 汎用検索 GB(ギガバイト) TB(テラバイト) PB(ペタバイト) TB(テラバイト) オンバッチ処理 純バッチ処理 Hadoop 適応領域 RDBMS 適応領域 金融 メディア 公共 メディア 通信 通信 公共 通信 既存の処理の高速化 - サーバ規模は10~20台程度 大規模データの活用 - 今まで捨てていたデータの活用 - サーバ規模は数百~数千台 ソーシャル
  • 15. Copyright © 2015 NTT DATA Corporation 15 Hadoopの最新動向
  • 16. 16Copyright © 2015 NTT DATA Corporation Hadoopとエコシステムはユーザーとともに進化を遂 げた。活用事例の増加や取り巻く環境の変化から、 新たな潮流が生まれる… Hadoopと周辺環境の変化 •一部のユーザは数千台クラスのHadoopクラスタを構築・利用クラスタ”超”巨大化 •企業の利用拡大に伴い、Hadoopにアクセスしてデータ分析をする 利用者が増えたアクセスユーザ増加 •大量データ活用が一般的になるにつれて、「速報値を知りたい」 「もっとインタラクティブに分析したい」といった要求が生まれるデータ処理高速化の追求 •Hadoop黎明期はサーバあたりのメモリ4~8Gが一般的だったが、 現在は100GB以上のメモリを積んだサーバも普及。ハードウェアの進化 主な”変化”の例
  • 17. 17Copyright © 2015 NTT DATA Corporation 近年のHadoopおよびエコシステムについて、 以下の3点について最新動向を紹介 近年のHadoopの潮流 クラスタ”超”巨大化 アクセスユーザ増加 データ処理高速化の追求 ハードウェアの進化 1.YARN登場 2.新たな並列分散処理エンジンの出現 3.非機能面の強化 時間の都合で 省略
  • 18. 18Copyright © 2015 NTT DATA Corporation YARNの前に:Hadoop1系、Hadoop2系について  Hadoop1系は2007年から開発が始まり、安定化志向。2014年6月に開発は凍結。  Hadoop2系は2012年に分岐。根本のアーキテクチャに変更を入れ、現在も進化を続けている。 20142010 2011 201320122009 branch-2 2.2.0 2.3.0 2.4.02.0.0-alpha 2.1.0-beta branch-1 (branch-0.20) 1.0.0 1.1.0 1.2.1(stable)0.20.1 0.20.205 0.22.0 0.21.0 New append Security 0.23.0 0.23.11(final) NameNode Federation, YARN NameNode HA 2015 2.5.0 2.6.0 これまでお伝えした範囲 これからお伝えする範囲
  • 19. 19Copyright © 2015 NTT DATA Corporation  YARN = Yet Another Resource Negotiator YARN登場 分散ファイルシステム HDFS バッチ処理 MapReduce Hadoop 1 分散ファイルシステム HDFS バッチ処理 MapReduceV2 Hadoop 2 リソース制御 YARN 「蓄積+処理」の構成からリソース制御を切り出した
  • 20. 20Copyright © 2015 NTT DATA Corporation YARNの意義 リソース制御を分離することで… つまり何が嬉しいの? 柔軟なリソース制御による スループット向上 Hadoopのスケーラビリティを さらに向上させる MapReduce以外の分散処理を実行する 時間の都合上、 これだけ紹介
  • 21. 21Copyright © 2015 NTT DATA Corporation MapReduceは、ディスクIOを並列化することでスルー プットを最大化するが、低レイテンシな処理は苦手。 新たな並列分散処理エンジンの出現 M RM R Reduce処理 MapReduce ジョブ ・・・ M M R M R M R ・・・ ・・・ ・・・ ・・・ Map処理 ・・・・・・ HDFS HDFSHDFS HDFS ApplicationMaster MapReduceのフレームワークの縛りの中で複雑な処理を行うには、多数のMapReduceを組み 合わせることになる。都度HDFSに中間データを書き出すためのオーバーヘッドや、ジョブ (ApplicationMaster)の起動のオーバーヘッドは分析処理の遅延に繋がる。 HiveやPig(on MapReduce)による一連の処理のイメージ HDFSに書き出し HDFSから読み出し
  • 22. 22Copyright © 2015 NTT DATA Corporation MapReduceで実現が難しいデータ処理の課題に対 して、新たな分散処理フレームワーク・実行エンジン が出現。 新たな並列分散処理エンジンの出現 次ページより概要を紹介します!
  • 23. 23Copyright © 2015 NTT DATA Corporation Apache Tez : YARN上での処理に最適化された実行エ ンジン  Apache Tez : DAG(Directed Acyclic Graph)により実行計画を作成  ApplicationMasterの起動回数削減  HiveやPigといったMRv1で実行していたクエリ・コードを流用できる • Hive on Tez • Pig on Tez Tez Plan Plan Plan Plan ローカルディスクを利用 (HDFSへの書き込みより高速) Plan Plan 特定のノードのみでShuffle (通信量・リソース削減) 処理量ベースで 実行ノード数を制御 (リソース削減・性能改善) MapReduceの仕組みに あてはめない 1つのApplicationMasterで処理 ローカル ローカル ローカル ローカル Hive、Pigを利用するユーザは、プログラムの言語(HiveQL、Pig Latin)はそのままで処理時間 の短縮が可能。MRが多段になる複雑な処理であるほど、処理時間短縮効果が大きい。
  • 24. 24Copyright © 2015 NTT DATA Corporation Apache Spark : Hadoop上で動作する低レイテイシ技術  Apache Spark : 大規模データの分散処理をオンメモリで実現 • データ処理を極力メモリ上で実現するため、高速な処理を実現 • Hadoop MapReduceが不得意な繰り返し処理に威力を発揮 • 機械学習やHadoop MapReduceよりも短時間で処理したいものが得意領域 RDD(Resilient Distributed Dataset)の変換で処理を表現 RDD RDD RDD Stage Stage RDD Sparkができるだけ 処理をまとめこむ ユーザ定義の 処理の流れ Sparkによる 実際の処理 ステージ間は シャッフルが発生 変換 変換 変換 出力入力 Stageに基づいて サーバ群がタスク実行
  • 25. 25Copyright © 2015 NTT DATA Corporation  Twitter社のエンジニアにより開発された、並列分散ストリーム処理のた めのフレームワーク Apache Storm : 分散ストリーム処理フレームワーク Storm Topology Spout:ストリーム処理の入力を担う Bolt:データへの 処理を実行する HBase HDFS ストリームデー タ ・ログ ・センサーデータ アプリケーションエンジニアは、Bolt・Spoutで処理するロジックを記述、それらを組み合わせた Topologyを定義することで分散ストリーム処理を実現できる。耐障害性やスケーラビリティを意 識せずに享受可能! 処理したデータをKVSや HDFSに永続化し可視化や 通知を行う Storm処理の前段にMQ等のシス テムを配置し、ストリームデータを 受け取る
  • 26. 26Copyright © 2015 NTT DATA Corporation SparkやStormは元々Hadoopとは独立したプロジェク トだったが、機能追加によりYARN上での動作が可能 に。(TezはYARNでの実行を前提としている) メリット - 専用のクラスタを構築する必要が無く、必要なリソースを払いだしながら多様 な分析処理を実行できる - 同一のデータ(HDFS)にアクセスできる。(データを移動させる必要が無い) YARNで、Hadoopに乗る MRv2 PigHive HDFS YARN Tez Spark Storm MLlib Streaming … SQL GraphX スケーラブルなデータストアの上で、様々な分析処理のワークロードが動作。 「Hadoopはビッグデータの”OS”カーネル」という声も。 http://itpro.nikkeibp.co.jp/article/NEWS/20140708/569985/
  • 27. 27Copyright © 2015 NTT DATA Corporation  お話した内容  YARN登場  新たな並列分散処理エンジンの出現  非機能面の強化(単一障害点の排除、暗号化/ACL) Hadoopの最新動向のまとめ 根本的なアーキテクチャも見直しを入れて Hadoopはさらに進化をつづけている Hadoopがユーザへ浸透することで生まれた新たな課題 に対しても、様々なエコシステムが生まれ活用されている 大量データ保持・活用の様々な課題に対する Hadoopの適用領域は広がりつづけている
  • 28. Copyright © 2015 NTT DATA Corporation 28 Hadoopに対するNTTデータの取り組み
  • 29. 29Copyright © 2015 NTT DATA Corporation NTTデータのHadoopサービス 2008年よりHadoopを使ったインテグレーションを開始 2010年「Hadoop構築・運用ソリューション」を発表 企画 設計~試験 移行 運用 Hadoop コンサルティング サービス Hadoop 構築サービス Hadoop 評価支援サービス Hadoop教育サービス Hadoop サポートサービス これまでに数台~千台規模のサーバによる Hadoopシステムを構築・運用してきた 国内有数の実績を持ち、業務システムや社 会基盤システムとしてHadoopを活用する ノウハウを保持しています。
  • 30. 30Copyright © 2015 NTT DATA Corporation  ストリームで大量データを受信し、利用者に配信するサービスを実現する  トラフィック増に柔軟に対応できるようオープンソースソフトウェアをフル活用  データロスト回避、バースト対応など難しい課題をインテグレーションでクリア 適用例:Twitterデータ提供サービス
  • 31. 31Copyright © 2015 NTT DATA Corporation Twitterデータ提供システムの構成 受信サーバ …… ツイートデータをいずれか1つ の宛先に送信(負荷分散) ツイートデータをすべての宛 先に送信 分配サーバ 出力サーバ 配信サーバ(サンプルホース) 配信サーバ(フィルターホース) Hadoopクラスタ 配信サーバ (ヒストリカルサーチ) バックアップサーバ 待機系 現用系 受信サーバ フィルタリングサーバ オンプレミス環境 Firehose#1 Firehose#2 …… 受信部 配信部 蓄積部 クラウド環境 フィルタリングサーバ プログラム上の バッファ メッセージング キュー 日本語ユーザDB
  • 32. 32Copyright © 2015 NTT DATA Corporation  モバイルネットワークの統計情報から人口推計を可視化して表示するシステム  IAサーバ1,000台超から構成され、監視、運用にはオープンソースソフトウェアを活用  NTTデータがHadoopクラスタを含むシステムのインテグレーションを担当 適用例:NTTドコモ様 「社会の頭脳システム」 https://www.nttdocomo.co.jp/english/binary/pdf/corporate/technology/rd/technical_journal/bn/vol14_3/vol14_3_024en.pdf 情報処理学会「デジタルプラクティス」第18号にも詳細を掲載 id.nii.ac.jp/1001/00100784/
  • 33. 33Copyright © 2015 NTT DATA Corporation  NTTデータはお客様とOSS開発コミュニティとの間に立ち、お客様のOSS活用及びイノ ベーションの実現を支援していきます。 NTTデータのOSSに対するアプローチ お客様 OSS開発コミュニティ お客様 お客様 ニーズ 問い合わせ トラブル情報 インテグレーション コンサルティング サポート … フィードバック 方向付け 新規機能 バージョンアップ 見極め
  • 34. 34Copyright © 2015 NTT DATA Corporation  Hadoopディストリビュータ Hortonworks (Microsoft と連携) Cloudera (Intel と提携) EMC  Hadoopユーザ Yahoo! NTT, NTTDATA Twitter eBay Huawei Facebook ... Hadoopの開発コミュニティ 貢献コード行数 244,975 131,609 30,595 第6位 21,10723,197 21,780 20,540 14,764 14,534 2014年 Hadoopコミュニティ貢献指標 Hadoop専業ベンダのHortonworksやCloudera、Hadoopを開発したYahoo! Inc.に 次いで、NTTデータもHadoopコミュニティにグローバルレベルで貢献しています
  • 35. 35Copyright © 2015 NTT DATA Corporation NTTデータ社員 (2011/04~現在) 担当でHadoopを利用したシステムを数多く構築 その利用者からのQ&A対応 Apache Hadoop Committer (2014/12~現在) ソースコードの変更権限を持つ 世界に100人程度、日本企業だと初 再び自己紹介:鯵坂 明 (あじさか あきら)
  • 36. 36Copyright © 2015 NTT DATA Corporation コミッタになる理由 利用中に見つかった問題を、確実に修正する お客様に安心してHadoopを使ってもらう そのために、大量のパッチを書いた 今後は PMC(Project Management Committee) Member を目指す 再び自己紹介:鯵坂 明 (あじさか あきら)
  • 37. 37Copyright © 2015 NTT DATA Corporation  Hadoopは1台のマシンで扱えない規模の大量データを高速に処理する ためのフレームワークです 数台から始めて、数千台(データ量にして数十PB)までスケールアウ トします  Hadoopエコシステムの開発の勢いは今も活発です 性能面、運用面で便利な機能がどんどん追加されています より低レイテンシな分散処理フレームワークや分析のためのライブラ リも充実し、大量データ活用の可能性を広げています  NTTデータは、Hadoopを利用したシステムを数多く構築・サポートして います お客様にHadoopを安心して使ってもらうため、Hadoop本体の開発 にも力を入れています まとめ
  • 38. Copyright © 2011 NTT DATA Corporation Copyright © 2015 NTT DATA Corporation お問い合わせ先: 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス URL: http://oss.nttdata.co.jp/hadoop メール: hadoop@kits.nttdata.co.jp TEL: 050-5546-2496