SlideShare uma empresa Scribd logo
1 de 21
(C) Recruit Technologies Co.,Ltd. All rights reserved.
ビッグデータ処理技術の全体像と
リクルートでの使い分け
2017/3/29
第7回ビッグデータ基盤研究会
株式会社リクルートテクノロジーズ
ビッグデータ部
渡部徹太郎
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department自己紹介
 ID: fetaro
 名前: 渡部 徹太郎
 所属: リクルートテクノロジーズ ビッグデータ部
 略歴:
 学生: 東京工業大学 大学院
「キーワード非含有ファイルを検索可能とする
ファイル間関連度を用いた検索手法の評価」
 SIer 前半: 大手証券会社のオンライントレードシステム基盤
 SIer 後半: オープンソース技術部隊 NoSQL, MongoDB
 現職:
 全社横断分析基盤: Oracle Exadata, Hortonworks
 個社向け分析基盤: AWS EMR
 趣味: 自宅サーバ、麻雀
 エディタ: emacs派
1
AWS
ビッグデータ
ユーザ会
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentリクルートグループの会社構成
2
基盤 プロジェクト管理
UI/SEOビッグデータ部
R&D
IT Promotion
リクルート
ホールディングス
リクルートキャリア
リクルート住まいカンパニー
リクルートライフスタイル
リクルートジョブズ
リクルートスタッフィング
リクルートマーケティングパートナーズ
スタッフ
リクルート テクノロジーズ
リクルートアドミニストレーション
リクルートコミュニケーションズ
事業会社
機能会社
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentリクルートテクノロジーズ ビッグデータ部
 リクルートのサービス
 ビジネスモデル
 「リボンモデル」
3
カスタマ
(ユーザ)
クライアント
(企業)
 主業務
 分析:KPIの測定/競合分析
 施策:マッチング/ユーザ属性推
定/ターゲッティング
 ミッション
 いろんなユースケースに併せて
適材適所の基盤を用意
 ビッグデータ処理を駆使して
売上向上・コスト削減
・・・100以上のサービス
(C) Recruit Technologies Co.,Ltd. All rights reserved.
ビッグデータ処理技術の全体像
4
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータベースを分類する軸:重視する性能
5
 レスポンスを重視 →主にオペレーション用途
 スループットを重視 →主に分析用途
アプリケーションサーバ
オペレーション
用途
データベース
登録画面
リクエスト 参照
更新
挿入
参照画面
編集画面
即時応答
マスタ
データベー
ス
BIツール
集計
バッチ
ロード
分析用途
データベース
レポート生成
ジョブ
抽出
CSV
バッチ
ロード
レポート
20分で全件集計
10秒で全件取得
1 1982年生
2 1967年生
3 2000年生
4 2000年生
男
女
女
男
ID 年齢性別
1 1982年生
2 1967年生
3 2000年生
4 2000年生
男
女
女
男
ID 年齢性別
行志向アクセス
列志向アクセス
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータベースを分類する軸:性能拡張方式
6
スケールアップ
集約
スケールアウト
分散
app app app app app appapp app app
一般的なハードウェア
を複数並べて並列処理
単一HWハードウェアを強化
性能限界
CPU↑
ディスク↑
NW↑
 データベースの性能拡張方式
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータベースの分類
7
レスポンス重視
(オペレーション用途)
スループット重視
(分析用途)
スケールアップ
RDB(OLTP)
NoSQL
Hadoop
RDB(DWH)
スケールアウト
クエリサービス
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
BigQuery
Spanner
データベースの分類
8
レスポンス重視
(オペレーション用途)
スループット重視
(分析用途)
スケールアップ
DynamoDB
Redshift
EMR
Exadata
Athena
Aurora/RDS
RDB(OLTP)
NoSQL
Hadoop
RDB(DWH)
スケールアウト
クエリサービス
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
BigQuery
Spanner
データベースの分類
9
レスポンス重視
(オペレーション用途)
スループット重視
(分析用途)
スケールアップ
DynamoDB
Redshift
EMR
Exadata
Athena
Aurora/RDS
RDB(OLTP)
NoSQL
Hadoop
RDB(DWH)
スケールアウト
クエリサービス
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
オンプレ クラウド
アプライアンス ソフトウェア
RDB(DWH)
 ひとことで言うと
 データの抽出・集計に特化したRDB
 アーキテクチャの特徴
 データをパーティショニングして複数ディスクから同時に読む
(製品によっては)ハードウェアを最適化して、アプライアンスとして提供
 列志向で圧縮してデータ格納
10
Redshift
Exadata
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentRDB(DWH)
 処理イメージ
 レスポンス:数秒、数分
 データサイズ:直近13ヶ月(1T〜数10T)
 計算:SQLベース
 INSET,UPDATE,DELETEやトランザクションはできるが非常に遅い
 ユースケース
 自由検索
 レポート
 BIツールのデータソース
11
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
ストレージノード ストレージノード ストレージノード
RDB(DWH)
 データをパーティショニングして複数ディスクから同時に読む
(製品によっては)ハードウェアを最適化して、アプライアンス
12
データベースノード
HDD
SSD
絞込み処理
HDD
HDD HDD
HDD
SSD
絞込み処理
HDD
HDD HDD
HDD
SSD
絞込み処理
HDD
HDD HDD
データベースノード
CPU
読み込むブロックを最小化
ディスクIOを削減
キャッシュして
ディスクIOを削減
CPUを多数搭載し、CPUボト
ルネックを軽減
40Gbpsのラック内SANによりネッ
トワークボトルネックを軽減
CPU CPUCPU CPU CPU
40G bps
Oracle Exadataの例
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentHadoop
 ひとことで言うと
 分散したファイルに、様々
な分散処理をできるソフト
ウェア群
 アーキテクチャの特徴
 データはファイル
 ストレージと処理が分離
 途中でノードがダウンして
も処理を継続
1313
分散ファイルシステム
分散処理エンジン
ABC
A B C
クライアント
計算
ノード
計算
ノード
計算
ノード
コーディネータ
①データの配布
②提出
③計算
計算
結果
プログラム
プログラム
クライアント
プログラムプログラム
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentHadoop
14
プロダクト 分散ファイル
システム
分散処理エンジ
ン
オン
プレ
OSSベースでい
ろいろ使える
MapR-FS
クラ
ウド
EMR S3
Impala
Cloud
Dataproc
GCS
 Hadoop上の分散集計を
SQLで表現できる
 基本はSELECTとLOAD
のみであり, INSERT,
UPDATE,DETELEは出
来ない
 トランザクションもない
SQL on Hadoop
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
core core core
HDFS
Hadoop
 クラウド上のHadoop
 計算と、ストレージの分離
 計算ノードは使った分だけ払えば良い
15
S3
Master
データ データ
コンテナ
計算
データ データ
コンテナ
計算
データ データデータ データ
core
コンテナ
計算
Master
コンテナ
計算
core
コンテナ
計算
core
コンテナ
計算
オンプレのHadoop クラウドのHadoop
(EMRの例)
NEW
使い捨てで
きる
容量あたり
のコストが
安い
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentHadoop
 処理のイメージ
 レスポンス:数十分〜数時間
 データサイズ:全データ(10T〜数P)
 計算:分散できる計算なら何でも
 ユースケース
 長期的なビジネストレンド分析
 RDB(DWH)に入れる前のデータ加工
 機械学習による予測、クラスタリング
 自然言語処理
16
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentクエリサービス
 ひとことで言うと
 使った分だけ料金を払えばいいSQLサービス
 アーキテクチャの特徴
 クエリに応じて動的にリソースを確保
 基本的にはデータをロードし、それに対するSELECTがメイン
 INSERT,DELETE, UPDATEは苦手(場合によってはできない)
 トランザクションはない
 JOINはRDBほど最適化されていない
 カスタマイズはできない
17
Google独自 Hadoopベース(だと思う)
BigQuery Athena
(C) Recruit Technologies Co.,Ltd. All rights reserved.
リクルートテクノロジーズにおける使い分け
18
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
BigQuery
Spanner
データベースの分類
19
レスポンス重視
(オペレーション用途)
スループット重視
(分析用途)
スケールアップ
DynamoDB
Redshift
EMR
Exadata
Athena
Aurora/RDS
RDB(OLTP)
NoSQL
Hadoop
RDB(DWH)
スケールアウト
クエリサービス
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
パターン ビッグデータ処理技術 コスト 機能/非機能
モノ 人
(運用)
拡張性 OLTPと
の接続
JOIN性能
部分更新
計算の
豊富さ
オンプレ
RDB
(DWH)
✕
高い
◯ ✕
増や
せな
い
◯ ◎
最適化
が強い
△
SQLの
み
オンプレ
Hadoop
◎ ✕
つらす
ぎる
△
物理
制約
◯ △ ◎
クラウド
RDB
(DWH)
△ ◯ ◯ △ ◎
RDBが
強い
△
SQLの
み
クラウド
Hadoop
◯ △ ◎ △ △ ◎
クエリ
サービス
◯ ◎
運用
フリー
◎ △ △ △
SQLの
み
BigQuery
ケースに併せて使い分け
20
Exadata
EMR S3
Redshift
Athena

Mais conteúdo relacionado

Mais procurados

ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けRecruit Technologies
 
MongoDBご紹介:事例紹介もあり
MongoDBご紹介:事例紹介もありMongoDBご紹介:事例紹介もあり
MongoDBご紹介:事例紹介もありippei_suzuki
 
IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点Tetsutaro Watanabe
 
DX認定制度システム開発裏話:技術編
DX認定制度システム開発裏話:技術編DX認定制度システム開発裏話:技術編
DX認定制度システム開発裏話:技術編Arichika TANIGUCHI
 
Google Cloud Next '18 Recap/報告会 機械学習関連
Google Cloud Next '18 Recap/報告会 機械学習関連Google Cloud Next '18 Recap/報告会 機械学習関連
Google Cloud Next '18 Recap/報告会 機械学習関連Tetsutaro Watanabe
 
20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...
20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...
20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...Insight Technology, Inc.
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介Recruit Technologies
 
Gtfsデータリポジトリ紹介 iodd発表資料
Gtfsデータリポジトリ紹介 iodd発表資料Gtfsデータリポジトリ紹介 iodd発表資料
Gtfsデータリポジトリ紹介 iodd発表資料Shimpei Matsuura
 
データ分析プラットフォームの歩き方
データ分析プラットフォームの歩き方データ分析プラットフォームの歩き方
データ分析プラットフォームの歩き方Tomoyuki Oota
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話Shohei Kobayashi
 
性能問題を起こしにくい信頼されるクラウド RDB のつくりかた
性能問題を起こしにくい信頼されるクラウド RDB のつくりかた性能問題を起こしにくい信頼されるクラウド RDB のつくりかた
性能問題を起こしにくい信頼されるクラウド RDB のつくりかたTomoyuki Oota
 
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみたAWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみたtatsuya 264
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術Yahoo!デベロッパーネットワーク
 
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!Takashi Okawa
 
Business Innovation cases driven by AI and BigData technologies
Business Innovation cases driven by AI and BigData technologiesBusiness Innovation cases driven by AI and BigData technologies
Business Innovation cases driven by AI and BigData technologiesDataWorks Summit/Hadoop Summit
 

Mais procurados (20)

ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
 
MongoDBご紹介:事例紹介もあり
MongoDBご紹介:事例紹介もありMongoDBご紹介:事例紹介もあり
MongoDBご紹介:事例紹介もあり
 
IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点
 
DX認定制度システム開発裏話:技術編
DX認定制度システム開発裏話:技術編DX認定制度システム開発裏話:技術編
DX認定制度システム開発裏話:技術編
 
Google Cloud Next '18 Recap/報告会 機械学習関連
Google Cloud Next '18 Recap/報告会 機械学習関連Google Cloud Next '18 Recap/報告会 機械学習関連
Google Cloud Next '18 Recap/報告会 機械学習関連
 
20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...
20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...
20160927_守るべきは、大量の情報資産を管理するデータベース! ~ユーザ事例から見るデータベースのセキュリティ対策~ by 株式会社インサイトテクノ...
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
 
Gtfsデータリポジトリ紹介 iodd発表資料
Gtfsデータリポジトリ紹介 iodd発表資料Gtfsデータリポジトリ紹介 iodd発表資料
Gtfsデータリポジトリ紹介 iodd発表資料
 
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo! JAPANを支えるビッグデータプラットフォーム技術Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
 
データ分析プラットフォームの歩き方
データ分析プラットフォームの歩き方データ分析プラットフォームの歩き方
データ分析プラットフォームの歩き方
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
 
GDLC11 oracle-ai
GDLC11 oracle-aiGDLC11 oracle-ai
GDLC11 oracle-ai
 
WebDB Forum 2013
WebDB Forum 2013 WebDB Forum 2013
WebDB Forum 2013
 
性能問題を起こしにくい信頼されるクラウド RDB のつくりかた
性能問題を起こしにくい信頼されるクラウド RDB のつくりかた性能問題を起こしにくい信頼されるクラウド RDB のつくりかた
性能問題を起こしにくい信頼されるクラウド RDB のつくりかた
 
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみたAWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
 
[Japan Tech summit 2017] MAI 005
[Japan Tech summit 2017] MAI 005[Japan Tech summit 2017] MAI 005
[Japan Tech summit 2017] MAI 005
 
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
 
Business Innovation cases driven by AI and BigData technologies
Business Innovation cases driven by AI and BigData technologiesBusiness Innovation cases driven by AI and BigData technologies
Business Innovation cases driven by AI and BigData technologies
 

Destaque

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場Recruit Technologies
 
Rakutenとsreと私 yanagimoto koichi
Rakutenとsreと私 yanagimoto koichiRakutenとsreと私 yanagimoto koichi
Rakutenとsreと私 yanagimoto koichiRakuten Group, Inc.
 
What i learned from translation of the sre ryuji tamagawa
What i learned from translation of the sre ryuji tamagawaWhat i learned from translation of the sre ryuji tamagawa
What i learned from translation of the sre ryuji tamagawaRakuten Group, Inc.
 
IT業界のリーディングカンパニーとして描く「少し先の未来」〜Yahoo! JAPANの事例を通して〜#a11yfuture
IT業界のリーディングカンパニーとして描く「少し先の未来」〜Yahoo! JAPANの事例を通して〜#a11yfutureIT業界のリーディングカンパニーとして描く「少し先の未来」〜Yahoo! JAPANの事例を通して〜#a11yfuture
IT業界のリーディングカンパニーとして描く「少し先の未来」〜Yahoo! JAPANの事例を通して〜#a11yfutureYahoo!デベロッパーネットワーク
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Recruit Technologies
 
Kafka Connect(Japanese)
Kafka Connect(Japanese)Kafka Connect(Japanese)
Kafka Connect(Japanese)Roman Shtykh
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Recruit Technologies
 
Life of an enginner in rakuten osaka diarmaid lindsay
Life of an enginner in rakuten osaka diarmaid lindsayLife of an enginner in rakuten osaka diarmaid lindsay
Life of an enginner in rakuten osaka diarmaid lindsayRakuten Group, Inc.
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
Value Delivery through RakutenBig Data Intelligence Ecosystem and Technology
Value Delivery through RakutenBig Data Intelligence Ecosystem  and  TechnologyValue Delivery through RakutenBig Data Intelligence Ecosystem  and  Technology
Value Delivery through RakutenBig Data Intelligence Ecosystem and TechnologyRakuten Group, Inc.
 
Challenge for statup's cto from big company nagaaki hoshi
Challenge for statup's cto from big company nagaaki hoshiChallenge for statup's cto from big company nagaaki hoshi
Challenge for statup's cto from big company nagaaki hoshiRakuten Group, Inc.
 

Destaque (20)

Prestoクエリログの保存/分析機能の構築 #yjdsnight
Prestoクエリログの保存/分析機能の構築 #yjdsnightPrestoクエリログの保存/分析機能の構築 #yjdsnight
Prestoクエリログの保存/分析機能の構築 #yjdsnight
 
新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場
 
Rakutenとsreと私 yanagimoto koichi
Rakutenとsreと私 yanagimoto koichiRakutenとsreと私 yanagimoto koichi
Rakutenとsreと私 yanagimoto koichi
 
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreadingApache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
 
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
 
What i learned from translation of the sre ryuji tamagawa
What i learned from translation of the sre ryuji tamagawaWhat i learned from translation of the sre ryuji tamagawa
What i learned from translation of the sre ryuji tamagawa
 
IT業界のリーディングカンパニーとして描く「少し先の未来」〜Yahoo! JAPANの事例を通して〜#a11yfuture
IT業界のリーディングカンパニーとして描く「少し先の未来」〜Yahoo! JAPANの事例を通して〜#a11yfutureIT業界のリーディングカンパニーとして描く「少し先の未来」〜Yahoo! JAPANの事例を通して〜#a11yfuture
IT業界のリーディングカンパニーとして描く「少し先の未来」〜Yahoo! JAPANの事例を通して〜#a11yfuture
 
銀行ロビーアシスタント
銀行ロビーアシスタント銀行ロビーアシスタント
銀行ロビーアシスタント
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
 
Kafka Connect(Japanese)
Kafka Connect(Japanese)Kafka Connect(Japanese)
Kafka Connect(Japanese)
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
 
Yahoo! JAPANにおけるオンライン機械学習実例 #streamctjp
Yahoo! JAPANにおけるオンライン機械学習実例 #streamctjpYahoo! JAPANにおけるオンライン機械学習実例 #streamctjp
Yahoo! JAPANにおけるオンライン機械学習実例 #streamctjp
 
Life of an enginner in rakuten osaka diarmaid lindsay
Life of an enginner in rakuten osaka diarmaid lindsayLife of an enginner in rakuten osaka diarmaid lindsay
Life of an enginner in rakuten osaka diarmaid lindsay
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
LT(自由)
LT(自由)LT(自由)
LT(自由)
 
COBOL to Apache Spark
COBOL to Apache SparkCOBOL to Apache Spark
COBOL to Apache Spark
 
Tableau活用4年の軌跡
Tableau活用4年の軌跡Tableau活用4年の軌跡
Tableau活用4年の軌跡
 
Value Delivery through RakutenBig Data Intelligence Ecosystem and Technology
Value Delivery through RakutenBig Data Intelligence Ecosystem  and  TechnologyValue Delivery through RakutenBig Data Intelligence Ecosystem  and  Technology
Value Delivery through RakutenBig Data Intelligence Ecosystem and Technology
 
One Hundred Languages
One Hundred LanguagesOne Hundred Languages
One Hundred Languages
 
Challenge for statup's cto from big company nagaaki hoshi
Challenge for statup's cto from big company nagaaki hoshiChallenge for statup's cto from big company nagaaki hoshi
Challenge for statup's cto from big company nagaaki hoshi
 

Semelhante a ビックデータ処理技術の全体像とリクルートでの使い分け

ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - Tetsutaro Watanabe
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューションDell TechCenter Japan
 
20171212_GTCJapan_InceptionSummt_HeteroDB
20171212_GTCJapan_InceptionSummt_HeteroDB20171212_GTCJapan_InceptionSummt_HeteroDB
20171212_GTCJapan_InceptionSummt_HeteroDBKohei KaiGai
 
20190925_DBTS_PGStrom
20190925_DBTS_PGStrom20190925_DBTS_PGStrom
20190925_DBTS_PGStromKohei KaiGai
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法Tetsutaro Watanabe
 
20191115-PGconf.Japan
20191115-PGconf.Japan20191115-PGconf.Japan
20191115-PGconf.JapanKohei KaiGai
 
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...Insight Technology, Inc.
 
20190516_DLC10_PGStrom
20190516_DLC10_PGStrom20190516_DLC10_PGStrom
20190516_DLC10_PGStromKohei KaiGai
 
20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOpsYukako Shimizu
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門Yoichi Kawasaki
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data PlatformNaoki (Neo) SATO
 
Datalake最新情報セミナー
Datalake最新情報セミナーDatalake最新情報セミナー
Datalake最新情報セミナーmtanaka0111
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方Recruit Technologies
 
20180217 FPGA Extreme Computing #10
20180217 FPGA Extreme Computing #1020180217 FPGA Extreme Computing #10
20180217 FPGA Extreme Computing #10Kohei KaiGai
 
乗り遅れるな!IBMが本気で取り組む新世代クラウドサービスを徹底解説
乗り遅れるな!IBMが本気で取り組む新世代クラウドサービスを徹底解説乗り遅れるな!IBMが本気で取り組む新世代クラウドサービスを徹底解説
乗り遅れるな!IBMが本気で取り組む新世代クラウドサービスを徹底解説Kimihiko Kitase
 
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜Takahiro Inoue
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo FallYusukeKuramata
 
D22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji Shinkubo
D22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji ShinkuboD22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji Shinkubo
D22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji ShinkuboInsight Technology, Inc.
 

Semelhante a ビックデータ処理技術の全体像とリクルートでの使い分け (20)

ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
 
20171212_GTCJapan_InceptionSummt_HeteroDB
20171212_GTCJapan_InceptionSummt_HeteroDB20171212_GTCJapan_InceptionSummt_HeteroDB
20171212_GTCJapan_InceptionSummt_HeteroDB
 
20190925_DBTS_PGStrom
20190925_DBTS_PGStrom20190925_DBTS_PGStrom
20190925_DBTS_PGStrom
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
 
20191115-PGconf.Japan
20191115-PGconf.Japan20191115-PGconf.Japan
20191115-PGconf.Japan
 
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
 
20190516_DLC10_PGStrom
20190516_DLC10_PGStrom20190516_DLC10_PGStrom
20190516_DLC10_PGStrom
 
20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
 
Strata conference 2012
Strata conference 2012Strata conference 2012
Strata conference 2012
 
Datalake最新情報セミナー
Datalake最新情報セミナーDatalake最新情報セミナー
Datalake最新情報セミナー
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
 
20180217 FPGA Extreme Computing #10
20180217 FPGA Extreme Computing #1020180217 FPGA Extreme Computing #10
20180217 FPGA Extreme Computing #10
 
乗り遅れるな!IBMが本気で取り組む新世代クラウドサービスを徹底解説
乗り遅れるな!IBMが本気で取り組む新世代クラウドサービスを徹底解説乗り遅れるな!IBMが本気で取り組む新世代クラウドサービスを徹底解説
乗り遅れるな!IBMが本気で取り組む新世代クラウドサービスを徹底解説
 
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
 
D22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji Shinkubo
D22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji ShinkuboD22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji Shinkubo
D22 目覚めよDBエンジニア 〜世界最速カラムナーデータベースは本物だ!〜 by Koji Shinkubo
 

Mais de Tetsutaro Watanabe

ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出Tetsutaro Watanabe
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際Tetsutaro Watanabe
 
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめTetsutaro Watanabe
 
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用Tetsutaro Watanabe
 
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜Tetsutaro Watanabe
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例Tetsutaro Watanabe
 
MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法Tetsutaro Watanabe
 
MongoDB World 2014に行ってきた!
MongoDB World 2014に行ってきた!MongoDB World 2014に行ってきた!
MongoDB World 2014に行ってきた!Tetsutaro Watanabe
 
がっつりMongoDB事例紹介
がっつりMongoDB事例紹介がっつりMongoDB事例紹介
がっつりMongoDB事例紹介Tetsutaro Watanabe
 
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!Tetsutaro Watanabe
 

Mais de Tetsutaro Watanabe (12)

ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
 
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
 
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
 
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
 
MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法
 
MongoDB3.2の紹介
MongoDB3.2の紹介MongoDB3.2の紹介
MongoDB3.2の紹介
 
MongoDB World 2014に行ってきた!
MongoDB World 2014に行ってきた!MongoDB World 2014に行ってきた!
MongoDB World 2014に行ってきた!
 
がっつりMongoDB事例紹介
がっつりMongoDB事例紹介がっつりMongoDB事例紹介
がっつりMongoDB事例紹介
 
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!
 
MongoDBの監視
MongoDBの監視MongoDBの監視
MongoDBの監視
 

ビックデータ処理技術の全体像とリクルートでの使い分け

  • 1. (C) Recruit Technologies Co.,Ltd. All rights reserved. ビッグデータ処理技術の全体像と リクルートでの使い分け 2017/3/29 第7回ビッグデータ基盤研究会 株式会社リクルートテクノロジーズ ビッグデータ部 渡部徹太郎
  • 2. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department自己紹介  ID: fetaro  名前: 渡部 徹太郎  所属: リクルートテクノロジーズ ビッグデータ部  略歴:  学生: 東京工業大学 大学院 「キーワード非含有ファイルを検索可能とする ファイル間関連度を用いた検索手法の評価」  SIer 前半: 大手証券会社のオンライントレードシステム基盤  SIer 後半: オープンソース技術部隊 NoSQL, MongoDB  現職:  全社横断分析基盤: Oracle Exadata, Hortonworks  個社向け分析基盤: AWS EMR  趣味: 自宅サーバ、麻雀  エディタ: emacs派 1 AWS ビッグデータ ユーザ会
  • 3. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentリクルートグループの会社構成 2 基盤 プロジェクト管理 UI/SEOビッグデータ部 R&D IT Promotion リクルート ホールディングス リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ リクルートスタッフィング リクルートマーケティングパートナーズ スタッフ リクルート テクノロジーズ リクルートアドミニストレーション リクルートコミュニケーションズ 事業会社 機能会社
  • 4. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentリクルートテクノロジーズ ビッグデータ部  リクルートのサービス  ビジネスモデル  「リボンモデル」 3 カスタマ (ユーザ) クライアント (企業)  主業務  分析:KPIの測定/競合分析  施策:マッチング/ユーザ属性推 定/ターゲッティング  ミッション  いろんなユースケースに併せて 適材適所の基盤を用意  ビッグデータ処理を駆使して 売上向上・コスト削減 ・・・100以上のサービス
  • 5. (C) Recruit Technologies Co.,Ltd. All rights reserved. ビッグデータ処理技術の全体像 4
  • 6. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータベースを分類する軸:重視する性能 5  レスポンスを重視 →主にオペレーション用途  スループットを重視 →主に分析用途 アプリケーションサーバ オペレーション 用途 データベース 登録画面 リクエスト 参照 更新 挿入 参照画面 編集画面 即時応答 マスタ データベー ス BIツール 集計 バッチ ロード 分析用途 データベース レポート生成 ジョブ 抽出 CSV バッチ ロード レポート 20分で全件集計 10秒で全件取得 1 1982年生 2 1967年生 3 2000年生 4 2000年生 男 女 女 男 ID 年齢性別 1 1982年生 2 1967年生 3 2000年生 4 2000年生 男 女 女 男 ID 年齢性別 行志向アクセス 列志向アクセス
  • 7. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータベースを分類する軸:性能拡張方式 6 スケールアップ 集約 スケールアウト 分散 app app app app app appapp app app 一般的なハードウェア を複数並べて並列処理 単一HWハードウェアを強化 性能限界 CPU↑ ディスク↑ NW↑  データベースの性能拡張方式
  • 8. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータベースの分類 7 レスポンス重視 (オペレーション用途) スループット重視 (分析用途) スケールアップ RDB(OLTP) NoSQL Hadoop RDB(DWH) スケールアウト クエリサービス
  • 9. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department BigQuery Spanner データベースの分類 8 レスポンス重視 (オペレーション用途) スループット重視 (分析用途) スケールアップ DynamoDB Redshift EMR Exadata Athena Aurora/RDS RDB(OLTP) NoSQL Hadoop RDB(DWH) スケールアウト クエリサービス
  • 10. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department BigQuery Spanner データベースの分類 9 レスポンス重視 (オペレーション用途) スループット重視 (分析用途) スケールアップ DynamoDB Redshift EMR Exadata Athena Aurora/RDS RDB(OLTP) NoSQL Hadoop RDB(DWH) スケールアウト クエリサービス
  • 11. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department オンプレ クラウド アプライアンス ソフトウェア RDB(DWH)  ひとことで言うと  データの抽出・集計に特化したRDB  アーキテクチャの特徴  データをパーティショニングして複数ディスクから同時に読む (製品によっては)ハードウェアを最適化して、アプライアンスとして提供  列志向で圧縮してデータ格納 10 Redshift Exadata
  • 12. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentRDB(DWH)  処理イメージ  レスポンス:数秒、数分  データサイズ:直近13ヶ月(1T〜数10T)  計算:SQLベース  INSET,UPDATE,DELETEやトランザクションはできるが非常に遅い  ユースケース  自由検索  レポート  BIツールのデータソース 11
  • 13. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department ストレージノード ストレージノード ストレージノード RDB(DWH)  データをパーティショニングして複数ディスクから同時に読む (製品によっては)ハードウェアを最適化して、アプライアンス 12 データベースノード HDD SSD 絞込み処理 HDD HDD HDD HDD SSD 絞込み処理 HDD HDD HDD HDD SSD 絞込み処理 HDD HDD HDD データベースノード CPU 読み込むブロックを最小化 ディスクIOを削減 キャッシュして ディスクIOを削減 CPUを多数搭載し、CPUボト ルネックを軽減 40Gbpsのラック内SANによりネッ トワークボトルネックを軽減 CPU CPUCPU CPU CPU 40G bps Oracle Exadataの例
  • 14. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentHadoop  ひとことで言うと  分散したファイルに、様々 な分散処理をできるソフト ウェア群  アーキテクチャの特徴  データはファイル  ストレージと処理が分離  途中でノードがダウンして も処理を継続 1313 分散ファイルシステム 分散処理エンジン ABC A B C クライアント 計算 ノード 計算 ノード 計算 ノード コーディネータ ①データの配布 ②提出 ③計算 計算 結果 プログラム プログラム クライアント プログラムプログラム
  • 15. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentHadoop 14 プロダクト 分散ファイル システム 分散処理エンジ ン オン プレ OSSベースでい ろいろ使える MapR-FS クラ ウド EMR S3 Impala Cloud Dataproc GCS  Hadoop上の分散集計を SQLで表現できる  基本はSELECTとLOAD のみであり, INSERT, UPDATE,DETELEは出 来ない  トランザクションもない SQL on Hadoop
  • 16. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department core core core HDFS Hadoop  クラウド上のHadoop  計算と、ストレージの分離  計算ノードは使った分だけ払えば良い 15 S3 Master データ データ コンテナ 計算 データ データ コンテナ 計算 データ データデータ データ core コンテナ 計算 Master コンテナ 計算 core コンテナ 計算 core コンテナ 計算 オンプレのHadoop クラウドのHadoop (EMRの例) NEW 使い捨てで きる 容量あたり のコストが 安い
  • 17. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA DepartmentHadoop  処理のイメージ  レスポンス:数十分〜数時間  データサイズ:全データ(10T〜数P)  計算:分散できる計算なら何でも  ユースケース  長期的なビジネストレンド分析  RDB(DWH)に入れる前のデータ加工  機械学習による予測、クラスタリング  自然言語処理 16
  • 18. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentクエリサービス  ひとことで言うと  使った分だけ料金を払えばいいSQLサービス  アーキテクチャの特徴  クエリに応じて動的にリソースを確保  基本的にはデータをロードし、それに対するSELECTがメイン  INSERT,DELETE, UPDATEは苦手(場合によってはできない)  トランザクションはない  JOINはRDBほど最適化されていない  カスタマイズはできない 17 Google独自 Hadoopベース(だと思う) BigQuery Athena
  • 19. (C) Recruit Technologies Co.,Ltd. All rights reserved. リクルートテクノロジーズにおける使い分け 18
  • 20. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department BigQuery Spanner データベースの分類 19 レスポンス重視 (オペレーション用途) スループット重視 (分析用途) スケールアップ DynamoDB Redshift EMR Exadata Athena Aurora/RDS RDB(OLTP) NoSQL Hadoop RDB(DWH) スケールアウト クエリサービス
  • 21. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department パターン ビッグデータ処理技術 コスト 機能/非機能 モノ 人 (運用) 拡張性 OLTPと の接続 JOIN性能 部分更新 計算の 豊富さ オンプレ RDB (DWH) ✕ 高い ◯ ✕ 増や せな い ◯ ◎ 最適化 が強い △ SQLの み オンプレ Hadoop ◎ ✕ つらす ぎる △ 物理 制約 ◯ △ ◎ クラウド RDB (DWH) △ ◯ ◯ △ ◎ RDBが 強い △ SQLの み クラウド Hadoop ◯ △ ◎ △ △ ◎ クエリ サービス ◯ ◎ 運用 フリー ◎ △ △ △ SQLの み BigQuery ケースに併せて使い分け 20 Exadata EMR S3 Redshift Athena