データサイズ2ペタ　ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

•Transferir como PPTX, PDF•

1 gostou•1,590 visualizações

Yoshikazu Suganuma

Hadoop Spark Conference 2019 データサイズ2ペタ　ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

Dados e análise

データサイズ２ペタ
ソネット・メディア・ネットワークス
でのImpala活用とHadoop運用
Hadoop / Spark Conference Japan 2019
So-net Media Networks 菅沼嘉一

菅沼嘉一
Yoshikazu Suganuma
So-net Media Networks
分析基盤T
Cloudera Hadoopの障害対応したり、python/Goでツール作成したり
Go言語好き！

目次
● Hadoopの用途
● Hadoopの環境
● ビッグデータ管理大変だよね！

Logicadとは...
So-net Media Networksが提供する
広告配信プラットフォーム

● 広告配信ログを保管
● データサイズ：約2PB
● 総レコード数：約1.1兆
● 1日あたり約8TB増加
● 主にデータ分析用途

サーバースペック(データノード)
スペック：
Dell PowerEdge R720xd/R730xd/R740xd/R740xd2(予定)
メモリ：約370GB/サーバー
HDD：約90～160TB/サーバー
(10TB x 18, 10TB x 12, 8TB x 12)
PowerEdge R740xd

Hadoop構成
CDH 5.15
データノード：20 台＝約2PB
その他ノード：8台 (合計28台/1クラスター)
(Zookeeper, Journal NodeにはIntel Optane SSDストレージ搭載)
メタデータはAWS RDSに保管
Active-Standby の2クラスター構成

Data Node Data Node
Data Node Data Node
Data Node
Data Node
………………
…….
………………
…….
x 20
Name
Node
Zookeeper JournalNode
Hive
Metastore
Impala
Catalog ………………
…….
x 8
Hadoop クラスター

Active
Hadoop
クラスター
Standby
Hadoop
クラスター
S3
ログの
インポート処理
ログ収集
サーバー
PQ生成

主なImpalaの使い方
Hiveから1時間毎にParquet生成
Impala + Parquet はレスポンス最速
クエリ数：約13万クエリ/月
PQサイズ：約750TB

すぐに容量枯渇する...！？
8TB/day 増加するので容量を注視
保存期間をまめに調整
データ容量が90%近くになると
Hive, Impalaのレスポンスが悪くなる傾向
早めにデータノードを追加

DBのパーティション数は約18万
データをパーティショニングすることで性能は上がるが
パーティション数がボトルネックになることがある
過去にImpalaが動かなくなったこともある
(CDH5.7で約20万あった時)
推奨値は3~4万だとか....無理ゲーじゃない？

月に一回Hadoopの容量チェック
月に一回、詳細にデータサイズ、パーティション数....などの
全体チェックを行いレポートにまとめる

Elasticsearch+kibanaで監視
データ容量の推移をグラフ化
HDFSの各種データサイズをhdfsコマンドで取得し
Elasticsearchに貯める
Impalaクエリの傾向調査
Cloudera Manager APIからImpalaクエリを取得して
Elasticsearchに貯める

バージョンアップは覚悟しておけ....！？
(マジで)
CDHのバージョンアップはどこかでミスがあると
インストールできなくなる(「戻る」は押さない)
そのためActive-Standbyの2クラスターを構築
(片方づつバージョンアップ)

Active-Standbyの2クラスター構成
同じHW構成を2つ構築して片方づつ運用
メリット：
バージョンアップ作業、機能検証がはかどる
デメリット：
コストがかかる
移行コストが高い

Active-Standbyの2クラスター構成
バージョンアップ後のデータ移行について
クラスター間コピー：hadoop distcpコマンド
同時データインポート
distcp
同時インポート

CDHバージョン遍歴
今年はCDH6.1にバージョンアップ予定
年代クラスターA クラスターB
2015～ CDH5.1
(hadoop-2.3.0)
2016～ CDH5.7
(hadoop-2.6.0)
2018～ CDH5.15(現在)
(hadoop-2.6.0)
2019～ CDH6.1(構築中)
(hadoop-3.0.0)

Mais conteúdo relacionado

Mais procurados

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料） hamaken

Distributed data stores in Hadoop ecosystemNTT DATA OSS Professional Services

MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか？ - db tech showcase 大阪 2014 2014/06/19MapR Technologies Japan

Hadoop loves H2Tadashi Satoh

データインターフェースとしてのHadoop ～HDFSとクラウドストレージと私～（NTTデータテクノロジーカンファレンス 2019 講演資料、2019...NTT DATA Technology & Innovation

Amazon Redshift ベンチマーク Hadoop + Hiveと比較 FlyData Inc.

Hadoop概要説明Satoshi Noto

Hadoop入門Preferred Networks

最新版Hadoopクラスタを運用して得られたものcyberagent

Hadoopデータプラットフォーム #cwt2013Cloudera Japan

Impala + Kudu を用いたデータウェアハウス構築の勘所（仮）Cloudera Japan

スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...MapR Technologies Japan

Hadoopことはじめ均津田

HDFS Router-based federationNTT DATA OSS Professional Services

Hadoop -NameNode HAの仕組み-Yuki Gonda

Apache Sparkのご紹介（後半：技術トピック）NTT DATA OSS Professional Services

Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15MapR Technologies Japan

機械学習の定番プラットフォームSparkの紹介Cloudera Japan

(LT)Spark and Cassandradatastaxjp

PostgreSQL10を導入！大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services

Mais procurados (20)

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）

Distributed data stores in Hadoop ecosystem

MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか？ - db tech showcase 大阪 2014 2014/06/19

Hadoop loves H2

データインターフェースとしてのHadoop ～HDFSとクラウドストレージと私～（NTTデータテクノロジーカンファレンス 2019 講演資料、2019...

Amazon Redshift ベンチマーク Hadoop + Hiveと比較

Hadoop概要説明

Hadoop入門

最新版Hadoopクラスタを運用して得られたもの

Hadoopデータプラットフォーム #cwt2013

Impala + Kudu を用いたデータウェアハウス構築の勘所（仮）

スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...

Hadoopことはじめ

HDFS Router-based federation

Hadoop -NameNode HAの仕組み-

Apache Sparkのご紹介（後半：技術トピック）

Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15

機械学習の定番プラットフォームSparkの紹介

(LT)Spark and Cassandra

PostgreSQL10を導入！大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント

Semelhante a データサイズ2ペタ　ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

Hadoop, NoSQL, GlusterFSの概要日本ヒューレット・パッカード株式会社

Apache Hadoopに見るJavaミドルウェアのcompatibility（Open Developers Conference 2020 Onli...NTT DATA Technology & Innovation

Hadoop基盤を知る日本ヒューレット・パッカード株式会社

【17-E-3】Hadoop：黄色い象使いへの道～「Hadoop徹底入門」より～Developers Summit

Apache Spark 1000 nodes NTT DATANTT DATA OSS Professional Services

Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit

Introduction to Hadoop and Spark (before joining the other talk) and An Overv...DataWorks Summit/Hadoop Summit

並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...NTT DATA OSS Professional Services

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向（OSC2015 Kansai発表資料）NTT DATA OSS Professional Services

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向（オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services

Hadoop ecosystem NTTDATA osc15tkNTT DATA OSS Professional Services

AI・HPC・ビッグデータで利用される分散ファイルシステムを知る日本ヒューレット・パッカード株式会社

[db tech showcase Tokyo 2018]　#dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...Insight Technology, Inc.

MapReduce/YARNの仕組みを知る日本ヒューレット・パッカード株式会社

[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoopInsight Technology, Inc.

Hadoop Conference Japan 2009 #1Rakuten Group, Inc.

Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreadingYahoo!デベロッパーネットワーク

Yahoo! JAPAN MeetUp #8 （インフラ技術カンファレンス）セッション②Yahoo!デベロッパーネットワーク

Hadoop 2.6の最新機能（Cloudera World Tokyo 2014 LT講演資料）NTT DATA OSS Professional Services

HadoopことはじめKatsunori Kanda

Semelhante a データサイズ2ペタ　ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 (20)

Hadoop, NoSQL, GlusterFSの概要

Apache Hadoopに見るJavaミドルウェアのcompatibility（Open Developers Conference 2020 Onli...

Hadoop基盤を知る

【17-E-3】Hadoop：黄色い象使いへの道～「Hadoop徹底入門」より～

Apache Spark 1000 nodes NTT DATA

Beginner must-see! A future that can be opened by learning Hadoop

Introduction to Hadoop and Spark (before joining the other talk) and An Overv...

並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向（OSC2015 Kansai発表資料）

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向（オープンソースカンファレンス 2015 Tokyo/Spring 講...

Hadoop ecosystem NTTDATA osc15tk

AI・HPC・ビッグデータで利用される分散ファイルシステムを知る

[db tech showcase Tokyo 2018]　#dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...

MapReduce/YARNの仕組みを知る

[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop

Hadoop Conference Japan 2009 #1

Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading

Yahoo! JAPAN MeetUp #8 （インフラ技術カンファレンス）セッション②

Hadoop 2.6の最新機能（Cloudera World Tokyo 2014 LT講演資料）

Hadoopことはじめ