SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
:
              Cassandra + Flume:
           リアルタイム、大容量ログ処理
           リアルタイム、大容量ログ処理    ログ



             ジェミナイ・モバイル・テクノロジーズ




2011/3/7         Gemini Mobile Technologies, Inc.   1
概要
1. ログ収集、データベースへの格納
   ログ収集、データベースへの格納
     収集
           •   複数のアプリケーション・ノードからの、 Flumeによる信頼性や効率の高いログ収集。
           •   Cassandraデータベースへの生ログや処理済みログの格納。

2. リアルタイム、オンデマンドのレポート
   リアルタイム、
           •   ウェブGUIからCassandraへのクエリー。
               (例)1秒当たりトランザクション処理件数(TPS) VS 時間、ユーザーのCDR検索。

             によるサマリーレポート
3. Map-Reduceによるサマリーレポート
           •   (例)ユーザー群毎の種類別(音声、データ、メール等)月間利用

                             アプリケー                   アプリケー                       …             アプリケー
                             ション・ノード                 ション・ノード                                   ション・ノード




                                               ログ・                                ログ・
                                                                                                         OA&M
                                             アグリゲータ                             アグリゲータ

                 レポート (Web
                   GUI)                                       Cassandra
                                                                Cassandra

2011/3/7                               Gemini Mobile Technologies, Inc. All rights reserved.                    2
主な利点
1. リアルタイム、最新のビジネス・インテリジェンス
   リアルタイム、最新のビジネス・インテリジェンス
           •   準リアルタイムの動的レポート。

2. 大容量の履歴データのフレキシブルな分析
   大容量の履歴データのフレキシブルな分析
         データのフレキシブルな
       •        時間範囲、生ログ・フィールド、処理済みログ・フィールドによるインスタント・クエリー
               (フラット・ログファイルでなく、データベース内にデータを格納して高速なクエリー対応)。
       •        Map-Reduceによる、オンデマンドでサマリー・レポートのカスタマイズ生成。

3. 複数のデータセンター対応
   複数のデータセンター対応
     のデータセンター
       •        近接のデータセンター内で収集、保存。データセンター間のクエリー、分析。

4. 信頼性の高い、簡単なオペレーション、保守、拡張性
   信頼性の   簡単なオペレーション、保守、
            なオペレーション
       •        ネットワークやPC障害時にもデータ損失がない。
       •        データ量(格納データのサイズ)の増加や速度(データ受信速度)の高速化に合わせ、PCを水平的に
                増設し、最大数百台のノード、テラバイト級データ/日に拡張可能。
       •        大規模ネットワーク向けに容易なセットアップ、設定、監視。

5. 容易なカスタマイズ
   容易なカスタマイズ
           •   オープンソース。ログフォーマットのカスタマイズやレポートのカスタマイズ、クエリー向けに容易に変更
               可能。


2011/3/7                      Gemini Mobile Technologies, Inc. All rights reserved.   3
ログ収集:
ログ収集:Flume
  収集
  •    オープンソースのログ収集システム:http://archive.cloudera.com/cdh/3/flume/UserGuide.html
  •    Flumeエージェント:設定可能な間隔でログを読込み(例、100ms)、コレクター・ノードに送信。
  •    Flumeコレクター:ログを解析し、Cassandraへ挿入。
  •    Flumeマスター:エージェントやコレクターの健全性や処理状態を監視。


             アプリケーション・
             ノード 1

                  Flume
               agent1_src1                          Flumeアグリゲーター

                                                           Flume
                  Flume                                collector_src1
               agent1_src2
                                                                                      Cassandra
                                                           Flume
             アプリケーション・                                 collector_src2
             ノード 2
                  Flume
               agent2_src1                                                            Cassandra
                                                            Flume
                  Flume                                    マスター
               agent2_src2
                                                                                                  4
2011/3/7                      Gemini Mobile Technologies, Inc. All rights reserved.
ストレージ・レイヤ:
ストレージ・レイヤ:Cassandra

•   アパッチ・プロジェクトに参画するCassandraは、ストレージ・レイヤのオープンソース・ソフト
    ウェアであり、高性能、高拡張性の分散型データベース。
     •   アパッチ・プロジェクトの中でもトップレベルのソフトウェア
         (http://cassandra.apache.org/)。

•   主な機能
     •   小さなデータ(各々100KB以下)の高速書込みに最適化。
     •   P2Pノード。アドホックでのノードの増設、低減が容易。
     •   クラスターをノード2台から数百台まで拡張可能。
     •   複数のデータセンター間の複製に対応。
     •   コンシステンシー(一貫性)レベルをリクエスト毎に調整可能。
ログ収集システム監視(
ログ収集システム監視(Flumeマスター)
  収集システム監視      マスター)
                マスター




2011/3/7   Gemini Mobile Technologies, Inc. All rights reserved.   6
レポート

•   属性による検索
           •   データ範囲
           •   ログ・フィールド(例、ユーザーID、メッセージ・タイプ)

•   リスト表示(ログデータの行)
•   グラフ表示(量 vs 時間)
•   CSVフォーマットへのデータ出力対応




2011/3/7                      Gemini Mobile Technologies, Inc. All rights reserved.   7
レポート( ):
レポート(例):CDR検索
           検索




2011/3/7    Gemini Mobile Technologies, Inc. All rights reserved.   8
レポート( ):
レポート(例):CDR検索結果
           検索結果




2011/3/7   Gemini Mobile Technologies, Inc. All rights reserved.   9
レポート( ):グラフ
レポート(例):グラフ




2011/3/7      Gemini Mobile Technologies, Inc. All rights reserved.   10
サイジング(
サイジング(例)
ノード(ハードウェア)
ノード(ハードウェア)
•   Supermicro (CPU: 2 quad-core Intel E5420, 32GB RAM, 16- 1TB SATA HD) ~ $6,000.
監視レイヤ
監視レイヤ
•   必要なノード数:2台(高可用性の為、マスター1台+スタンドバイ1台)

コレクター・レイヤ
•   必要なノード数=Max(2, Node Write Throughput (MB/S) / (log bytes per transaction * transactions per second (TPS)))
•   例:1 MB/秒 の書込みスループット/ノード、1K B/トランザクション、1000 TPSシステム=1MB/sの書込み

                                   5
           <例>         必要な
                                   4
                    コレクター・
                      ノード数         3
                                   2

                                                     200 300       400     500            KB/Sec (log bytes/tx * TPS)
ストレージ・レイヤ
•   必要なノード数=Max(Replication Factor, Data Per Day * # of Days to keep / (Node Storage / Replication Factor) )
•   例:データ/日=100 GB、保存日数=365、実効ノード・ストレージ=8 TB、レプリケーション因子= 2の場合、
      必要なノード数=100 * 365 / (8000 / 2) = 9.125 = 10台
                      実効ストレージ
                      実効ストレージ          レプリケーション            ログ(GB) / 日
                                                           ログ(GB)                 データ日数
                                                                                     日数/
                                                                                  データ日数/ノード          365日間のノード
                                                                                                     365日間のノード
                                                                                                        日間
                      (GB) / ノード       因子                                                            数

      <例>             8000             2                   10                     400                2
                      8000             3                   10                     266                3
                      8000             2                   100                    40                 10

2011/3/7                                     Gemini Mobile Technologies, Inc. All rights reserved.                      11
オープンソースのコンポーネント

•   FlumeやCassandraはオープンソース化されている。弊社は下記のコンポーネントをさらに加
    える。
           •   カスタマイズのFlume-Cassandraコネクター(弊社のログ・フォーマットを読取り、Cassandraへ挿入)
           •   Cassandraデータ設計(スキーマ、設定を含む)
           •   ブラウザーUI、Cassandraへのクエリー
           •   後処理プロセッサ(カスタマイズのログフォーマット・ファイルを生成)




2011/3/7                        Gemini Mobile Technologies, Inc. All rights reserved.   12
のデータ・モデル
  Cassandraのデータ・モデル 1/2
  現在、Flumeは四つのテーブルにデータを挿入する。
  1. 生データ・テーブル
  •    関数:受取ったままのログデータを格納。
  •    行キー:YYYYMMDDHH、一時間毎に一つ。
  •    列: 列名: ログエントリーUUID。値:ログデータ。                                                                                                         列
                                                                                                                                           • その時間内の各ログエント
        AAB32431352                               ABC32433781                                   BCD32433901                                リー毎に追加。
                                                                                                                                           •UUID (Unique Log Entry
2011    01S,Market1,12345AA,2011011107            04RR,Market1,12345ZZ,201101110712             07S,Market1,12345BB,2011011107120          ID)でソート。
0111    1200000,10.10.2.9,,10.10.2.10,0901        00005,10.10.2.9,,10.10.2.10,09012345          0010,10.10.2.9,,10.10.2.10,090123456
07      2345673,carrier.ne.jp,carrier.ne.jp,,,    675,carrier.ne.jp,carrier.ne.jp,,,,,          73,carrier.ne.jp,carrier.ne.jp,,,,,
        ,,
                                                                                                                                                行
                                                                                                                                                • 各時間毎に追加。


        エントリー・テーブル
  2. CDRエントリー・テーブル
  •    関数: 各ログフィールドを列で表す。クエリーやインデックスに便利。
  •    行キー:ログエントリーUUID.
  •    列: 列名:ログデータ・フィールド名。値:ログデータ・フィールドの値。
              typ    market        id            timestamp       moipaddr       mtipaddre        msisdn         senderdoma      recipientdom
              e                                                  ess            ss                              in              ain
                                                                                                                                                    行
 AAB32431     01S    Market1       1235AA        2011011107      10.10.2.9      10.10.2.10       0901234567     carrier.ne.jp   carrier.ne.jp       • 各ログエント
 352                                             1200000                                         3                                                  リー毎に追加。
 ABC32433     04     Market1       1235ZZ        2011011107      10.10.2.9      10.10.2.10       0902345689     carrier.ne.jp   carrier.ne.jp
 781          RR                                 1200005                                         0
 BCD32433     07S    Market1       1235BB        2011011107      10.10.2.9      10.10.2.10       0901234567     carrier.ne.jp   carrier.ne.jp
 901                                             1200010                                         3
  2011/3/7                                              Gemini Mobile Technologies, Inc. All rights reserved.                                       13
のデータ・モデル
Cassandraのデータ・モデル 2/2
         タイムライン・テーブル
3. MSISDNタイムライン・テーブル
•   関数: MSISDN、次にタイムスタンプで構成。
•   行キー: MSISDN.
•   列: 列名: タイムスタンプ。値:CDRエントリーを指し示すログエントリーUUID。
                                                                                                                       行
                             20110111071200000           20110111071200010                   列                         •各MSISDN毎に追加。
                                                                                             •そのMSISDNに関す
            09012345673      AAB32431352                 BCD32433901
                                                                                             る各ログエントリー毎
                                                                                             に追加。
                             20110111071200005                                               •タイムスタンプでソー
            09023456890      ABC32433781                                                     ト。




   毎時タイムライン・テーブル
4. 毎時タイムライン・テーブル
•   関数:時間(毎時)、次にタイムスタンプで構成。
•   行キー: YYYYMMDDHH.
•   列: 列名: タイムスタンプの値。値:CDRエントリーを指し示すUUID。
                          20110111071200000      20110111071200005        20110111071200010                                行
                                                                                                           列               •各時間毎に追加。
           2011011107     AAB32431352            ABC32433781              BCD32433901                      •その時間内の各ログエン
                                                                                                           トリー毎に追加。
                          20110111081200001      20110111081200010
                                                                                                           •タイムスタンプでソート。
           2011011108     BDB32431352            CDC32431352

2011/3/7                                           Gemini Mobile Technologies, Inc. All rights reserved.                        14
次のステップ

•   オープンソースとしてリリースしています。https://github.com/geminitech/logprocessing
           •   Readme、サンプルデータ、パッケージ。

•   以下のステップを試してください。
           •   Flume、Cassandra、弊社のコードをダウンロード、インストールしてください。
           •   サンプルデータで試しください。
           •   商用システム向けにご使用になる場合、
                •   実際のシステムからサンプルログを取得し、必要に応じてFlume Plug-inをカスタマイズしてくだ
                    さい。
                •   必要なレポートについて決め、必要に応じてCassandraのテーブル・フォーマット、UIをカスタマイ
                    ズしてください。
                •   サンプルログで機能性や性能を試験してください。
                •   展開:まずラボ環境で、次に商用システムへの展開をご予定ください。




2011/3/7                        Gemini Mobile Technologies, Inc. All rights reserved.   15
Backup




2011/3/7   Gemini Mobile Technologies, Inc. All rights reserved.   16
データベース・ストレージの選択肢
データベース・ストレージの選択肢

ストレージ・システムにはCassandraを使用。


一部の選択肢との比較:
•    SQL:高速で大量のデータ挿入が難しい。水平拡張が容易でない。
        :
•   Hadoop:データベースのようなシステム内にない為、柔軟なクエリーやデータ編集が難しい
          :
    。
•         またはHibari:Cassandraの持つ機能の大半を提供。
          または
     Hbaseまたは      :


Cassandraが選ばれた理由:
           •   小さいデータの書込み性能に優れる。
           •   複数のデータセンターに対応。
           •   調整可能なコンシステンシー(一貫性)。
                •   現在は使用していないが、複数のデータセンターが存在する場合や、異なるデータ・クラス(例
                    、課金レコード vs 統計レコード)が存在する場合に有益。



2011/3/7                      Gemini Mobile Technologies, Inc. All rights reserved.   17
FAQ (1/2)
Q. 古いデータはどのように削除するのか?
              削除するのか
    いデータはどのように削除するのか
A. Cassandraには各列にTime to Live (TTL)(秒単位)があり、TTLの有効期間が0になると、圧縮
   時に自動的に削除される。


Q. データ・ストアが一杯になった場合、その検出やアラーム処理はどのように行うのか? デ
   データ・ストアが一杯になった場合、その検出やアラーム処理はどのように行うのか?
           一杯になった場合   検出やアラーム処理はどのように
   ータ・ストアが一杯になり、拡張可能となる時期をどのように予測するのか
          一杯になり     となる時期をどのように予測するのか?
   ータ・ストアが一杯になり、拡張可能となる時期をどのように予測するのか?
A. SNMP (netsnmp)を用いてサーバーのディスク使用量を監視し、閾値を超える場合、SNMPト
   ラップが生成される。


Q. Hadoopベースのログ処理システムとはどのように違うのか?
         ベースのログ処理システムとはどのように違うのか?
         ベースのログ処理システムとはどのように
A. データベース(Cassandra)を加えることで、リアルタイム対応、複雑なクエリーの発行、その他
   データベースのようなオペレーションが可能になる。


Q. Map/Reduceは使用するのか
             は使用するのか?
                するのか
A. Map/Reduceのスクリプトを用いて、ログデータの後処理、他のログ・フォーマットの生成や分
   析が可能になる。(*弊社による試験検証は未実施。)
 2011/3/7               Gemini Mobile Technologies, Inc. All rights reserved.   18
FAQ (2/2)
Q. このシステムのリアルタイム性はどの程度か(具体的に、最善の状況における遅延の程
   このシステムのリアルタイム性はどの程度か 具体的に 最善の状況における遅延の
                    程度            における遅延
   度は)? リアルタイム性を高めるにはどうすれば良いか?
        リアルタイム性  めるにはどうすれば良いか?
A. ログファイル読取りの設定可能な遅延をAとし、エージェント・ノードからコレクター・ノード
   へのデータ送信の時間をBとし、Cassandraへのデータ挿入をCとすると、遅延の合計は「A
   + B + C」となる。例えば、A=100ms、B=50ms、C=10msという場合、合計で160msである。


Q. コードの行数はどれくらいか?言語は何か?
   コードの行数はどれくらいか?言語は
       行数はどれくらいか
A. FlumeからCassandraのプラグイン(~40行、Java)、UI( ~2000行、Java、JSP )、後処理プロセ
   スのログフォーマット( ~250行、Java)。


Q. 改善点は?
   改善点は
A. 1. どんなログフォーマットにも対応できるよう、 UIを一般化。
    2. 高い負荷と大規模システムの試験。
    3. 後処理ログデータにPigスクリプトを追加。



2011/3/7               Gemini Mobile Technologies, Inc. All rights reserved.   19
Cassandra向けのPig
         向けの

•   Pig (http://pig.apache.org/)は高水準言語の関係型言語で、クエリーの書込みに用いる。クエ
    リーはその後、Map/Reduceのジョブ向けに翻訳される。
•   Map/ReduceのジョブはCassandraが対応する。


•   Pigスクリプト の例:2011年1月1日以降、ログレコードの数の多い上位100件のMSISDNを検
    索。
msisdn = LOAD 'cassandra://CDRLogs/MSISDNTimeline' USING CassandraStorage();
cdrs = FOREACH msisdn GENERATE flatten($1);
cdrtime = FOREACH cdrs GENERATE $0;
givenhourcdr = FILTER cdrtime BY $0 > 20110101000000
msisdnByHour = GROUP givenhourcdr BY $0;
msisdnByHourCount = FOREACH msisdnByHour GENERATE COUNT($1), group;
orderedMsisdn = ORDER msisdnByHourCount BY $0;
topUserAfterNewYear = LIMIT orderedMsisdn 100;
dump topUserAfterNewYear;




2011/3/7                      Gemini Mobile Technologies, Inc. All rights reserved.   20

Mais conteúdo relacionado

Mais procurados

スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13wスケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13wCloudera Japan
 
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013Cloudera Japan
 
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話Yukinori Suda
 
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りHiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りYukinori Suda
 
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジLINE Corporation
 
HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015SummerHBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015SummerMichio Katano
 
20分でわかるHBase
20分でわかるHBase20分でわかるHBase
20分でわかるHBaseSho Shimauchi
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)オラクルエンジニア通信
 
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wIntroduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wCloudera Japan
 
Log analysis with Hadoop in livedoor 2013
Log analysis with Hadoop in livedoor 2013Log analysis with Hadoop in livedoor 2013
Log analysis with Hadoop in livedoor 2013SATOSHI TAGOMORI
 
20131107 cwt2013-wdkz
20131107 cwt2013-wdkz20131107 cwt2013-wdkz
20131107 cwt2013-wdkzcyberagent
 
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_FdwKohei KaiGai
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントCloudera Japan
 
Twitterのリアルタイム分散処理システム「Storm」入門
Twitterのリアルタイム分散処理システム「Storm」入門Twitterのリアルタイム分散処理システム「Storm」入門
Twitterのリアルタイム分散処理システム「Storm」入門AdvancedTechNight
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopCloudera Japan
 
Osc2012 spring HBase Report
Osc2012 spring HBase ReportOsc2012 spring HBase Report
Osc2012 spring HBase ReportSeiichiro Ishida
 
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-SORACOM, INC
 

Mais procurados (20)

ROMAについて
ROMAについてROMAについて
ROMAについて
 
HBase at Ameba
HBase at AmebaHBase at Ameba
HBase at Ameba
 
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13wスケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
 
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013
 
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話
 
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りHiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
 
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
 
HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015SummerHBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
 
20分でわかるHBase
20分でわかるHBase20分でわかるHBase
20分でわかるHBase
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
 
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wIntroduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
 
Log analysis with Hadoop in livedoor 2013
Log analysis with Hadoop in livedoor 2013Log analysis with Hadoop in livedoor 2013
Log analysis with Hadoop in livedoor 2013
 
20131107 cwt2013-wdkz
20131107 cwt2013-wdkz20131107 cwt2013-wdkz
20131107 cwt2013-wdkz
 
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
 
MapR M7 技術概要
MapR M7 技術概要MapR M7 技術概要
MapR M7 技術概要
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
 
Twitterのリアルタイム分散処理システム「Storm」入門
Twitterのリアルタイム分散処理システム「Storm」入門Twitterのリアルタイム分散処理システム「Storm」入門
Twitterのリアルタイム分散処理システム「Storm」入門
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
 
Osc2012 spring HBase Report
Osc2012 spring HBase ReportOsc2012 spring HBase Report
Osc2012 spring HBase Report
 
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
 

Destaque

Big Data入門に見せかけたFluentd入門
Big Data入門に見せかけたFluentd入門Big Data入門に見せかけたFluentd入門
Big Data入門に見せかけたFluentd入門Keisuke Takahashi
 
Elsticsearch参考情報 URLリンク集
Elsticsearch参考情報 URLリンク集Elsticsearch参考情報 URLリンク集
Elsticsearch参考情報 URLリンク集Yoshio Fujimatsu
 
ピコもんのログ収集基板について
ピコもんのログ収集基板についてピコもんのログ収集基板について
ピコもんのログ収集基板についてairtoxin Ishii
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworksKimihiko Kitase
 
Struggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupStruggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupRecruit Technologies
 
Cloudianの構築と運用の基礎 (Cloudian Summit 2012)
Cloudianの構築と運用の基礎 (Cloudian Summit 2012)Cloudianの構築と運用の基礎 (Cloudian Summit 2012)
Cloudianの構築と運用の基礎 (Cloudian Summit 2012)CLOUDIAN KK
 
fluentd を利用した大規模ウェブサービスのロギング
fluentd を利用した大規模ウェブサービスのロギングfluentd を利用した大規模ウェブサービスのロギング
fluentd を利用した大規模ウェブサービスのロギングYuichi Tateno
 
สมดุลเคมี
สมดุลเคมีสมดุลเคมี
สมดุลเคมีkamonmart
 
Missouri summary ndaa
Missouri summary ndaaMissouri summary ndaa
Missouri summary ndaaJim Werner
 
นำเสนอโครงงานคอม
นำเสนอโครงงานคอมนำเสนอโครงงานคอม
นำเสนอโครงงานคอมPim Jazz
 
Prokop na kineski nacin
Prokop na kineski nacinProkop na kineski nacin
Prokop na kineski nacinPACE Kiprovska
 

Destaque (20)

Big Data入門に見せかけたFluentd入門
Big Data入門に見せかけたFluentd入門Big Data入門に見せかけたFluentd入門
Big Data入門に見せかけたFluentd入門
 
Elsticsearch参考情報 URLリンク集
Elsticsearch参考情報 URLリンク集Elsticsearch参考情報 URLリンク集
Elsticsearch参考情報 URLリンク集
 
ピコもんのログ収集基板について
ピコもんのログ収集基板についてピコもんのログ収集基板について
ピコもんのログ収集基板について
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
 
Struggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupStruggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit group
 
Cloudianの構築と運用の基礎 (Cloudian Summit 2012)
Cloudianの構築と運用の基礎 (Cloudian Summit 2012)Cloudianの構築と運用の基礎 (Cloudian Summit 2012)
Cloudianの構築と運用の基礎 (Cloudian Summit 2012)
 
Apache Flume
Apache FlumeApache Flume
Apache Flume
 
fluentd を利用した大規模ウェブサービスのロギング
fluentd を利用した大規模ウェブサービスのロギングfluentd を利用した大規模ウェブサービスのロギング
fluentd を利用した大規模ウェブサービスのロギング
 
ストリームデータ分散処理基盤Storm
ストリームデータ分散処理基盤Stormストリームデータ分散処理基盤Storm
ストリームデータ分散処理基盤Storm
 
สมดุลเคมี
สมดุลเคมีสมดุลเคมี
สมดุลเคมี
 
China life at home
China life at homeChina life at home
China life at home
 
Missouri summary ndaa
Missouri summary ndaaMissouri summary ndaa
Missouri summary ndaa
 
Opendata
OpendataOpendata
Opendata
 
California
CaliforniaCalifornia
California
 
Teyl semarang
Teyl semarangTeyl semarang
Teyl semarang
 
3.- 4.kl.
3.- 4.kl.3.- 4.kl.
3.- 4.kl.
 
นำเสนอโครงงานคอม
นำเสนอโครงงานคอมนำเสนอโครงงานคอม
นำเสนอโครงงานคอม
 
Warren buffet
Warren buffetWarren buffet
Warren buffet
 
Utah
UtahUtah
Utah
 
Prokop na kineski nacin
Prokop na kineski nacinProkop na kineski nacin
Prokop na kineski nacin
 

Semelhante a Flume cassandra real time log processing (日本語)

MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜Takahiro Inoue
 
C16 45分でわかるPostgreSQLの仕組み by 山田努
C16 45分でわかるPostgreSQLの仕組み by 山田努C16 45分でわかるPostgreSQLの仕組み by 山田努
C16 45分でわかるPostgreSQLの仕組み by 山田努Insight Technology, Inc.
 
PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費Tatsumi Akinori
 
AWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティスAWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティスAkihiro Kuwano
 
AWSのデータベースサービス全体像
AWSのデータベースサービス全体像AWSのデータベースサービス全体像
AWSのデータベースサービス全体像Amazon Web Services Japan
 
Gangliaはじめました
GangliaはじめましたGangliaはじめました
Gangliaはじめましたyuzorock
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎Insight Technology, Inc.
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoTreasure Data, Inc.
 
Web Operations and Perl kansai.pm#14
Web Operations and Perl kansai.pm#14Web Operations and Perl kansai.pm#14
Web Operations and Perl kansai.pm#14Masahiro Nagano
 
「今そこにある危機」を捉える ~ pg_stat_statements revisited
「今そこにある危機」を捉える ~ pg_stat_statements revisited「今そこにある危機」を捉える ~ pg_stat_statements revisited
「今そこにある危機」を捉える ~ pg_stat_statements revisitedUptime Technologies LLC (JP)
 
ソーシャルゲームのEMR活用事例
ソーシャルゲームのEMR活用事例ソーシャルゲームのEMR活用事例
ソーシャルゲームのEMR活用事例知教 本間
 
Kyoto Tycoon Guide in Japanese
Kyoto Tycoon Guide in JapaneseKyoto Tycoon Guide in Japanese
Kyoto Tycoon Guide in JapaneseMikio Hirabayashi
 
Guide to Cassandra for Production Deployments
Guide to Cassandra for Production DeploymentsGuide to Cassandra for Production Deployments
Guide to Cassandra for Production Deploymentssmdkk
 
Hadoopソースコードリーディング8/MapRを使ってみた
Hadoopソースコードリーディング8/MapRを使ってみたHadoopソースコードリーディング8/MapRを使ってみた
Hadoopソースコードリーディング8/MapRを使ってみたRecruit Technologies
 
LINEのMySQL運用について
LINEのMySQL運用についてLINEのMySQL運用について
LINEのMySQL運用についてLINE Corporation
 
PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)
PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)
PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)Uptime Technologies LLC (JP)
 
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB Amazon Web Services Japan
 
AWS Blackbelt 2015シリーズ Amazon CloudWatch & Amazon CloudWatch Logs
AWS Blackbelt 2015シリーズ Amazon CloudWatch & Amazon CloudWatch LogsAWS Blackbelt 2015シリーズ Amazon CloudWatch & Amazon CloudWatch Logs
AWS Blackbelt 2015シリーズ Amazon CloudWatch & Amazon CloudWatch LogsAmazon Web Services Japan
 

Semelhante a Flume cassandra real time log processing (日本語) (20)

MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
 
C16 45分でわかるPostgreSQLの仕組み by 山田努
C16 45分でわかるPostgreSQLの仕組み by 山田努C16 45分でわかるPostgreSQLの仕組み by 山田努
C16 45分でわかるPostgreSQLの仕組み by 山田努
 
PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費
 
AWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティスAWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティス
 
AWSのデータベースサービス全体像
AWSのデータベースサービス全体像AWSのデータベースサービス全体像
AWSのデータベースサービス全体像
 
Gangliaはじめました
GangliaはじめましたGangliaはじめました
Gangliaはじめました
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
Web Operations and Perl kansai.pm#14
Web Operations and Perl kansai.pm#14Web Operations and Perl kansai.pm#14
Web Operations and Perl kansai.pm#14
 
Storm×couchbase serverで作るリアルタイム解析基盤
Storm×couchbase serverで作るリアルタイム解析基盤Storm×couchbase serverで作るリアルタイム解析基盤
Storm×couchbase serverで作るリアルタイム解析基盤
 
「今そこにある危機」を捉える ~ pg_stat_statements revisited
「今そこにある危機」を捉える ~ pg_stat_statements revisited「今そこにある危機」を捉える ~ pg_stat_statements revisited
「今そこにある危機」を捉える ~ pg_stat_statements revisited
 
ソーシャルゲームのEMR活用事例
ソーシャルゲームのEMR活用事例ソーシャルゲームのEMR活用事例
ソーシャルゲームのEMR活用事例
 
Fluentd meetup #2
Fluentd meetup #2Fluentd meetup #2
Fluentd meetup #2
 
Kyoto Tycoon Guide in Japanese
Kyoto Tycoon Guide in JapaneseKyoto Tycoon Guide in Japanese
Kyoto Tycoon Guide in Japanese
 
Guide to Cassandra for Production Deployments
Guide to Cassandra for Production DeploymentsGuide to Cassandra for Production Deployments
Guide to Cassandra for Production Deployments
 
Hadoopソースコードリーディング8/MapRを使ってみた
Hadoopソースコードリーディング8/MapRを使ってみたHadoopソースコードリーディング8/MapRを使ってみた
Hadoopソースコードリーディング8/MapRを使ってみた
 
LINEのMySQL運用について
LINEのMySQL運用についてLINEのMySQL運用について
LINEのMySQL運用について
 
PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)
PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)
PostgreSQLアーキテクチャ入門(PostgreSQL Conference 2012)
 
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
 
AWS Blackbelt 2015シリーズ Amazon CloudWatch & Amazon CloudWatch Logs
AWS Blackbelt 2015シリーズ Amazon CloudWatch & Amazon CloudWatch LogsAWS Blackbelt 2015シリーズ Amazon CloudWatch & Amazon CloudWatch Logs
AWS Blackbelt 2015シリーズ Amazon CloudWatch & Amazon CloudWatch Logs
 

Mais de CLOUDIAN KK

CLOUDIAN HYPERSTORE - 風林火山ストレージ
CLOUDIAN HYPERSTORE - 風林火山ストレージCLOUDIAN HYPERSTORE - 風林火山ストレージ
CLOUDIAN HYPERSTORE - 風林火山ストレージCLOUDIAN KK
 
クラウディアンのご紹介
クラウディアンのご紹介クラウディアンのご紹介
クラウディアンのご紹介CLOUDIAN KK
 
IoT/ビッグデータ/AI連携により次世代ストレージが促進するビジネス変革
IoT/ビッグデータ/AI連携により次世代ストレージが促進するビジネス変革IoT/ビッグデータ/AI連携により次世代ストレージが促進するビジネス変革
IoT/ビッグデータ/AI連携により次世代ストレージが促進するビジネス変革CLOUDIAN KK
 
CLOUDIAN Presentation at VERITAS VISION in Tokyo
CLOUDIAN Presentation at VERITAS VISION in TokyoCLOUDIAN Presentation at VERITAS VISION in Tokyo
CLOUDIAN Presentation at VERITAS VISION in TokyoCLOUDIAN KK
 
S3 API接続検証プログラムのご紹介
S3 API接続検証プログラムのご紹介S3 API接続検証プログラムのご紹介
S3 API接続検証プログラムのご紹介CLOUDIAN KK
 
Auto tiering and Versioning of CLOUDIAN HyperStore
Auto tiering and Versioning of CLOUDIAN HyperStoreAuto tiering and Versioning of CLOUDIAN HyperStore
Auto tiering and Versioning of CLOUDIAN HyperStoreCLOUDIAN KK
 
AWS SDK for Python and CLOUDIAN HyperStore
AWS SDK for Python and CLOUDIAN HyperStoreAWS SDK for Python and CLOUDIAN HyperStore
AWS SDK for Python and CLOUDIAN HyperStoreCLOUDIAN KK
 
AWS CLI and CLOUDIAN HyperStore
AWS CLI and CLOUDIAN HyperStoreAWS CLI and CLOUDIAN HyperStore
AWS CLI and CLOUDIAN HyperStoreCLOUDIAN KK
 
ZiDOMA data and CLOUDIAN HyperStore
ZiDOMA data and CLOUDIAN HyperStoreZiDOMA data and CLOUDIAN HyperStore
ZiDOMA data and CLOUDIAN HyperStoreCLOUDIAN KK
 
FOBAS CSC and CLOUDIAN HyperStore
FOBAS CSC and CLOUDIAN HyperStoreFOBAS CSC and CLOUDIAN HyperStore
FOBAS CSC and CLOUDIAN HyperStoreCLOUDIAN KK
 
ARCserve backup and CLOUDIAN HyperStore
ARCserve backup and CLOUDIAN HyperStoreARCserve backup and CLOUDIAN HyperStore
ARCserve backup and CLOUDIAN HyperStoreCLOUDIAN KK
 
Cloudian presentation at idc japan sv2016
Cloudian presentation at idc japan sv2016Cloudian presentation at idc japan sv2016
Cloudian presentation at idc japan sv2016CLOUDIAN KK
 
ITコアを刷新するハイブリッドクラウド型ITシステム
ITコアを刷新するハイブリッドクラウド型ITシステムITコアを刷新するハイブリッドクラウド型ITシステム
ITコアを刷新するハイブリッドクラウド型ITシステムCLOUDIAN KK
 
【FOBAS】Data is money. ストレージ分散投資のススメ
【FOBAS】Data is money. ストレージ分散投資のススメ【FOBAS】Data is money. ストレージ分散投資のススメ
【FOBAS】Data is money. ストレージ分散投資のススメCLOUDIAN KK
 
【ARI】ストレージのコスト・利便性・非機能要求項目を徹底比較
【ARI】ストレージのコスト・利便性・非機能要求項目を徹底比較【ARI】ストレージのコスト・利便性・非機能要求項目を徹底比較
【ARI】ストレージのコスト・利便性・非機能要求項目を徹底比較CLOUDIAN KK
 
【SIS】オブジェクトストレージを活用した増え続ける長期保管データの運用の効率化
【SIS】オブジェクトストレージを活用した増え続ける長期保管データの運用の効率化【SIS】オブジェクトストレージを活用した増え続ける長期保管データの運用の効率化
【SIS】オブジェクトストレージを活用した増え続ける長期保管データの運用の効率化CLOUDIAN KK
 
【CLOUDIAN】コード化されたインフラの実装
【CLOUDIAN】コード化されたインフラの実装【CLOUDIAN】コード化されたインフラの実装
【CLOUDIAN】コード化されたインフラの実装CLOUDIAN KK
 
【CLOUDIAN】自動階層化による現有ストレージ活用術
【CLOUDIAN】自動階層化による現有ストレージ活用術【CLOUDIAN】自動階層化による現有ストレージ活用術
【CLOUDIAN】自動階層化による現有ストレージ活用術CLOUDIAN KK
 
【CLOUDIAN】秒間隔RPO(目標復旧時点)の実現
【CLOUDIAN】秒間隔RPO(目標復旧時点)の実現【CLOUDIAN】秒間隔RPO(目標復旧時点)の実現
【CLOUDIAN】秒間隔RPO(目標復旧時点)の実現CLOUDIAN KK
 
【Cloudian】FIT2015における会社製品紹介
【Cloudian】FIT2015における会社製品紹介【Cloudian】FIT2015における会社製品紹介
【Cloudian】FIT2015における会社製品紹介CLOUDIAN KK
 

Mais de CLOUDIAN KK (20)

CLOUDIAN HYPERSTORE - 風林火山ストレージ
CLOUDIAN HYPERSTORE - 風林火山ストレージCLOUDIAN HYPERSTORE - 風林火山ストレージ
CLOUDIAN HYPERSTORE - 風林火山ストレージ
 
クラウディアンのご紹介
クラウディアンのご紹介クラウディアンのご紹介
クラウディアンのご紹介
 
IoT/ビッグデータ/AI連携により次世代ストレージが促進するビジネス変革
IoT/ビッグデータ/AI連携により次世代ストレージが促進するビジネス変革IoT/ビッグデータ/AI連携により次世代ストレージが促進するビジネス変革
IoT/ビッグデータ/AI連携により次世代ストレージが促進するビジネス変革
 
CLOUDIAN Presentation at VERITAS VISION in Tokyo
CLOUDIAN Presentation at VERITAS VISION in TokyoCLOUDIAN Presentation at VERITAS VISION in Tokyo
CLOUDIAN Presentation at VERITAS VISION in Tokyo
 
S3 API接続検証プログラムのご紹介
S3 API接続検証プログラムのご紹介S3 API接続検証プログラムのご紹介
S3 API接続検証プログラムのご紹介
 
Auto tiering and Versioning of CLOUDIAN HyperStore
Auto tiering and Versioning of CLOUDIAN HyperStoreAuto tiering and Versioning of CLOUDIAN HyperStore
Auto tiering and Versioning of CLOUDIAN HyperStore
 
AWS SDK for Python and CLOUDIAN HyperStore
AWS SDK for Python and CLOUDIAN HyperStoreAWS SDK for Python and CLOUDIAN HyperStore
AWS SDK for Python and CLOUDIAN HyperStore
 
AWS CLI and CLOUDIAN HyperStore
AWS CLI and CLOUDIAN HyperStoreAWS CLI and CLOUDIAN HyperStore
AWS CLI and CLOUDIAN HyperStore
 
ZiDOMA data and CLOUDIAN HyperStore
ZiDOMA data and CLOUDIAN HyperStoreZiDOMA data and CLOUDIAN HyperStore
ZiDOMA data and CLOUDIAN HyperStore
 
FOBAS CSC and CLOUDIAN HyperStore
FOBAS CSC and CLOUDIAN HyperStoreFOBAS CSC and CLOUDIAN HyperStore
FOBAS CSC and CLOUDIAN HyperStore
 
ARCserve backup and CLOUDIAN HyperStore
ARCserve backup and CLOUDIAN HyperStoreARCserve backup and CLOUDIAN HyperStore
ARCserve backup and CLOUDIAN HyperStore
 
Cloudian presentation at idc japan sv2016
Cloudian presentation at idc japan sv2016Cloudian presentation at idc japan sv2016
Cloudian presentation at idc japan sv2016
 
ITコアを刷新するハイブリッドクラウド型ITシステム
ITコアを刷新するハイブリッドクラウド型ITシステムITコアを刷新するハイブリッドクラウド型ITシステム
ITコアを刷新するハイブリッドクラウド型ITシステム
 
【FOBAS】Data is money. ストレージ分散投資のススメ
【FOBAS】Data is money. ストレージ分散投資のススメ【FOBAS】Data is money. ストレージ分散投資のススメ
【FOBAS】Data is money. ストレージ分散投資のススメ
 
【ARI】ストレージのコスト・利便性・非機能要求項目を徹底比較
【ARI】ストレージのコスト・利便性・非機能要求項目を徹底比較【ARI】ストレージのコスト・利便性・非機能要求項目を徹底比較
【ARI】ストレージのコスト・利便性・非機能要求項目を徹底比較
 
【SIS】オブジェクトストレージを活用した増え続ける長期保管データの運用の効率化
【SIS】オブジェクトストレージを活用した増え続ける長期保管データの運用の効率化【SIS】オブジェクトストレージを活用した増え続ける長期保管データの運用の効率化
【SIS】オブジェクトストレージを活用した増え続ける長期保管データの運用の効率化
 
【CLOUDIAN】コード化されたインフラの実装
【CLOUDIAN】コード化されたインフラの実装【CLOUDIAN】コード化されたインフラの実装
【CLOUDIAN】コード化されたインフラの実装
 
【CLOUDIAN】自動階層化による現有ストレージ活用術
【CLOUDIAN】自動階層化による現有ストレージ活用術【CLOUDIAN】自動階層化による現有ストレージ活用術
【CLOUDIAN】自動階層化による現有ストレージ活用術
 
【CLOUDIAN】秒間隔RPO(目標復旧時点)の実現
【CLOUDIAN】秒間隔RPO(目標復旧時点)の実現【CLOUDIAN】秒間隔RPO(目標復旧時点)の実現
【CLOUDIAN】秒間隔RPO(目標復旧時点)の実現
 
【Cloudian】FIT2015における会社製品紹介
【Cloudian】FIT2015における会社製品紹介【Cloudian】FIT2015における会社製品紹介
【Cloudian】FIT2015における会社製品紹介
 

Flume cassandra real time log processing (日本語)

  • 1. Cassandra + Flume: リアルタイム、大容量ログ処理 リアルタイム、大容量ログ処理 ログ ジェミナイ・モバイル・テクノロジーズ 2011/3/7 Gemini Mobile Technologies, Inc. 1
  • 2. 概要 1. ログ収集、データベースへの格納 ログ収集、データベースへの格納 収集 • 複数のアプリケーション・ノードからの、 Flumeによる信頼性や効率の高いログ収集。 • Cassandraデータベースへの生ログや処理済みログの格納。 2. リアルタイム、オンデマンドのレポート リアルタイム、 • ウェブGUIからCassandraへのクエリー。 (例)1秒当たりトランザクション処理件数(TPS) VS 時間、ユーザーのCDR検索。 によるサマリーレポート 3. Map-Reduceによるサマリーレポート • (例)ユーザー群毎の種類別(音声、データ、メール等)月間利用 アプリケー アプリケー … アプリケー ション・ノード ション・ノード ション・ノード ログ・ ログ・ OA&M アグリゲータ アグリゲータ レポート (Web GUI) Cassandra Cassandra 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 2
  • 3. 主な利点 1. リアルタイム、最新のビジネス・インテリジェンス リアルタイム、最新のビジネス・インテリジェンス • 準リアルタイムの動的レポート。 2. 大容量の履歴データのフレキシブルな分析 大容量の履歴データのフレキシブルな分析 データのフレキシブルな • 時間範囲、生ログ・フィールド、処理済みログ・フィールドによるインスタント・クエリー (フラット・ログファイルでなく、データベース内にデータを格納して高速なクエリー対応)。 • Map-Reduceによる、オンデマンドでサマリー・レポートのカスタマイズ生成。 3. 複数のデータセンター対応 複数のデータセンター対応 のデータセンター • 近接のデータセンター内で収集、保存。データセンター間のクエリー、分析。 4. 信頼性の高い、簡単なオペレーション、保守、拡張性 信頼性の 簡単なオペレーション、保守、 なオペレーション • ネットワークやPC障害時にもデータ損失がない。 • データ量(格納データのサイズ)の増加や速度(データ受信速度)の高速化に合わせ、PCを水平的に 増設し、最大数百台のノード、テラバイト級データ/日に拡張可能。 • 大規模ネットワーク向けに容易なセットアップ、設定、監視。 5. 容易なカスタマイズ 容易なカスタマイズ • オープンソース。ログフォーマットのカスタマイズやレポートのカスタマイズ、クエリー向けに容易に変更 可能。 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 3
  • 4. ログ収集: ログ収集:Flume 収集 • オープンソースのログ収集システム:http://archive.cloudera.com/cdh/3/flume/UserGuide.html • Flumeエージェント:設定可能な間隔でログを読込み(例、100ms)、コレクター・ノードに送信。 • Flumeコレクター:ログを解析し、Cassandraへ挿入。 • Flumeマスター:エージェントやコレクターの健全性や処理状態を監視。 アプリケーション・ ノード 1 Flume agent1_src1 Flumeアグリゲーター Flume Flume collector_src1 agent1_src2 Cassandra Flume アプリケーション・ collector_src2 ノード 2 Flume agent2_src1 Cassandra Flume Flume マスター agent2_src2 4 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved.
  • 5. ストレージ・レイヤ: ストレージ・レイヤ:Cassandra • アパッチ・プロジェクトに参画するCassandraは、ストレージ・レイヤのオープンソース・ソフト ウェアであり、高性能、高拡張性の分散型データベース。 • アパッチ・プロジェクトの中でもトップレベルのソフトウェア (http://cassandra.apache.org/)。 • 主な機能 • 小さなデータ(各々100KB以下)の高速書込みに最適化。 • P2Pノード。アドホックでのノードの増設、低減が容易。 • クラスターをノード2台から数百台まで拡張可能。 • 複数のデータセンター間の複製に対応。 • コンシステンシー(一貫性)レベルをリクエスト毎に調整可能。
  • 6. ログ収集システム監視( ログ収集システム監視(Flumeマスター) 収集システム監視 マスター) マスター 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 6
  • 7. レポート • 属性による検索 • データ範囲 • ログ・フィールド(例、ユーザーID、メッセージ・タイプ) • リスト表示(ログデータの行) • グラフ表示(量 vs 時間) • CSVフォーマットへのデータ出力対応 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 7
  • 8. レポート( ): レポート(例):CDR検索 検索 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 8
  • 9. レポート( ): レポート(例):CDR検索結果 検索結果 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 9
  • 10. レポート( ):グラフ レポート(例):グラフ 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 10
  • 11. サイジング( サイジング(例) ノード(ハードウェア) ノード(ハードウェア) • Supermicro (CPU: 2 quad-core Intel E5420, 32GB RAM, 16- 1TB SATA HD) ~ $6,000. 監視レイヤ 監視レイヤ • 必要なノード数:2台(高可用性の為、マスター1台+スタンドバイ1台) コレクター・レイヤ • 必要なノード数=Max(2, Node Write Throughput (MB/S) / (log bytes per transaction * transactions per second (TPS))) • 例:1 MB/秒 の書込みスループット/ノード、1K B/トランザクション、1000 TPSシステム=1MB/sの書込み 5 <例> 必要な 4 コレクター・ ノード数 3 2 200 300 400 500 KB/Sec (log bytes/tx * TPS) ストレージ・レイヤ • 必要なノード数=Max(Replication Factor, Data Per Day * # of Days to keep / (Node Storage / Replication Factor) ) • 例:データ/日=100 GB、保存日数=365、実効ノード・ストレージ=8 TB、レプリケーション因子= 2の場合、 必要なノード数=100 * 365 / (8000 / 2) = 9.125 = 10台 実効ストレージ 実効ストレージ レプリケーション ログ(GB) / 日 ログ(GB) データ日数 日数/ データ日数/ノード 365日間のノード 365日間のノード 日間 (GB) / ノード 因子 数 <例> 8000 2 10 400 2 8000 3 10 266 3 8000 2 100 40 10 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 11
  • 12. オープンソースのコンポーネント • FlumeやCassandraはオープンソース化されている。弊社は下記のコンポーネントをさらに加 える。 • カスタマイズのFlume-Cassandraコネクター(弊社のログ・フォーマットを読取り、Cassandraへ挿入) • Cassandraデータ設計(スキーマ、設定を含む) • ブラウザーUI、Cassandraへのクエリー • 後処理プロセッサ(カスタマイズのログフォーマット・ファイルを生成) 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 12
  • 13. のデータ・モデル Cassandraのデータ・モデル 1/2 現在、Flumeは四つのテーブルにデータを挿入する。 1. 生データ・テーブル • 関数:受取ったままのログデータを格納。 • 行キー:YYYYMMDDHH、一時間毎に一つ。 • 列: 列名: ログエントリーUUID。値:ログデータ。 列 • その時間内の各ログエント AAB32431352 ABC32433781 BCD32433901 リー毎に追加。 •UUID (Unique Log Entry 2011 01S,Market1,12345AA,2011011107 04RR,Market1,12345ZZ,201101110712 07S,Market1,12345BB,2011011107120 ID)でソート。 0111 1200000,10.10.2.9,,10.10.2.10,0901 00005,10.10.2.9,,10.10.2.10,09012345 0010,10.10.2.9,,10.10.2.10,090123456 07 2345673,carrier.ne.jp,carrier.ne.jp,,, 675,carrier.ne.jp,carrier.ne.jp,,,,, 73,carrier.ne.jp,carrier.ne.jp,,,,, ,, 行 • 各時間毎に追加。 エントリー・テーブル 2. CDRエントリー・テーブル • 関数: 各ログフィールドを列で表す。クエリーやインデックスに便利。 • 行キー:ログエントリーUUID. • 列: 列名:ログデータ・フィールド名。値:ログデータ・フィールドの値。 typ market id timestamp moipaddr mtipaddre msisdn senderdoma recipientdom e ess ss in ain 行 AAB32431 01S Market1 1235AA 2011011107 10.10.2.9 10.10.2.10 0901234567 carrier.ne.jp carrier.ne.jp • 各ログエント 352 1200000 3 リー毎に追加。 ABC32433 04 Market1 1235ZZ 2011011107 10.10.2.9 10.10.2.10 0902345689 carrier.ne.jp carrier.ne.jp 781 RR 1200005 0 BCD32433 07S Market1 1235BB 2011011107 10.10.2.9 10.10.2.10 0901234567 carrier.ne.jp carrier.ne.jp 901 1200010 3 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 13
  • 14. のデータ・モデル Cassandraのデータ・モデル 2/2 タイムライン・テーブル 3. MSISDNタイムライン・テーブル • 関数: MSISDN、次にタイムスタンプで構成。 • 行キー: MSISDN. • 列: 列名: タイムスタンプ。値:CDRエントリーを指し示すログエントリーUUID。 行 20110111071200000 20110111071200010 列 •各MSISDN毎に追加。 •そのMSISDNに関す 09012345673 AAB32431352 BCD32433901 る各ログエントリー毎 に追加。 20110111071200005 •タイムスタンプでソー 09023456890 ABC32433781 ト。 毎時タイムライン・テーブル 4. 毎時タイムライン・テーブル • 関数:時間(毎時)、次にタイムスタンプで構成。 • 行キー: YYYYMMDDHH. • 列: 列名: タイムスタンプの値。値:CDRエントリーを指し示すUUID。 20110111071200000 20110111071200005 20110111071200010 行 列 •各時間毎に追加。 2011011107 AAB32431352 ABC32433781 BCD32433901 •その時間内の各ログエン トリー毎に追加。 20110111081200001 20110111081200010 •タイムスタンプでソート。 2011011108 BDB32431352 CDC32431352 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 14
  • 15. 次のステップ • オープンソースとしてリリースしています。https://github.com/geminitech/logprocessing • Readme、サンプルデータ、パッケージ。 • 以下のステップを試してください。 • Flume、Cassandra、弊社のコードをダウンロード、インストールしてください。 • サンプルデータで試しください。 • 商用システム向けにご使用になる場合、 • 実際のシステムからサンプルログを取得し、必要に応じてFlume Plug-inをカスタマイズしてくだ さい。 • 必要なレポートについて決め、必要に応じてCassandraのテーブル・フォーマット、UIをカスタマイ ズしてください。 • サンプルログで機能性や性能を試験してください。 • 展開:まずラボ環境で、次に商用システムへの展開をご予定ください。 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 15
  • 16. Backup 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 16
  • 17. データベース・ストレージの選択肢 データベース・ストレージの選択肢 ストレージ・システムにはCassandraを使用。 一部の選択肢との比較: • SQL:高速で大量のデータ挿入が難しい。水平拡張が容易でない。 : • Hadoop:データベースのようなシステム内にない為、柔軟なクエリーやデータ編集が難しい : 。 • またはHibari:Cassandraの持つ機能の大半を提供。 または Hbaseまたは : Cassandraが選ばれた理由: • 小さいデータの書込み性能に優れる。 • 複数のデータセンターに対応。 • 調整可能なコンシステンシー(一貫性)。 • 現在は使用していないが、複数のデータセンターが存在する場合や、異なるデータ・クラス(例 、課金レコード vs 統計レコード)が存在する場合に有益。 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 17
  • 18. FAQ (1/2) Q. 古いデータはどのように削除するのか? 削除するのか いデータはどのように削除するのか A. Cassandraには各列にTime to Live (TTL)(秒単位)があり、TTLの有効期間が0になると、圧縮 時に自動的に削除される。 Q. データ・ストアが一杯になった場合、その検出やアラーム処理はどのように行うのか? デ データ・ストアが一杯になった場合、その検出やアラーム処理はどのように行うのか? 一杯になった場合 検出やアラーム処理はどのように ータ・ストアが一杯になり、拡張可能となる時期をどのように予測するのか 一杯になり となる時期をどのように予測するのか? ータ・ストアが一杯になり、拡張可能となる時期をどのように予測するのか? A. SNMP (netsnmp)を用いてサーバーのディスク使用量を監視し、閾値を超える場合、SNMPト ラップが生成される。 Q. Hadoopベースのログ処理システムとはどのように違うのか? ベースのログ処理システムとはどのように違うのか? ベースのログ処理システムとはどのように A. データベース(Cassandra)を加えることで、リアルタイム対応、複雑なクエリーの発行、その他 データベースのようなオペレーションが可能になる。 Q. Map/Reduceは使用するのか は使用するのか? するのか A. Map/Reduceのスクリプトを用いて、ログデータの後処理、他のログ・フォーマットの生成や分 析が可能になる。(*弊社による試験検証は未実施。) 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 18
  • 19. FAQ (2/2) Q. このシステムのリアルタイム性はどの程度か(具体的に、最善の状況における遅延の程 このシステムのリアルタイム性はどの程度か 具体的に 最善の状況における遅延の 程度 における遅延 度は)? リアルタイム性を高めるにはどうすれば良いか? リアルタイム性 めるにはどうすれば良いか? A. ログファイル読取りの設定可能な遅延をAとし、エージェント・ノードからコレクター・ノード へのデータ送信の時間をBとし、Cassandraへのデータ挿入をCとすると、遅延の合計は「A + B + C」となる。例えば、A=100ms、B=50ms、C=10msという場合、合計で160msである。 Q. コードの行数はどれくらいか?言語は何か? コードの行数はどれくらいか?言語は 行数はどれくらいか A. FlumeからCassandraのプラグイン(~40行、Java)、UI( ~2000行、Java、JSP )、後処理プロセ スのログフォーマット( ~250行、Java)。 Q. 改善点は? 改善点は A. 1. どんなログフォーマットにも対応できるよう、 UIを一般化。 2. 高い負荷と大規模システムの試験。 3. 後処理ログデータにPigスクリプトを追加。 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 19
  • 20. Cassandra向けのPig 向けの • Pig (http://pig.apache.org/)は高水準言語の関係型言語で、クエリーの書込みに用いる。クエ リーはその後、Map/Reduceのジョブ向けに翻訳される。 • Map/ReduceのジョブはCassandraが対応する。 • Pigスクリプト の例:2011年1月1日以降、ログレコードの数の多い上位100件のMSISDNを検 索。 msisdn = LOAD 'cassandra://CDRLogs/MSISDNTimeline' USING CassandraStorage(); cdrs = FOREACH msisdn GENERATE flatten($1); cdrtime = FOREACH cdrs GENERATE $0; givenhourcdr = FILTER cdrtime BY $0 > 20110101000000 msisdnByHour = GROUP givenhourcdr BY $0; msisdnByHourCount = FOREACH msisdnByHour GENERATE COUNT($1), group; orderedMsisdn = ORDER msisdnByHourCount BY $0; topUserAfterNewYear = LIMIT orderedMsisdn 100; dump topUserAfterNewYear; 2011/3/7 Gemini Mobile Technologies, Inc. All rights reserved. 20