SlideShare a Scribd company logo
1 of 49
Download to read offline
ただいまHadoop勉強中

 DEVLOVE HangarFlight
     2010.12.18
自己紹介

名前
 能登 諭(のと さとし)

所属
 株式会社トップゲート

Twitter
  @n3104
おしながき

1. Hadoop概要
2. HDFS
3. MapReduce
4. Hive
5. HangarFlight
1.Hadoop概要
Hadoopとは

大規模なデータを複数のコンピューター上で分散して処理するため
のソフトウェアを開発している、オープンソースのプロジェクトです
(※1)。
Hadoopプロジェクトによって開発されているソフトウェアは多数あり
ますが、主となるのはMapReduceとHDFS(Hadoop Distributed
File System)です。この2つはGoogleが公開したMapReduce(※2)と
GFS(Google File System)(※3)の論文を参考に開発されていま
す。

※1 http://hadoop.apache.org/
※2 http://labs.google.com/papers/mapreduce.html
※3 http://labs.google.com/papers/gfs.html
Hadoopのサブプロジェクト群

   サブプロジェクト
     Hadoop Common
     HDFS
     MapReduce
     ZooKeeper
   関連プロジェクト
     Arvo
     Chukwa
     HBase
     Hive
     Mahout
     Pig

プロジェクト間の関連は以下が参考になります。
https://github.com/tomwhite/hadoop-ecosystem
2.HDFS
HDFSとは

Hadoop Distributed File System、つまり分散ファイルシステムで
す。ファイルシステムですので、HDFS上でファイルやディレクトリを
管理することが出来ます。また、そのファイルシステムが分散されて
いるので、複数台のコンピューターを利用したファイルシステムとい
うことになります。
ファイルの一覧表示(1)

【内容】
絶対パス指定でルートディレクトリ直下のファイルの一覧を表示しま
す。

【コマンド】
$ hadoop fs -ls /

【構文】
hadoop fs -ls <path>
ファイルの一覧表示(2)

【コマンド】
$ hadoop fs -ls /

【結果】
Found 4 items
drwxr-xr-x - training supergroup   0 2009-06-17 16:19 /shared
drwxr-xr-x - training supergroup   0 2009-11-12 14:47 /tmp
drwxr-xr-x - training supergroup   0 2009-11-12 14:47 /user
drwxr-xr-x - hadoop supergroup      0 2010-11-22 23:27 /var
ローカルからHDFSへのコピー(1)

【内容】
ローカルのREADMEファイルをHDFSのホームディレクトリに
hdfs_reameという名前でコピーします。

【コマンド】
$ hadoop fs -copyFromLocal README hdfs_readme
ローカルからHDFSへのコピー(2)

【コマンド】
$ hadoop fs -copyFromLocal README hdfs_readme

【結果】
何も出力されません
【構文】
hadoop fs -copyFromLocal <localsrc...> <hdfspath>
ローカルからHDFSへのコピー(3)

【内容】
ローカルからHDFSにREADMEファイルがコピーされたことを確認し
ます。

【コマンド】
$ hadoop fs -ls
【結果】
Found 1 items
-rw-r--r-- 1 training supergroup   538 2010-12-13 09:09 /user/training/hdfs_readme
HDFSの基本操作

hadoop fs -XXX という形でコマンドライン経由で操作します。具体
的には以下のようなものがあります。
   hadoop fs -ls <path>
   hadoop fs -lsr <path>
   hadoop fs -mkdir <path>
   hadoop fs -rm <path>
   hadoop fs -rmr <path>
   hadoop fs -copyFromLocal <localsrc...> <hdfspath>
   hadoop fs -copyToLocal <hdfspath> <localpath>
   hadoop fs -help

※ pathは相対パスと絶対パスが指定可能で、相対パスはホーム
ディレクトリが起点となります。
HDFSのホームディレクトリ

ホームディレクトリはクライアントのユーザー名から自動的に決定さ
れます。/user/${USER}/ がホームディレクトリになります。
HDFSの権限管理

Unixライクな権限管理の仕組みがあります。ただし、認証の仕組み
はありません。現状は認証なしにユーザー名とグループ名を、クライ
アント側でログインしているアカウントから取得しているだけです。た
だしYahoo版のHadoop(※1)(※2)にはKerberosによる認証が追加
されており、Hadoop0.21.0に取り込まれています(※3)。

※1 http://yahoo.github.com/hadoop-common/
※2 Hadoopは本家Apache版以外にもディストリビューションが存
在します。
※3 Hadoop0.21.0は今年の8/23にリリースされていますが、安定
版(stable)は0.20.2です(2010年12月14日時点)。
ディストリビューション

 本家 http://hadoop.apache.org/
 Yahoo http://yahoo.github.com/hadoop-common/
 Cloudera http://www.cloudera.com/downloads/
 IBM http://alphaworks.ibm.com/tech/idah
 Hudson http://wiki.hudson-ci.
 org/display/HUDSON/Hadoop+Plugin
HDFSの構成
HDFSの耐障害性について

HDFSはNameNodeがシングルマスターであるため、障害発生時に
SPoF(単一障害点)となります。そのため、NameNodeに関しては冗
長化するなどの対応を行う必要があります(※1)。DataNodeに関し
ては複数のコンピューターにデータが複製されており、障害発生時
は他のコンピューターにデータが再度複製されるため問題ありませ
ん。
なお、SecondaryNameNodeはCheckPointNodeと言うべきもので、定
期的にNameNodeのデータをバックアップしているだけです。そのた
め、障害時にNameNodeの代わりに動作するものではありません。

※1 http://togetter.com/li/75188
3.MapReduce
MapReduceとは

並列分散処理用のフレームワークです。mapとreduceという処理を
組み合わせて処理を行う点が特徴です。
wordcount(1)

【内容】
ファイル中の単語数をカウントするMapReduceジョブです。Hadoopに
付属しているサンプルプログラムです。以下のようにして実行しま
す。

【コマンド】
$ hadoop jar /usr/src/hadoop-0.20.1+133/hadoop-0.20.1+133-
examples.jar wordcount hdfs_readme wordcount

【構文】
$ hadoop jar <jarファイルのpath> <実行するジョブ>
 <入力ファイル...> <出力ディレクトリ>
wordcount(2)

【内容】
wordcountの処理結果の確認をします。ホームディレクトリに
wordcountというディレクトリが作成されていることが分かります。

【コマンド】
$ hadoop fs -ls
【結果】
Found 2 items
-rw-r--r-- 1 training supergroup   538 2010-12-13 09:09 /user/training/hdfs_readme
drwxr-xr-x - training supergroup     0 2010-12-15 06:16 /user/training/wordcount
wordcount(3)

【内容】
wordcountディレクトリの中に処理結果のファイル(part-r-00000)が
格納されていることを確認します。

【コマンド】
$ hadoop fs -ls wordcount
【結果】
Found 2 items
drwxr-xr-x - training supergroup     0 2010-12-15 06:15 /user/training/wordcount/_logs
-rw-r--r-- 1 training supergroup   582 2010-12-15 06:15 /user/training/wordcount/part-r-
00000
wordcount(4)

【内容】
処理結果のファイル(part-r-00000)の中身を見てみます。

【コマンド】
$ hadoop fs -cat wordcount/p* | less
【結果】
To    2
You 1
a    1
access 1
all 1
and 3
wordcount:map処理

wordcountであるため、keyが単語、valueが「1」となります。
wordcount:reduce処理

reduceの入力時にkey(単語)ごとにvalue「1」がまとめられます。そ
してreduceにおいて「1」を足して出現回数が求められます。
wordcountのソース(1) : map処理

public static class TokenizerMapper extends
  Mapper<Object, Text, Text, IntWritable> {

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context)
           throws IOException, InterruptedException {
       StringTokenizer itr = new StringTokenizer(value.toString());
       while (itr.hasMoreTokens()) {
           word.set(itr.nextToken());
           context.write(word, one);
       }
     }
}
wordcountのソース(2) : reduce処理

public static class IntSumReducer extends
     Reducer<Text, IntWritable, Text, IntWritable> {
  private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values,
         Context context) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
         sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
}
wordcountのソース(3) : main処理

public static void main(String[] args) throws Exception {
  Configuration conf = new Configuration();
  String[] otherArgs = new GenericOptionsParser(conf, args)
        .getRemainingArgs();
  if (otherArgs.length != 2) {
      System.err.println("Usage: wordcount <in> <out>");
      System.exit(2);
  }
  Job job = new Job(conf, "word count");
  job.setJarByClass(WordCount.class);
  job.setMapperClass(TokenizerMapper.class);
  job.setCombinerClass(IntSumReducer.class);
  job.setReducerClass(IntSumReducer.class);
  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(IntWritable.class);
  FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
  FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
  System.exit(job.waitForCompletion(true) ? 0 : 1);
}
wordcountのソース(4) : Driver

public class ExampleDriver {
  public static void main(String argv[]){
     int exitCode = -1;
     ProgramDriver pgd = new ProgramDriver();
     try {
        pgd.addClass("wordcount", WordCount.class,
           "A map/reduce program that counts the words in the input files.");
        pgd.driver(argv);
        // Success
        exitCode = 0;
     }
     catch(Throwable e){
        e.printStackTrace();
     }
     System.exit(exitCode);
  }
}
MapReduceの構成
MapReduceがやってくれること

 分散処理の制御
   複数台のコンピューターの制御(タスクの割り当て)
   タスクを割り当てたコンピューターに障害が発生した場合に
   別のコンピューターに割り当てて再実行
 入力ファイルの分割
   各mapに処理対象となる入力ファイルを割り当てる
 mapで処理した結果をreduceに渡す
   その際にmapの出力結果についてkey単位でvalueをまとめる
その他の機能

不良レコードのスキップ
カウンター
ジョブスケジューラー
Hadoopストリーミング
  スクリプト言語でmapおよびreduce処理を実装できる。
Hadoop Pipes
  C++でmapおよびreduce処理を実装できる。
4.Hive
Hiveとは

SQLをMapReduceに変換して実行するツールです。Hiveを利用する
ことで、MapReduceプログラムの作成しなくとも、データを抽出した
り、結合したりすることが出来ます。
Hiveのインストール(1)

【前提】
Cloudera's Hadoop Training VM
http://www.vmware.com/appliances/directory/va/78133

【ダウンロードと解凍】
$ wget http://archive.apache.org/dist/hadoop/hive/hive-0.5.0
/hive-0.5.0-bin.tar.gz
$ tar xzf hive-0.5.0-bin.tar.gz
Hiveのインストール(2)

【HDFS上にHiveのディレクトリを作成】
$ cd hive-0.5.0-bin
$ hadoop fs -mkdir /user/hive-0.5.0/warehouse
$ hadoop fs -chmod g+w /user/hive-0.5.0/warehouse
$ sed -i 's;/user/hive/warehouse;/user/hive-0.5.0/warehouse;'
conf/hive-default.xml

【補足】
通常は /user/hive-0.5.0/warehouse だけでなく、 /tmp ディレクトリ
も同様にmkdirしてchmodします。
http://wiki.apache.
org/hadoop/Hive/GettingStarted#Running_Hive
Hive interactive Shellの起動と停止

【起動】
$ bin/hive

【停止】
> quit;

【補足】
Shellの詳細は以下を参照してください。
http://wiki.apache.
org/hadoop/Hive/LanguageManual/Cli#Hive_interactive_Shell_
Command
テーブルの作成

【内容】
テーブルを作成してみます。

【コマンド】
> CREATE TABLE pokes (foo INT, bar STRING);
> SHOW TABLES;

【HDFS】
HDFS上にpokesに対応するディレクトリが作成されています。
> dfs -lsr /user/hive-0.5.0;
データのロード

【内容】
先程作成したpokesテーブルにデータをロードします。

【コマンド】
> LOAD DATA LOCAL INPATH './examples/files/kv1.txt'
OVERWRITE INTO TABLE pokes;
> select * from pokes limit 10;

【HDFS】
HDFS上のHiveディレクトリ内にkv1.txtがコピーされています。
> dfs -lsr /user/hive-0.5.0;
データの抽出

【内容】
count関数を利用してpokesテーブルのレコード件数を集計します。

【コマンド】
> select count(1) from pokes;

MapReduceジョブが起動されることが分かります。このようにSQL
を記述するだけで自動的にMapReduceジョブが生成され処理を行う
ことが出来ます。
explain

【内容】
explainで実行されるMapReduceの実行計画を確認することが出来
ます。

【コマンド】
> explain select count(1) from pokes;

【補足】
構文チェックに利用できます。Hiveはクエリの最小実行時間が長い
上に、途中で処理を止めるのも面倒です。
Hive補足

 SQLがMapReduceに変換されている、つまりファイルを操作して
 いるだけ。
     入力ファイルは全行読み取られる。
     部分更新とかは出来ない。ファイル単位で追加か削除しか
     出来ない。
 開発時はリズムが悪い。explainを使うことで構文チェックできる。
 Ctrl+Cしても止まらない。
     停止するのはHiveのプロセスであって、一度実行した
     MapReduceジョブは別途停止する必要がある。
 デフォルトだと同時に1SQLしか投げられない。
     Metastoreの構築が別途必要になる。
 Cygwinでは動作しない。
5.HangarFlight
とりあえずHadoopを操作してみるには

Cloudera's Hadoop Training VMがお手軽です。入手元としては
ClouderaとVirtual Appliancesがあります。
http://www.cloudera.com/downloads/virtual-machine/
http://www.vmware.com/appliances/directory/va/78133

Virtual Appliancesから落としたファイルはovf形式であるため、
VirtualBoxにインポート可能です。VMWarePlayerで利用する際は
ovftoolを利用してovf形式からvmx形式に変換する必要があります。

ちなみに、HadoopだけならCygwin上にも構築できますが、Hiveは利
用できませんし、激おそなのでおすすめしません。
VirtuslBoxを利用する場合の補足

cloudera-training-0.3.3.ovfの103-111行目を削除しないと
virtualboxにインポート時にエラーになります。以下の部分になりま
す。
 <Item ovf:required="false">
  <rasd:AddressOnParent>3</rasd:AddressOnParent>
  <rasd:AutomaticAllocation>false</rasd:AutomaticAllocation>
  <rasd:Description>Sound Card</rasd:Description>
  <rasd:ElementName>sound</rasd:ElementName>
  <rasd:InstanceID>10</rasd:InstanceID>
  <rasd:ResourceSubType>vmware.soundcard.ensoniq1371</rasd:ResourceSubType>
  <rasd:ResourceType>1</rasd:ResourceType>
 </Item>
おすすめの書籍・サイト

1. ASCII.technologies 2011年1月号
   http://tech.ascii.jp/elem/000/000/569/569332/
2. Hadoopリンクまとめ(1) - 科学と非科学の迷宮
   http://d.hatena.ne.jp/shiumachi/20100425/1272197037
3. slideshare
   http://www.slideshare.net/search/slideshow?
   searchfrom=header&q=hadoop
4. Hadoop(オライリー)
   http://www.oreilly.co.jp/books/9784873114392/
5. Twitter
   http://twitter.com/#!/n3104/hadoop
6. Resources « Cloudera » Apache Hadoop for the Enterprise
   http://www.cloudera.com/resources/?type=Training
ご静聴ありがとうございました!

More Related Content

What's hot

What's hot (20)

Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版) データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
 
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
 
Python 3.9からの新定番zoneinfoを使いこなそう
Python 3.9からの新定番zoneinfoを使いこなそうPython 3.9からの新定番zoneinfoを使いこなそう
Python 3.9からの新定番zoneinfoを使いこなそう
 
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
 
AWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティスAWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティス
 
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことCookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
 
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
 
datatech-jp Casual Talks#3 データエンジニアを採用するための試行錯誤
datatech-jp Casual Talks#3  データエンジニアを採用するための試行錯誤datatech-jp Casual Talks#3  データエンジニアを採用するための試行錯誤
datatech-jp Casual Talks#3 データエンジニアを採用するための試行錯誤
 
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
 
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
 
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
 
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208 次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208
 
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッションオンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッション
 
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
 
SolrとElasticsearchを比べてみよう
SolrとElasticsearchを比べてみようSolrとElasticsearchを比べてみよう
SolrとElasticsearchを比べてみよう
 
PostgreSQLでスケールアウト
PostgreSQLでスケールアウトPostgreSQLでスケールアウト
PostgreSQLでスケールアウト
 
Cassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sqlCassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sql
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
 

Viewers also liked

今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)
Toru Takizawa
 
Hiveハンズオン
HiveハンズオンHiveハンズオン
Hiveハンズオン
Satoshi Noto
 
Programming Hive Reading #3
Programming Hive Reading #3Programming Hive Reading #3
Programming Hive Reading #3
moai kids
 
Hive sourcecodereading
Hive sourcecodereadingHive sourcecodereading
Hive sourcecodereading
wyukawa
 
How to read linux kernel
How to read linux kernelHow to read linux kernel
How to read linux kernel
Naoya Ito
 

Viewers also liked (20)

Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
 
オライリーセミナー Hadoop/Hiveを学ぶ #oreilly0724
オライリーセミナー Hadoop/Hiveを学ぶ #oreilly0724オライリーセミナー Hadoop/Hiveを学ぶ #oreilly0724
オライリーセミナー Hadoop/Hiveを学ぶ #oreilly0724
 
Hadoop for programmer
Hadoop for programmerHadoop for programmer
Hadoop for programmer
 
今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)
 
Hiveハンズオン
HiveハンズオンHiveハンズオン
Hiveハンズオン
 
Upgrading from-hdp-21-to-hdp-24
Upgrading from-hdp-21-to-hdp-24Upgrading from-hdp-21-to-hdp-24
Upgrading from-hdp-21-to-hdp-24
 
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門  #oreilly0724オライリーセミナー Hive入門  #oreilly0724
オライリーセミナー Hive入門 #oreilly0724
 
ソーシャルゲームログ解析基盤のHadoop活用事例
ソーシャルゲームログ解析基盤のHadoop活用事例ソーシャルゲームログ解析基盤のHadoop活用事例
ソーシャルゲームログ解析基盤のHadoop活用事例
 
Programming Hive Reading #3
Programming Hive Reading #3Programming Hive Reading #3
Programming Hive Reading #3
 
Hadoopを40分で理解する #cwt2013
Hadoopを40分で理解する #cwt2013Hadoopを40分で理解する #cwt2013
Hadoopを40分で理解する #cwt2013
 
Hiveを高速化するLLAP
Hiveを高速化するLLAPHiveを高速化するLLAP
Hiveを高速化するLLAP
 
主人が外資系IT企業に転職して4ヶ月が過ぎました
主人が外資系IT企業に転職して4ヶ月が過ぎました主人が外資系IT企業に転職して4ヶ月が過ぎました
主人が外資系IT企業に転職して4ヶ月が過ぎました
 
Hive sourcecodereading
Hive sourcecodereadingHive sourcecodereading
Hive sourcecodereading
 
Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析
 
How to read linux kernel
How to read linux kernelHow to read linux kernel
How to read linux kernel
 
Upgrading from-hdp-21-to-hdp-25
Upgrading from-hdp-21-to-hdp-25Upgrading from-hdp-21-to-hdp-25
Upgrading from-hdp-21-to-hdp-25
 
Internal Hive
Internal HiveInternal Hive
Internal Hive
 
Hive Anatomy
Hive AnatomyHive Anatomy
Hive Anatomy
 
Hive: Loading Data
Hive: Loading DataHive: Loading Data
Hive: Loading Data
 
How to understand and analyze Apache Hive query execution plan for performanc...
How to understand and analyze Apache Hive query execution plan for performanc...How to understand and analyze Apache Hive query execution plan for performanc...
How to understand and analyze Apache Hive query execution plan for performanc...
 

Similar to ただいまHadoop勉強中

Node-v0.12の新機能について
Node-v0.12の新機能についてNode-v0.12の新機能について
Node-v0.12の新機能について
shigeki_ohtsu
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
bigt23
 
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
YoheiOkuyama
 

Similar to ただいまHadoop勉強中 (20)

WDD2012_SC-004
WDD2012_SC-004WDD2012_SC-004
WDD2012_SC-004
 
Googleの基盤クローン Hadoopについて
Googleの基盤クローン HadoopについてGoogleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
 
MapReduce入門
MapReduce入門MapReduce入門
MapReduce入門
 
クラウド時代の並列分散処理技術
クラウド時代の並列分散処理技術クラウド時代の並列分散処理技術
クラウド時代の並列分散処理技術
 
Cloud computing competition by Hapyrus
Cloud computing competition by HapyrusCloud computing competition by Hapyrus
Cloud computing competition by Hapyrus
 
Rakuten tech conf
Rakuten tech confRakuten tech conf
Rakuten tech conf
 
Scala on Hadoop
Scala on HadoopScala on Hadoop
Scala on Hadoop
 
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
 
Node-v0.12の新機能について
Node-v0.12の新機能についてNode-v0.12の新機能について
Node-v0.12の新機能について
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
 
Hadoop事始め
Hadoop事始めHadoop事始め
Hadoop事始め
 
HDPをWindowsで動かしてみた
HDPをWindowsで動かしてみたHDPをWindowsで動かしてみた
HDPをWindowsで動かしてみた
 
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
 
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知るMapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
 
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
 
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
 
SASとHadoopとの連携
SASとHadoopとの連携SASとHadoopとの連携
SASとHadoopとの連携
 
Asakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for HadoopAsakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for Hadoop
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
 

More from Satoshi Noto (10)

このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)
 
読書会のすすめ
読書会のすすめ読書会のすすめ
読書会のすすめ
 
データ分析チームの振り返り
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返り
 
Amazon Machine Learning概要
Amazon Machine Learning概要Amazon Machine Learning概要
Amazon Machine Learning概要
 
Tez on EMRを試してみた
Tez on EMRを試してみたTez on EMRを試してみた
Tez on EMRを試してみた
 
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側
 
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみたFullbokをがっつり使ってみた
Fullbokをがっつり使ってみた
 
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 

ただいまHadoop勉強中