Enviar pesquisa
Carregar
Hadoop概要説明
•
8 gostaram
•
32,690 visualizações
Satoshi Noto
Seguir
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 44
Baixar agora
Baixar para ler offline
Recomendados
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Recruit Technologies
Hadoop入門
Hadoop入門
Preferred Networks
Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-
Yuki Gonda
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera Japan
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
ヤフー発のメッセージキュー「Pulsar」のご紹介
ヤフー発のメッセージキュー「Pulsar」のご紹介
Yahoo!デベロッパーネットワーク
Recomendados
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Recruit Technologies
Hadoop入門
Hadoop入門
Preferred Networks
Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-
Yuki Gonda
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera Japan
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
ヤフー発のメッセージキュー「Pulsar」のご紹介
ヤフー発のメッセージキュー「Pulsar」のご紹介
Yahoo!デベロッパーネットワーク
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
Presto on YARNの導入・運用
Presto on YARNの導入・運用
cyberagent
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan
元OracleMasterPlatinumがCloudSpanner触ってみた
元OracleMasterPlatinumがCloudSpanner触ってみた
Kumano Ryo
超実践 Cloud Spanner 設計講座
超実践 Cloud Spanner 設計講座
Samir Hammoudi
事例で学ぶApache Cassandra
事例で学ぶApache Cassandra
Yuki Morishita
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
Yuki Gonda
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
NTT DATA Technology & Innovation
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
NTT DATA OSS Professional Services
PostgreSQLによるデータ分析ことはじめ
PostgreSQLによるデータ分析ことはじめ
Ohyama Masanori
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
NTT DATA Technology & Innovation
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
ベアメタルで実現するSpark&Trino on K8sなデータ基盤
ベアメタルで実現するSpark&Trino on K8sなデータ基盤
MicroAd, Inc.(Engineer)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
NTT DATA Technology & Innovation
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
NTT DATA Technology & Innovation
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
Ken SASAKI
地理分散DBについて
地理分散DBについて
Kumazaki Hiroki
Azure Synapse Analytics 専用SQL Poolベストプラクティス
Azure Synapse Analytics 専用SQL Poolベストプラクティス
Microsoft
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
日本ヒューレット・パッカード株式会社
Hadoop loves H2
Hadoop loves H2
Tadashi Satoh
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
Mais conteúdo relacionado
Mais procurados
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
Presto on YARNの導入・運用
Presto on YARNの導入・運用
cyberagent
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan
元OracleMasterPlatinumがCloudSpanner触ってみた
元OracleMasterPlatinumがCloudSpanner触ってみた
Kumano Ryo
超実践 Cloud Spanner 設計講座
超実践 Cloud Spanner 設計講座
Samir Hammoudi
事例で学ぶApache Cassandra
事例で学ぶApache Cassandra
Yuki Morishita
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
Yuki Gonda
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
NTT DATA Technology & Innovation
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
NTT DATA OSS Professional Services
PostgreSQLによるデータ分析ことはじめ
PostgreSQLによるデータ分析ことはじめ
Ohyama Masanori
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
NTT DATA Technology & Innovation
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
ベアメタルで実現するSpark&Trino on K8sなデータ基盤
ベアメタルで実現するSpark&Trino on K8sなデータ基盤
MicroAd, Inc.(Engineer)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
NTT DATA Technology & Innovation
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
NTT DATA Technology & Innovation
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
Ken SASAKI
地理分散DBについて
地理分散DBについて
Kumazaki Hiroki
Azure Synapse Analytics 専用SQL Poolベストプラクティス
Azure Synapse Analytics 専用SQL Poolベストプラクティス
Microsoft
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
日本ヒューレット・パッカード株式会社
Mais procurados
(20)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Presto on YARNの導入・運用
Presto on YARNの導入・運用
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
元OracleMasterPlatinumがCloudSpanner触ってみた
元OracleMasterPlatinumがCloudSpanner触ってみた
超実践 Cloud Spanner 設計講座
超実践 Cloud Spanner 設計講座
事例で学ぶApache Cassandra
事例で学ぶApache Cassandra
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
PostgreSQLによるデータ分析ことはじめ
PostgreSQLによるデータ分析ことはじめ
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
ベアメタルで実現するSpark&Trino on K8sなデータ基盤
ベアメタルで実現するSpark&Trino on K8sなデータ基盤
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
地理分散DBについて
地理分散DBについて
Azure Synapse Analytics 専用SQL Poolベストプラクティス
Azure Synapse Analytics 専用SQL Poolベストプラクティス
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
Semelhante a Hadoop概要説明
Hadoop loves H2
Hadoop loves H2
Tadashi Satoh
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
ThinkIT_impress
ゾウ使いへの第一歩
ゾウ使いへの第一歩
Fumito Ito
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
GoAzure
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
Kotaro Tsukui
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
Takashi Aoe
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Cloudera Japan
Hadoop
Hadoop
Atsushi Shimura
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
Shinichi YAMASHITA
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
Shinichi YAMASHITA
Hadoop事始め
Hadoop事始め
You&I
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
SASとHadoopとの連携
SASとHadoopとの連携
SAS Institute Japan
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
Hadoopことはじめ
Hadoopことはじめ
Katsunori Kanda
Semelhante a Hadoop概要説明
(20)
Hadoop loves H2
Hadoop loves H2
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
ゾウ使いへの第一歩
ゾウ使いへの第一歩
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Hadoop
Hadoop
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
Hadoop事始め
Hadoop事始め
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
SASとHadoopとの連携
SASとHadoopとの連携
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
Hadoopことはじめ
Hadoopことはじめ
Mais de Satoshi Noto
このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)
Satoshi Noto
読書会のすすめ
読書会のすすめ
Satoshi Noto
データ分析チームの振り返り
データ分析チームの振り返り
Satoshi Noto
Amazon Machine Learning概要
Amazon Machine Learning概要
Satoshi Noto
Tez on EMRを試してみた
Tez on EMRを試してみた
Satoshi Noto
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側
Satoshi Noto
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみた
Satoshi Noto
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?
Satoshi Noto
Hiveハンズオン
Hiveハンズオン
Satoshi Noto
MapReduceプログラミング入門
MapReduceプログラミング入門
Satoshi Noto
MapReduce入門
MapReduce入門
Satoshi Noto
ただいまHadoop勉強中
ただいまHadoop勉強中
Satoshi Noto
Mais de Satoshi Noto
(12)
このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)
読書会のすすめ
読書会のすすめ
データ分析チームの振り返り
データ分析チームの振り返り
Amazon Machine Learning概要
Amazon Machine Learning概要
Tez on EMRを試してみた
Tez on EMRを試してみた
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみた
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?
Hiveハンズオン
Hiveハンズオン
MapReduceプログラミング入門
MapReduceプログラミング入門
MapReduce入門
MapReduce入門
ただいまHadoop勉強中
ただいまHadoop勉強中
Hadoop概要説明
1.
Hadoop概要説明 2011-‐‑‒04-‐‑‒08 社内勉強会
2.
目次 1.What is Hadoop? 2.HDFS
& MapReduce 3.オープンソース 4.事例
3.
1.What is Hadoop?
4.
巨大なデータをバッチ処理するた めの並列分散処理基盤
5.
並列分散処理とは、ある1つの処理 を分割して、同時に処理を行うこ とを指す。並列分散処理すること で処理時間を短縮することが出来 る。
6.
Hadoopは数千台のサーバーを利 用して並列分散処理を行うことが 出来る。そのため、処理時間を数 千分の一に減らすことが出来る。
7.
例えばサーバー1台の場合に100 日かかる処理があったと仮定する。 この処理を100台のサーバーで構 成されるHadoopを利用すること で、処理時間を1日に減らすことが 出来る。
8.
ただし、、、
9.
100秒かかる処理を1秒に減らす ことは出来ない。ジョブの起動だ けで30秒近くかかる。そのため、 バッチ処理専用である。
10.
また、サーバー台数に応じて処理 能力が直線的に向上する代償とし て、Hadoopには色々と制約が存 在する。
11.
2.HDFS & MapReduce
12.
HadoopはコアとなるHDFSと MapReduce以外にも、様々な関 連コンポーネントが存在している。
13.
http://www.slideshare.net/cloudera/eclipsecon-keynote より引用
14.
今回はHDFSとMapReduceにつ いて説明する。
15.
まずはHDFS
16.
HDFS(Hadoop Distributed File System)は分散ファイルシス テムである。複数のサーバーにファ イルを分割して保持することで巨 大なファイルも扱える。
17.
HDFSのアーキテクチャ
18.
http://hadoop.apache.org/hdfs/docs/current/hdfs_design.html より引用
19.
http://www.slideshare.net/cloudera/eclipsecon-keynote より引用
20.
HDFSはマスター・スレイブ構成 になっており、1台のNameNode と複数台DataNodeによって構成 される。
21.
データを複数台のDataNodeで分 割して保持することで、ペタバイ トのファイルを扱うことが出来る。
22.
また、同じデータをDataNode間 で複製しているため、ある DataNodeが故障しても継続して 利用出来る。故障したDataNode のデータは他のDataNodeに再度 複製される。
23.
ただし、、、
24.
一度書き込んだファイルの更新は 出来ないという制約がある。
25.
また、NameNodeが故障した場 合はHDFS全体が利用できなくな る。そのため、NameNodeの耐 障害性を向上したい場合は、別途 対応を行う必要がある。
26.
次にMapReduce
27.
MapReduceは分散処理フレーム ワークである。
28.
MapReduceもマスター・スレイ ブ構成になっており、1台の JobTrackerと複数台 TaskTrackerによって構成される。
29.
MapReduceの流れ
30.
Googleを支える技術 より引用
31.
http://www.slideshare.net/cloudera/eclipsecon-keynote より引用
32.
処理を自由に書けるわけではなく、 mapとreduceという処理の中身 を規約に従って記述する必要があ る。
33.
3.オープンソース
34.
HadoopはGoogleが公開したGFS およびMapReduceの論文を参考 にして作られている。
35.
Googleの技術との対応 Google Hadoop 分散ファイル システム GFS (Google File
System) HDFS (Hadoop Distributed File System) 分散処理 フレームワーク MapReduce Hadoop MapReduce
36.
GFSおよびMapReduceは論文の みが公開されていてソースは公開 されていない。一方、Hadoopは Apacheでホストされていて、オー プンソースである。
37.
そのため、Hadoopには様々なディ ストリビューションが存在する。
38.
ディストリビューション •Cloudera s Distribution
including Apache Hadoop (CDH) •Yahoo! Distribution of Hadoop •IBM Distribution of Apache Hadoop
39.
さらに
40.
Amazon Elastic MapReduce (EMR)
を利用すれば、サービスと してHadoopを利用出来る。
41.
4.事例
42.
事例1:Yahoo ソート •1テラバイトを62秒 (1460Node) •1ペタバイトを16時間強 (3558Node) http://storageconference.net/2010/Presentations/Research/9.Shvachko.pdf
43.
事例2:ニューヨークタイムズ データ変換 1100万強の記事のスキャン画像(4TB)をAWS 上にHadoopを構築 (100Node) して
24時 間でPDF(1.5TB)に変換した。 http://open.blogs.nytimes.com/2007/11/01/self-service-prorated-super-computing-fun/
44.
事例3:クックパッド データ解析 MySQLで7000時間かかるデータ 解析処理をHadoopを利用するこ とで30時間に短縮した。 http://www.slideshare.net/sasata299/961-5483293
Notas do Editor
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
Baixar agora