Enviar pesquisa
Carregar
Hadoop / MapReduce とは
•
7 gostaram
•
5,113 visualizações
Takeshi Matsuoka
Seguir
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 12
Recomendados
MapReduce解説
MapReduce解説
Shunsuke Aihara
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
Yoji Kiyota
Hadoopことはじめ
Hadoopことはじめ
均 津田
ただいまHadoop勉強中
ただいまHadoop勉強中
Satoshi Noto
Apache Hive 紹介
Apache Hive 紹介
あしたのオープンソース研究所
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
Cloudera Japan
Hadoop loves H2
Hadoop loves H2
Tadashi Satoh
Recomendados
MapReduce解説
MapReduce解説
Shunsuke Aihara
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
Yoji Kiyota
Hadoopことはじめ
Hadoopことはじめ
均 津田
ただいまHadoop勉強中
ただいまHadoop勉強中
Satoshi Noto
Apache Hive 紹介
Apache Hive 紹介
あしたのオープンソース研究所
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
Cloudera Japan
Hadoop loves H2
Hadoop loves H2
Tadashi Satoh
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
FlyData Inc.
今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)
Toru Takizawa
Hadoop for programmer
Hadoop for programmer
Sho Shimauchi
Hadoop入門
Hadoop入門
Preferred Networks
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan
MapReduceプログラミング入門
MapReduceプログラミング入門
Satoshi Noto
SASとHadoopとの連携
SASとHadoopとの連携
SAS Institute Japan
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
maruyama097
MapReduce入門
MapReduce入門
Satoshi Noto
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門 #oreilly0724
Cloudera Japan
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
Hadoop概要説明
Hadoop概要説明
Satoshi Noto
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
MapR Technologies Japan
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
はやわかりHadoop
はやわかりHadoop
Shinpei Ohtani
MapR M7 技術概要
MapR M7 技術概要
MapR Technologies Japan
世界一簡単なHadoopの話
世界一簡単なHadoopの話
Koichi Shimazaki
Hadoop 基礎
Hadoop 基礎
hideaki honda
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
Cloudera Japan
Hadoop導入事例 in クックパッド
Hadoop導入事例 in クックパッド
Tatsuya Sasaki
Mais conteúdo relacionado
Mais procurados
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
FlyData Inc.
今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)
Toru Takizawa
Hadoop for programmer
Hadoop for programmer
Sho Shimauchi
Hadoop入門
Hadoop入門
Preferred Networks
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan
MapReduceプログラミング入門
MapReduceプログラミング入門
Satoshi Noto
SASとHadoopとの連携
SASとHadoopとの連携
SAS Institute Japan
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
maruyama097
MapReduce入門
MapReduce入門
Satoshi Noto
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門 #oreilly0724
Cloudera Japan
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
Hadoop概要説明
Hadoop概要説明
Satoshi Noto
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
MapR Technologies Japan
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
はやわかりHadoop
はやわかりHadoop
Shinpei Ohtani
MapR M7 技術概要
MapR M7 技術概要
MapR Technologies Japan
世界一簡単なHadoopの話
世界一簡単なHadoopの話
Koichi Shimazaki
Hadoop 基礎
Hadoop 基礎
hideaki honda
Mais procurados
(20)
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)
Hadoop for programmer
Hadoop for programmer
Hadoop入門
Hadoop入門
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
MapReduceプログラミング入門
MapReduceプログラミング入門
SASとHadoopとの連携
SASとHadoopとの連携
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
MapReduce入門
MapReduce入門
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門 #oreilly0724
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Hadoop概要説明
Hadoop概要説明
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
はやわかりHadoop
はやわかりHadoop
MapR M7 技術概要
MapR M7 技術概要
世界一簡単なHadoopの話
世界一簡単なHadoopの話
Hadoop 基礎
Hadoop 基礎
Destaque
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
Cloudera Japan
Hadoop導入事例 in クックパッド
Hadoop導入事例 in クックパッド
Tatsuya Sasaki
JVM and OS Tuning for accelerating Spark application
JVM and OS Tuning for accelerating Spark application
Tatsuhiro Chiba
Hadoop Conference Japan 2016 LT資料 グラフデータベース事始め
Hadoop Conference Japan 2016 LT資料 グラフデータベース事始め
オラクルエンジニア通信
Stormとその周辺 2013.03.15
Stormとその周辺 2013.03.15
Minoru Chikamune
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
ライブストリーミングの基礎知識その2
ライブストリーミングの基礎知識その2
kumaryu
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
Yu Ishikawa
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Nagato Kasaki
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
NTT DATA OSS Professional Services
Developer Summit 2017
Developer Summit 2017
Hirotaka Niisato
Wireshark入門(4)
Wireshark入門(4)
彰 村地
Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発
Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発
Ryo 亮 Kawahara 河原
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
Destaque
(17)
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
Hadoop導入事例 in クックパッド
Hadoop導入事例 in クックパッド
JVM and OS Tuning for accelerating Spark application
JVM and OS Tuning for accelerating Spark application
Hadoop Conference Japan 2016 LT資料 グラフデータベース事始め
Hadoop Conference Japan 2016 LT資料 グラフデータベース事始め
Stormとその周辺 2013.03.15
Stormとその周辺 2013.03.15
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
ライブストリーミングの基礎知識その2
ライブストリーミングの基礎知識その2
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
Developer Summit 2017
Developer Summit 2017
Wireshark入門(4)
Wireshark入門(4)
Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発
Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
Semelhante a Hadoop / MapReduce とは
Hadoopの紹介
Hadoopの紹介
bigt23
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
Yoshiyuki Nakamura
Hadoop
Hadoop
Atsushi Shimura
WDD2012_SC-004
WDD2012_SC-004
Kuninobu SaSaki
OSC2012 OSC.DB Hadoop
OSC2012 OSC.DB Hadoop
Shinichi YAMASHITA
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
Googleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
Kazuki Ohta
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
CDH4.1オーバービュー
CDH4.1オーバービュー
Cloudera Japan
Osc2012 spring HBase Report
Osc2012 spring HBase Report
Seiichiro Ishida
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
Insight Technology, Inc.
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Cloudera Japan
MapReduceからの
MapReduceからの
Shotaro Tsubouchi
Hadoopとその周辺の紹介
Hadoopとその周辺の紹介
Shinya Okano
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
Shinichi YAMASHITA
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
decode2016
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食い
Ryuji Tamagawa
Semelhante a Hadoop / MapReduce とは
(20)
Hadoopの紹介
Hadoopの紹介
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
Hadoop
Hadoop
WDD2012_SC-004
WDD2012_SC-004
OSC2012 OSC.DB Hadoop
OSC2012 OSC.DB Hadoop
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Googleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
CDH4.1オーバービュー
CDH4.1オーバービュー
Osc2012 spring HBase Report
Osc2012 spring HBase Report
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
MapReduceからの
MapReduceからの
Hadoopとその周辺の紹介
Hadoopとその周辺の紹介
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
DBP-011_Apache Spark for Azure HDInsight ~新世代の Big Data 処理基盤~
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食い
Último
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Shota Ito
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
osamut
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
furutsuka
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Atomu Hidaka
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
Último
(9)
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
Hadoop / MapReduce とは
1.
Hadoop/MapReduce とは
2.
Hadoop ● Java で書かれた分散処理フレームワーク ●
HDFS 複数サーバにファイルを分散して、一つのファイ ルのように扱える。 ● HDFS 上のファイルより、MapReduce アルゴリズムで の処理が可能
3.
MapReduce ● Mapper で与えられたデータを
"キー,値" に変換する ● Reducer に "キー,値のリスト(値, 値, ...)" が渡される。 Reducer は "キー,値" に集約する ● このロジックで分散できるっていう話 ● Hadoop Streaming というツールで、好みの言語で MapReduce できる。 WordCount サンプルがやってることは ● Mapper で与えられたアクセスログ行から "単語, 1" の行を書き出す。 ● Reducer で "単語,(1,1,1,...)" から "単語,単語数" に集計して書き出す
4.
「この商品を買った人はこんな商品も買っています」 w/ MapReduce MapReduce アルゴリズムのイメージを掴むためのものです。 機械学習の協調フィルタリング
Collaborative Filtering 等とは異なります。
5.
UserID, ItemID -------------------------- 1, 10001 1,
10002 3, 10001 1, 10003 2, 10002 1, 10005 2, 10004 3, 10005 3, 10002 -------------------------- 以下のような購入履歴テキストデータから --- 区切りの単位で Mapper に 分散されるとする。 -------------------------- サーバA 1, 10001 1, 10002 3, 10001 -------------------------- サーバB 1, 10003 2, 10002 1, 10005 -------------------------- サーバC 2, 10004 3, 10005 3, 10002 --------------------------
6.
-------------------------- サーバA 1, 10001:10002 3, 10001 -------------------------- サーバB 1,
10003:10005 2, 10002 -------------------------- サーバC 2, 10004 3, 10002:10005 -------------------------- Mapper Reducer 1, 10001:10002:10003:10005 2, 10002:10004 3, 10001:10002:10005 key = ユーザID value = (アイテムID):(アイテムID):... ユーザIDをキーにしてアイテムID文字列を結合する。 要するに GROUP BY ユーザID
7.
#!/usr/bin/env ruby results =
{} while line = STDIN.gets vals = line.strip.split(",") results[vals[0]] = [] unless results.key?(vals[0]) results[vals[0]] << vals[1] end results.each do |key, value| str = value.join(":") print "#{key}t#{str}n" end Mapper
8.
#!/usr/bin/env ruby lastkey =
"" items = [] while line = STDIN.gets vals = line.strip.split("t") if lastkey != "" && vals[0] != lastkey value = items.join(":") print "#{lastkey}t#{value}n" items = [] end vals[1].split(":").each do |item| items << item unless items.include?(item) end lastkey = vals[0] end if lastkey != "" value = items.join(":") print "#{lastkey}t#{value}n" end Reducer
9.
-------------------------- サーバA 10001:10002, 1 10001:10003, 1 10001:10005,
1 10002:10001, 1 10002:10003, 1 10002:10005, 1 10003:10001, 1 10003:10002, 1 10003:10005, 1 10005:10001, 1 10005:10002, 1 10005:10003, 1 -------------------------- サーバB 10002:10004,1 10004:10002,1 -------------------------- サーバC 10001:10002, 1 10001:10005, 1 10002:10001, 1 10002:10005, 1 10005:10001, 1 10005:10002, 1 -------------------------- Mapper Reducer 関連する2アイテムIDをキーとして同時購入をカウント 10001:10002, 2 10001:10003, 1 10001:10005, 2 10002:10001, 2 10002:10003, 1 10002:10004, 1 10002:10005, 2 10003:10001, 1 10003:10002, 1 10003:10004, 1 10003:10005, 1 10004:10002, 1 10005:10001, 2 10005:10002, 2 10005:10003, 1 key = (アイテムID):(関連アイテムID) value = 関連アイテム購入数 要するに GROUP BY (アイテムID):(関連アイテムID)
10.
あとは抽出データをSQLデータベースなどに入れて活用する。関連アイテムの同 時購入数の多いものを類似アイテムとする。 -- "10001:10002, 2" INSERT
INTO recommend_items (target_item, similar_item, similarity) VALUES ("10001", "10002", 2); --"10001:10003, 1" INSERT INTO recommend_items (target_item, similar_item, similarity) VALUES ("10001", "10003", 1); .... SELECT similar_item FROM recommed_items WHERE target_item = "10001" ORDER BY similarity DESC LIMIT 10;
11.
-------------------------- サーバA 10001,10002-2 10001,10003-1 10001,10005-2 10002,10001-2 10002,10003-1 -------------------------- サーバB 10002,10004-1 10002,10005-2 10003,10001-1 10003,10002-1 10003,10004-1 -------------------------- サーバC 10003,10005-1 10004,10002-1 10005,10001-2 10005,10002-2 10005,10003-1 -------------------------- Mapper Reducer アイテムIDをキーでグループ化し、Reducer で条件に合わな い関連アイテムIDを除外することもできる。2未満は含めない 場合の例 10001,10002-2:10005-2:10001-2 10002,10001-2:10005-2 10005:10001-2 key =
アイテムID value = (関連アイテムID)-(同時購入数):.... 要するに GROUP BY (アイテムID) HAVING (同時購入数) > 1 Hadoop の稼働コストのほうがかかるので、集計が終わったら Hadoop 外でやるほうがよい。次の Job に引き継ぐためのデータであったり、不要なゴミデータばかりでデータ量が大きすぎる場合には有効。
12.
要するに GROUP BY の繰り返し ● Mapper
で GROUP のキーを作る ● Reducer で集計結果を得る