SlideShare uma empresa Scribd logo
1 de 46
Hadoop能為我們做什麼?
- 觀察、想像、對未來的投資
徐瑞興
Simon Hsu
2014年6月20日
2
3
4
About Me
• 徐瑞興 (Simon Hsu)
– 成功大學資工系 98級 / 成功大學電通所 100級
• 研究所時期開始接觸 Hadoop (高效能平行分散系統實驗室)
– “A Transparent Approach to Run
MapReduce Programs on Collaborative Hadoops” – IEEE
BigData 2014
• 曾於鴻海-中央資訊總處研發部門
– 負責集團 - Hadoop產品維運/開發
• 現於精誠資訊-Etu(知意圖) 擔任技術經理
– 從事 Hadoop (Etu/Cloudera) 相關解決方案/產品研發
5
Overview
• Hadoop & Big Data
• Hadoop
– HDFS / MapReduce Workflow
– Hadoop Ecosystem Tools Introduction
• Resources
6
Her (雲端情人)
http://www.huffingtonpost.com/marshall-fine/movie-
review-iheri_b_4459420.html
7
We live in an age of rapid change..
http://b0.rimg.tw/ciltw/22fde0c3.jpg
http://pic.pimg.tw/fyu45/1358000174-162486648.jpg
(Before Steve jobs released iPhone in 2007..)
8
We live in an age of rapid change..
2007
http://www.computerhistory.org/atchm/steve-jobs/
http://www.businessinsider.com.au/yahoo-wants-to-keep-users-engaged-with-one-shop-shop-mobile-video-app-2013-9
9
Jerry’s Siri Screenshots
10
你對Big Data存在什麼想像?
• Etu:大數據時代篇
– https://www.youtube.com/watch?v=wc2durk8p9o
11http://media2.hpcwire.com/datanami/hadoopelephant.jpg
12
Transcedence (全面進化)
http://moviefloss.com/transcendence-movie-review-
human-one-day-computer/
13
• Stephen Hawking: The creation of true AI could be the
'greatest event in human history‘
史蒂芬·霍金 的<全面進化>觀後感
http://www.independent.co.uk/news/science/stephen-hawking-transcendence-looks-at-the-
implications-of-artificial-intelligence--but-are-we-taking-ai-seriously-enough-9313474.html
14
says a group of leading scientists..
• 人工智慧或許是人類歷史上最大的事件,而且還有可能是最後
的事件
– Success in creating AI would be the biggest event in human
history. Unfortunately, it might also be the last, unless we
learn how to avoid the risks
• 當電腦有一天可以自己讀懂文章時,會發生什麼事情?
• 當每件物品都具備聯網能力時,會發生什麼事情?
http://www.independent.co.uk/news/science/stephen-hawking-transcendence-looks-at-the-
implications-of-artificial-intelligence--but-are-we-taking-ai-seriously-enough-9313474.html
15
從物聯網角度看Big Data
• <科學月刊>2014.6月號
– 物聯網
• 智慧醫療
• 智慧農業
16
物聯網 - IoT架構及關鍵技術
17
智慧醫療
<科學月刊> 2014年 6月號
18
智慧農業 (1/2)
<科學月刊> 2014年 6月號
19
智慧農業 (2/2)
<科學月刊> 2014年 6月號
20
FamilyAsyst @Computex 2014
21
FamilyAsyst Screenshots
22
3Vs in Big Data
http://www.geektime.com/2013/10/24/the-3-vs-of-big-data-
and-their-technologies/
23
Brief of Hadoop
• Hadoop 之父
– Doug Cutting
• Hadoop
– 特點
• 為批次處理,大量運算而生
• 儲存成本低
• 運算就資料 (Locality)
– 主要架構
• HDFS
– 分散式儲存檔案系統
• MapReduce
– 分散式運算框架
http://www.cnbc.com/id/100769719
24
Relations between Hadoop and Google
• The Google File System
– 2003年 SOSP 會議
• MapReduce : Simplified Data Processing on Large Cluster
– 2004 年 OSDI 會議
• Bigtable : A Distributed Storage System for Structured Data
– 2006年 OSDI 會議
Hadoop Distributed File System (Storage)
MapReduce framework (Processing)
HBase (Database)
Hadoop Community
25
HDFS
• NameNode
– 組成及功能
• 檔案索引 (FileSystem Image)
– File Index (with meta data)
– Mapping of File and Block
– Locations of each Block
• 操作紀錄 (Journal)
– Operations of Namespace
– 定時與DataNode連線監測狀態
• 連線情況
• 儲存空間使用情況
NameNode
FileSystem
Image
Journal
Logs of creating,
deletion, rename
of the namespace
Root
DirDir Dir
File
Block Block
26
HDFS
• DataNode
– 存放Block資料內容
• 每個Block預設大小 : 128MB
– 定時與NameNode連線監測狀態
• 連線情況
• 儲存空間使用情況
• 回報Block列表給NameNode
27
一個幫助理解HDFS的概念
Local file system
(/home/simon/testinput)
DFS Shell / DFS API
NN DN DN
HDFS
/user/simon/testinput
• 要讓Hadoop幫你工作,要先上傳檔案到Hadoop認識的檔案系統
28
Hadoop Data Distribution
http://www.cloudera.com/content/cloudera/en/produ
cts-and-services/cdh/hdfs-and-mapreduce.html
Logical View Physical View
29
HDFS – 寫檔流程
NameNode
(replication factor : 2)
Agent
File 1
DataNode 1 DataNode 2 DataNode 3
告訴NameNode即將上傳File1
(包含檔案大小、檔案類型等資訊)1
根據Data Block備份機制,
Block 1選出 DN1、DN2存放
Block 2 選出DN2、DN3存放
3
根據分散式儲存理念,
將File1分成多個Block存放
(此例為 Block 1 及 Block 2)
2
NameNode回傳一個輸出流供Agent寫入
(內容包含待寫入的Block及DN資訊)
主節點
(檔案索引)
資料節點
(資料區塊)
資料節點
(資料區塊)
資料節點
(資料區塊)
4
File 1
Block 1
Block 2
=
Block 1
Block 2Block 2Block 1
30
HDFS – 讀檔流程
NameNode
(replication factor : 2)
Agent
DataNode 1 DataNode 2 DataNode 3
向NameNode提出要下載File1需
求( 透過DFS Shell / DFS API )1
透過NameNode資訊,
查到各Block相關存放位置
Block1放在DN1、DN2
Block2放在DN2、DN3
3
透過NameNode資訊,
查到File1分為Block1、Block2存放2
NameNode回傳一個輸入流
(內容包含上述資訊)
主節點
(檔案索引)
資料節點
(資料區塊)
資料節點
(資料區塊)
資料節點
(資料區塊)
4
File 1
Block 1
Block 2
=
Block 1
Block 2Block 2Block 1
31
Then, How MapReduce work?
http://joyreactor.com/post/821302
32
MapReduce
• JobTracker (指揮工作者)
– JobTracker將 map 和 reduce 的執行工作,依 Locality 、
Feedbacks of heartbeat (failure node / faster node) 進行排程後,
指派給 TaskTracker上的map worker 或 reduce worker
• TaskTracker (實際工作者)
– 預設一個TaskTracker上可執行2個worker (map worker or reduce
worker)
• 每個worker接受 JobTracker 的指派工作類型,執行map
function 或reduce function
33
用一個例子解釋MapReduce概念
南區分行中區分行北區分行
第1 ~ 300號
客戶帳戶明細
第301 ~ 600號
客戶帳戶明細
第601 ~ 900號
客戶帳戶明細
map mapmap
統計結果reduce
瑞興銀行想統計
全省客戶總資產
34
http://www.slideshare.net/waue/hadoop-
map-reduce-3019713
MapReduce Workflow
35
WordCount Example
Hi, be a winner, do
not be a loser.
map
map
map
Hi, 1
be, 1
a, 1
winner, 1
do, 1
not, 1
be, 1
a, 1
loser, 1
reduce
reduce
a, 2
be, 2
do, 1
loser, 1
not, 1
winner, 1
Hi, 1
a, 2
be, 2
do, 1
loser, 1
not, 1
winner, 1
Hi, 1
36
Hadoop Ecosystem (Still growing rapidly)
Hadoop Distributed File System
(File System)
MapReduce
(Processing)
Sqoop / Flume
(Data Integration)
Pig / Hive
(Analytical language)
Mahout
(Data mining) ….
HBase
(Database)
Zookeeper
(Lock service)
37
Example : MapReduce vs Hive
Map/Reduce
Hive
38
Map/Reduce
Pig
Example : MapReduce vs Pig
“About 40% of M/R jobs in Yahoo are written using Pig “
39
• Sqoop 是 Hadoop Eco-System 中,
用來存取大量數據與資料的工具,
主要功能:
1. 從 RDBMS 匯入資料到 HDFS /
Hbase / Hive
2. 從 HDFS / Hbase / Hive 匯出資料
到 RDBMS
map-only job
Sqoop
http://blog.cloudera.com/blog/2012/01/apache
-sqoop-highlights-of-sqoop-2/
40
Hadoop at glance..
http://ambuj4bigdata.blogspot.tw/2014/05/hadoop-at-glance.html
41
後記
• 我的租屋廣告觀察經驗分享
– 累積瀏覽人次比較
– 行動版與電腦版-瀏覽人次比較 (5X1租屋)
– 各時段瀏覽人次統計
• 如何爬資料,請參考:
– 資料爬理析 Python 實戰班
• http://www.etusolution.com/DSP/edm_dsp_ETL2.html
http://goo.gl/gYNFW1
http://simonhsu.github.io/rent/
42
About Etu
• Etu - Big Data Solution
– 軟硬一體機產品
• Etu Appliance - 運算與儲存並具的Big Data處理平台
– 客戶對象分類
• 電信業
– TQuery - 電信巨量資料多樣查詢平台
• 電子商務
– Etu Recommender -精準推薦和消費者行為分析平台
• 製造業
• 媒體業
• Any …
43
可能會有幫助的 - 教學資源/資訊
• Taiwan Hadoop User Group
– https://www.facebook.com/groups/hadoop.tw
• Hadoop Taiwan (每季一次workshop)
– http://www.hadoop.tw/
• Hadoop Weekly (Mailing List)
– http://www.hadoopweekly.com/
• Experfy (Big Data版的”5945”)
– https://www.experfy.com/
• Top Coder
– http://www.topcoder.com/
44
Resources from Etu
• Etu Taiwan
– 藍衣人月刊
• (ex.) 客戶送我們的禮物:常見的 Hadoop 十大應用誤解
– Hadoop 直通學習地圖 (教育訓練 )
• 學生免費 (來電確認)
• http://www.etusolution.com/index.php/tw/product-and-
services/etu-services/training-service
– EHC (Hadoop 競賽)
• https://www.youtube.com/watch?v=OWVsmVu_PV8
– DSP (Data Scientist Program)
• Etu 與 CfT (Code for Tommorrow ) 合辦
• http://datasci.co/
45
http://compbio.ucdenver.edu/Hunter_lab/Phang/resources/Harvar
d_Data-Scientist-The-sexiest-job-of-the-21st-century_2012.pdf
結語
318, Rueiguang Rd., Taipei 114, Taiwan
Simon Hsu – Technical Manager
0912-166-961
simonhsu@etusolution.com
Thank you

Mais conteúdo relacionado

Mais procurados

Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Hanborq Inc.
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結James Chen
 
大資料分析技術的濫觴
大資料分析技術的濫觴大資料分析技術的濫觴
大資料分析技術的濫觴家雋 莊
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWJazz Yao-Tsung Wang
 
Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)家雋 莊
 
Log collection
Log collectionLog collection
Log collectionFEG
 
Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Wei-Yu Chen
 
Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Awei Hsu
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法Jazz Yao-Tsung Wang
 
Hdfs introduction
Hdfs introductionHdfs introduction
Hdfs introductionbaggioss
 
Hadoop 設定與配置
Hadoop 設定與配置Hadoop 設定與配置
Hadoop 設定與配置鳥 藍
 
Zh Tw Introduction To H Base
Zh Tw Introduction To H BaseZh Tw Introduction To H Base
Zh Tw Introduction To H Basekevin liao
 
Zh Tw Introduction To Hadoop And Hdfs
Zh Tw Introduction To Hadoop And HdfsZh Tw Introduction To Hadoop And Hdfs
Zh Tw Introduction To Hadoop And Hdfskevin liao
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Anna Yen
 
Zh Tw Introduction To Cloud Computing
Zh Tw Introduction To Cloud ComputingZh Tw Introduction To Cloud Computing
Zh Tw Introduction To Cloud Computingkevin liao
 
Hadoop与数据分析
Hadoop与数据分析Hadoop与数据分析
Hadoop与数据分析George Ang
 
Zh Tw Introduction To Map Reduce
Zh Tw Introduction To Map ReduceZh Tw Introduction To Map Reduce
Zh Tw Introduction To Map Reducekevin liao
 

Mais procurados (20)

Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
大資料分析技術的濫觴
大資料分析技術的濫觴大資料分析技術的濫觴
大資料分析技術的濫觴
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
 
Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)
 
Log collection
Log collectionLog collection
Log collection
 
Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計
 
Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
 
Hdfs introduction
Hdfs introductionHdfs introduction
Hdfs introduction
 
Hadoop 設定與配置
Hadoop 設定與配置Hadoop 設定與配置
Hadoop 設定與配置
 
Zh Tw Introduction To H Base
Zh Tw Introduction To H BaseZh Tw Introduction To H Base
Zh Tw Introduction To H Base
 
Life of Big Data Technologies
Life of Big Data TechnologiesLife of Big Data Technologies
Life of Big Data Technologies
 
Zh Tw Introduction To Hadoop And Hdfs
Zh Tw Introduction To Hadoop And HdfsZh Tw Introduction To Hadoop And Hdfs
Zh Tw Introduction To Hadoop And Hdfs
 
IT03
IT03IT03
IT03
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
 
Zh Tw Introduction To Cloud Computing
Zh Tw Introduction To Cloud ComputingZh Tw Introduction To Cloud Computing
Zh Tw Introduction To Cloud Computing
 
Enterprise Data Lake in Action
Enterprise Data Lake in ActionEnterprise Data Lake in Action
Enterprise Data Lake in Action
 
Hadoop与数据分析
Hadoop与数据分析Hadoop与数据分析
Hadoop与数据分析
 
Zh Tw Introduction To Map Reduce
Zh Tw Introduction To Map ReduceZh Tw Introduction To Map Reduce
Zh Tw Introduction To Map Reduce
 

Semelhante a What could hadoop do for us

Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Schubert Zhang
 
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DBEtu Solution
 
Hadoop introduction
Hadoop introductionHadoop introduction
Hadoop introductionTianwei Liu
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big dataYuHsuan Chen
 
使用Ubuntu架設hadoop
使用Ubuntu架設hadoop使用Ubuntu架設hadoop
使用Ubuntu架設hadooptaishanla
 
使用Ubuntu架設hadoop
使用Ubuntu架設hadoop使用Ubuntu架設hadoop
使用Ubuntu架設hadooptaishanla
 
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsZh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsTrendProgContest13
 
Hadoop-分布式数据平台
Hadoop-分布式数据平台Hadoop-分布式数据平台
Hadoop-分布式数据平台Jacky Chi
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理Kay Yan
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理airsex
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lakeJames Chen
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012James Chen
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹Herman Wu
 
Spark Introduction
Spark IntroductionSpark Introduction
Spark IntroductionKevin Zhang
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
推薦系統實作
推薦系統實作推薦系統實作
推薦系統實作FEG
 

Semelhante a What could hadoop do for us (20)

Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB
 
Hadoop introduction
Hadoop introductionHadoop introduction
Hadoop introduction
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big data
 
使用Ubuntu架設hadoop
使用Ubuntu架設hadoop使用Ubuntu架設hadoop
使用Ubuntu架設hadoop
 
使用Ubuntu架設hadoop
使用Ubuntu架設hadoop使用Ubuntu架設hadoop
使用Ubuntu架設hadoop
 
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsZh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfs
 
Hadoop-分布式数据平台
Hadoop-分布式数据平台Hadoop-分布式数据平台
Hadoop-分布式数据平台
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
 
大數據
大數據大數據
大數據
 
Hadoop
HadoopHadoop
Hadoop
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹
 
Mapreduce
MapreduceMapreduce
Mapreduce
 
Spark Introduction
Spark IntroductionSpark Introduction
Spark Introduction
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
推薦系統實作
推薦系統實作推薦系統實作
推薦系統實作
 

What could hadoop do for us