Enviar pesquisa
Carregar
How We Prepared Etu Hadoop Competition 2014
•
5 gostaram
•
1,066 visualizações
Yuen-Kuei Hsueh
Seguir
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 29
Baixar agora
Baixar para ler offline
Recomendados
阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践
dragoncaol
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environment
Anna Yen
Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014
Hubert Fan Chiang
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
Something about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fast
ViSenze - Artificial Intelligence for the Visual Web
Mapreduce
Mapreduce
瑤瑤 吳
HDFS-In-Cloud
HDFS-In-Cloud
Lei Xu
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
Min Zhou
Recomendados
阿里云Hadoop在云上的最佳实践
阿里云Hadoop在云上的最佳实践
dragoncaol
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environment
Anna Yen
Easier and Faster for hbase in HadoopCon 2014
Easier and Faster for hbase in HadoopCon 2014
Hubert Fan Chiang
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
Something about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fast
ViSenze - Artificial Intelligence for the Visual Web
Mapreduce
Mapreduce
瑤瑤 吳
HDFS-In-Cloud
HDFS-In-Cloud
Lei Xu
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
Min Zhou
Hadoop hive
Hadoop hive
Wei-Yu Chen
The practice of enjoying apache
The practice of enjoying apache
jixuan1989
Cephfs架构解读和测试分析
Cephfs架构解读和测试分析
Yang Guanjun
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Ceph Community
分布式存储的元数据设计
分布式存储的元数据设计
LI Daobing
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践
drewz lin
Distributed Data Analytics at Taobao
Distributed Data Analytics at Taobao
Min Zhou
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Anna Yen
SMACK Dev Experience
SMACK Dev Experience
Chih-Hsuan Hsu
Hadoop introduction
Hadoop introduction
Tianwei Liu
Hyper: 让Pod以VM为边界
Hyper: 让Pod以VM为边界
Xu Wang
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
Jazz Yao-Tsung Wang
HDInsight for Microsoft Users
HDInsight for Microsoft Users
Kuo-Chun Su
What could hadoop do for us
What could hadoop do for us
Simon Hsu
架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境
Phate334
DRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLC
Yu-Chin Tsai
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Etu Solution
When R meet Hadoop
When R meet Hadoop
Jazz Yao-Tsung Wang
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
Wei-Yu Chen
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
James Chen
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
Wei-Yu Chen
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB
Etu Solution
Mais conteúdo relacionado
Mais procurados
Hadoop hive
Hadoop hive
Wei-Yu Chen
The practice of enjoying apache
The practice of enjoying apache
jixuan1989
Cephfs架构解读和测试分析
Cephfs架构解读和测试分析
Yang Guanjun
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Ceph Community
分布式存储的元数据设计
分布式存储的元数据设计
LI Daobing
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践
drewz lin
Distributed Data Analytics at Taobao
Distributed Data Analytics at Taobao
Min Zhou
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Anna Yen
SMACK Dev Experience
SMACK Dev Experience
Chih-Hsuan Hsu
Mais procurados
(9)
Hadoop hive
Hadoop hive
The practice of enjoying apache
The practice of enjoying apache
Cephfs架构解读和测试分析
Cephfs架构解读和测试分析
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
分布式存储的元数据设计
分布式存储的元数据设计
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践
Distributed Data Analytics at Taobao
Distributed Data Analytics at Taobao
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
SMACK Dev Experience
SMACK Dev Experience
Semelhante a How We Prepared Etu Hadoop Competition 2014
Hadoop introduction
Hadoop introduction
Tianwei Liu
Hyper: 让Pod以VM为边界
Hyper: 让Pod以VM为边界
Xu Wang
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
Jazz Yao-Tsung Wang
HDInsight for Microsoft Users
HDInsight for Microsoft Users
Kuo-Chun Su
What could hadoop do for us
What could hadoop do for us
Simon Hsu
架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境
Phate334
DRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLC
Yu-Chin Tsai
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Etu Solution
When R meet Hadoop
When R meet Hadoop
Jazz Yao-Tsung Wang
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
Wei-Yu Chen
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
James Chen
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
Wei-Yu Chen
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB
Etu Solution
Introduction to big data
Introduction to big data
邦宇 叶
頑皮工坊 GCP 大冒險
頑皮工坊 GCP 大冒險
onlinemad
大數據
大數據
brian401777
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
James Chen
Hue使用及规范
Hue使用及规范
edwardsbean
讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術
Yu Lung Shao
GDG Taichung - Firebase Introduction 01
GDG Taichung - Firebase Introduction 01
Duran Hsieh
Semelhante a How We Prepared Etu Hadoop Competition 2014
(20)
Hadoop introduction
Hadoop introduction
Hyper: 让Pod以VM为边界
Hyper: 让Pod以VM为边界
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
HDInsight for Microsoft Users
HDInsight for Microsoft Users
What could hadoop do for us
What could hadoop do for us
架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境
DRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLC
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
When R meet Hadoop
When R meet Hadoop
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB
Introduction to big data
Introduction to big data
頑皮工坊 GCP 大冒險
頑皮工坊 GCP 大冒險
大數據
大數據
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
Hue使用及规范
Hue使用及规范
讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術
GDG Taichung - Firebase Introduction 01
GDG Taichung - Firebase Introduction 01
How We Prepared Etu Hadoop Competition 2014
1.
How We Prepared Etu
Hadoop Competition 2014 Study Hsueh! ! 2014/06/26 那⼀一年,我們⼀一起追的Hadoop
2.
那⼀一年,我們怎麼僥倖贏的EHC
3.
Background • qrtt1 • Java
& AWS Expert • Study • Java Fan • Lu • Machining Learning Beauty
4.
Hadoop Experience • qrtt1 •
從Hadoop 1.x就說要玩Hadoop,但⼀一直沒玩 • Study • 裝過CDH、略懂Hadoop 1.x • 介接過Hive、⽤用sqoop轉置過RDBMS資料 • Lu • 聽⼈人家說過Hadoop
5.
初賽
6.
7.
初賽前分⼯工 • qrtt1 • ⼿手⼯工架Hadoop環境 •
Study • 準備bigtop rpms (放在S3上⾯面) • 改Vagrantfile • 測試 • Lu • 專⼼心學Linux與架Hadoop
8.
初賽當天分⼯工 • qrtt1 • 分析送分程式 •
Study • 跑Vagrant script !
9.
初賽結果 • 漏掉設定hostname, 導致HBase異常,還好最後 有進決賽:) ! ! !
10.
決賽
11.
決賽說明會前分⼯工 • qrtt1! • ⼿手⼯工架Hadoop
Cluster! • 架設KDC! • HA、Kerberos Setup & Usage! • Study! • 準備與參賽環境相似的測試機! • 準備CDH & CentOS repository mirror! • 玩各種Hadoop distribution (CDH、HDP與BigTop)! • Performance Turning & Testing! • HA & Kerberos Usage! • Lu! • ⼿手⼯工架Hadoop Cluster! • 測試Hadoop參數
12.
測試機 v1 • Type
1 Hypervisor: VMware ESXi 5.5 • CPU: Intel i5 760 • RAM: 16 GB • HDD: 2 TB * 2
13.
14.
決定使⽤用的 Hadoop Distribution • 採⽤用CDH •
Pros • 容易修改&部署Hadoop參數 • Log位置固定 • Cons • Cloudera Management Service⾮非常吃資源 (可以關掉) • 安裝耗時
15.
決賽說明會後分⼯工 • qrtt1 • Performance
Testing • Study • 調整測試機,盡可能貼近⽐比賽環境 • 準備⽐比賽當天⽤用的VM • Performance Testing • Lu • 測試Hadoop參數
16.
測試機 v2 • Host:
CentOS 6.5 x86_64 Desktop • Type 2 Hypervisor: Oracle VirtualBox 4.3.12 • CPU: Intel i5 760 • RAM: 32 GB • HDD: 2 TB * 4
17.
18.
決賽前⼀一天... • 準備得越多,越發現可以準備的東⻄西更多 • 累了 ! !
19.
決賽當天分⼯工 • qrtt1 • KDC
Setup • Watch Log • 執⾏行送分程式 • Study • 準備軟硬體環境 • 協助問題排除 • Lu • Hadoop參數調整
20.
Before The Final
Game We Know • 單⼀一台⼤大VM⽐比四台⼩小VM快上數倍 • CDH預設不允許使⽤用系統使⽤用者hdfs做某些操作 • VirtualBox • JBOD無顯著效果 • ⽐比ESXi VM慢很多,且不時無回應 • Shared Folder權限更改無效 • VM互傳資料速度約30MB/s
21.
策略 • 先求各項有分數 • 若有⼈人分數超前,才開始turning •
VM turning • Hadoop parameter turning • ramfs • Make Hadoop cluster run like a single-node Hadoop • JBOD
22.
決賽中遇到的問題 • VM異常的慢 • HDFS寫⼊入30
* 3G的資料,準備的VM硬碟配置只 有80 GB • HA Failover只等10秒,Namenode來不及切換 • HBase使⽤用系統使⽤用者hdfs執⾏行,導致出現權限 錯誤
23.
Troubleshooting • VM異常的慢 • 原因:每個VM配置了過多的cores
(12 cores) • 解決⽅方法:每個VM改為4 cores ! !
24.
Troubleshooting • HDFS寫⼊入30 *
3G的資料,我們準備的VM硬碟配置只有80 GB • Mount new virtual disks • Stop Kerberos • Reformat HDFS • Start Kerberos • 最後把HBase弄掛了 • 使⽤用snapshot還原VM
25.
Troubleshooting • HA Failover送分程式只等10秒,Namenode來不 及切換 •
⽤用Ctrl+z暫停送分程式 • 確認 Failover 完成,⽤用 fg 將送分程式喚醒 !
26.
Troubleshooting • HBase使⽤用系統使⽤用者hdfs執⾏行,導致出現權限錯 誤 • 新增Kerberos
user • 賦予User執⾏行MapReduce、HBase與HDFS的 權限 !
27.
結論 • ⽐比賽中有很多取捨,最後很多準備的東⻄西都沒⽤用 上 • ⺩王牌還沒出,⽐比賽就結束了 •
也許我們只是⼩小贏在 Linux ⽐比較熟 !
28.
⾨門外漢只要努⼒力,也有變成 男⼦子漢的⼀一天!!
29.
參考資料 • Etu Hadoop
Competition 2014 • http://ehc.etusolution.com/index.php/tw/ • ⾨門外漢的 Hadoop 部署⼤大賽(上) • http://www.codedata.com.tw/social-coding/contest-of- hadoop-layman-1/ • ⾨門外漢的 Hadoop 部署⼤大賽(下) • http://www.codedata.com.tw/social-coding/contest-of- hadoop-layman-2/
Baixar agora