1. Analisis pengaruh faktor-faktor seperti jumlah node fisik dan virtual, ukuran block, serta jumlah slot map terhadap kecepatan MapReduce menggunakan Hadoop. 2. Dilakukan enam skenario percobaan dengan berbagai konfigurasi hardware dan jaringan. 3. Hasilnya menunjukkan bahwa penambahan node fisik mempercepat MapReduce, sedangkan node virtual memperlambatnya. Ukuran block dan slot map yang sesuai juga mempengaruhi kecepatan
1. Analisis Performa Kecepatan Mapreduce
Pada Hadoop Menggunakan TCP Packet Flow Analysis
Priagung Khusumanegara
1006661084
Skripsi
Teknik Komputer
Universitas Indonesia
Senin, 30 Juni 2014
2. Latar Belakang
Referensi Gambar: http://technews.tmcnet.com/telecommunications/topics/telecommunications/articles/156051-what-att-purchase-t-mobile-means.htm
3. 1. Mengimplementasikan sebuah program untuk mengolah data aliran paket
TCP pada sebuah jaringan yang dapat dijalankan secara terditribusi oleh
Hadoop,
2. Melakukan percobaan terhadap enam skenario berdasarkan topologi yang
telah dirancang,
3. Melakukan analisis pengaruh physical node, virtual node, block size dan
jumlah slot map terhadap kecepatan MapReduce pada Hadoop.
Tujuan Penelitian
5. Hadoop merupakan framework software
berbasis Java dan opensource yang
berfungsi untuk mengolah data yang
memiliki ukuran besar secara terdistribusi.
Pengertian Hadoop
6. Hadoop terdiri dari 2 komponen inti:
1.Hadoop Distributed File System (HDFS)
2.MapReduce
Arsitektur Hadoop
Gambar: Bagian inti Hadoop (a) komponen HDFS (b) komponen MapReduce
Referensi Gambar : JeongJin Cheon, Tae-Young Choe. Distributed Processing of Snort Alert Log using Hadoop. International Journal of Engineering and Technology (IJET), Gyeongbuk Korea, 2013.
HADOOP
HDFS MapReduce
7. • File system pada Hadoop
• Menyimpan data secara terdisribusi
• Data disimpan dalam bentuk potongan-potongan (secara default
64 MB)
Hadoop Distributed File System (HDFS)
Referensi Gambar: http://www.cloudera.com/content/dam/cloudera/product-assets/hdfs-data-distribution.png
Gambar: Distribusi data pada HDFS
8. HDFS memiliki 3 komponen utama berupa:
1.NameNode
2.DataNode
3.Secondary NameNode
Komponen HDFS
Gambar: Komponen HDFS
Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.
9. 1. NameNode
• Berada pada master node
• Mengkoordinasi DataNode yang terdapat pada slave node.
Komponen HDFS…Lanjutan…
Gambar: NameNode pada HDFS
Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.
10. 2. DataNode
• Berada pada slave node
• Menyimpan data pada slave node.
Komponen HDFS…Lanjutan…
Gambar: DataNode pada HDFS
Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.
11. 3. Secondary NameNode
• Berada pada master node
• Melakukan monitoring keadaan dari cluster HDFS.
Komponen HDFS…Lanjutan…
Gambar: Secondary NameNode pada HDFS
Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.
12. • Framework untuk aplikasi dan programming yang digunakan Hadoop
• Melakukan suatu pekerjaan dari komputasi terdistribusi yang dijalankan
pada sebuah cluster.
• Proses utama : Map dan Reduce
Mapreduce
Gambar: Bagian inti Hadoop (a) komponen HDFS (b) komponen MapReduce
HADOOP
HDFS MapReduce
Referensi Gambar : JeongJin Cheon, Tae-Young Choe. Distributed Processing of Snort Alert Log using Hadoop. International Journal of Engineering and Technology (IJET), Gyeongbuk Korea, 2013.
13. Shuffle ReduceMap
Proses Mapreduce
Referensi Gambar : The overall MapReduce WordCount process, http://www.rabidgremlin.com/data20/#%283%29. Dikases pada tanggal 30 Oktober 2013.
Gambar 2.4 Proses MapReduce pada Hadoop
14. Komponen MapReduce pada Hadoop yaitu:
1.JobTracker
2.TaskTracker
Komponen Mapreduce
Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.
Gambar: Komponen MapReduce
15. 1. JobTracker
• Memecah permintaan yang diberikan ke HDFS menjadi beberapa pekerjaan
yang lebih kecil.
• Memberikan pekerjaan tersebut kepada setiap slave node.
Komponen Mapreduce…Lanjutan…
Gambar: Komponen MapReduce
Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.
16. 2. Tasktracker
• Berfungsi untuk menerima pekerjaan yang diberikan oleh JobTracker.
• Menjalankan pekerjaan yang diberikan JobTracker.
Komponen Mapreduce…Lanjutan…
Gambar: Kerja TaskTracker pada setiap node
Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.
18. TCP Packet Flow Analysis
• Menganalisis aliran paket yang terdapat pada sebuah jaringan
menggunakan Hadoop.
• Program yang menggunakan konsep MapReduce.
Gambar: Contoh file yang akan diproses
23. Skenario 2
Hardware Host VM 1 VM 2
CPU
AMD Dual Core,
Clock Speed 1.48 GHz
One Core One Core
RAM 4.00 GB 1.00 GB 1.00 GB
Sistem Operasi CentOS 6.3 CentOS 6.3 CentOS 6.3
Gambar: Topologi Skenario 2
Tabel: Spesifikasi machine yang digunakan pada skenario 2
25. Skenario 3
Hardware Laptop 1
CPU AMD Dual Core, Clock Speed 1.48 GHz
RAM 4.00 GB
Sistem Operasi CentOS 6.3
Gambar: Pembagian block size pada Hadoop yang dijalankan secara single node
Tabel: Spesifikasi machine yang digunakan pada skenario 3
27. Analisis Skenario 3
Gambar: Jumlah task pada file 1 GB dengan (a) block size 64 MB (b) block size 128 MB
Gambar: Komunikasi antara scheduler, JobTracker, dan TaskTracker
28. Analisis Skenario 3…Lanjutan…
Gambar: Proses MapReduce pada ukuran file 512 MB dengan block size 256 MB
Gambar: Proses MapReduce pada ukuran file 512 MB dengan block size 256 MB
29. Skenario 4
Hardware Laptop 1 Laptop 2
CPU
AMD Dual Core,
Clock Speed 1.48 GHz
Intel Dual Core,
Clock Speed 2.0 GHz
RAM 4.00 GB 4.00 GB
Sistem Operasi CentOS 6.3 CentOS 6.3
Gambar: Pembagian block size pada Hadoop yang dijalankan secara multi node
Tabel: Spesifikasi machine yang digunakan pada skenario 4
31. Analisis Skenario 4
Gambar: Jumlah task pada file 512 GB dengan block size 128 MB
Gambar: Proses MapReduce pada ukuran file 512 MB dengan block size 128 MB
32. Skenario 5
Hardware Laptop 1
CPU AMD Dual Core, Clock Speed 1.48 GHz
RAM 4.00 GB
Sistem Operasi CentOS 6.3
Gambar: Gambaran slot map pada Hadoop
Tabel: Spesifikasi machine yang digunakan pada skenario 5
34. Skenario 6
Hardware PC
CPU Intel i7-2600 , Clock Speed 3.4 GHz
RAM 4.00 GB
Sistem Operasi CentOS 6.3
Gambar: Topologi Skenario 6
Tabel: Spesifikasi machine yang digunakan pada skenario 6
36. 1. Penambahan jumlah physical machine dapat mempercepat kecepatan rata-rata
MapReduce.
2. Penambahan jumlah virtual machine dapat memperlambat kecepatan rata-rata
MapReduce.
3. Block size dapat mempengaruhi kecepatan MapReduce pada Hadoop, semakin
besar block size maka semakin cepat kecepatan MapReduce pada Hadoop
dengan syarat: number of task > slot map
Kesimpulan
37. 4. Jumlah slot map dapat mempengaruhi kecepatan MapReduce pada Hadoop,
dimana performa kecepatan MapReduce lebih cepat jika jumlah slot map pada
Hadoop sesuai dengan jumlah core yang dimiliki oleh machine.
5. Hadoop memiliki keunggulan dalam mengolah data yang memiliki ukuran yang
besar dan jumlah yang banyak karena Hadoop dapat mengolah data tersebut
secara terdistribusi.
Kesimpulan…Lanjutan…
38. 1. Leslie Lamport and Nancy Lynch. (1989, February 3). Chapter on Distributed Computing.
2. Chuck Lam. (2011). Hadoop In Action. Stamford: Mainning Publications Co.
3. Tom White. (2009). Hadoop: The Definitive Guide. California: O’Reilly.
4. Garry Turkington. (2013). Hadoop Beginner's Guide. Birmingham: Packt Publishing.
5. Shv, Hairong, SRadia, Chansler. (2010). The Hadoop Distributed File System. Jurnal IEEE.
6. Intel Corporation. (2013). Optimizing Java* and Apache Hadoop* for Intel® Architecture.
USA: Intel Corporation.
7. Apache TM
Hadoop @ homepage. http://hadoop.apache.org/. Diakses 17 Oktober 2013.
8. JeongJin Cheon, Tae-Young Choe. (2013). Distributed Processing of Snort Alert Log using
Hadoop. International Journal of Engineering and Technology (IJET).
9. Aditya B. Patel, Manashvi Birla, Ushma Nair. (2012). Addressing Big Data Problem Using
Hadoop and Map Reduce. Nirma University International Conference On Engineering.
Daftar Referensi
39. 10. Amit Anand. (2013). Configuration Parameters dfs.Block.Size. Hadoop.
11. Dima May. (2012). Hadoop Distributed File System (HDFS) Overview. coreservlets.com.
12. Magang Industri. (2013). Definisi Cloud Computing. Meruvian.org Cloud Computing.
13. Colin White. (2012, January). MapReduce and the Data Scientist. BI Research.
14. R. David Idol. Large-Scale TCP Packet Flow Analysis for C Using Apache™ Hadoop.
University of North Carolina at Chapel Hill.
15. Tutorial dan Konfigurasi Hadoop Single Node.
16. http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-
cluster/. Diakses pada tanggal 20 Oktober 2013.
17. MapReduce Hadoop. http://www.yalescientific.org/2012/03/hadapt-yale-startup/. Diakses pada
tanggal 29 Oktober 2013.
Daftar Referensi…Lanjutan…
40. 18. Interaction between the JobTracker, TaskTracker and the Scheduler @ homepage.
http://www.thecloudavenue.com/2011/11/interaction-between-jobtracker.html. Diakses
pada tanggal 29 Oktober 2013.
19. The overall MapReduce WordCount process,
20. http://www.rabidgremlin.com/data20/#%283%29. Diakses pada tanggal 30 Oktober 2013.
21. Thinking in MapReduce, https://engineering.cerner.com/2013/07/thinking-in-
mapreduce/. Diakses pada tanggal 30 Oktober 2013.
Daftar Referensi…Lanjutan…