Enviar pesquisa
Carregar
Meetup Big Data by THJUG
•
1 gostou
•
908 visualizações
Peerapat Asoktummarungsri
Seguir
Meetup Big Data by Thai Java User Group
Leia menos
Leia mais
Engenharia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 19
Baixar agora
Baixar para ler offline
Recomendados
Big Data: IT does matter
Big Data: IT does matter
Sven Niedner
เจาะกระแส Big Data
เจาะกระแส Big Data
IMC Institute
Big Data
Big Data
Thanakrit Lersmethasakul
Big Data
Big Data
ThongChai YesMan
Preprocessing with RapidMiner Studio 6
Preprocessing with RapidMiner Studio 6
Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University
Big data
Big data
maruay songtanin
Building Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributes
Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University
Evaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROC
Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University
Recomendados
Big Data: IT does matter
Big Data: IT does matter
Sven Niedner
เจาะกระแส Big Data
เจาะกระแส Big Data
IMC Institute
Big Data
Big Data
Thanakrit Lersmethasakul
Big Data
Big Data
ThongChai YesMan
Preprocessing with RapidMiner Studio 6
Preprocessing with RapidMiner Studio 6
Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University
Big data
Big data
maruay songtanin
Building Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributes
Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University
Evaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROC
Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University
Introduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data Analytics
Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University
Big Data in Real-Time at Twitter
Big Data in Real-Time at Twitter
nkallen
Big Data v Data Mining
Big Data v Data Mining
University of Hertfordshire
What is Big Data?
What is Big Data?
Bernard Marr
Big Data Analytics with Hadoop
Big Data Analytics with Hadoop
Philippe Julio
Big Data - 25 Amazing Facts Everyone Should Know
Big Data - 25 Amazing Facts Everyone Should Know
Bernard Marr
Web Developer study Guideline for Starter
Web Developer study Guideline for Starter
Warodom Dansuwandumrong
Startup Pitfall
Startup Pitfall
Paiboon Panusbordee
หน่วยที่ 1.2
หน่วยที่ 1.2
อุ่นไอ สำนักนิตย์
นำเสนอSlideshare2
นำเสนอSlideshare2
edukuslide
นำเสนอSlideshare2
นำเสนอSlideshare2
edukuslide
Pbl4.1
Pbl4.1
Dararat Worasut
ePassport eKYC for Financial
ePassport eKYC for Financial
Peerapat Asoktummarungsri
Security Deployment by CI/CD
Security Deployment by CI/CD
Peerapat Asoktummarungsri
Cassandra - Distributed Data Store
Cassandra - Distributed Data Store
Peerapat Asoktummarungsri
Data Pipeline with Kafka
Data Pipeline with Kafka
Peerapat Asoktummarungsri
Modern Java Development
Modern Java Development
Peerapat Asoktummarungsri
Sonarqube
Sonarqube
Peerapat Asoktummarungsri
Sonar
Sonar
Peerapat Asoktummarungsri
Roboguice
Roboguice
Peerapat Asoktummarungsri
Homeloan
Homeloan
Peerapat Asoktummarungsri
Lightweight javaEE with Guice
Lightweight javaEE with Guice
Peerapat Asoktummarungsri
Mais conteúdo relacionado
Destaque
Introduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data Analytics
Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University
Big Data in Real-Time at Twitter
Big Data in Real-Time at Twitter
nkallen
Big Data v Data Mining
Big Data v Data Mining
University of Hertfordshire
What is Big Data?
What is Big Data?
Bernard Marr
Big Data Analytics with Hadoop
Big Data Analytics with Hadoop
Philippe Julio
Big Data - 25 Amazing Facts Everyone Should Know
Big Data - 25 Amazing Facts Everyone Should Know
Bernard Marr
Destaque
(6)
Introduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data Analytics
Big Data in Real-Time at Twitter
Big Data in Real-Time at Twitter
Big Data v Data Mining
Big Data v Data Mining
What is Big Data?
What is Big Data?
Big Data Analytics with Hadoop
Big Data Analytics with Hadoop
Big Data - 25 Amazing Facts Everyone Should Know
Big Data - 25 Amazing Facts Everyone Should Know
Semelhante a Meetup Big Data by THJUG
Web Developer study Guideline for Starter
Web Developer study Guideline for Starter
Warodom Dansuwandumrong
Startup Pitfall
Startup Pitfall
Paiboon Panusbordee
หน่วยที่ 1.2
หน่วยที่ 1.2
อุ่นไอ สำนักนิตย์
นำเสนอSlideshare2
นำเสนอSlideshare2
edukuslide
นำเสนอSlideshare2
นำเสนอSlideshare2
edukuslide
Pbl4.1
Pbl4.1
Dararat Worasut
Semelhante a Meetup Big Data by THJUG
(6)
Web Developer study Guideline for Starter
Web Developer study Guideline for Starter
Startup Pitfall
Startup Pitfall
หน่วยที่ 1.2
หน่วยที่ 1.2
นำเสนอSlideshare2
นำเสนอSlideshare2
นำเสนอSlideshare2
นำเสนอSlideshare2
Pbl4.1
Pbl4.1
Mais de Peerapat Asoktummarungsri
ePassport eKYC for Financial
ePassport eKYC for Financial
Peerapat Asoktummarungsri
Security Deployment by CI/CD
Security Deployment by CI/CD
Peerapat Asoktummarungsri
Cassandra - Distributed Data Store
Cassandra - Distributed Data Store
Peerapat Asoktummarungsri
Data Pipeline with Kafka
Data Pipeline with Kafka
Peerapat Asoktummarungsri
Modern Java Development
Modern Java Development
Peerapat Asoktummarungsri
Sonarqube
Sonarqube
Peerapat Asoktummarungsri
Sonar
Sonar
Peerapat Asoktummarungsri
Roboguice
Roboguice
Peerapat Asoktummarungsri
Homeloan
Homeloan
Peerapat Asoktummarungsri
Lightweight javaEE with Guice
Lightweight javaEE with Guice
Peerapat Asoktummarungsri
Hadoop
Hadoop
Peerapat Asoktummarungsri
Meet Django
Meet Django
Peerapat Asoktummarungsri
Easy java
Easy java
Peerapat Asoktummarungsri
Mais de Peerapat Asoktummarungsri
(13)
ePassport eKYC for Financial
ePassport eKYC for Financial
Security Deployment by CI/CD
Security Deployment by CI/CD
Cassandra - Distributed Data Store
Cassandra - Distributed Data Store
Data Pipeline with Kafka
Data Pipeline with Kafka
Modern Java Development
Modern Java Development
Sonarqube
Sonarqube
Sonar
Sonar
Roboguice
Roboguice
Homeloan
Homeloan
Lightweight javaEE with Guice
Lightweight javaEE with Guice
Hadoop
Hadoop
Meet Django
Meet Django
Easy java
Easy java
Meetup Big Data by THJUG
1.
Peerapat A. ©
2014 THJUG THJUG Meetup BIG DATA
2.
Peerapat A. ©
2014 THJUG ME Senior Software Engineer @ FICO Blogger @ thjug.com Failed Startuper Twitterlian
3.
Peerapat A. ©
2014 THJUG Special Thank ก่อนเริ่มงานผมก็ขอขอบคุณทางบริษัท Oracle และมหาวิทยาลัยสุรนารี ครับ รวมถึงน้องอาร์ม, พี่ต่อ, พี่ใหม่ (อาจารย์ชาญวิทย์) และคณาจารย์และนักศึกษาจากมทส. ถ้าไม่ไ่ด้คนเหล่านี้คงไม่มีงานวันนี้เหมือนกัน ! สำหรับค่าของว่างนี่ก็มาจากเงินที่ผมไปไถเพือนๆ พี่ น้อง ที่ยอมเสียสละเวลามาเรียน Mobile Backend API with JavaEE กับผมในอีกสองอาทิตย์ข้างหน้านะครับ ขอบคุณครับ
4.
Peerapat A. ©
2014 THJUG Data Structure Level Example Structure RDBMS Semi-structure XML, JSON Quasi-structure Text Document Unstructure Image, Video ก่อนจะเริ่ม Big Data ขอทบทวน Data Structure นิดหน่อย ก็ตามรูปครับ อยากให้มองรูปแบบของตาต้าในโลกเป็นสี่ส่วนตามรูป
5.
Peerapat A. ©
2014 THJUG Big Data? คำถาม: บิ๊กดาต้าคืออะไร
6.
Peerapat A. ©
2014 THJUG Big data analytics is concerned with the analysis of large volumes of transaction/event data and behavioral analysis of human/human a human/system interactions. (Gartner) Big data represents the collection of technologies that handle large data volumes well beyond that inflection point and for which, at least in theory, hardware resources required to manage data by volume track to an almost straight line rather than a curve. (IDC) นิยาม BigData ของ Gartner กับ IDC
7.
Peerapat A. ©
2014 THJUG เปรียบเทียบงานของบิ๊กดาต้ากับเรือขนของขนาดใหญ่นะครับ จะเห็นว่าขนได้ทีเยอะมาก(มองเป็นข้อมูล) แต่ใช้เวลานาน(Overhead สูง) ! เหมาะกับงานที่ต้องการประมวลผลข้อมูลใหญ่ๆ โดยไม่สนใจเรื่องของ Latency ที่จะเกิดขึ้น ! อย่างที่อ. ชาญวิทย์จะมาโชว์ Aiyara วันนี้ก็ใช้เวลาหลักชั่วโมง … (แต่นี่ข้อมูลระดับ 34 GB) เชียวนะ
8.
Peerapat A. ©
2014 THJUG Big Data Challenges Source: oracle.com ขนาด ความเร็ว ความหลากหลายและสุดท้ายต้องเกิด Value
9.
Peerapat A. ©
2014 THJUG Why Hadoop? ทำไมถึงเลือก Hadoop สำหรับ Big Data ทั้งที่จริงๆ มีหลาย Platform ที่ทำงานกับ Big Data ได้ ?
10.
Peerapat A. ©
2014 THJUG Infographic by GO-Globe.com มาดูกันดีกว่าว่ามีดาต้าอะไรเกิดขึ้นรอบตัวเราใน 1 วินาทีกัน (นี่ไม่ใช่ทั้งหมดนะ) จะเห็นว่าข้อมูลทีมีหลากหลายมาก และส่วนใหญ่มักเป็น Quasi-Structure และ Unstructure ซะด้วย
11.
Peerapat A. ©
2014 THJUG Hadoop Figure by - apache.org ลักษณะการทำงานคร่าวๆ ภาพรวมคือเวลา client ติดต่อมาจะคุยกับตัวกลางที่จะเป็นคนกระจายการทำงานไปยังแต่ละ Distribute Node ภาพนี้ Abstract พอสมควรนะครับ ตัว Node Manager จะเป็นทั้ง Disk และ Processing ในตัว
12.
Peerapat A. ©
2014 THJUG Figure by - hortonworks.com สมัย 1.0 นี่รองรับได้สูงสุดแค่ 4000 nodes ส่วน 2.0 ที่มียานแม่ด้วยนี่หลักหมื่น การเปลี่ยนแปลงที่เห็นชัดสุดคือมี YARN เพิ่มเข้ามาทีนี้เวลาจะทำอะไรก็จะติดต่อผ่านทาง YARN ทั้งหมด ไม่ยุ่งกับ HDFS โดยตรงแล้ว ! ถามว่าในแง่การเรียนรู้ควรเริ่มจากอะไร ต้องดูก่อนว่าคุณเป็นใคร ถ้าคุณเป็น Developer ไม่ต้องไปคิดมาก เพราะว่าในแง่การพัฒนามันไมไ่ด้มีอะไรต่างกัน แต่ถ้าคุณเป็น System Engineer จงเรียนรู้มันทั้งหมดซะ เพราะอย่างไรแล้ว HADOOP 2.0 ก็คงมาแทนในไม่ช้า แต่ 1.0 ก็ยังมีงานที่ต้องดูแลกันต่อไป
13.
Peerapat A. ©
2014 THJUG Figure by - hortonworks.com Hadoop Ecosystem. ! ตามรูปจะเห็นว่า Hadoop คือ Eco System ที่ส่วนตัวผมมองมันเป็น Distributed OS ไปแล้ว … มี File System ของตัวเอง มี Cluster Resource Management ของตัวเอง แล้วก็สามารถเอา Application ต่างๆ มา on top บนตัวมันอีกที
14.
Peerapat A. ©
2014 THJUG HDFS Hadoop Distributed File System 1 2 5 3 4 1 2 5 1 4 3 1 5 3 2 5 4 4 2 3 Replication Factor = 3 A B C D E HDFS ตัวนี้แหละหัวใจของ Hadoop เลย ! Replication Factor นี่ถ้าใครทำพวก Cluster จะได้ยินคำนี้บ่อยๆ มันคือค่าที่บอกว่าดาต้าจะถูก duplicate เอาไว้ทั้งหมดกี่ชุด และหมายถึงจำนวนคอมพิวเตอร์ในระบบที่ห้ามตายพร้อมกันด้วย เช่น ถ้าตามรูปถ้า A,C,D ตาย อาจจะไม่สามารถ recovery data ได้ (เพราะ 1 หายไปแล้ว)
15.
Peerapat A. ©
2014 THJUG MapReduce Function (k1, v1) -> list(k2, v2) (k2, List(v2)) -> list(k3, v3)Reduce: Map: สำคัญสุดนะ .. เพราะถ้าไม่เข้าใจคุณจะเริ่มเขียนโปรแกรมเพือทำงานกับ Hadoop ไม่ได้เลย ! ถามว่าการที่มันเรียกว่า framework แสดงว่ามันเป้นส่วนที่กำหนดให้เราทำตามเฉยๆ แล้วมีงานอีกส่วนนึงทำด้วยตัว Framework แทน … ! k1, v1 เป็นอะไรโดย default แล้วถ้าเป็น file processing มันคือ Offset, Line of Record นั่นเอง ! อีกหนึ่งทีคนเข้าใจผิด output ของ Map ไม่ใช่ input ของ Reduce ดังสมการจะเห็นว่า list(k2, v2) จะถูกแปรงเป็น k2, list(v2) (ทำโดยตัว Framework นั่นเอง) ! คำถามจะรู้ได้ไงว่า k3, v3 ที่ต้องการคืออะไร มันก็ขึ้นกับว่าคุณอยากถามอะไร :)
16.
Peerapat A. ©
2014 THJUG Map (k1, v1) -> list(k2, v2) k1 = LongWritable key v1 = Text value !k2 = word v2 = one
17.
Peerapat A. ©
2014 THJUG Reduce (k2, List(v2)) -> list(k3, v3) k2 = Text key List(v2) = Iterable<IntWriteable> values !k3 = key v3 = sum
18.
Peerapat A. ©
2014 THJUG MapReduce Framework v1 k2, v2 k3, v3 k2, list(v2) รูปนี้สำหรับอธิบายการทำงานทั้งหมดของ Map Reduce และ Hadoop จะเห็นว่า Method Map และ Reduce ที่คุณสร้างขึ้นมานั้นสำหรับทำงานแค่ในกรอบสีแดง แต่งานทั้งหมดที่ Hadoop ทำให้นั้นคือตั้งแต่ Input -> Spliting -> Mapping -> Shuffing -> Reducing -> Final Result ! แต่ระบบให้เราเขียนโปรแกรมแค่สองส่วนคือ Map, Reduce พอเพือความง่าย และจัดการในเรือ่งที่เหลือให้ ทั้ง Functional และ Non Functional เช่นการที่ Map ถูกแยกกันทำสามโหนดดังรูป
19.
Peerapat A. ©
2014 THJUG THANK YOU :) ขอบคุณครับ
Baixar agora