SlideShare uma empresa Scribd logo
1 de 22
WEKA : CLASSIFICATION
เนื้อหา
 การทาเหมืองข้อมูลจัดจาแนกประเภท Classification
 การเตรียมข้อมูลสาหรับการจัดจาแนกประเภท
 การเลือกต้นไม้การตัดสินใจ
 ผลลัพธ์ที่ได้โดยใช้ ID3 ซึ่งไม่ใช่ลักษณะประจาที่เป็นค่าต่อเนื่อง
 ผลลัพธ์ที่ได้โดยใช้ J48 ซึ่งใช้ได้กับลักษณะประจาที่ต่อเนื่องและไม่ต่อเนื่อง
 Predicted target must be categorical
 Implemented methods
– decision trees(J48, etc.) and rules
– Naïve Bayes
– neural networks
– instance-based classifiers …
 Evaluation methods
– test data set
– crossvalidation
 After loaded a data file, click “Classify” Choose a
classifier,
– Under “Classifier”: click “choose”, then a drop-
down menu appears,
– Click “trees” and select “J48” – a decision tree
algorithm
Select a test option
– Select “percentage split” with default ratio 66%
for training and 34% for testing
 Click “Start” to train and test the classifier.
– The training and testing information will be
displayed in classifier output window.
การทาเหมืองข้อมูลการจัดจาแนกประเภท
 เป็นการสร้างตัวแบบ Classifier ที่สามารถแบ่งแยกข้อมูล (ตัวอย่าง) ออกมาตาม
คลาสหรือลักษณะประจาเป้าหมายที่กาหนด
 ตัวแบบที่ต้องการอาจจะเป็น
Bayers ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็น
Functions ตัวแบบในรูปของฟังก์ชัน
Lazy ตัวแบบที่เก็บตัวอย่าง การตัดสินใจเกิดเมื่อตัวอย่างใหม่ถูกนาเข้ามาเท่านันน
Meta การทาแบบให้ดีขึนนโดยการเรียนข้อมูลเมตา
Misc วิธีการสร้างตัวแบบวิธีอื่น
Trees การสร้างตัวแบบโดยใช้ต้นไม้
Rules การสร้างตัวแบบโดยใช้กฎ
การเตรียมแฟ้ มข้อมูล
 กาหนดลักษณะประจาเป้ าหมายให้เป็นลักษณะประจาสุดท้าย
 บางขั้นตอนวิธีที่ใช้สร้างต้นไม้การตัดสินใจต้องการลักษณะประจาที่มีค่าไม่
ต่อเนื่องเท่านั้น
 ดังนั้นเราจาเป็นต้องเปลี่ยนลักษณะประจาที่มีค่าต่อเนื่องให้เป็นลักษณะที่มีค่า
ไม่ต่อเนื่อง
 ในกรณีที่ระเบียนน้อย เราอาจใช้ k-fold cross validation หรือ leave-one-out
 ในกรณีที่มีระเบียนมากเพียงพอ เราควรแบ่งกั้นระเบียนบางส่วนเป็ น
validation, test data และที่เหลือนามาใช้เป็น training data สัดส่วนที่ใช้อาจ มี
ค่า 3/10, 3/10 กับ 4/10
การเตรียมแฟ้ มข้อมูล
 เริ่มการทางานของซอฟต์แวร์ Weka เปิดโมดูล Explorer
 เปิดแฟ้ม weather.nominal.arff
 แปลงลักษณะที่มีค่าต่อเนื่องเป็นลักษณะประจาที่มีค่าไม่ต่อเนื่องโดยใช้ filter
ก่อนเลือกแถบ Classify
 Weka  Explorer  Open file  C:/Program Files/Weka-3-
6/data/weather.nominal.arff
Classify – ID3
 Classify  Choose  Classifiers  Trees 
ขันนตอนวิธี ID3
ผู้ใช้กาหนดตัวเลือก use training set เพื่อใช้ทุกตัวอย่างในการสร้างต้นไม้
ผู้ใช้เลือกลักษณะประจาเป้าหมายที่ต้องการโดยปรกติลักษณะประจาสุดท้ายจะถูกเลือก
ผู้ใช้กดปุ่ม Start เพื่อเริ่มสร้างต้นไม้
ไม่สามารถ Visualize Tree ได้
การเปลี่ยนลักษณะประจาให้เป็นค่าไม่ต่อเนื่อง
 Preprocess  Choose  Weka  Filters 
Unsupervised  attribute  Discretize
ปรับค่าในกล่อง bin = 3
Classify – J48
 Classify  Choose  Classifiers  Trees 
ขันนตอนวิธี J48
การเรียนรู้ต้นไม้ตัดสินใจโดยใช้ขั้นตอนวิธี J48
 Weka  Explorer  Open file  C:/Program Files/Weka-3-6/data/iris.arff
More options  Output
prediction
Weka classification
Weka classification

Mais conteúdo relacionado

Mais procurados

การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Wekaการวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย WekaKannikanune
 
ระบบบอกความอันตรายเมื่อเกิดไฟไหม้ของพื้นที่ต่างๆ Fire Danger Rating System V8
ระบบบอกความอันตรายเมื่อเกิดไฟไหม้ของพื้นที่ต่างๆ Fire Danger Rating System V8ระบบบอกความอันตรายเมื่อเกิดไฟไหม้ของพื้นที่ต่างๆ Fire Danger Rating System V8
ระบบบอกความอันตรายเมื่อเกิดไฟไหม้ของพื้นที่ต่างๆ Fire Danger Rating System V8Veerachai Tanpipat
 
การจัดสภาพแวดล้อม
การจัดสภาพแวดล้อมการจัดสภาพแวดล้อม
การจัดสภาพแวดล้อมJit Khasana
 
นวัตกรรมการปฏิบัติที่เป็นเลิศ
นวัตกรรมการปฏิบัติที่เป็นเลิศนวัตกรรมการปฏิบัติที่เป็นเลิศ
นวัตกรรมการปฏิบัติที่เป็นเลิศsomdetpittayakom school
 
สถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยสถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยTwatchai Tangutairuang
 
Pointสอนเรียนรู้วิทยาศาสตร์อย่างไร สอนออนไลน์
Pointสอนเรียนรู้วิทยาศาสตร์อย่างไร สอนออนไลน์Pointสอนเรียนรู้วิทยาศาสตร์อย่างไร สอนออนไลน์
Pointสอนเรียนรู้วิทยาศาสตร์อย่างไร สอนออนไลน์Attapon Phonkamchon
 
ประเภทการวิจัย
ประเภทการวิจัยประเภทการวิจัย
ประเภทการวิจัยkhanidthakpt
 
สถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยสถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยNU
 
การดำเนินการบนเมทริกซ์
การดำเนินการบนเมทริกซ์การดำเนินการบนเมทริกซ์
การดำเนินการบนเมทริกซ์kroojaja
 
บรรยากาศ
บรรยากาศบรรยากาศ
บรรยากาศkulruedee_chm
 
การจัดเรียงข้อมูล (sorting)
การจัดเรียงข้อมูล (sorting)การจัดเรียงข้อมูล (sorting)
การจัดเรียงข้อมูล (sorting)tumetr
 
สถิติและคอมพิวเตอร์ 1
สถิติและคอมพิวเตอร์ 1สถิติและคอมพิวเตอร์ 1
สถิติและคอมพิวเตอร์ 1wilailukseree
 
Microsoft power point ยีนและโครโมโซม
Microsoft power point   ยีนและโครโมโซมMicrosoft power point   ยีนและโครโมโซม
Microsoft power point ยีนและโครโมโซมThanyamon Chat.
 
สรุปทฤษฎีการเรียนรู้
สรุปทฤษฎีการเรียนรู้สรุปทฤษฎีการเรียนรู้
สรุปทฤษฎีการเรียนรู้Mod DW
 
ระบบจัดการร้านเบเกอรี่
ระบบจัดการร้านเบเกอรี่ระบบจัดการร้านเบเกอรี่
ระบบจัดการร้านเบเกอรี่Visiene Lssbh
 
เลขยกกำลัง_9วิชาสามัญ(55-58)
เลขยกกำลัง_9วิชาสามัญ(55-58)เลขยกกำลัง_9วิชาสามัญ(55-58)
เลขยกกำลัง_9วิชาสามัญ(55-58)Thanuphong Ngoapm
 
หลักสูตรการศึกษาขั้นพื้นฐาน 1
หลักสูตรการศึกษาขั้นพื้นฐาน 1หลักสูตรการศึกษาขั้นพื้นฐาน 1
หลักสูตรการศึกษาขั้นพื้นฐาน 1CC Nakhon Pathom Rajabhat University
 

Mais procurados (20)

การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Wekaการวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
 
ระบบบอกความอันตรายเมื่อเกิดไฟไหม้ของพื้นที่ต่างๆ Fire Danger Rating System V8
ระบบบอกความอันตรายเมื่อเกิดไฟไหม้ของพื้นที่ต่างๆ Fire Danger Rating System V8ระบบบอกความอันตรายเมื่อเกิดไฟไหม้ของพื้นที่ต่างๆ Fire Danger Rating System V8
ระบบบอกความอันตรายเมื่อเกิดไฟไหม้ของพื้นที่ต่างๆ Fire Danger Rating System V8
 
การจัดสภาพแวดล้อม
การจัดสภาพแวดล้อมการจัดสภาพแวดล้อม
การจัดสภาพแวดล้อม
 
นวัตกรรมการปฏิบัติที่เป็นเลิศ
นวัตกรรมการปฏิบัติที่เป็นเลิศนวัตกรรมการปฏิบัติที่เป็นเลิศ
นวัตกรรมการปฏิบัติที่เป็นเลิศ
 
07 classification 3 neural network
07 classification 3 neural network07 classification 3 neural network
07 classification 3 neural network
 
สถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยสถิติเพื่อการวิจัย
สถิติเพื่อการวิจัย
 
Pointสอนเรียนรู้วิทยาศาสตร์อย่างไร สอนออนไลน์
Pointสอนเรียนรู้วิทยาศาสตร์อย่างไร สอนออนไลน์Pointสอนเรียนรู้วิทยาศาสตร์อย่างไร สอนออนไลน์
Pointสอนเรียนรู้วิทยาศาสตร์อย่างไร สอนออนไลน์
 
ประเภทการวิจัย
ประเภทการวิจัยประเภทการวิจัย
ประเภทการวิจัย
 
สถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยสถิติเพื่อการวิจัย
สถิติเพื่อการวิจัย
 
การดำเนินการบนเมทริกซ์
การดำเนินการบนเมทริกซ์การดำเนินการบนเมทริกซ์
การดำเนินการบนเมทริกซ์
 
บรรยากาศ
บรรยากาศบรรยากาศ
บรรยากาศ
 
การจัดเรียงข้อมูล (sorting)
การจัดเรียงข้อมูล (sorting)การจัดเรียงข้อมูล (sorting)
การจัดเรียงข้อมูล (sorting)
 
ชุดการสอนที่ 1ต่อมไร้ท่อ.ในร่างกาย
ชุดการสอนที่ 1ต่อมไร้ท่อ.ในร่างกายชุดการสอนที่ 1ต่อมไร้ท่อ.ในร่างกาย
ชุดการสอนที่ 1ต่อมไร้ท่อ.ในร่างกาย
 
สถิติและคอมพิวเตอร์ 1
สถิติและคอมพิวเตอร์ 1สถิติและคอมพิวเตอร์ 1
สถิติและคอมพิวเตอร์ 1
 
Microsoft power point ยีนและโครโมโซม
Microsoft power point   ยีนและโครโมโซมMicrosoft power point   ยีนและโครโมโซม
Microsoft power point ยีนและโครโมโซม
 
สรุปทฤษฎีการเรียนรู้
สรุปทฤษฎีการเรียนรู้สรุปทฤษฎีการเรียนรู้
สรุปทฤษฎีการเรียนรู้
 
ระบบจัดการร้านเบเกอรี่
ระบบจัดการร้านเบเกอรี่ระบบจัดการร้านเบเกอรี่
ระบบจัดการร้านเบเกอรี่
 
เลขยกกำลัง_9วิชาสามัญ(55-58)
เลขยกกำลัง_9วิชาสามัญ(55-58)เลขยกกำลัง_9วิชาสามัญ(55-58)
เลขยกกำลัง_9วิชาสามัญ(55-58)
 
02 data werehouse
02 data werehouse02 data werehouse
02 data werehouse
 
หลักสูตรการศึกษาขั้นพื้นฐาน 1
หลักสูตรการศึกษาขั้นพื้นฐาน 1หลักสูตรการศึกษาขั้นพื้นฐาน 1
หลักสูตรการศึกษาขั้นพื้นฐาน 1
 

Weka classification

  • 2. เนื้อหา  การทาเหมืองข้อมูลจัดจาแนกประเภท Classification  การเตรียมข้อมูลสาหรับการจัดจาแนกประเภท  การเลือกต้นไม้การตัดสินใจ  ผลลัพธ์ที่ได้โดยใช้ ID3 ซึ่งไม่ใช่ลักษณะประจาที่เป็นค่าต่อเนื่อง  ผลลัพธ์ที่ได้โดยใช้ J48 ซึ่งใช้ได้กับลักษณะประจาที่ต่อเนื่องและไม่ต่อเนื่อง
  • 3.  Predicted target must be categorical  Implemented methods – decision trees(J48, etc.) and rules – Naïve Bayes – neural networks – instance-based classifiers …  Evaluation methods – test data set – crossvalidation
  • 4.  After loaded a data file, click “Classify” Choose a classifier, – Under “Classifier”: click “choose”, then a drop- down menu appears, – Click “trees” and select “J48” – a decision tree algorithm Select a test option – Select “percentage split” with default ratio 66% for training and 34% for testing  Click “Start” to train and test the classifier. – The training and testing information will be displayed in classifier output window.
  • 5. การทาเหมืองข้อมูลการจัดจาแนกประเภท  เป็นการสร้างตัวแบบ Classifier ที่สามารถแบ่งแยกข้อมูล (ตัวอย่าง) ออกมาตาม คลาสหรือลักษณะประจาเป้าหมายที่กาหนด  ตัวแบบที่ต้องการอาจจะเป็น Bayers ใช้หลักของเบย์หรือตัวแบบเชิงความน่าจะเป็น Functions ตัวแบบในรูปของฟังก์ชัน Lazy ตัวแบบที่เก็บตัวอย่าง การตัดสินใจเกิดเมื่อตัวอย่างใหม่ถูกนาเข้ามาเท่านันน Meta การทาแบบให้ดีขึนนโดยการเรียนข้อมูลเมตา Misc วิธีการสร้างตัวแบบวิธีอื่น Trees การสร้างตัวแบบโดยใช้ต้นไม้ Rules การสร้างตัวแบบโดยใช้กฎ
  • 6.
  • 7. การเตรียมแฟ้ มข้อมูล  กาหนดลักษณะประจาเป้ าหมายให้เป็นลักษณะประจาสุดท้าย  บางขั้นตอนวิธีที่ใช้สร้างต้นไม้การตัดสินใจต้องการลักษณะประจาที่มีค่าไม่ ต่อเนื่องเท่านั้น  ดังนั้นเราจาเป็นต้องเปลี่ยนลักษณะประจาที่มีค่าต่อเนื่องให้เป็นลักษณะที่มีค่า ไม่ต่อเนื่อง  ในกรณีที่ระเบียนน้อย เราอาจใช้ k-fold cross validation หรือ leave-one-out  ในกรณีที่มีระเบียนมากเพียงพอ เราควรแบ่งกั้นระเบียนบางส่วนเป็ น validation, test data และที่เหลือนามาใช้เป็น training data สัดส่วนที่ใช้อาจ มี ค่า 3/10, 3/10 กับ 4/10
  • 8. การเตรียมแฟ้ มข้อมูล  เริ่มการทางานของซอฟต์แวร์ Weka เปิดโมดูล Explorer  เปิดแฟ้ม weather.nominal.arff  แปลงลักษณะที่มีค่าต่อเนื่องเป็นลักษณะประจาที่มีค่าไม่ต่อเนื่องโดยใช้ filter ก่อนเลือกแถบ Classify  Weka  Explorer  Open file  C:/Program Files/Weka-3- 6/data/weather.nominal.arff
  • 9.
  • 10. Classify – ID3  Classify  Choose  Classifiers  Trees  ขันนตอนวิธี ID3
  • 11. ผู้ใช้กาหนดตัวเลือก use training set เพื่อใช้ทุกตัวอย่างในการสร้างต้นไม้ ผู้ใช้เลือกลักษณะประจาเป้าหมายที่ต้องการโดยปรกติลักษณะประจาสุดท้ายจะถูกเลือก ผู้ใช้กดปุ่ม Start เพื่อเริ่มสร้างต้นไม้
  • 15. Classify – J48  Classify  Choose  Classifiers  Trees  ขันนตอนวิธี J48
  • 16.
  • 17.
  • 19.
  • 20. More options  Output prediction