3. DTS 2022
Klasifikasi (Classification)
● Klasifikasi merupakan proses penemuan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk
dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.
● Metode yang digunakan antara lain Decision Tree, Neural Network, k-Nearest
Neighbor dan Naïve Bayes.
● Output klasifikasi: label atau class untuk data baru.
5. DTS 2022
Decision Tree
● Decision tree adalah algoritma yang menggabungkan model klasifikasi dan
regresi.
● Tree dibangun dari atas ke bawah secara rekursif.
● Pada awal training (latihan), semua atribut dianggap sebagai root.
● Tree akan dibagai menjadi 2 (dua) simpul, yaitu:
○ Keputusan: memiliki cabang untuk mengarah ke daun,
○ Daun: mewakili klasifikasi/ keputusan.
● Semakin panjang simpul, maka semakin kompleks aturan yang digunakan,
namun keputusan yang didapat semakin baik.
6. DTS 2022
Decision Tree (lanj.)
● Atribut bersifat categorical, jika atribut bernilai kontinu maka akan di-
diskritisasi terlebih dahulu.
● Atribut akan dipilih berdasarkan ukuran statistic (misal information gain, gain
ratio atau gain index
● Kondisi berhenti
○ Semua sample berada pada class yang sama
○ Tidak ada lagi atribut yang dapat dipartisi
○ Tidak ada sample yang tersisa
7. DTS 2022
Tahapan Algoritma Decision Tree
1. Siapkan data training
2. Pilih atribut sebagai akar
3. Buat cabang untuk setiap nilai
4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang
memiliki kelas yang sama
8. DTS 2022
Mengapa Decision Tree Populer?
● Proses belajar relatif lebih cepat (dibandingkan dengan metode klasifikasi
lain).
● Aturan klasifikasinya simple dan mudah dipahami.
● Dapat menggunakan SQL query untuk mengakses ke database.
10. DTS 2022
Bayesian Classification
● Bayesian classification adalah pengklasifikasian yang melakukan prediksi
probabilitas yang memprediksi label dari data.
● Dasar yang digunakan adalah teori Bayes.
● Atribut pada algoritma ini dianggap independen dan tidak memiliki
ketergantungan dengan atribut lain.
● Performa bayesian classification sebanding dengan decision tree dan neural
network classifier.
11. DTS 2022
Bayesian Classification (lanj.)
● Kelebihan
○ Dapat digunakan untuk data numerical maupun categorical.
○ Tidak memerlukan data training yang banyak.
○ Bisa digunakan untuk klasifikasi masalah biner ataupun multiclass.
● Kekurangan
○ Asumsi bahwa atribut bersifat independent dapat mengurangi akurasi, karena bisanya ada
korelasi antar atribut.
12. DTS 2022
Tahapan Algoritma Naïve Bayes
1. Baca data training
2. Hitung jumlah class
3. Hitung jumlah kasus yang sama dengan class yang sama
4. Kalikan semua nilai hasil sesuai dengan data X yang dicari classnya
14. DTS 2022
Neural Network
● Neural network adalah suatu model yang dibuat untuk meniru fungsi belajar
yang dimiliki otak manusia atau jaringan yang dimodelkan berdasarkan
jaringan saraf manusia.
● Algoritma ini minimal mempunyai 3 (tiga layer), yaitu layer input, hidden layer
(layer tersembunyi) dan layer output.
● Setiap hidden layer akan mencoba mendeteksi pola dari data input. Saat pola
terdeteksi, pola akan diteruskan ke hidden layer selanjutnya dan terus
berjalan hingga layer output.
15. DTS 2022
Fungsi Neural Network
1. Pengklasifikasian pola
2. Memetakan pola yang dudapat dari input ke dalam pola baru pada output
3. Penyimpanan pola yang dapat dipanggil kembali
4. Memetakan pola-pola yang sejenis
5. Pengoptimasi permasalahan
6. Prediksi
18. DTS 2022
Evaluasi Model Data Mining
● Pembagian data set dapat dibagi dengan perbadingan 90:10 atau 80:20,
berupa:
○ Data training untuk jumlah yang lebih besar dan
○ Data testing untuk jumlah yang lebih kecil.
● Data training digunakan untuk pembentukan model dan data testing
digunakan untuk pengujian model
● Pemisahan data dapat dilakukan dengan cara:
1. Manual,
2. Otomatis menggunakan operator Split Data,
3. Otomatis menggunakan X Validation.
20. DTS 2022
Cross Validation
● Cross-validation (CV) adalah metode statistik yang dapat digunakan untuk
mengevaluasi kinerja model atau algoritma dimana data dipisahkan menjadi
dua subset yaitu data proses pembelajaran dan data validasi / evaluasi.
● CV K-fold digunakan karena dapat mengurangi waktu komputasi dengan
tetap menjaga keakuratan estimasi.
22. DTS 2022
Confusion Matrix
Terdapat 4 (empat) istilah sebagai representasi hasil proses klasifikasi, yaitu:
● True Positive (TP)
Data positif yang diprediksi benar.
Contoh pasien postif covid (class 1) dan model memprediksi class 1.
● True Negative (TN)
Data negatif yang diprediksi benar.
Contoh pasien negatif covid (class 0) dan model memprediksi class 0.
● False Positive (FP) – Type I Error
Data negatif yang diprediksi sebagai data positif.
Contoh pasien negatif covid (class 0) dan model memprediksi class 1.
● False Negative (FN) – Type II Error
Data positif yang diprediksi sebagai negative covid.
Contoh pasien postif covid (class 1) dan model memprediksi class 0.
23. DTS 2022
Manfaat Confusion Matrix
1. Menunjukkan bagaimana model kita membuat prediksi.
2. Tidak hanya memberi informasi tentang kesalahan yang dibuat oleh model
tetapi juga jenis kesalahan yang dibuat.
3. Setiap kolom dari confusion matrix merepresentasikan instance dari kelas
prediksi.
4. Setiap baris dari confusion matrix mewakili instance dari kelas aktual.
26. DTS 2022
Studi Kasus 1 – Play Golf
Buatlah model untuk menganalisa apakah orang akan bermain golf berdasarkan
cuaca hari ini, perhatikan petunjuk yang diberikan:
1. Buka Weather.csv
2. Analisa setiap atribut pada data
3. Analisa apakah perlu dilakukan pre-processing
4. Analisa model yang tepat
5. Masukkan data testing Weather -testing.csv dan apply pada model
6. Hitung performa model
31. DTS 2022
Masukkan Data Testing
1.Hubungkan output
model ke input
Apply Model.
2.Tambahkan Data
Testing dan
hubungkan ke
input Apply Model.
3.Hubungkan output
Apply Model ke
Performance.
33. DTS 2022
Studi Kasus Klasifikasi – Car Acceptance
Buatlah model untuk Car Acceptance, perhatikan petunjuk yang diberikan:
1. Buka car-dataset.xlsx
2. Analisa setiap atribut pada data
3. Analisa apakah perlu dilakukan pre-processing
4. Bagi data menjadi data menggunakan cross validation
5. Analisa model yang tepat
6. Hitung performa model
34. DTS 2022
Preprocessing
● Cek setiap atribut data.
● Karena tidak ada missing value dan outlier, kita bisa langsung masuk ke
tahap selanjutnya.
35. DTS 2022
Bagi data Menggunakan Cross Validation
● Tambahkan Cross Validation.
● Isi number of folds dengan 10.
36. DTS 2022
Pilih Model yang Digunakan
● Double klik pada Cross Validation.
● Pada layer Training, tarik model Decision Tree.
● Hubungkan training ke Model.
37. DTS 2022
Evaluasi
● Pada layer Testing, tambahkan Apply Model.
● Hubungkan mod dengan mod (Apply Model) dan tes dengan unl (Apply
Model).
● Tambahkan Performace.
● Hubungkan lab (Apply Model dengan lab (Performance).