1. klasifikasi dan evaluasi

GTA – DATA SCIENCE FUNDAMENTAL
Tema Pelatihan:
KLASIFIKASI DAN EVALUASI
DTS 2022
Klasifikasi
(Classification)
DTS 2022
Klasifikasi (Classification)
● Klasifikasi merupakan proses penemuan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk
dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.
● Metode yang digunakan antara lain Decision Tree, Neural Network, k-Nearest
Neighbor dan Naïve Bayes.
● Output klasifikasi: label atau class untuk data baru.
DTS 2022
Decision
Tree
DTS 2022
Decision Tree
● Decision tree adalah algoritma yang menggabungkan model klasifikasi dan
regresi.
● Tree dibangun dari atas ke bawah secara rekursif.
● Pada awal training (latihan), semua atribut dianggap sebagai root.
● Tree akan dibagai menjadi 2 (dua) simpul, yaitu:
○ Keputusan: memiliki cabang untuk mengarah ke daun,
○ Daun: mewakili klasifikasi/ keputusan.
● Semakin panjang simpul, maka semakin kompleks aturan yang digunakan,
namun keputusan yang didapat semakin baik.
DTS 2022
Decision Tree (lanj.)
● Atribut bersifat categorical, jika atribut bernilai kontinu maka akan di-
diskritisasi terlebih dahulu.
● Atribut akan dipilih berdasarkan ukuran statistic (misal information gain, gain
ratio atau gain index
● Kondisi berhenti
○ Semua sample berada pada class yang sama
○ Tidak ada lagi atribut yang dapat dipartisi
○ Tidak ada sample yang tersisa
DTS 2022
Tahapan Algoritma Decision Tree
1. Siapkan data training
2. Pilih atribut sebagai akar
3. Buat cabang untuk setiap nilai
4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang
memiliki kelas yang sama
DTS 2022
Mengapa Decision Tree Populer?
● Proses belajar relatif lebih cepat (dibandingkan dengan metode klasifikasi
lain).
● Aturan klasifikasinya simple dan mudah dipahami.
● Dapat menggunakan SQL query untuk mengakses ke database.
DTS 2022
Bayesian
Classification
DTS 2022
Bayesian Classification
● Bayesian classification adalah pengklasifikasian yang melakukan prediksi
probabilitas yang memprediksi label dari data.
● Dasar yang digunakan adalah teori Bayes.
● Atribut pada algoritma ini dianggap independen dan tidak memiliki
ketergantungan dengan atribut lain.
● Performa bayesian classification sebanding dengan decision tree dan neural
network classifier.
DTS 2022
Bayesian Classification (lanj.)
● Kelebihan
○ Dapat digunakan untuk data numerical maupun categorical.
○ Tidak memerlukan data training yang banyak.
○ Bisa digunakan untuk klasifikasi masalah biner ataupun multiclass.
● Kekurangan
○ Asumsi bahwa atribut bersifat independent dapat mengurangi akurasi, karena bisanya ada
korelasi antar atribut.
DTS 2022
Tahapan Algoritma Naïve Bayes
1. Baca data training
2. Hitung jumlah class
3. Hitung jumlah kasus yang sama dengan class yang sama
4. Kalikan semua nilai hasil sesuai dengan data X yang dicari classnya
DTS 2022
Neural
Network
DTS 2022
Neural Network
● Neural network adalah suatu model yang dibuat untuk meniru fungsi belajar
yang dimiliki otak manusia atau jaringan yang dimodelkan berdasarkan
jaringan saraf manusia.
● Algoritma ini minimal mempunyai 3 (tiga layer), yaitu layer input, hidden layer
(layer tersembunyi) dan layer output.
● Setiap hidden layer akan mencoba mendeteksi pola dari data input. Saat pola
terdeteksi, pola akan diteruskan ke hidden layer selanjutnya dan terus
berjalan hingga layer output.
DTS 2022
Fungsi Neural Network
1. Pengklasifikasian pola
2. Memetakan pola yang dudapat dari input ke dalam pola baru pada output
3. Penyimpanan pola yang dapat dipanggil kembali
4. Memetakan pola-pola yang sejenis
5. Pengoptimasi permasalahan
6. Prediksi
DTS 2022
Evaluasi
DTS 2022
Split Data
DTS 2022
Evaluasi Model Data Mining
● Pembagian data set dapat dibagi dengan perbadingan 90:10 atau 80:20,
berupa:
○ Data training untuk jumlah yang lebih besar dan
○ Data testing untuk jumlah yang lebih kecil.
● Data training digunakan untuk pembentukan model dan data testing
digunakan untuk pengujian model
● Pemisahan data dapat dilakukan dengan cara:
1. Manual,
2. Otomatis menggunakan operator Split Data,
3. Otomatis menggunakan X Validation.
DTS 2022
Cross
Validation
DTS 2022
Cross Validation
● Cross-validation (CV) adalah metode statistik yang dapat digunakan untuk
mengevaluasi kinerja model atau algoritma dimana data dipisahkan menjadi
dua subset yaitu data proses pembelajaran dan data validasi / evaluasi.
● CV K-fold digunakan karena dapat mengurangi waktu komputasi dengan
tetap menjaga keakuratan estimasi.
DTS 2022
Confusion
Matrix
DTS 2022
Confusion Matrix
Terdapat 4 (empat) istilah sebagai representasi hasil proses klasifikasi, yaitu:
● True Positive (TP)
Data positif yang diprediksi benar.
Contoh pasien postif covid (class 1) dan model memprediksi class 1.
● True Negative (TN)
Data negatif yang diprediksi benar.
Contoh pasien negatif covid (class 0) dan model memprediksi class 0.
● False Positive (FP) – Type I Error
Data negatif yang diprediksi sebagai data positif.
Contoh pasien negatif covid (class 0) dan model memprediksi class 1.
● False Negative (FN) – Type II Error
Data positif yang diprediksi sebagai negative covid.
Contoh pasien postif covid (class 1) dan model memprediksi class 0.
DTS 2022
Manfaat Confusion Matrix
1. Menunjukkan bagaimana model kita membuat prediksi.
2. Tidak hanya memberi informasi tentang kesalahan yang dibuat oleh model
tetapi juga jenis kesalahan yang dibuat.
3. Setiap kolom dari confusion matrix merepresentasikan instance dari kelas
prediksi.
4. Setiap baris dari confusion matrix mewakili instance dari kelas aktual.
DTS 2022
Menghitung Performa Confusion Matrix
1. Akurasi
2. Precision
3. Recall
DTS 2022
Studi
Kasus
DTS 2022
Studi Kasus 1 – Play Golf
Buatlah model untuk menganalisa apakah orang akan bermain golf berdasarkan
cuaca hari ini, perhatikan petunjuk yang diberikan:
1. Buka Weather.csv
2. Analisa setiap atribut pada data
3. Analisa apakah perlu dilakukan pre-processing
4. Analisa model yang tepat
5. Masukkan data testing Weather -testing.csv dan apply pada model
6. Hitung performa model
DTS 2022
Atribut Data
● No: ID
● Outlook: polynomial
● Temperature: polynomial
● Humidity: binomial
● Windy: binomial
● Play: Label
DTS 2022
Pre Processing Data
● Tidak ada missing value
● Tidak ada outlier
DTS 2022
Decision Tree
● Karena jumlah data sedikit dan berupa categorical, maka algoritma decision
tree cocok untuk digunakan.
DTS 2022
Model yang Dibentuk
● Klik Run, maka model
akan muncul.
DTS 2022
Masukkan Data Testing
1.Hubungkan output
model ke input
Apply Model.
2.Tambahkan Data
Testing dan
hubungkan ke
input Apply Model.
3.Hubungkan output
Apply Model ke
Performance.
DTS 2022
Performa Model
● Pada performa, kita dapat mengecek akurasi, precision dan recall.
DTS 2022
Studi Kasus Klasifikasi – Car Acceptance
Buatlah model untuk Car Acceptance, perhatikan petunjuk yang diberikan:
1. Buka car-dataset.xlsx
2. Analisa setiap atribut pada data
3. Analisa apakah perlu dilakukan pre-processing
4. Bagi data menjadi data menggunakan cross validation
5. Analisa model yang tepat
6. Hitung performa model
DTS 2022
Preprocessing
● Cek setiap atribut data.
● Karena tidak ada missing value dan outlier, kita bisa langsung masuk ke
tahap selanjutnya.
DTS 2022
Bagi data Menggunakan Cross Validation
● Tambahkan Cross Validation.
● Isi number of folds dengan 10.
DTS 2022
Pilih Model yang Digunakan
● Double klik pada Cross Validation.
● Pada layer Training, tarik model Decision Tree.
● Hubungkan training ke Model.
DTS 2022
Evaluasi
● Pada layer Testing, tambahkan Apply Model.
● Hubungkan mod dengan mod (Apply Model) dan tes dengan unl (Apply
Model).
● Tambahkan Performace.
● Hubungkan lab (Apply Model dengan lab (Performance).
DTS 2022
Evaluasi
● Kembali ke bagian
Process.
● Hubungkan cross
validation mod dan
per ke result.
DTS 2022
Terima Kasih
#Jadijagoandigital
1 de 39

Recomendados

Fuzzymulticriteriadecisionmaking por
FuzzymulticriteriadecisionmakingFuzzymulticriteriadecisionmaking
FuzzymulticriteriadecisionmakingSeto Elkahfi
188 visualizações34 slides
Komparasi lvq dengan fcm pada abs por
Komparasi lvq dengan fcm pada absKomparasi lvq dengan fcm pada abs
Komparasi lvq dengan fcm pada absHalley AI
549 visualizações6 slides
Modul praktikum 3 cluster por
Modul praktikum 3   clusterModul praktikum 3   cluster
Modul praktikum 3 clusterDeiHart DeiHart
1.3K visualizações26 slides
komparasi LVQ dengan FCM dalam Analisis Butir Soal por
komparasi LVQ dengan FCM dalam Analisis Butir Soal komparasi LVQ dengan FCM dalam Analisis Butir Soal
komparasi LVQ dengan FCM dalam Analisis Butir Soal Halley AI
1.3K visualizações6 slides
Analisis cluster por
Analisis clusterAnalisis cluster
Analisis clusterSri 'adinda' Asis
9.3K visualizações20 slides
klastering-k-means-untuk-penentuan-nilai-ujian por
klastering-k-means-untuk-penentuan-nilai-ujianklastering-k-means-untuk-penentuan-nilai-ujian
klastering-k-means-untuk-penentuan-nilai-ujianAnam Syamsul
203 visualizações10 slides

Mais conteúdo relacionado

Similar a 1. klasifikasi dan evaluasi

Klasifikasi Data Mining.pptx por
Klasifikasi Data Mining.pptxKlasifikasi Data Mining.pptx
Klasifikasi Data Mining.pptxAdam Superman
192 visualizações62 slides
PPT KEL 3 DAI - 007.pptx por
PPT KEL 3 DAI - 007.pptxPPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptxStevenAdiSantoso
7 visualizações25 slides
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ... por
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...butest
2.2K visualizações6 slides
Procceding_KNIT_2_97-102_AndikaDwiHadiri por
Procceding_KNIT_2_97-102_AndikaDwiHadiriProcceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriAndika Dwi Hadiri
108 visualizações6 slides
10 feature engineering-univ-gunadarma por
10 feature engineering-univ-gunadarma10 feature engineering-univ-gunadarma
10 feature engineering-univ-gunadarmaArdianDwiPraba
617 visualizações28 slides
9 dts-transformasi data-univ-gunadarma por
9 dts-transformasi data-univ-gunadarma9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarmaArdianDwiPraba
1.8K visualizações83 slides

Similar a 1. klasifikasi dan evaluasi(20)

Klasifikasi Data Mining.pptx por Adam Superman
Klasifikasi Data Mining.pptxKlasifikasi Data Mining.pptx
Klasifikasi Data Mining.pptx
Adam Superman192 visualizações
PPT KEL 3 DAI - 007.pptx por StevenAdiSantoso
PPT KEL 3 DAI - 007.pptxPPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptx
StevenAdiSantoso7 visualizações
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ... por butest
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
butest2.2K visualizações
Procceding_KNIT_2_97-102_AndikaDwiHadiri por Andika Dwi Hadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriProcceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiri
Andika Dwi Hadiri108 visualizações
10 feature engineering-univ-gunadarma por ArdianDwiPraba
10 feature engineering-univ-gunadarma10 feature engineering-univ-gunadarma
10 feature engineering-univ-gunadarma
ArdianDwiPraba617 visualizações
9 dts-transformasi data-univ-gunadarma por ArdianDwiPraba
9 dts-transformasi data-univ-gunadarma9 dts-transformasi data-univ-gunadarma
9 dts-transformasi data-univ-gunadarma
ArdianDwiPraba1.8K visualizações
tugas1-kelompok-K-Medoids-dataMining.pptx por aakuntumbal
tugas1-kelompok-K-Medoids-dataMining.pptxtugas1-kelompok-K-Medoids-dataMining.pptx
tugas1-kelompok-K-Medoids-dataMining.pptx
aakuntumbal36 visualizações
17. sarah fadilah implementasi data mining untuk pengenalan karakteristik t... por ym.ygrex@comp
17. sarah fadilah   implementasi data mining untuk pengenalan karakteristik t...17. sarah fadilah   implementasi data mining untuk pengenalan karakteristik t...
17. sarah fadilah implementasi data mining untuk pengenalan karakteristik t...
ym.ygrex@comp533 visualizações
AI Security .pptx por OperatorPolina
AI Security .pptxAI Security .pptx
AI Security .pptx
OperatorPolina6 visualizações
Pertemuan 4.pdf por HasanulFahmi2
Pertemuan 4.pdfPertemuan 4.pdf
Pertemuan 4.pdf
HasanulFahmi27 visualizações
Materi Kuliah Data Mining full por Munajat ( Munjob )
Materi Kuliah Data Mining fullMateri Kuliah Data Mining full
Materi Kuliah Data Mining full
Munajat ( Munjob )211 visualizações
[07] PPT Menentukan Label Data.pptx por 23520053IPutuEkaSury
[07] PPT Menentukan Label Data.pptx[07] PPT Menentukan Label Data.pptx
[07] PPT Menentukan Label Data.pptx
23520053IPutuEkaSury5 visualizações
Permasalahan terstruktur, semi terstruktur dan tidak terstruktur dan penerapa... por I Gede Iwan Sudipa
Permasalahan terstruktur, semi terstruktur dan tidak terstruktur dan penerapa...Permasalahan terstruktur, semi terstruktur dan tidak terstruktur dan penerapa...
Permasalahan terstruktur, semi terstruktur dan tidak terstruktur dan penerapa...
I Gede Iwan Sudipa3.5K visualizações
APPLIED DATABASE III - Slide Arsitektur Data Mining por DEDE IRYAWAN
APPLIED DATABASE III - Slide Arsitektur Data MiningAPPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data Mining
DEDE IRYAWAN39 visualizações
Klasterisasi - Algoritma K-Means Clustering.pdf por Elvi Rahmi
Klasterisasi - Algoritma K-Means Clustering.pdfKlasterisasi - Algoritma K-Means Clustering.pdf
Klasterisasi - Algoritma K-Means Clustering.pdf
Elvi Rahmi160 visualizações
Klasifikasi - Algoritma Naive Bayes por Elvi Rahmi
Klasifikasi - Algoritma Naive Bayes Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes
Elvi Rahmi320 visualizações

Último

LATIHAN7 PPT_Defrindo_Pratama_E1G022031.pptx por
LATIHAN7 PPT_Defrindo_Pratama_E1G022031.pptxLATIHAN7 PPT_Defrindo_Pratama_E1G022031.pptx
LATIHAN7 PPT_Defrindo_Pratama_E1G022031.pptxdefrindopratama
11 visualizações9 slides
WINJUDI : SLOT GACOR MUDAH MENANG por
WINJUDI : SLOT GACOR MUDAH MENANGWINJUDI : SLOT GACOR MUDAH MENANG
WINJUDI : SLOT GACOR MUDAH MENANGserlypelupa456
6 visualizações1 slide
TugasPPT_Muhamad Aldrin_E1G022061.pptx por
TugasPPT_Muhamad Aldrin_E1G022061.pptxTugasPPT_Muhamad Aldrin_E1G022061.pptx
TugasPPT_Muhamad Aldrin_E1G022061.pptxaditasela9
7 visualizações9 slides
Tili Herlina Putri_E1G022033...pptx por
Tili Herlina Putri_E1G022033...pptxTili Herlina Putri_E1G022033...pptx
Tili Herlina Putri_E1G022033...pptxtiliherlina
5 visualizações9 slides
Tugas PPT_Amanda emilia_E1G022021.pptx por
Tugas PPT_Amanda emilia_E1G022021.pptxTugas PPT_Amanda emilia_E1G022021.pptx
Tugas PPT_Amanda emilia_E1G022021.pptxAmandaEmilia1
6 visualizações9 slides
Tugas Andre Hutabrat E1G022055.pptx por
Tugas Andre Hutabrat E1G022055.pptxTugas Andre Hutabrat E1G022055.pptx
Tugas Andre Hutabrat E1G022055.pptxAndreHutabarat4
16 visualizações9 slides

Último(11)

LATIHAN7 PPT_Defrindo_Pratama_E1G022031.pptx por defrindopratama
LATIHAN7 PPT_Defrindo_Pratama_E1G022031.pptxLATIHAN7 PPT_Defrindo_Pratama_E1G022031.pptx
LATIHAN7 PPT_Defrindo_Pratama_E1G022031.pptx
defrindopratama11 visualizações
WINJUDI : SLOT GACOR MUDAH MENANG por serlypelupa456
WINJUDI : SLOT GACOR MUDAH MENANGWINJUDI : SLOT GACOR MUDAH MENANG
WINJUDI : SLOT GACOR MUDAH MENANG
serlypelupa4566 visualizações
TugasPPT_Muhamad Aldrin_E1G022061.pptx por aditasela9
TugasPPT_Muhamad Aldrin_E1G022061.pptxTugasPPT_Muhamad Aldrin_E1G022061.pptx
TugasPPT_Muhamad Aldrin_E1G022061.pptx
aditasela97 visualizações
Tili Herlina Putri_E1G022033...pptx por tiliherlina
Tili Herlina Putri_E1G022033...pptxTili Herlina Putri_E1G022033...pptx
Tili Herlina Putri_E1G022033...pptx
tiliherlina5 visualizações
Tugas PPT_Amanda emilia_E1G022021.pptx por AmandaEmilia1
Tugas PPT_Amanda emilia_E1G022021.pptxTugas PPT_Amanda emilia_E1G022021.pptx
Tugas PPT_Amanda emilia_E1G022021.pptx
AmandaEmilia16 visualizações
Tugas Andre Hutabrat E1G022055.pptx por AndreHutabarat4
Tugas Andre Hutabrat E1G022055.pptxTugas Andre Hutabrat E1G022055.pptx
Tugas Andre Hutabrat E1G022055.pptx
AndreHutabarat416 visualizações
Tugas_PPT_Rangga Buana Patua_E1G108099.pdf por RanggabuanapattuaAng
Tugas_PPT_Rangga Buana Patua_E1G108099.pdfTugas_PPT_Rangga Buana Patua_E1G108099.pdf
Tugas_PPT_Rangga Buana Patua_E1G108099.pdf
RanggabuanapattuaAng10 visualizações
TUGAS PPT_Nabilla Dewanti_E1G022015.pptx por nabilladewanti21
TUGAS PPT_Nabilla Dewanti_E1G022015.pptxTUGAS PPT_Nabilla Dewanti_E1G022015.pptx
TUGAS PPT_Nabilla Dewanti_E1G022015.pptx
nabilladewanti215 visualizações
Tugas_Roni Nurhalim_E1G022045.pptx por MAsrofi4
Tugas_Roni Nurhalim_E1G022045.pptxTugas_Roni Nurhalim_E1G022045.pptx
Tugas_Roni Nurhalim_E1G022045.pptx
MAsrofi410 visualizações
PPT PKWU Penjualan Konsinyasi Kelompok 6 MIPA 6.pptx por adeliaintan5
PPT PKWU Penjualan Konsinyasi Kelompok 6 MIPA 6.pptxPPT PKWU Penjualan Konsinyasi Kelompok 6 MIPA 6.pptx
PPT PKWU Penjualan Konsinyasi Kelompok 6 MIPA 6.pptx
adeliaintan510 visualizações
Tugas PPT6_Rahma Dwi Rahayu_E1G022003.pptx por RahmaRahma15992
Tugas PPT6_Rahma Dwi Rahayu_E1G022003.pptxTugas PPT6_Rahma Dwi Rahayu_E1G022003.pptx
Tugas PPT6_Rahma Dwi Rahayu_E1G022003.pptx
RahmaRahma159925 visualizações

1. klasifikasi dan evaluasi

  • 1. GTA – DATA SCIENCE FUNDAMENTAL Tema Pelatihan: KLASIFIKASI DAN EVALUASI
  • 3. DTS 2022 Klasifikasi (Classification) ● Klasifikasi merupakan proses penemuan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. ● Metode yang digunakan antara lain Decision Tree, Neural Network, k-Nearest Neighbor dan Naïve Bayes. ● Output klasifikasi: label atau class untuk data baru.
  • 5. DTS 2022 Decision Tree ● Decision tree adalah algoritma yang menggabungkan model klasifikasi dan regresi. ● Tree dibangun dari atas ke bawah secara rekursif. ● Pada awal training (latihan), semua atribut dianggap sebagai root. ● Tree akan dibagai menjadi 2 (dua) simpul, yaitu: ○ Keputusan: memiliki cabang untuk mengarah ke daun, ○ Daun: mewakili klasifikasi/ keputusan. ● Semakin panjang simpul, maka semakin kompleks aturan yang digunakan, namun keputusan yang didapat semakin baik.
  • 6. DTS 2022 Decision Tree (lanj.) ● Atribut bersifat categorical, jika atribut bernilai kontinu maka akan di- diskritisasi terlebih dahulu. ● Atribut akan dipilih berdasarkan ukuran statistic (misal information gain, gain ratio atau gain index ● Kondisi berhenti ○ Semua sample berada pada class yang sama ○ Tidak ada lagi atribut yang dapat dipartisi ○ Tidak ada sample yang tersisa
  • 7. DTS 2022 Tahapan Algoritma Decision Tree 1. Siapkan data training 2. Pilih atribut sebagai akar 3. Buat cabang untuk setiap nilai 4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama
  • 8. DTS 2022 Mengapa Decision Tree Populer? ● Proses belajar relatif lebih cepat (dibandingkan dengan metode klasifikasi lain). ● Aturan klasifikasinya simple dan mudah dipahami. ● Dapat menggunakan SQL query untuk mengakses ke database.
  • 10. DTS 2022 Bayesian Classification ● Bayesian classification adalah pengklasifikasian yang melakukan prediksi probabilitas yang memprediksi label dari data. ● Dasar yang digunakan adalah teori Bayes. ● Atribut pada algoritma ini dianggap independen dan tidak memiliki ketergantungan dengan atribut lain. ● Performa bayesian classification sebanding dengan decision tree dan neural network classifier.
  • 11. DTS 2022 Bayesian Classification (lanj.) ● Kelebihan ○ Dapat digunakan untuk data numerical maupun categorical. ○ Tidak memerlukan data training yang banyak. ○ Bisa digunakan untuk klasifikasi masalah biner ataupun multiclass. ● Kekurangan ○ Asumsi bahwa atribut bersifat independent dapat mengurangi akurasi, karena bisanya ada korelasi antar atribut.
  • 12. DTS 2022 Tahapan Algoritma Naïve Bayes 1. Baca data training 2. Hitung jumlah class 3. Hitung jumlah kasus yang sama dengan class yang sama 4. Kalikan semua nilai hasil sesuai dengan data X yang dicari classnya
  • 14. DTS 2022 Neural Network ● Neural network adalah suatu model yang dibuat untuk meniru fungsi belajar yang dimiliki otak manusia atau jaringan yang dimodelkan berdasarkan jaringan saraf manusia. ● Algoritma ini minimal mempunyai 3 (tiga layer), yaitu layer input, hidden layer (layer tersembunyi) dan layer output. ● Setiap hidden layer akan mencoba mendeteksi pola dari data input. Saat pola terdeteksi, pola akan diteruskan ke hidden layer selanjutnya dan terus berjalan hingga layer output.
  • 15. DTS 2022 Fungsi Neural Network 1. Pengklasifikasian pola 2. Memetakan pola yang dudapat dari input ke dalam pola baru pada output 3. Penyimpanan pola yang dapat dipanggil kembali 4. Memetakan pola-pola yang sejenis 5. Pengoptimasi permasalahan 6. Prediksi
  • 18. DTS 2022 Evaluasi Model Data Mining ● Pembagian data set dapat dibagi dengan perbadingan 90:10 atau 80:20, berupa: ○ Data training untuk jumlah yang lebih besar dan ○ Data testing untuk jumlah yang lebih kecil. ● Data training digunakan untuk pembentukan model dan data testing digunakan untuk pengujian model ● Pemisahan data dapat dilakukan dengan cara: 1. Manual, 2. Otomatis menggunakan operator Split Data, 3. Otomatis menggunakan X Validation.
  • 20. DTS 2022 Cross Validation ● Cross-validation (CV) adalah metode statistik yang dapat digunakan untuk mengevaluasi kinerja model atau algoritma dimana data dipisahkan menjadi dua subset yaitu data proses pembelajaran dan data validasi / evaluasi. ● CV K-fold digunakan karena dapat mengurangi waktu komputasi dengan tetap menjaga keakuratan estimasi.
  • 22. DTS 2022 Confusion Matrix Terdapat 4 (empat) istilah sebagai representasi hasil proses klasifikasi, yaitu: ● True Positive (TP) Data positif yang diprediksi benar. Contoh pasien postif covid (class 1) dan model memprediksi class 1. ● True Negative (TN) Data negatif yang diprediksi benar. Contoh pasien negatif covid (class 0) dan model memprediksi class 0. ● False Positive (FP) – Type I Error Data negatif yang diprediksi sebagai data positif. Contoh pasien negatif covid (class 0) dan model memprediksi class 1. ● False Negative (FN) – Type II Error Data positif yang diprediksi sebagai negative covid. Contoh pasien postif covid (class 1) dan model memprediksi class 0.
  • 23. DTS 2022 Manfaat Confusion Matrix 1. Menunjukkan bagaimana model kita membuat prediksi. 2. Tidak hanya memberi informasi tentang kesalahan yang dibuat oleh model tetapi juga jenis kesalahan yang dibuat. 3. Setiap kolom dari confusion matrix merepresentasikan instance dari kelas prediksi. 4. Setiap baris dari confusion matrix mewakili instance dari kelas aktual.
  • 24. DTS 2022 Menghitung Performa Confusion Matrix 1. Akurasi 2. Precision 3. Recall
  • 26. DTS 2022 Studi Kasus 1 – Play Golf Buatlah model untuk menganalisa apakah orang akan bermain golf berdasarkan cuaca hari ini, perhatikan petunjuk yang diberikan: 1. Buka Weather.csv 2. Analisa setiap atribut pada data 3. Analisa apakah perlu dilakukan pre-processing 4. Analisa model yang tepat 5. Masukkan data testing Weather -testing.csv dan apply pada model 6. Hitung performa model
  • 27. DTS 2022 Atribut Data ● No: ID ● Outlook: polynomial ● Temperature: polynomial ● Humidity: binomial ● Windy: binomial ● Play: Label
  • 28. DTS 2022 Pre Processing Data ● Tidak ada missing value ● Tidak ada outlier
  • 29. DTS 2022 Decision Tree ● Karena jumlah data sedikit dan berupa categorical, maka algoritma decision tree cocok untuk digunakan.
  • 30. DTS 2022 Model yang Dibentuk ● Klik Run, maka model akan muncul.
  • 31. DTS 2022 Masukkan Data Testing 1.Hubungkan output model ke input Apply Model. 2.Tambahkan Data Testing dan hubungkan ke input Apply Model. 3.Hubungkan output Apply Model ke Performance.
  • 32. DTS 2022 Performa Model ● Pada performa, kita dapat mengecek akurasi, precision dan recall.
  • 33. DTS 2022 Studi Kasus Klasifikasi – Car Acceptance Buatlah model untuk Car Acceptance, perhatikan petunjuk yang diberikan: 1. Buka car-dataset.xlsx 2. Analisa setiap atribut pada data 3. Analisa apakah perlu dilakukan pre-processing 4. Bagi data menjadi data menggunakan cross validation 5. Analisa model yang tepat 6. Hitung performa model
  • 34. DTS 2022 Preprocessing ● Cek setiap atribut data. ● Karena tidak ada missing value dan outlier, kita bisa langsung masuk ke tahap selanjutnya.
  • 35. DTS 2022 Bagi data Menggunakan Cross Validation ● Tambahkan Cross Validation. ● Isi number of folds dengan 10.
  • 36. DTS 2022 Pilih Model yang Digunakan ● Double klik pada Cross Validation. ● Pada layer Training, tarik model Decision Tree. ● Hubungkan training ke Model.
  • 37. DTS 2022 Evaluasi ● Pada layer Testing, tambahkan Apply Model. ● Hubungkan mod dengan mod (Apply Model) dan tes dengan unl (Apply Model). ● Tambahkan Performace. ● Hubungkan lab (Apply Model dengan lab (Performance).
  • 38. DTS 2022 Evaluasi ● Kembali ke bagian Process. ● Hubungkan cross validation mod dan per ke result.