1. AI Classification
(Binary or Multiclass)
Kelompok 3
Nama Anggota :
1. Steven Adi Santoso
2. Yolan Dita Dewi Pramudita
3. Yusuf Firdaus Arifi
4. Yunita Kristanti Andriani
5. Dita Anggraeni
6. Sidiq Tri Kusuma
7. Indiarto Aji Begawan
8. Tica Laudita Nabilah
9. Veri Prasetiyo
10.Yahya Putra Pradana
11.Wahyu Nugraheni
12.Tasya Dwi Wicaksono
13.Cecep Wahyu Cahyana
2. Classification?
Sebuah metode untuk menyusun data secara
sistematis atau menurut beberapa aturan atau
kaidah yang telah ditetapkan.
Metode ini termasuk ke dalam supervised
learning dan dapat bekerja pada data
terstruktur maupun tidak terstruktur.
Di dalam Machine Learning banyak hal yang
bisa diklasifikasi seperti gambar, text, suara,
dan sebagainya.
5. Binary Classification
❏ Merupakan proses klasifikasi yang hanya menghasilkan 2 keluaran saja yaitu “Yes”
atau “No”, “Dog” atau “Cat”, “Spam” atau “Bukan Spam”, dan bisa juga “0” atau “1”
dimana label kelas “0” diberikan untuk keadaan normal/yes, dan label kelas “1” untuk
keadaan abnormal/no.
❏ Binary Classification bertujuan mencari boundary (batasan) yang dapat memisahkan
data secara optimal berdasarkan kelasnya.
❏ Khusus untuk Binary Classification, fungsi aktivasi yang digunakan pada umumnya
adalah sigmoid function.
6. Binary Classification
Ada beberapa algoritma yang biasa digunakan di proses Binary Classification yaitu :
1. Logistic Regression
2. K-Nearest Neighborhood
3. Decisions Tree
4. SVM (Support Vector Machine)
5. Naives Bayes
6. Two-Class Averaged Perceptron
7. Logistic Regression
● Logistic Regression adalah sebuah algoritma
klasifikasi untuk mencari hubungan antara
fitur (input) diskrit/kontinu dengan
probabilitas hasil output diskrit tertentu.
● Logistic Function adalah suatu fungsi yang
dibentuk dengan menyamakan nilai Y pada
Linear Function dengan nilai Y pada Sigmoid
Function. Tujuan dari Logistic Function
adalah merepresentasikan data-data yang
kita miliki kedalam bentuk fungsi Sigmoid.
● Contoh penerapan : Prediksi tumor ganas
atau tidak dari dataset breast cancer size.
8. Decision Tree
Alat pendukung keputusan yang menggunakan model keputusan seperti pohon dan
kemungkinan konsekuensinya, termasuk hasil acara kebetulan, biaya sumber daya, dan
utilitas. Contoh kasusnya adalah memprediksi spesies dari sebuah bunga iris
9. K-Nearest Neighborhood
Sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran
yang jaraknya paling dekat dengan objek tersebut. Data pembelajaran digambarkan ke
ruang berdimensi banyak dengan tiap-tiap dimensi mewakili tiap ciri/fitur dari data.
Contoh penerapan : Untuk clustering pengunjung toko berdasarkan gender, waktu belanja,
atau asal daerah.
10. SVM (Support Vector Machine)
Algoritma klasifikasi untuk data linear dan non-linear. SVM menggunakan mapping non-
linear untuk mentransformasikan training data awal ke dimensi yang lebih tinggi.
Contoh penerapan : Prediksi terjadinya gempa berdasarkan geospatial data-based
11. Naives Bayes
Metode pembelajaran mesin yang memanfaatkan perhitungan probabilitas dan statistik
yang memprediksi probabilitas di masa depan berdasarkan pengalaman di masa
sebelumnya.
Contoh penerapan :
12. Two-Class Averaged Perceptron
● Merupakan versi sederhana dari neural network dan perluasan dari algoritma
perceptron standar.
● Termasuk ke dalam model supervised learning, sehingga memerlukan sebuah
tagged dataset.
● Dalam pendekatan ini, input diklasifikasikan ke dalam beberapa kemungkinan
output berdasarkan fungsi linier, dan kemudian digabungkan dengan sekumpulan
bobot yang diturunkan dari feature vector. Oleh karena itu dinamakan perceptron.
● Detail algoritma ini pada Azure ML Studio:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-
reference/two-class-averaged-perceptron
14. Multiclass Classification
Multiclass classification merupakan metode klasifikasi yang
mengklasifikasikan instances ke dalam tiga kelas ataupun lebih.
Multiclass classification menjawab pertanyaan-pertanyaan
kompleks dengan beberapa jawaban yang mungkin.
Seperti menjawab pertanyaan:
“Apakah ini a atau b atau c?”
15. Multiclass Classification
Ada beberapa algoritma yang biasa digunakan di Multiclass Classification yaitu :
1. K-Nearest Neighbors
2. Decision Trees
3. Naive Bayes
4. Random Forest
5. Gradient Boosting
6. One-vs-All Multiclass
7. One-vs-One Multiclass
16. K-Nearest Neighbors
Case: Dimisalkan terdapat rumah berwarna hitam yang
tidak memiliki alamat kota yang jelas, rumah tersebut
terdapat di antara 3 kota bernama Phishing, Legitimate
dan Suspicious. Cara menentukannya bisa dengan
berikut:
● Tentukan beberapa titik rumah terdekat yang
sudah memiliki alamat kota yang jelas. Gambar di
samping terdapat 4 titik rumah terdekat.
● Dari 4 titik tersebut 3 rumah memiliki warna hijau
dan 1 titik warna kuning.
● Dapat disimpulkan bahwa secara algoritma K-
Nearest Neighbors titik rumah berwarna hitam
tersebut masuk dalam kota Legitimate (Hijau)
17. Decision Trees
❏ Konsep dari decision tree adalah mengubah data menjadi aturan-aturan keputusan.
❏ Manfaat utama dari penggunaan decision tree adalah kemampuannya untuk mem-break down
proses pengambilan keputusan yang kompleks menjadi lebih simple, sehingga pengambil
keputusan akan lebih menginterpretasikan solusi dari permasalahan.
❏ Decision tree juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi
antara sejumlah calon variabel input dengan sebuah variabel target.
❏ Nama lain dari decision tree adalah CART (Classification and Regression Tree). Dimana
metode ini merupakan gabungan dari dua jenis pohon, yaitu classification tree dan juga
regression tree.
❏ Jika variabel dependen yang dimiliki bertipe kategorik maka CART menghasilkan pohon
klasifikasi (classification trees). Sedangkan jika variabel dependen yang dimiliki bertipe kontinu
atau numerik maka CART menghasilkan pohon regresi (regression trees).
19. Naive Bayes
- Naive Bayes adalah algoritma klasifikasi untuk masalah
klasifikasi biner dan multikelas, dimana perhitungan
probabilitas untuk setiap kelas disederhanakan agar
perhitungannya dapat dilakukan.
- Asumsi algoritmanya adalah independen bersyarat
mengingat nilai kelas, yang mana atribut tidak
berinteraksi
- Bekerja sangat baik pada data yang asumsinya tidak
berlaku
- Perhitungan ini dapat dilakukan untuk setiap label
kelas, dan label dengan probabilitas terbesar dapat
dipilih sebagai klasifikasi untuk instance yang diberikan.
Aturan keputusan ini disebut sebagai aturan keputusan
maksimum a posteriori, atau MAP
Contohnya : P(yi | x1, x2, …, xn) = P(x1|yi) * P(x2|yi) * … P(xn|yi)
* P(yi)
20. Random Forest
Random forest merupakan algoritma yang digunakan untuk klasifikasi data dalam jumlah
yang besar, yang mana merupakan kombinasi dari masing – masing pohon (tree) dari model
Decision Tree yang baik, dan kemudian dikombinasikan ke dalam satu model.
● Pohon-pohon yang digunakan dalam Random Forest didasarkan pada pohon partisi
rekursif biner dalam monograf. Pohon-pohon ini mempartisi ruang prediktor
menggunakan urutan partisi biner ("splits") pada variabel individual.
21. Gradient Boosting
❏ Gradient boosting adalah algoritma machine learning yang menggunakan ensamble dari
decision tree untuk memprediksi nilai.
❏ Ensamble learning algorithm adalah algoritma yang menggunakan banyak simple machine
learning model yang bekerja bersama untuk menghasilkan prediksi yang tepat.
❏ Cara kerja algoritma gradient boosting adalah membangun satu tree untuk menyesuaikan
data, lalu tree berikutnya dibangun untuk mengurangi residual (error).
22. One-vs-All Multiclass
● One-vs-All atau One-vs-Rest menggunakan
algoritma binary classification untuk multiclass
classification, sehingga bergantung pada
binary/two-class classifier.
● Melibatkan pembagian multiclass dataset menjadi
masalah-masalah binary classification.
● OvA membagi dataset menjadi satu dataset biner
(binary dataset) untuk setiap kelas
● Binary classifier kemudian di-train atau dilatihkan
pada setiap masalah-masalah binary classification
dan prediksi dibuat menggunakan model dengan
level confidence yang paling tinggi.
23. One-vs-One Multiclass
● One-vs-One menggunakan algoritma binary
classification untuk multiclass classification,
sehingga sama seperti OvA, OvO juga bergantung
pada binary/two-class classifier.
● OvO juga melibatkan pembagian multiclass
dataset menjadi masalah-masalah binary
classification.
● OvO membagi dataset menjadi satu dataset biner
(binary dataset) untuk setiap kelas versus tiap-tiap
kelas yang lain.
● OvO kurang sensitif untuk suatu dataset yang tak
imbang dengan kompleksitas yang lebih besar.
24. Contoh Penerapan Multiclass Classification
Pada tabel di samping, terdapat dataset yang
berisi informasi mengenai lebar dan tinggi
sepal, serta lebar dan tinggi petal pada bunga
iris. Data tersebut digunakan sebagai acuan
untuk menentukan jenis dari bunga iris yang
terdiri dari 3 macam, yaitu virginica, setosa, dan
versicolor. Ketiga jenis bunga tersebut
digunakan sebagai label (output) pada
algoritma multiclass classification.