Director of Technology and Information System Development, UNIKOM
2 de Jan de 2021•0 gostou•576 visualizações
1 de 64
Data Mining Klasifikasi (Updated 30 Desember 2020)
2 de Jan de 2021•0 gostou•576 visualizações
Baixar para ler offline
Denunciar
Dados e análise
Slide ini berisi penjelasan tentang Data Mining Klasifikasi. Di dalamnya ada tiga algoritma yang dibahas, yaitu: Naive Bayes, kNN, dan ID3 (Decision Tree).
4. Ekstraksi pengetahuan berupa nilai (berbentuk label kelas) dari
sebuah atribut/variabel berdasarkan nilai dari atribut/variabel lainnya
(Supervised Learning)
13. 2. Model Usage:
Mengestimasi akurasi dari model
menggunakan data uji kemudian apabila
akurasi dapat diterima maka berikutnya
melabelkan data baru yang belum
berlabel
18. Contoh Kasus Klasifikasi
age income student credit_rating buys_computer
youth high no fair no
youth high no excellent no
middle_age high no fair yes
senior medium no fair yes
senior low yes fair yes
senior low yes excellent no
middle_age low yes excellent yes
youth medium no fair no
youth low yes fair yes
youth medium yes fair yes
senior medium yes excellent yes
youth medium no excellent yes
middle_age high yes fair yes
middle_age medium no excellent no
youth medium yes fair ?X
:
25. 1. P(X|Ci) :
P(X|buys_computer = “yes”) = 0.333 x 0.444 x 0.667 x 0.667 = 0.066
P(X|Ci)*P(Ci) :
P(X|buys_computer = “yes”) * P(buys_computer = “yes”) = 0.042
2. P(X|Ci) :
P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019
P(X|Ci)*P(Ci) :
P(X|buys_computer = “no”) * P(buys_computer = “no”) = 0.007
26. Langkah 4:
Pilih kelas berdasarkan aturan:
X termasuk dalam class Ci jika
𝑷 𝑪𝒊 𝑿 > 𝑷 𝑪𝒋 𝑿 𝒖𝒏𝒕𝒖𝒌 𝟏 ≤ 𝒋 ≤ 𝒎; 𝒋 ≠ 𝒊
27. X merupakan anggota class (“buys_computer = yes”)
karena P(X|C=yes) > P(X|C=no)
age income student credit_rating buys_computer
youth high no fair no
youth high no excellent no
middle_age high no fair yes
senior medium no fair yes
senior low yes fair yes
senior low yes excellent no
middle_age low yes excellent yes
youth medium no fair no
youth low yes fair yes
youth medium yes fair yes
senior medium yes excellent yes
youth medium no excellent yes
middle_age high yes fair yes
middle_age medium no excellent no
youth medium yes fair yesX
30. Contoh Kasus
Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh
4 2 4 Tidak
7 1 3 Ya
10 5 2 Tidak
8 5 4 Tidak
7 5 2 Ya
4 2 4 Ya
6 5 1 Tidak
6 2 5 Ya
8 2 5 Tidak
5 5 3 Ya
7 3 4 ?
31. Langkah 1:
Tentukan nilai parameter k
(jumlah tetangga pembanding).
Dalam kasus ini kita tentukan 3.
32. Nilai K disarankan ganjil agar
hasil rasio perbandingan antar
kelas tidak berimbang.
33. Langkah 2:
Menghitung kuadrat jarak euclidean
data yang mau diklasifikasi terhadap
data training yang diberikan
menggunakan rumus:
𝑑𝑖𝑠𝑡 𝑥, 𝑦 =
𝑖=1
𝑛
(𝑥𝑖 − 𝑦𝑖)2
34. Cara menghitung jarak eucliden objek
Jarak Tiang Kedalaman
Pondasi
Lama Pembangunan
4 2 4
7 3 4
Jarak eucliden data uji terhadap data latih ke-1
Perhitungan jarak eucliden data ke 1 = (7 − 4)2+(3 − 2)2+(4 − 4)2= 3,162
Pada perhitungan jarak euclide antara data uji dengan data latih ke-1 diperoleh nilai 3,162.
Lakukan proses perhitungan jarak untuk setiap data latih yang ada.
35. Hasil perhitungan jarak eucliden untuk setiap data latih:
Perhitungan jarak eucliden data ke 2 = (7 − 7)2+(3 − 1)2+(4 − 3)2= 2,236
Perhitungan jarak eucliden data ke 3 = (7 − 10)2+(3 − 5)2+(4 − 2)2= 4,123
Perhitungan jarak eucliden data ke 4 = (7 − 8)2+(3 − 5)2+(4 − 4)2= 2,236
Perhitungan jarak eucliden data ke 5 = (7 − 7)2+(3 − 5)2+(4 − 2)2= 2,828
Perhitungan jarak eucliden data ke 6 = (7 − 4)2+(3 − 2)2+(4 − 4)2= 3,162
Perhitungan jarak eucliden data ke 7 = (7 − 6)2+(3 − 5)2+(4 − 1)2= 3,742
Perhitungan jarak eucliden data ke 8 = (7 − 6)2+(3 − 2)2+(4 − 5)2= 1,732
Perhitungan jarak eucliden data ke 9 = (7 − 8)2+(3 − 2)2+(4 − 5)2= 1,732
Perhitungan jarak eucliden data ke 10 = (7 − 5)2+(3 − 5)2+(4 − 3)2= 3
36. Sehingga diperoleh perhitungan jarak Euclidean:
Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh Jarak Eucliden
4 2 4 Tidak 3,162
7 1 3 Ya 2,236
10 5 2 Tidak 4,123
8 5 4 Tidak 2,236
7 5 2 Ya 2,828
4 2 4 Ya 3,162
6 5 1 Tidak 3,742
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
5 5 3 Ya 3
37. Langkah 3:
Mengurutkan hasil perhitungan jarak
euclidean objek terhadap data training
yang diberikan
(berurut dari nilai terkecil ke tertinggi)
38. Jarak Tiang Kedalaman
Pondasi
Lama
Pembangunan
Cepat Roboh Jarak Eucliden
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
7 1 3 Ya 2,236
8 5 4 Tidak 2,236
7 5 2 Ya 2,828
5 5 3 Ya 3
4 2 4 Tidak 3,162
4 2 4 Ya 3,162
6 5 1 Tidak 3,742
10 5 2 Tidak 4,123
40. Jarak Tiang Kedalaman
Pondasi
Lama
Pembangunan
Cepat Roboh Jarak Eucliden
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
7 1 3 Ya 2,236
8 5 4 Tidak 2,236
7 5 2 Ya 2,828
5 5 3 Ya 3
4 2 4 Tidak 3,162
4 2 4 Ya 3,162
6 5 1 Tidak 3,742
10 5 2 Tidak 4,123
Nilai k yang kita tentukan adalah 3
42. Jarak Tiang Kedalaman
Pondasi
Lama
Pembangunan
Cepat Roboh Jarak Eucliden
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
7 1 3 Ya 2,236
Nilai k yang kita tentukan adalah 3
Kesimpulan:
Dengan mengurutkan jarak terkecil, semisal diambil k=3, maka
perbandingannya adalah 2(Ya) > 1(Tidak) untuk kelas cepat roboh.
Maka dapat disimpulkan apabila jarak tiang 7, kedalaman pondasi 3, dan lama
pembangunan 4 maka dia masuk ke dalam kelas cepat roboh “Ya”
52. Langkah 5:
if training examples diklasifikasikan
secara sempurna, then STOP, else
lanjut membentuk leaf node
53. Rumus Entropy:
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 =
𝑗=1
𝑘
−𝑝𝑗 log2 𝑝𝑗
Dimana:
• S adalah himpunan (dataset) kasus
• K adalah jumlah kelas data S
• 𝑝𝑗adalah probabilitas kelas data j terhadap total S
Catatan:
Entropy(S) akan bernilai 1 jika antar kelas data di S berjumlah sama dan
bernilai 0 jika hanya ada 1 kelas di S.
54. Rumus Information Gain:
𝐺𝑎𝑖𝑛 𝐴 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 −
𝑖=1
𝑘
𝑆𝑖
𝑆
𝑥 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)
Dimana:
• S adalah ruang (data) training
• A adalah atribut
• |𝑆𝑖| adalah jumlah sample untuk nilai V
• |𝑆| adalah jumlah seluruh sample data
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖) adalah entropy untuk sample yang memiliki nilai i
56. Humidity
S: [9+, 5-]
E = 0.940
High Normal
[3+, 4-]
E = 0.985
[6+, 1-]
E = 0.592
Wind
S: [9+, 5-]
E = 0.940
Weak Strong
[6+, 2-]
E = 0.811
[3+, 3-]
E = 1
Gain(S, Humidity)
= .940 - (7/14).985- (7/14).592
= .151
Gain(S, Wind)
= .940 - (8/14).811 - (6/14).1
= .048
Outlook
S: [9+, 5-]
E = 0.940
Sunny Rain
[3+, 2-]
E = 0.971
Gain(S, Outlook)
= .940 - (5/14).971 - (4/14).971 - 0
= .246
[2+, 3-]
E = 0.971
Overcast
Yes
[4+, 0-]
E = 0
Gain Terbesar
Temperature
S: [9+, 5-]
E = 0.940
Hot Cool
[3+, 1-]
E = 0.811
Gain(S, Temperature)
= .940 - (4/14)1 - (6/14).918 - (4/14).811
= .029
[2+, 2-]
E = 1
Mild
Yes
[4+, 2-]
E = 0.918
57. Outlook
{D1, D2, D3, .., D14}
S: [9+, 5-]
E = 0.940
Sunny Rain
Overcast
Yes
? ?
[2+, 3-]
{D1, D2, D8, D9, D11}
[4+, 0-]
{D3, D7, D12, D13}
[3+, 2-]
{D4, D5, D6, D10, D14}
Humidity
Day Outlook Temperature Humidity Wind Playing Tennis?
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D8 Sunny Mild High Weak No
D9 Sunny Cool Normal Weak Yes
D11 Sunny Mild Normal Strong Yes
59. Contoh Kasus 2
Peserta SPMB Nilai SPMB UAN Psikotest Diterima
P1 Tinggi Bagus Baik Ya
P2 Tinggi Cukup Baik Ya
P3 Tinggi Cukup Buruk Ya
P4 Tinggi Kurang Buruk Tidak
P5 Sedang Bagus Baik Ya
P6 Sedang Cukup Baik Ya
P7 Sedang Cukup Buruk Ya
P8 Sedang Kurang Buruk Tidak
P9 Rendah Bagus Baik Ya
P10 Rendah Cukup Buruk Tidak
P11 Rendah Kurang Baik Ya
60. Nilai SPMB
S: [8+, 3-]
E = 0.845
Tinggi Rendah
[3+, 1-]
E = 0.811
[2+, 1-]
E = 0.918
Gain(S, Nilai SPMB)
= .845 - (4/11).811- (4/11).811 - (3/11).0.918
= .0049
Psikotest
S: [8+, 3-]
E = 0.845
Baik Buruk
[2+, 3-]
E = 0.672
Gain(S, Psikotest)
= .845 - 0 - (5/11).672
= .540
[6+, 0-]
E = 0
Gain Terbesar
Sedang
[3+, 1-]
E = 0.811
UAN
S: [8+, 3-]
E = 0.845
Bagus Kurang
[3+, 0-]
E = 0
[1+, 2-]
E = 0.918
Gain(S, UAN)
= .845 - 0 - (5/11).722 - (3/11).0.918
= .267
Cukup
[4+, 1-]
E = 0.722
Ya
Ya
64. Nomor Tingkat Perekonomian Jenis Kelamin Pekerjaan Punya Deposito?
1 Menengah Ke Atas Pria Tetap Ya
2 Menengah Ke Atas Pria Tetap Tidak
3 Menengah Ke Atas Pria Tetap Ya
4 Menengah Ke Bawah Pria Tetap Tidak
5 Menengah Ke Bawah Pria Honorer Ya
6 Menengah Ke Bawah Wanita Honorer Tidak
7 Menengah Ke Bawah Wanita Honorer Ya
8 Menengah Ke Bawah Wanita Tetap Tidak
9 Menengah Ke Atas Wanita Honorer Tidak
10 Menengah Ke Atas Pria Honorer Ya
X Menengah Ke Atas Pria Tetap ?