Cara pemakaian weka

Nurdin Sumantri
Nurdin SumantriDosen Teknik Informatika em STMIK DIPANEGARA MAKASSAR
Introduction to Datamining using WEKA 
Anto Satriyo Nugroho 
Center for Information & Communication Technology 
Agency for the Assessment & Application of Technology, Indonesia 
Email: asnugroho@ieee.org
2 
Practicing WEKA 
• What is WEKA ? 
• Formatting the data into ARFF 
• Klasifikasi 
– Tahapan membangun classifier 
– Contoh kasus : Klasifikasi bunga iris 
– Tahapan membangun classifier 
– Merangkum hasil eksperimen k-Nearest Neighbor Classifier 
– Eksperimen memakai classifier yang lain (JST, SVM) 
– Classification of cancers based on gene expression 
– Parkinson Disease Detection 
• K-Means Clustering
3 
What is WEKA ? 
• Machine learning/data mining software written in Java (distributed under 
the GNU Public License) 
• Used for research, education, and applications 
• Complements “Data Mining” by Witten & Frank 
• Main features: 
– Comprehensive set of data pre-processing tools, learning algorithms 
and evaluation methods 
– Graphical user interfaces (incl. data visualization) 
– Environment for comparing learning algorithms 
• Weka versions 
– WEKA 3.4: “book version” compatible with description in data mining 
book 
– WEKA 3.5: “developer version” with lots of improvements
Formatting Data into ARFF (Attribute Relation File Format) 
4 
@relation iris 
@attribute sepallength real 
@attribute sepalwidth real 
@attribute petallength real 
@attribute petalwidth real 
@attribute class {Iris-setosa, Iris-versicolor, Iris-virginica} 
@data 
5.1,3.5,1.4,0.2,Iris-setosa 
4.9,3.0,1.4,0.2,Iris-setosa 
… 
7.0,3.2,4.7,1.4,Iris-versicolor 
6.4,3.2,4.5,1.5,Iris-versicolor 
… 
6.3,3.3,6.0,2.5,Iris-virginica 
5.8,2.7,5.1,1.9,Iris-virginica 
…
5 
Practicing WEKA 
• What is WEKA ? 
• Formatting the data into ARFF 
• Klasifikasi 
– Tahapan membangun classifier 
– Contoh kasus : Klasifikasi bunga iris 
– Tahapan membangun classifier 
– Merangkum hasil eksperimen k-Nearest Neighbor Classifier 
– Eksperimen memakai classifier yang lain (JST, SVM) 
– Classification of cancers based on gene expression 
– Parkinson Disease Detection 
• K-Means Clustering
6 
Tahapan membangun Classifier 
1. Tentukan manakah informasi yang merupakan 
(a) attribute/feature 
(b) class 
(c) training & testing set 
(d) skenario pengukuran akurasi 
2. Tentukan kombinasi parameter model, dan lakukan proses 
pelatihan memakai training set 
3. Ukurlah akurasi yang dicapai dengan testing set 
4. Ubahlah parameter model, dan ulang kembali mulai dari 
step 2, sampai dicapai akurasi yang diinginkan
7 
Contoh Kasus : Klasifikasi bunga iris 
• Data set yang paling terkenal 
• Author: R.A. Fisher 
• Terdiri dari 3 kelas, masing-masing 
memiliki 50 samples (instances) 
• Attribute information: 
– Sepal (kelopak) length in cm 
– sepal width in cm 
– Petal (mahkota) length in cm 
– petal width in cm 
– class: (1) Iris Setosa (2) Iris 
Versicolour (3)Iris Virginica 
• URL: http://archive.ics.uci.edu/ml/ 
datasets/Iris
8 
Flower’s parts
9 
Tahapan membangun Classifier 
1. Tentukan manakah informasi yang merupakan 
(a) attribute/feature : sepal length (panjang kelopak) 
sepal width (lebar kelopak) 
petal length (panjang mahkota) 
petal width (lebar mahkota) 
(b) class: iris setosa 
iris versicolor 
iris virginica 
(c) training & testing set 
training set : 25 instances/class 
testing set: 25 instances/class 
(d) skenario pengukuran akurasi
Step by Step klasifikasi 
10
11 
Open 
file 
“iris-­‐training.arff”
Klik 
pada 
Classify 
untuk 
memilih 
Classifier 
algorithm 
12 
sta3s3cal 
informa3on 
of 
“sepallength”
Klik 
pada 
“Choose” 
untuk 
memilih 
Classifier 
algorithm 
13
14 
Naïve 
Bayes 
SMO 
( 
implementasi 
SVM)
15 
IB1 
: 
1-­‐Nearest 
Neighbor 
Classifier) 
IBk 
: 
k-­‐Nearest 
Neighbor 
Classifier
Mul3layer 
Perceptron 
(Jaringan 
Syaraf 
Tiruan) 
16
SMO 
singkatan 
dari 
Sequen3al 
Minimal 
Op3miza3on. 
SMO 
adalah 
implementasi 
SVM 
Mengacu 
pada 
paper 
John 
PlaQ 
17
18 
Decision 
Tree 
J48 
(C4.5)
19 
Misalnya 
kita 
pilih 
IBk 
: 
k-­‐Nearest 
Neighbor 
Classifier
Selanjutnya 
pilihlah 
skenario 
Pengukuran 
akurasi. 
Dari 
4 
Op3ons 
yang 
diberikan, 
pilihlah 
“Supplied 
test 
set” 
dan 
klik 
BuQon 
“Set” 
untuk 
memiilih 
Tes3ng 
set 
file 
“iris-­‐tes3ng.arff” 
20
21 
Tahapan membangun Classifier 
Iris-­‐training.arff 
Iris-­‐tes3ng.arff 
25 
25 
25 
25 
25 
Classifiers 
: 
25 
1. 
Naïve 
Bayes 
2. 
K-­‐Nearest 
Neighbor 
Classifier 
(lazy 
àiBk) 
3. 
Ar3ficial 
Neural 
Network 
(func3on 
àmul3layer 
perceptron) 
4. 
Support 
Vector 
Machine 
(func3on 
à 
SMO) 
Akurasi 
terhadap 
tes3ng 
set 
? 
iris 
setosa 
iris 
versicolor 
iris 
virginica
22 
Apakah yang dimaksud “mengukur akurasi” 
• Tes3ng 
set 
“iris-­‐tes3ng.arff” 
dilengkapi 
dengan 
informasi 
actual 
class-­‐nya. 
Misalnya 
instance 
no.1 
adalah 
suatu 
bunga 
yang 
memiliki 
sepal 
length 
5.0 
cm, 
sepal 
width 
3.0cm, 
petal 
length 
1.6 
cm, 
petal 
width 
0.2 
cm, 
dan 
jenis 
bunganya 
(class) 
“Iris 
setosa” 
• Model 
classifica3on 
yang 
dibangun 
harus 
mampu 
menebak 
dengan 
benar 
class 
tersebut.
23 
Berbagai cara pengukuran akurasi 
• “Using 
training 
set” 
: 
memakai 
seluruh 
data 
sebagai 
training 
set, 
sekaligus 
tes3ng 
set. 
Akurasi 
akan 
sangat 
3nggi, 
tetapi 
3dak 
memberikan 
es3masi 
akurasi 
yang 
sebenarnya 
terhadap 
data 
yang 
lain 
(yang 
3dak 
dipakai 
untuk 
training) 
• Hold 
Out 
Method 
: 
Memakai 
sebagian 
data 
sebagai 
training 
set, 
dan 
sisanya 
sebagai 
tes3ng 
set. 
Metode 
yang 
lazim 
dipakai, 
asal 
jumlah 
sampel 
cukup 
banyak. 
Ada 
2 
: 
supplied 
test 
set 
dan 
percentage 
split. 
Pilihlah 
“Supplied 
test 
set” 
: 
jika 
file 
training 
dan 
tes3ng 
tersedia 
secara 
terpisah. 
Pilihlah 
“Percentage 
split” 
jika 
hanya 
ada 
1 
file 
yang 
ingin 
dipisahkan 
ke 
training 
& 
tes3ng. 
Persentase 
di 
kolom 
adalah 
porsi 
yang 
dipakai 
sbg 
training 
set
24 
Berbagai cara pengukuran akurasi 
• Cross 
Valida3on 
Method 
( 
fold 
= 
5 
atau 
10 
) 
: 
teknik 
es3masi 
akurasi 
yang 
dipakai, 
jika 
jumlah 
sampel 
terbatas. 
Salah 
satu 
bentuk 
khusus 
CV 
adalah 
Leave-­‐one-­‐out 
Cross 
Valida3on 
(LOOCV) 
: 
dipakai 
jka 
jumlah 
sampel 
sangat 
terbatas
25 
Ilustrasi Cross Validation (k=5) 
1. Data 
terdiri 
dari 
100 
instances 
(samples), 
dibagi 
ke 
dalam 
5 
blok 
dengan 
jumlah 
sampel 
yang 
sama. 
Nama 
blok 
: 
A, 
B, 
C, 
D 
dan 
E, 
masing-­‐masing 
terdiri 
dari 
20 
instances 
2. Kualitas 
kombinasi 
parameter 
tertentu 
diuji 
dengan 
cara 
sbb. 
step 
1: 
training 
memakai 
A,B,C,D 
tes3ng 
memakai 
E 
akurasi 
a 
step 
2: 
training 
memakai 
A,B,C,E 
tes3ng 
memakai 
D 
akurasi 
b 
step 
3: 
training 
memakai 
A,B, 
D,E 
tes3ng 
memakai 
C 
akurasi 
c 
step 
4: 
training 
memakai 
A, 
C,D,E 
tes3ng 
memakai 
B 
akurasi 
d 
step 
5: 
training 
memakai 
B,C,D,E 
tes3ng 
memakai 
A 
akurasi 
e 
3. Rata-­‐rata 
akurasi 
: 
(a+b+c+d+e)/5 
mencerminkan 
kualitas 
parameter 
yang 
dipilih 
4. Ubahlah 
parameter 
model, 
dan 
ulangi 
dari 
no.2 
sampai 
dicapai 
akurasi 
yang 
diinginkan
Kali 
ini 
memakai 
“Supplied 
test 
set”. 
Selanjutnya 
klik 
pada 
bagian 
yang 
Di 
dalam 
kotak 
untuk 
men-­‐set 
nilai 
Parameter. 
Dalam 
hal 
ini, 
adalah 
Nilai 
“k” 
pada 
k-­‐Nearest 
Neighbour 
Classifier 
(Nick 
name 
: 
IBK) 
26
27 
Set-­‐lah 
nilai 
“k”misalnya 
3 
dan 
klik 
OK. 
Untuk 
memahami 
parameter 
yang 
lain, 
kliklah 
buQon 
“More” 
& 
“Capabili3es”
Klik 
buQon 
“Start” 
Hasil 
eksperimen 
: 
Correct 
classifica3on 
rate 
: 
96% 
(benar 
72 
dari 
total 
75 
data 
pada 
tes3ng 
set) 
28 
Bagaimana 
cara 
membaca 
Confusion 
matrix 
?
• Baris pertama “25 0 0” menunjukkan bahwa ada (25+0+0) 
instances class Iris-setosa di dalam file iris-testing.arff dan 
semua benar diklasifikasikan sebagai Iris setosa 
• Baris kedua “0 24 1” menunjukkan bahwa ada (0+24+1) 
instances class Iris-versicolor di dalam file iris-testing.arff 
dan 1 salah diklasifikasikan sebagai Iris-virginica 
• Baris ketiga “0 2 24” menunjukkan bahwa ada (0+2+23) 
instances class Iris-virginica di dalam file iris-testing.arff dan 
2 di antaranya salah diklasifikasikan sebagai Iris-versicolor
Untuk 
mengetahui 
instance 
mana 
yang 
3dak 
berhasil 
Diklasifikasikan 
klik 
“More 
Op3ons” 
dan 
check 
lah 
“Output 
predic3ons”. 
Klik 
“Start” 
untuk 
mengulangi 
eksperimen 
yang 
sama
Inst# 
: 
nomer 
urut 
data 
pada 
file 
“iris-­‐tes3ng.arff” 
actual 
: 
class 
yang 
sebenarnya 
predicted: 
class 
yang 
diprediksi 
Error: 
jika 
ada 
misclassifica3on, 
akan 
diberikan 
tanda 
“+” 
dalam 
contoh 
ini, 
pada 
instance 
no.34, 
59 
& 
60
Merangkum hasil eksperimen 
No. K Correct Classification Rate 
Iris setosa Iris versicolor Iris virginica Total 
1 1 ? ? ? ? 
2 3 100% 96% 92% 96% 
3 5 
5 
7 
9 
• Tugas 
: 
lanjutkan 
eksperimen 
di 
atas 
untuk 
nilai 
k 
= 
1, 
3, 
5, 
7 
dan 
9 
• Buatlah 
grafik 
yang 
menunjukkan 
akurasi 
yang 
dicapai 
untuk 
masing-­‐masing 
class 
pada 
berbagai 
nilai 
k. 
Sumbu 
horisontal 
: 
nilai 
k 
dan 
sumbu 
ver3kal 
: 
akurasi 
• Kapankah 
(pada 
nilai 
k 
berapa 
?) 
akurasi 
ter3nggi 
dicapai 
? 
Bagaimanakah 
trend 
akurasi 
masing-­‐masing 
class 
?
33 
Eksperimen memakai Neural Network 
• Untuk 
eksperimen 
memakai 
neural 
network, 
caranya 
sama 
dengan 
k-­‐Nearest 
Neighbor 
Classifier. 
• Parameter 
yang 
dituning 
melipu3 
antara 
lain: 
– 
hiddenLayers: 
banyaknya 
neuron 
pada 
hidden 
layer. 
Default 
“a” 
: 
rata-­‐ 
rata 
jumlah 
neuron 
pada 
input 
& 
output 
layer 
– LearningRate 
: 
biasanya 
nilai 
kecil 
(0.1, 
0.01, 
0.2, 
0.3 
dsb) 
– Momentum: 
biasanya 
nilai 
besar 
(0.6, 
0.9 
dsb) 
– trainingTime: 
maksimum 
iterasi 
backpropaga3on 
(500, 
1000, 
5000, 
10000 
dsb.)
34 
Eksperimen memakai SVM
35 
Eksperimen memakai SVM 
C: 
complexity 
parameter 
(biasanya 
mengambil 
nilai 
besar. 
100, 
1000 
dst) 
Untuk 
memilih 
kernel
Eksperimen memakai SVM
37 
Classification of cancers based on gene expression 
• Biological reference: 
Classification and diagnostic prediction of cancers using gene 
expression profiling and artificial neural networks, 
J. Khan, et al., Nature Medicine 7, pp.673-679, 2001 (http:// 
www.thep.lu.se/~carsten/pubs/lu_tp_01_06.pdf ) 
• Data is available from http://research.nhgri.nih.gov/microarray/ 
Supplement/ 
• Small Round Blue Cell Tumors (SRBCT) has two class: 
– Ewing Family of Tumors (EWS) 
– NB: Neuroblastoma 
– BL: Burkitt lymphomas 
– RMS: Rhabdomyosarcoma : RMS 
• Characteristic of the data 
– Training samples : 63 (EWS:23 BL:8 NB:12 RMS:20) 
– Testing samples: 20 (EWS:6 BL:3 NB:6 RMS:5) 
– Number of features (attributes): 2308
Classification of cancers based on gene expression 
Experiment using k-Nearest Neighbor Classifier 
• Training and testing set are given as separated arff file 
• Use training set to build a classifier: k-Nearest Neighbor (k=1) 
• Evaluate its performance on the testing set. 
• Change the value of k into 3,5,7 and 9 and repeat step 1 to 3 for each 
38 
value. 
Experiment using Artificial Neural Network 
• Do the same experiment using Multilayer Perceptron Artificial Neural 
Network for various parameter setting (hidden neurons, learning rate, 
momentum, maximum iteration). Make at least five parameter settings.
39 
Parkinson Disease Detection 
Max Little (Oxford University) recorded speech signals and measured the 
biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the 
dataset which will be distributed during final examination, each column in the 
table is a particular voice measure, and each row corresponds one of 195 voice 
recording from these individuals ("name" column). The main aim of the data is 
to discriminate healthy people from those with PD, according to "status" column 
which is set to 0 for healthy and 1 for PD. There are around six recordings per 
patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence 
and Fractal Scaling Properties for Voice Disorder Detection', Little MA, 
McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering 
OnLine 2007, 6:23, 26 June 2007). 
Experiment using k-Nearest Neighbor Classifier 
Conduct classification experiments using k-Nearest Neighbor Classifier and 
Support Vector Machines, by using 50% of the data as training set and the rest 
as testing set. Try at least 5 different values of k for k-Nearest neighbor, and 
draw a graph show the relationship between k and classification rate. In case 
of Support Vector Machine experiments, try several parameter combinations by 
modifying the type of Kernel and its parameters (at least 5 experiments). 
Compare and discuss the results obtained by both classifiers. Which of them 
achieved higher accuracy ?
40 
Parkinson Disease Detection 
Max Little (Oxford University) recorded speech signals and measured the 
biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the 
dataset which will be distributed during final examination, each column in the 
table is a particular voice measure, and each row corresponds one of 195 voice 
recording from these individuals ("name" column). The main aim of the data is 
to discriminate healthy people from those with PD, according to "status" column 
which is set to 0 for healthy and 1 for PD. There are around six recordings per 
patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence 
and Fractal Scaling Properties for Voice Disorder Detection', Little MA, 
McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering 
OnLine 2007, 6:23, 26 June 2007). 
Experiment using k-Nearest Neighbor Classifier 
Conduct classification experiments using k-Nearest Neighbor Classifier and 
Support Vector Machines, by using 50% of the data as training set and the rest 
as testing set. Try at least 5 different values of k for k-Nearest neighbor, and 
draw a graph show the relationship between k and classification rate. In case 
of Support Vector Machine experiments, try several parameter combinations by 
modifying the type of Kernel and its parameters (at least 5 experiments). 
Compare and discuss the results obtained by both classifiers. Which of them 
achieved higher accuracy ?
41 
Practicing WEKA 
• What is WEKA ? 
• Formatting the data into ARFF 
• Klasifikasi 
– Tahapan membangun classifier 
– Contoh kasus : Klasifikasi bunga iris 
– Tahapan membangun classifier 
– Merangkum hasil eksperimen k-Nearest Neighbor Classifier 
– Eksperimen memakai classifier yang lain (JST, SVM) 
– Classification of cancers based on gene expression 
– Parkinson Disease Detection 
• K-Means Clustering
42 
K-Means Clustering : Step by Step 
• Pilihlah 
k 
buah 
data 
sebagai 
ini3al 
centroid 
• Ulangi 
– Bentuklah 
K 
buah 
cluster 
dengan 
meng-­‐assign 
3ap 
data 
ke 
centroid 
terdekat 
– Update-­‐lah 
centroid 
3ap 
cluster 
• Sampai 
centroid 
3dak 
berubah
43 
K-Means Clustering : Step by Step
Filename 
: 
kmeans_clustering.arff
45 
1 
2
46 
Klik 
untuk 
memilih 
algoritma 
clustering 
Pilih 
“Use 
training 
set”
47
48 
Klik 
untuk 
memilih 
nilai 
k
maxItera3ons: 
untuk 
menghen3kan 
proses 
clustering 
jika 
iterasi 
melebih 
nilai 
tertentu 
numClusters: 
nilai 
k 
(banyaknya 
cluster) 
49
50 
Hasil 
clustering: 
terbentuk 
3 
cluster 
dan 
masing-­‐masing 
beranggotakan 
50 
instances
51 
Klik 
dengan 
buQon 
kanan 
mouse 
untuk 
menampilkan 
visualisasi 
cluster
52 
Nilai 
aQribute 
x 
ditampilkan 
pada 
sumbu 
x, 
dan 
nilai 
aQribute 
y 
ditampilkan 
pada 
sumbu 
y 
Tiap 
cluster 
diberikan 
warna 
yang 
berbeda 
(merah, 
biru, 
hijau)
1 de 52

Recomendados

Data Mining - Naive Bayes por
Data Mining - Naive BayesData Mining - Naive Bayes
Data Mining - Naive Bayesdedidarwis
17.6K visualizações14 slides
Data mining 1 pengantar por
Data mining 1   pengantarData mining 1   pengantar
Data mining 1 pengantarIrwansyahSaputra1
1.7K visualizações52 slides
Kriptograf - Algoritma Kriptografi Klasik (bagian 1) por
Kriptograf - Algoritma Kriptografi Klasik (bagian 1)Kriptograf - Algoritma Kriptografi Klasik (bagian 1)
Kriptograf - Algoritma Kriptografi Klasik (bagian 1)KuliahKita
27.4K visualizações33 slides
TEKNIK ENKRIPSI DAN DEKRIPSI HILL CIPHER por
TEKNIK ENKRIPSI DAN DEKRIPSI HILL CIPHERTEKNIK ENKRIPSI DAN DEKRIPSI HILL CIPHER
TEKNIK ENKRIPSI DAN DEKRIPSI HILL CIPHERRivalri Kristianto Hondro
14.3K visualizações5 slides
Uji mann-whitney por
Uji mann-whitneyUji mann-whitney
Uji mann-whitneySaslizawati Shaiful Rizal
30K visualizações15 slides
Transformasi box-cox por
Transformasi box-coxTransformasi box-cox
Transformasi box-coxRahmat Taufiq Sigit
12.1K visualizações9 slides

Mais conteúdo relacionado

Mais procurados

Klasifikasi Data Mining.pptx por
Klasifikasi Data Mining.pptxKlasifikasi Data Mining.pptx
Klasifikasi Data Mining.pptxAdam Superman
192 visualizações62 slides
Sampel acak sederhana por
Sampel acak sederhanaSampel acak sederhana
Sampel acak sederhanapikopong
14.4K visualizações7 slides
Pertemuan 4-metode-pencarian-dan-pelacakan por
Pertemuan 4-metode-pencarian-dan-pelacakanPertemuan 4-metode-pencarian-dan-pelacakan
Pertemuan 4-metode-pencarian-dan-pelacakanwillyhayon
15.7K visualizações41 slides
Analisis varian dua arah por
Analisis varian dua arahAnalisis varian dua arah
Analisis varian dua arahTri Supadmi
31.3K visualizações11 slides
Caesar cipher adalah algoritma cipher por
Caesar cipher adalah algoritma cipherCaesar cipher adalah algoritma cipher
Caesar cipher adalah algoritma cipherHelmaKurniasari
36.6K visualizações7 slides
Jenis jenis data dan teknik pengumpulan data por
Jenis jenis data dan teknik pengumpulan dataJenis jenis data dan teknik pengumpulan data
Jenis jenis data dan teknik pengumpulan dataFirman Marine
52.4K visualizações36 slides

Mais procurados(20)

Klasifikasi Data Mining.pptx por Adam Superman
Klasifikasi Data Mining.pptxKlasifikasi Data Mining.pptx
Klasifikasi Data Mining.pptx
Adam Superman192 visualizações
Sampel acak sederhana por pikopong
Sampel acak sederhanaSampel acak sederhana
Sampel acak sederhana
pikopong14.4K visualizações
Pertemuan 4-metode-pencarian-dan-pelacakan por willyhayon
Pertemuan 4-metode-pencarian-dan-pelacakanPertemuan 4-metode-pencarian-dan-pelacakan
Pertemuan 4-metode-pencarian-dan-pelacakan
willyhayon15.7K visualizações
Analisis varian dua arah por Tri Supadmi
Analisis varian dua arahAnalisis varian dua arah
Analisis varian dua arah
Tri Supadmi31.3K visualizações
Caesar cipher adalah algoritma cipher por HelmaKurniasari
Caesar cipher adalah algoritma cipherCaesar cipher adalah algoritma cipher
Caesar cipher adalah algoritma cipher
HelmaKurniasari36.6K visualizações
Jenis jenis data dan teknik pengumpulan data por Firman Marine
Jenis jenis data dan teknik pengumpulan dataJenis jenis data dan teknik pengumpulan data
Jenis jenis data dan teknik pengumpulan data
Firman Marine52.4K visualizações
metode-pengujian-blackbox por Iwan Kurniarasa
 metode-pengujian-blackbox metode-pengujian-blackbox
metode-pengujian-blackbox
Iwan Kurniarasa27.8K visualizações
Jaringan Syaraf Tiruan (JST) por Farichah Riha
Jaringan Syaraf Tiruan (JST)Jaringan Syaraf Tiruan (JST)
Jaringan Syaraf Tiruan (JST)
Farichah Riha1.4K visualizações
Pertemuan 4 (distribusi frekuensi) por reno sutriono
Pertemuan 4 (distribusi frekuensi)Pertemuan 4 (distribusi frekuensi)
Pertemuan 4 (distribusi frekuensi)
reno sutriono14.9K visualizações
Metode enkripsi caesar cipher por Bobby Chandra
Metode enkripsi caesar cipherMetode enkripsi caesar cipher
Metode enkripsi caesar cipher
Bobby Chandra16.9K visualizações
Perancangan (diagram softekz, dfd level 0,1,2) por Joel Marobo
Perancangan (diagram softekz, dfd level 0,1,2)Perancangan (diagram softekz, dfd level 0,1,2)
Perancangan (diagram softekz, dfd level 0,1,2)
Joel Marobo57.2K visualizações
Toko online erd dan analisis sistem informasi penjualan berbasis web - mode... por brisma pambudi
Toko online   erd dan analisis sistem informasi penjualan berbasis web - mode...Toko online   erd dan analisis sistem informasi penjualan berbasis web - mode...
Toko online erd dan analisis sistem informasi penjualan berbasis web - mode...
brisma pambudi7.5K visualizações
MATEMATIKA TERAPAN (MODUS, MEAN, MEDIAN, VARIAN, SIMPANGAN BAKU, REGRESI) por afifsalim
MATEMATIKA TERAPAN (MODUS, MEAN, MEDIAN, VARIAN, SIMPANGAN BAKU, REGRESI)MATEMATIKA TERAPAN (MODUS, MEAN, MEDIAN, VARIAN, SIMPANGAN BAKU, REGRESI)
MATEMATIKA TERAPAN (MODUS, MEAN, MEDIAN, VARIAN, SIMPANGAN BAKU, REGRESI)
afifsalim124.2K visualizações
Aljabar matriks kofaktor por Dzikri Fauzi
Aljabar matriks kofaktorAljabar matriks kofaktor
Aljabar matriks kofaktor
Dzikri Fauzi2.9K visualizações
Testing&implementasi 4 por aiiniR
Testing&implementasi 4Testing&implementasi 4
Testing&implementasi 4
aiiniR11.6K visualizações
5 Macam Metode Dasar Kriptografi por Roziq Bahtiar
5 Macam Metode Dasar Kriptografi5 Macam Metode Dasar Kriptografi
5 Macam Metode Dasar Kriptografi
Roziq Bahtiar80K visualizações
Proses Data Mining por dedidarwis
Proses Data MiningProses Data Mining
Proses Data Mining
dedidarwis24.3K visualizações
UJI HOMOGENITAS BARTLETT MANUAL VS SPSS por EDI RIADI
UJI HOMOGENITAS BARTLETT MANUAL VS SPSSUJI HOMOGENITAS BARTLETT MANUAL VS SPSS
UJI HOMOGENITAS BARTLETT MANUAL VS SPSS
EDI RIADI32K visualizações
Mengenal Rapidminer por Bowo Prasetyo
Mengenal RapidminerMengenal Rapidminer
Mengenal Rapidminer
Bowo Prasetyo12.5K visualizações

Destaque

Bab 1 pendahuluan weka por
Bab 1 pendahuluan wekaBab 1 pendahuluan weka
Bab 1 pendahuluan wekaMedika Risna
6.3K visualizações7 slides
C45 sample case por
C45 sample caseC45 sample case
C45 sample casePutu Sundika
2.3K visualizações7 slides
Klasterisasi Menggunakan k-Means por
Klasterisasi Menggunakan k-MeansKlasterisasi Menggunakan k-Means
Klasterisasi Menggunakan k-MeansPutu Sundika
3.8K visualizações5 slides
Modelling Decision Tree with Rapidminer Weka and Orange por
Modelling Decision Tree with Rapidminer Weka and OrangeModelling Decision Tree with Rapidminer Weka and Orange
Modelling Decision Tree with Rapidminer Weka and Orangeyapannizam
1.5K visualizações28 slides
Wekatutorial por
WekatutorialWekatutorial
Wekatutorialrajarsisarkar
2.4K visualizações6 slides
Skripsi por
SkripsiSkripsi
SkripsiDian Arisona
3.7K visualizações59 slides

Destaque(16)

Bab 1 pendahuluan weka por Medika Risna
Bab 1 pendahuluan wekaBab 1 pendahuluan weka
Bab 1 pendahuluan weka
Medika Risna6.3K visualizações
C45 sample case por Putu Sundika
C45 sample caseC45 sample case
C45 sample case
Putu Sundika2.3K visualizações
Klasterisasi Menggunakan k-Means por Putu Sundika
Klasterisasi Menggunakan k-MeansKlasterisasi Menggunakan k-Means
Klasterisasi Menggunakan k-Means
Putu Sundika3.8K visualizações
Modelling Decision Tree with Rapidminer Weka and Orange por yapannizam
Modelling Decision Tree with Rapidminer Weka and OrangeModelling Decision Tree with Rapidminer Weka and Orange
Modelling Decision Tree with Rapidminer Weka and Orange
yapannizam1.5K visualizações
Wekatutorial por rajarsisarkar
WekatutorialWekatutorial
Wekatutorial
rajarsisarkar2.4K visualizações
Skripsi por Dian Arisona
SkripsiSkripsi
Skripsi
Dian Arisona3.7K visualizações
A simple introduction to weka por Pamoda Vajiramali
A simple introduction to wekaA simple introduction to weka
A simple introduction to weka
Pamoda Vajiramali436 visualizações
Makalah orange hrm por Sagitarius Wira
Makalah orange hrm Makalah orange hrm
Makalah orange hrm
Sagitarius Wira3.6K visualizações
Tugas 5 Data Mining por Ivul Varel Fu
Tugas 5 Data Mining Tugas 5 Data Mining
Tugas 5 Data Mining
Ivul Varel Fu4.3K visualizações
Data Mining with WEKA WEKA por butest
Data Mining with WEKA WEKAData Mining with WEKA WEKA
Data Mining with WEKA WEKA
butest3.7K visualizações
Machine learning dan data mining por Alvian yudha Prawira
Machine learning dan data miningMachine learning dan data mining
Machine learning dan data mining
Alvian yudha Prawira10.9K visualizações
Rudi hartanto tutorial 01 rapid miner 5.3 decision tree por ilmuBiner
Rudi hartanto   tutorial 01 rapid miner 5.3 decision treeRudi hartanto   tutorial 01 rapid miner 5.3 decision tree
Rudi hartanto tutorial 01 rapid miner 5.3 decision tree
ilmuBiner16K visualizações
Teori keputusan decision tree ketidakpastian_gtr2013 por Gusti Rusmayadi
Teori keputusan decision tree ketidakpastian_gtr2013Teori keputusan decision tree ketidakpastian_gtr2013
Teori keputusan decision tree ketidakpastian_gtr2013
Gusti Rusmayadi31.4K visualizações
Data mining por Agung Apriyadi
Data miningData mining
Data mining
Agung Apriyadi12.2K visualizações
Data mining tools (R , WEKA, RAPID MINER, ORANGE) por Krishna Petrochemicals
Data mining tools (R , WEKA, RAPID MINER, ORANGE)Data mining tools (R , WEKA, RAPID MINER, ORANGE)
Data mining tools (R , WEKA, RAPID MINER, ORANGE)
Krishna Petrochemicals28.1K visualizações
Using openCV 3.2.0 with CodeBlocks por Wei-Wen Hsu
Using openCV 3.2.0 with CodeBlocksUsing openCV 3.2.0 with CodeBlocks
Using openCV 3.2.0 with CodeBlocks
Wei-Wen Hsu13.4K visualizações

Similar a Cara pemakaian weka

04-cara-pemakaian-weka.ppt por
04-cara-pemakaian-weka.ppt04-cara-pemakaian-weka.ppt
04-cara-pemakaian-weka.pptPutrifitriasari1
2 visualizações52 slides
Tutorial WEKA.ppt por
Tutorial WEKA.pptTutorial WEKA.ppt
Tutorial WEKA.pptJurnalJTIM
8 visualizações52 slides
LN s10-machine vision-s2 por
LN s10-machine vision-s2LN s10-machine vision-s2
LN s10-machine vision-s2Binus Online Learning
319 visualizações11 slides
Pengolahan Citra Digital - Bab15 - Pengenalan Pola por
Pengolahan Citra Digital - Bab15 - Pengenalan PolaPengolahan Citra Digital - Bab15 - Pengenalan Pola
Pengolahan Citra Digital - Bab15 - Pengenalan PolaLaksmana Hendra
3.2K visualizações32 slides
Testing black box por
Testing black boxTesting black box
Testing black boxTaufik hidayat
415 visualizações27 slides
clustering por
clusteringclustering
clusteringdewi2093
771 visualizações5 slides

Similar a Cara pemakaian weka(20)

04-cara-pemakaian-weka.ppt por Putrifitriasari1
04-cara-pemakaian-weka.ppt04-cara-pemakaian-weka.ppt
04-cara-pemakaian-weka.ppt
Putrifitriasari12 visualizações
Tutorial WEKA.ppt por JurnalJTIM
Tutorial WEKA.pptTutorial WEKA.ppt
Tutorial WEKA.ppt
JurnalJTIM8 visualizações
Pengolahan Citra Digital - Bab15 - Pengenalan Pola por Laksmana Hendra
Pengolahan Citra Digital - Bab15 - Pengenalan PolaPengolahan Citra Digital - Bab15 - Pengenalan Pola
Pengolahan Citra Digital - Bab15 - Pengenalan Pola
Laksmana Hendra3.2K visualizações
Testing black box por Taufik hidayat
Testing black boxTesting black box
Testing black box
Taufik hidayat415 visualizações
clustering por dewi2093
clusteringclustering
clustering
dewi2093771 visualizações
scikit-learn cheat sheet untuk data science por softscients
scikit-learn cheat sheet untuk data sciencescikit-learn cheat sheet untuk data science
scikit-learn cheat sheet untuk data science
softscients78 visualizações
Data Mining Klasifikasi (Updated 30 Desember 2020) por Adam Mukharil Bachtiar
Data Mining Klasifikasi (Updated 30 Desember 2020)Data Mining Klasifikasi (Updated 30 Desember 2020)
Data Mining Klasifikasi (Updated 30 Desember 2020)
Adam Mukharil Bachtiar595 visualizações
PPT KEL 3 DAI - 007.pptx por StevenAdiSantoso
PPT KEL 3 DAI - 007.pptxPPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptx
StevenAdiSantoso7 visualizações
Data mining algoritma covering dan penerapannya por Universitas Gadjah Mada
Data mining algoritma covering dan penerapannyaData mining algoritma covering dan penerapannya
Data mining algoritma covering dan penerapannya
Universitas Gadjah Mada630 visualizações
Bab 5 pengujian_perangkat_lunak por Adie Suryadi
Bab 5 pengujian_perangkat_lunakBab 5 pengujian_perangkat_lunak
Bab 5 pengujian_perangkat_lunak
Adie Suryadi847 visualizações
KISI-KISI, RUBRIK DAN INSTRUMEN PENILAIAN.pdf por MartinusSulityo
KISI-KISI, RUBRIK DAN INSTRUMEN PENILAIAN.pdfKISI-KISI, RUBRIK DAN INSTRUMEN PENILAIAN.pdf
KISI-KISI, RUBRIK DAN INSTRUMEN PENILAIAN.pdf
MartinusSulityo168 visualizações
Klasterisasi - Algoritma K-Means Clustering.pdf por Elvi Rahmi
Klasterisasi - Algoritma K-Means Clustering.pdfKlasterisasi - Algoritma K-Means Clustering.pdf
Klasterisasi - Algoritma K-Means Clustering.pdf
Elvi Rahmi160 visualizações
testing_black_box.ppt por ErbilantoSetyadi
testing_black_box.ppttesting_black_box.ppt
testing_black_box.ppt
ErbilantoSetyadi5 visualizações
Mi1274 alpro lanjut 3 - percabangan if - praktikan por Defina Iskandar
Mi1274 alpro lanjut   3 - percabangan if - praktikanMi1274 alpro lanjut   3 - percabangan if - praktikan
Mi1274 alpro lanjut 3 - percabangan if - praktikan
Defina Iskandar500 visualizações
Machine Learning Diskusi 9.pdf por HendroGunawan8
Machine Learning Diskusi 9.pdfMachine Learning Diskusi 9.pdf
Machine Learning Diskusi 9.pdf
HendroGunawan86 visualizações
IFK 438_Pertemuan ke 15_Accuracy Assesment.pdf por UIKA, PT MURA TEKNIK
IFK 438_Pertemuan ke 15_Accuracy Assesment.pdfIFK 438_Pertemuan ke 15_Accuracy Assesment.pdf
IFK 438_Pertemuan ke 15_Accuracy Assesment.pdf
UIKA, PT MURA TEKNIK5 visualizações
Pengenalan Pola Dasar Pengenalan Pola.pptx por Adam Superman
Pengenalan Pola Dasar Pengenalan Pola.pptxPengenalan Pola Dasar Pengenalan Pola.pptx
Pengenalan Pola Dasar Pengenalan Pola.pptx
Adam Superman98 visualizações
Klasifikasi Data.pptx por Erlangga Putra
Klasifikasi Data.pptxKlasifikasi Data.pptx
Klasifikasi Data.pptx
Erlangga Putra14 visualizações

Cara pemakaian weka

  • 1. Introduction to Datamining using WEKA Anto Satriyo Nugroho Center for Information & Communication Technology Agency for the Assessment & Application of Technology, Indonesia Email: asnugroho@ieee.org
  • 2. 2 Practicing WEKA • What is WEKA ? • Formatting the data into ARFF • Klasifikasi – Tahapan membangun classifier – Contoh kasus : Klasifikasi bunga iris – Tahapan membangun classifier – Merangkum hasil eksperimen k-Nearest Neighbor Classifier – Eksperimen memakai classifier yang lain (JST, SVM) – Classification of cancers based on gene expression – Parkinson Disease Detection • K-Means Clustering
  • 3. 3 What is WEKA ? • Machine learning/data mining software written in Java (distributed under the GNU Public License) • Used for research, education, and applications • Complements “Data Mining” by Witten & Frank • Main features: – Comprehensive set of data pre-processing tools, learning algorithms and evaluation methods – Graphical user interfaces (incl. data visualization) – Environment for comparing learning algorithms • Weka versions – WEKA 3.4: “book version” compatible with description in data mining book – WEKA 3.5: “developer version” with lots of improvements
  • 4. Formatting Data into ARFF (Attribute Relation File Format) 4 @relation iris @attribute sepallength real @attribute sepalwidth real @attribute petallength real @attribute petalwidth real @attribute class {Iris-setosa, Iris-versicolor, Iris-virginica} @data 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa … 7.0,3.2,4.7,1.4,Iris-versicolor 6.4,3.2,4.5,1.5,Iris-versicolor … 6.3,3.3,6.0,2.5,Iris-virginica 5.8,2.7,5.1,1.9,Iris-virginica …
  • 5. 5 Practicing WEKA • What is WEKA ? • Formatting the data into ARFF • Klasifikasi – Tahapan membangun classifier – Contoh kasus : Klasifikasi bunga iris – Tahapan membangun classifier – Merangkum hasil eksperimen k-Nearest Neighbor Classifier – Eksperimen memakai classifier yang lain (JST, SVM) – Classification of cancers based on gene expression – Parkinson Disease Detection • K-Means Clustering
  • 6. 6 Tahapan membangun Classifier 1. Tentukan manakah informasi yang merupakan (a) attribute/feature (b) class (c) training & testing set (d) skenario pengukuran akurasi 2. Tentukan kombinasi parameter model, dan lakukan proses pelatihan memakai training set 3. Ukurlah akurasi yang dicapai dengan testing set 4. Ubahlah parameter model, dan ulang kembali mulai dari step 2, sampai dicapai akurasi yang diinginkan
  • 7. 7 Contoh Kasus : Klasifikasi bunga iris • Data set yang paling terkenal • Author: R.A. Fisher • Terdiri dari 3 kelas, masing-masing memiliki 50 samples (instances) • Attribute information: – Sepal (kelopak) length in cm – sepal width in cm – Petal (mahkota) length in cm – petal width in cm – class: (1) Iris Setosa (2) Iris Versicolour (3)Iris Virginica • URL: http://archive.ics.uci.edu/ml/ datasets/Iris
  • 9. 9 Tahapan membangun Classifier 1. Tentukan manakah informasi yang merupakan (a) attribute/feature : sepal length (panjang kelopak) sepal width (lebar kelopak) petal length (panjang mahkota) petal width (lebar mahkota) (b) class: iris setosa iris versicolor iris virginica (c) training & testing set training set : 25 instances/class testing set: 25 instances/class (d) skenario pengukuran akurasi
  • 10. Step by Step klasifikasi 10
  • 11. 11 Open file “iris-­‐training.arff”
  • 12. Klik pada Classify untuk memilih Classifier algorithm 12 sta3s3cal informa3on of “sepallength”
  • 13. Klik pada “Choose” untuk memilih Classifier algorithm 13
  • 14. 14 Naïve Bayes SMO ( implementasi SVM)
  • 15. 15 IB1 : 1-­‐Nearest Neighbor Classifier) IBk : k-­‐Nearest Neighbor Classifier
  • 16. Mul3layer Perceptron (Jaringan Syaraf Tiruan) 16
  • 17. SMO singkatan dari Sequen3al Minimal Op3miza3on. SMO adalah implementasi SVM Mengacu pada paper John PlaQ 17
  • 18. 18 Decision Tree J48 (C4.5)
  • 19. 19 Misalnya kita pilih IBk : k-­‐Nearest Neighbor Classifier
  • 20. Selanjutnya pilihlah skenario Pengukuran akurasi. Dari 4 Op3ons yang diberikan, pilihlah “Supplied test set” dan klik BuQon “Set” untuk memiilih Tes3ng set file “iris-­‐tes3ng.arff” 20
  • 21. 21 Tahapan membangun Classifier Iris-­‐training.arff Iris-­‐tes3ng.arff 25 25 25 25 25 Classifiers : 25 1. Naïve Bayes 2. K-­‐Nearest Neighbor Classifier (lazy àiBk) 3. Ar3ficial Neural Network (func3on àmul3layer perceptron) 4. Support Vector Machine (func3on à SMO) Akurasi terhadap tes3ng set ? iris setosa iris versicolor iris virginica
  • 22. 22 Apakah yang dimaksud “mengukur akurasi” • Tes3ng set “iris-­‐tes3ng.arff” dilengkapi dengan informasi actual class-­‐nya. Misalnya instance no.1 adalah suatu bunga yang memiliki sepal length 5.0 cm, sepal width 3.0cm, petal length 1.6 cm, petal width 0.2 cm, dan jenis bunganya (class) “Iris setosa” • Model classifica3on yang dibangun harus mampu menebak dengan benar class tersebut.
  • 23. 23 Berbagai cara pengukuran akurasi • “Using training set” : memakai seluruh data sebagai training set, sekaligus tes3ng set. Akurasi akan sangat 3nggi, tetapi 3dak memberikan es3masi akurasi yang sebenarnya terhadap data yang lain (yang 3dak dipakai untuk training) • Hold Out Method : Memakai sebagian data sebagai training set, dan sisanya sebagai tes3ng set. Metode yang lazim dipakai, asal jumlah sampel cukup banyak. Ada 2 : supplied test set dan percentage split. Pilihlah “Supplied test set” : jika file training dan tes3ng tersedia secara terpisah. Pilihlah “Percentage split” jika hanya ada 1 file yang ingin dipisahkan ke training & tes3ng. Persentase di kolom adalah porsi yang dipakai sbg training set
  • 24. 24 Berbagai cara pengukuran akurasi • Cross Valida3on Method ( fold = 5 atau 10 ) : teknik es3masi akurasi yang dipakai, jika jumlah sampel terbatas. Salah satu bentuk khusus CV adalah Leave-­‐one-­‐out Cross Valida3on (LOOCV) : dipakai jka jumlah sampel sangat terbatas
  • 25. 25 Ilustrasi Cross Validation (k=5) 1. Data terdiri dari 100 instances (samples), dibagi ke dalam 5 blok dengan jumlah sampel yang sama. Nama blok : A, B, C, D dan E, masing-­‐masing terdiri dari 20 instances 2. Kualitas kombinasi parameter tertentu diuji dengan cara sbb. step 1: training memakai A,B,C,D tes3ng memakai E akurasi a step 2: training memakai A,B,C,E tes3ng memakai D akurasi b step 3: training memakai A,B, D,E tes3ng memakai C akurasi c step 4: training memakai A, C,D,E tes3ng memakai B akurasi d step 5: training memakai B,C,D,E tes3ng memakai A akurasi e 3. Rata-­‐rata akurasi : (a+b+c+d+e)/5 mencerminkan kualitas parameter yang dipilih 4. Ubahlah parameter model, dan ulangi dari no.2 sampai dicapai akurasi yang diinginkan
  • 26. Kali ini memakai “Supplied test set”. Selanjutnya klik pada bagian yang Di dalam kotak untuk men-­‐set nilai Parameter. Dalam hal ini, adalah Nilai “k” pada k-­‐Nearest Neighbour Classifier (Nick name : IBK) 26
  • 27. 27 Set-­‐lah nilai “k”misalnya 3 dan klik OK. Untuk memahami parameter yang lain, kliklah buQon “More” & “Capabili3es”
  • 28. Klik buQon “Start” Hasil eksperimen : Correct classifica3on rate : 96% (benar 72 dari total 75 data pada tes3ng set) 28 Bagaimana cara membaca Confusion matrix ?
  • 29. • Baris pertama “25 0 0” menunjukkan bahwa ada (25+0+0) instances class Iris-setosa di dalam file iris-testing.arff dan semua benar diklasifikasikan sebagai Iris setosa • Baris kedua “0 24 1” menunjukkan bahwa ada (0+24+1) instances class Iris-versicolor di dalam file iris-testing.arff dan 1 salah diklasifikasikan sebagai Iris-virginica • Baris ketiga “0 2 24” menunjukkan bahwa ada (0+2+23) instances class Iris-virginica di dalam file iris-testing.arff dan 2 di antaranya salah diklasifikasikan sebagai Iris-versicolor
  • 30. Untuk mengetahui instance mana yang 3dak berhasil Diklasifikasikan klik “More Op3ons” dan check lah “Output predic3ons”. Klik “Start” untuk mengulangi eksperimen yang sama
  • 31. Inst# : nomer urut data pada file “iris-­‐tes3ng.arff” actual : class yang sebenarnya predicted: class yang diprediksi Error: jika ada misclassifica3on, akan diberikan tanda “+” dalam contoh ini, pada instance no.34, 59 & 60
  • 32. Merangkum hasil eksperimen No. K Correct Classification Rate Iris setosa Iris versicolor Iris virginica Total 1 1 ? ? ? ? 2 3 100% 96% 92% 96% 3 5 5 7 9 • Tugas : lanjutkan eksperimen di atas untuk nilai k = 1, 3, 5, 7 dan 9 • Buatlah grafik yang menunjukkan akurasi yang dicapai untuk masing-­‐masing class pada berbagai nilai k. Sumbu horisontal : nilai k dan sumbu ver3kal : akurasi • Kapankah (pada nilai k berapa ?) akurasi ter3nggi dicapai ? Bagaimanakah trend akurasi masing-­‐masing class ?
  • 33. 33 Eksperimen memakai Neural Network • Untuk eksperimen memakai neural network, caranya sama dengan k-­‐Nearest Neighbor Classifier. • Parameter yang dituning melipu3 antara lain: – hiddenLayers: banyaknya neuron pada hidden layer. Default “a” : rata-­‐ rata jumlah neuron pada input & output layer – LearningRate : biasanya nilai kecil (0.1, 0.01, 0.2, 0.3 dsb) – Momentum: biasanya nilai besar (0.6, 0.9 dsb) – trainingTime: maksimum iterasi backpropaga3on (500, 1000, 5000, 10000 dsb.)
  • 35. 35 Eksperimen memakai SVM C: complexity parameter (biasanya mengambil nilai besar. 100, 1000 dst) Untuk memilih kernel
  • 37. 37 Classification of cancers based on gene expression • Biological reference: Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks, J. Khan, et al., Nature Medicine 7, pp.673-679, 2001 (http:// www.thep.lu.se/~carsten/pubs/lu_tp_01_06.pdf ) • Data is available from http://research.nhgri.nih.gov/microarray/ Supplement/ • Small Round Blue Cell Tumors (SRBCT) has two class: – Ewing Family of Tumors (EWS) – NB: Neuroblastoma – BL: Burkitt lymphomas – RMS: Rhabdomyosarcoma : RMS • Characteristic of the data – Training samples : 63 (EWS:23 BL:8 NB:12 RMS:20) – Testing samples: 20 (EWS:6 BL:3 NB:6 RMS:5) – Number of features (attributes): 2308
  • 38. Classification of cancers based on gene expression Experiment using k-Nearest Neighbor Classifier • Training and testing set are given as separated arff file • Use training set to build a classifier: k-Nearest Neighbor (k=1) • Evaluate its performance on the testing set. • Change the value of k into 3,5,7 and 9 and repeat step 1 to 3 for each 38 value. Experiment using Artificial Neural Network • Do the same experiment using Multilayer Perceptron Artificial Neural Network for various parameter setting (hidden neurons, learning rate, momentum, maximum iteration). Make at least five parameter settings.
  • 39. 39 Parkinson Disease Detection Max Little (Oxford University) recorded speech signals and measured the biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the dataset which will be distributed during final examination, each column in the table is a particular voice measure, and each row corresponds one of 195 voice recording from these individuals ("name" column). The main aim of the data is to discriminate healthy people from those with PD, according to "status" column which is set to 0 for healthy and 1 for PD. There are around six recordings per patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence and Fractal Scaling Properties for Voice Disorder Detection', Little MA, McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering OnLine 2007, 6:23, 26 June 2007). Experiment using k-Nearest Neighbor Classifier Conduct classification experiments using k-Nearest Neighbor Classifier and Support Vector Machines, by using 50% of the data as training set and the rest as testing set. Try at least 5 different values of k for k-Nearest neighbor, and draw a graph show the relationship between k and classification rate. In case of Support Vector Machine experiments, try several parameter combinations by modifying the type of Kernel and its parameters (at least 5 experiments). Compare and discuss the results obtained by both classifiers. Which of them achieved higher accuracy ?
  • 40. 40 Parkinson Disease Detection Max Little (Oxford University) recorded speech signals and measured the biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the dataset which will be distributed during final examination, each column in the table is a particular voice measure, and each row corresponds one of 195 voice recording from these individuals ("name" column). The main aim of the data is to discriminate healthy people from those with PD, according to "status" column which is set to 0 for healthy and 1 for PD. There are around six recordings per patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence and Fractal Scaling Properties for Voice Disorder Detection', Little MA, McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering OnLine 2007, 6:23, 26 June 2007). Experiment using k-Nearest Neighbor Classifier Conduct classification experiments using k-Nearest Neighbor Classifier and Support Vector Machines, by using 50% of the data as training set and the rest as testing set. Try at least 5 different values of k for k-Nearest neighbor, and draw a graph show the relationship between k and classification rate. In case of Support Vector Machine experiments, try several parameter combinations by modifying the type of Kernel and its parameters (at least 5 experiments). Compare and discuss the results obtained by both classifiers. Which of them achieved higher accuracy ?
  • 41. 41 Practicing WEKA • What is WEKA ? • Formatting the data into ARFF • Klasifikasi – Tahapan membangun classifier – Contoh kasus : Klasifikasi bunga iris – Tahapan membangun classifier – Merangkum hasil eksperimen k-Nearest Neighbor Classifier – Eksperimen memakai classifier yang lain (JST, SVM) – Classification of cancers based on gene expression – Parkinson Disease Detection • K-Means Clustering
  • 42. 42 K-Means Clustering : Step by Step • Pilihlah k buah data sebagai ini3al centroid • Ulangi – Bentuklah K buah cluster dengan meng-­‐assign 3ap data ke centroid terdekat – Update-­‐lah centroid 3ap cluster • Sampai centroid 3dak berubah
  • 43. 43 K-Means Clustering : Step by Step
  • 46. 46 Klik untuk memilih algoritma clustering Pilih “Use training set”
  • 47. 47
  • 48. 48 Klik untuk memilih nilai k
  • 49. maxItera3ons: untuk menghen3kan proses clustering jika iterasi melebih nilai tertentu numClusters: nilai k (banyaknya cluster) 49
  • 50. 50 Hasil clustering: terbentuk 3 cluster dan masing-­‐masing beranggotakan 50 instances
  • 51. 51 Klik dengan buQon kanan mouse untuk menampilkan visualisasi cluster
  • 52. 52 Nilai aQribute x ditampilkan pada sumbu x, dan nilai aQribute y ditampilkan pada sumbu y Tiap cluster diberikan warna yang berbeda (merah, biru, hijau)