2. Hello!
KELOMPOK 4 -4SK3-
ANGGIAT ROY SILALAHI (13.7494)
FIRSTI DAMAYANTI (13.7624)
M. REZA FAKHRUDIN (13.7756)
NI WAYAN HARI WINTARI (13.7778)
NURAINUN FITRIANI (13.7793)
QORRY FITRI AISYAH (13.7809)
RENI DWI AYU (13.7826)
WIDYA KHAIRANI (13.7910)
YUSININDYA Y.P. (13.7927)
3. Analisis Diskriminan
Untuk menggambarkan atau menjelaskan
perbedaan antara dua atau lebih kelompok.
Tujuannya adalah untuk menemukan jumlah
terendah dimensi yang diperlukan untuk
menggambarkan perbedaan kelompok.
Pendahuluan
1
4. Tujuan Analisis Diskriminan
1
Membuat suatu
fungsi diskriminan
atau kombinasi
linier dari prediktor
atau variabel bebas
yang bisa
membedakan
kategori variabel
tak bebas.
2
Menentukan
variabel bebas
yang mana yang
memberikan
sumbangan
terbesar terhadap
terjadinya
perbedaan antar
kelompok.
3
Membuat prosedur
untuk
mengklasifikasi
objek (individu,
perusahaan,
produk, dan
sebagainya) ke
dalam kelompok
atas dasar nilai
mereka di set
variabel
independen .
2
5. Desain penelitian untuk Analisis Diskriminan
◦Menetapkan Variabel Independen dan variabel dependen
Untuk menerapkan analisis discriminant, maka peneliti harus terlebih dahulu
menetapkan variabel yang independen dan variabel dependen. Ingat bahwa
dependen variabel berbentuk kategori dan variabel independen adalah
metrik dan bisa membedakan.
◦Ukuran Sampel
Analisis Diskriminan sangat peka terhadap rasio untuk ukuran sampel dalam
variabel bebas. Banyak studi menyarankan rasio 20 observasi untuk setiap
variabel bebas.
◦Pembagian Sampel
Prosedur yang biasa adalah dengan membagi total sampel responden
secara acak ke dalam dua kelompok sampel. Dimana analisis sampel,
digunakan untuk mengembangkan discriminant function dan holdout sampel,
digunakan untuk menguji discriminant fungsi. Metode ini memvalidasi fungsi
ini disebut sebagai split-sampel atau pendekatan lintas-validasi
3
6. Model Analisis Diskriminan
Model dasar analisis diskriminan mirip regresi berganda.
Perbedaannya adalah kalau variable dependen regresi
berganda dilambangkan dengan Y, maka dalam analisis
diskriminan dilambangkan dengan D. Model dasar
analisis diskriminan adalah sebuah persamaan yang
menunjukkan suatu kombinasi linear dari berbagai
variable independent, yaitu :
Dimana: D = skor diskriminan
b = koefisien diskriminan atau bobot
X = predictor atau variable independen
4
7. lanjutan
Yang diestimasi adalah koefisien „b‟, sehingga
nilai „D‟ setiap grup sedapat mungkin berbeda.
Ini terjadi pada saat rasio jumlah kuadrat
antargrup ( between-group sum of square )
terhadap jumlah kuadrat dalam grup ( within-
group sum of square ) untuk skor diskriminan
mencapai maksimum. Berdasarkan nilai D
itulah keanggotaan seseorang diprediksi.
5
8. Fungsi Diskriminan
Analisis ini didasarkan atas fungsi diskriminan yang
mempunyai bentuk umum:
di mana Y merupakan dummy variabel yang
menunjukkan kelompok dan Xi adalah variabel
pembeda. Pada dasarnya fungsi diskriminan merupakan
fungsi regresi ganda dengan variabel dependen
merupakan variabel boneka yang mengambil nilai 1, 2, ...,
k yang sesuai dengan pengelompokan awal setiap
individu dan banyaknya kelompok (=k).
6
9. lanjutan
Persyaratan awal yang harus dipenuhi sebelum
melakukan analisis dengan fungsi diskriminan adalah:
1. Setiap individu harus dikelompokkan hanya ke
dalam satu dan hanya satu kelompok
2. Varians dalam setiap kelompok adalah sama (equal
variances)
3. X berdistribusi normal ganda (multi variates normal
distribution)
4. Banyaknya kelompok harus memenuhi 2 k
7
10. Contoh
Ketika kita diminta untuk memprediksi individu
mana termasuk ke dalam kelompok tertentu
atau ketika kita diminta untuk mengidentifikasi
sifat-sifat umum anggota suatu kelompok,
maka kita berhadapan dengan persoalan
pengelompokan dan penentuan sifat-sifat
khas suatu kelompok. Misalnya, suatu wilayah
dikatakan perkotaan, paling tidak, kalau (1)
penduduknya banyak, (2) mempunyai banyak
fasilitas, dan (3) kegiatan ekonomi
penduduknya beragam. Sifat khas (1) dan (2)
pada umumnya dapat dilihat secara kasat
mata akan tetapi tidak pada sifat khas (3).
8
11. lanjutan
Dalam teknik statistik, persoalan di atas
biasanya diatasi dengan menggunakan
analisis diskriminan. Dua hal, yaitu
pengelompokan dan identifikasi sifat khas
suatu kelompok, dapat dilakukan sekaligus
dengan analisis tersebut, di mana kelompok
dikenal sebagai group dan sifat khas dikenal
sebagai variabel pembeda (discriminating
variables). Antara kelompok dan variabel
pembeda tersebut kemudian dibuat suatu
hubungan fungsional yang disebut dengan
fungsi diskriminan.
9
12. Asumsi Analisis Diskriminan
1. Sejumlah p variabel independen
harus berdistribusi normal
(multivariate normality).
2. Tidak ada korelasi antar variabel
independen (tidak multikolinearitas).
3. Tidak terdapat data yang outlier
pada variabel independen.
4. Matriks varians kovarians variabel
independen berukuran pxp pada
kedua kelompok harus sama.
10
15. 2. Menurut Johnson (1982)
Untuk menguji kenormalan ganda adalah dengan
mencari nilai jarak kuadrat untuk setiap
pengamatan
di mana Xi adalah pengamatan yang ke –i dan S-1
adalah kebalikan (inverse) matrik kovarians S.
Kemudian di2 diurutkan dari kecil ke besar,
selanjutnya dibuat plot di2 dengan nilai Chi-Kuadrat
di mana i = urutan = 1, 2, ……n, dan p =
banyaknya peubah. Bila hasil plot dapat didekati
dengan garis lurus, maka dapat disimpulkan bahwa
data menyebar secara normal ganda.
13
17. ◦Statistik uji yang digunakan adalah
statistik Box‟s, yaitu:
Dimana,
k = banyaknya kelompok
W/(n-k) = matriks kovarians dalam
kelompok gabungan
Sj = matriks kovarians kelompok ke-j 15
18. ◦Bila hipotesa nol benar, maka:
p = jumlah peubah pembeda dalam fungsi pembeda (discriminant).
16
19. UJI VEKTOR NILAI RATA-RATA
• Hipotesis uji vector nilai rata-rata antarkelompok:
H0 : 𝜇1 = 𝜇2 = … = 𝜇𝑘
H1 : sedikitnya ada 2 kelompok yang berbeda
• Statistik uji V-Bartlett yang berdistribusi Chi-Square dengan
df=p(k-1)
V = - [ ( n - 1 ) – ( p + k ) / 2 ] ln (ᴧ)
Di mana :
ᴧ =
| 𝑊 |
| 𝐵+𝑊 |
• Tolak H0 saat V > 𝜒2
p(k-1), (1-a)
• Kesimpulan : Jika H0 ditolak, maka fungsi diskriminan cocok untuk
menganalisis hubungan antar kelompok serta berguna untuk
mengelompokkan objek baru ke dalam salah satu kelompok
17
20. Cutting Score
• Dalam fungsi diskriminan dua kelompok, cutting
score digunakan untuk mengklasifikasikan dua
kelompok secara unik.
• Cutting score adalah skor yang digunakan untuk
membangun matriks klasifikasi.
• Secara praktek, kita umumnya mencari kelompok
dari individu/objek dengan menghitung cut score
yang berada di antara dua centroid. Cara lain,
dapat digunakan prior probability.
18
21. Prior Probability
• Pada analisis diskriminan, kita harus memiliki
gambaran terkait prior probability untuk
kelompok-kelompok.
• Prior probability adalah peluang suatu
observasi masuk dalam suatu kelompok
tanpa adanya pengetahuan mengenai nilai X.
• 𝜋 𝑘 merujuk pada prior probability untuk kelas
k, dimana 𝜋 𝑘 = 1.
• 𝜋 𝑘 biasanya diestimasi secara sederhana
melalui frekuensi sampel.
19
22. Aturan Klasifikasi Menggunakan Skor
Diskriminan
Minimum Total Probability of Misclassification (TPM) Rule for
Normal Population – Unequal 𝒊
Alokasikan x untuk 𝜋 𝑘 jika:
Estimasi skor diskriminan kuadratik :
22
20
23. Aturan Klasifikasi Berdasarkan Sampel :
Estimate Minimum (TPM) Rule for
Several Normal Populations-Unequal
𝒊
Alokasikan x untuk 𝜋 𝑘 jika:
Jika 𝒊 =
23
21
25. Misclassification
Untuk menilai apakah pengklasifikasian yang
dilakukan sudah tepat atau belum, maka
dilakukan penghitungan “error rate” atau
“misclassification”(kesalahan dalam melakukan
klasifikasi)
Ketika populasi awal diketahui, maka
penghitungan probabilita dari misklasifikasi
dapat relatif mudah dihitung.
23
26. Untuk populasi awal yang diketahui
dijelaskan sbb:
Total probability of misclassification
Nilai terkecil dari jumlah ini yang diperoleh dari pemilihan R1
dan R2 disebut dengan Optimum Error Rate
24
27. Sehingga diperoleh OER :
Ф = the cumulative distribution function of a
standard normal random variable
26
28. Misal:
Dengan menggunakan Tabel 1 (Johnson),
diperoleh :
Artinya, aturan klasifikasi optimal di sini akan
mengalokasikan dengan benar sekitar 21% dari
item untuk satu populasi atau yang lain.
27
29. CONFUSION MATRIX
AER dapat dihitung dengan
menggunakan confusion matrix,
yang menunjukkan kelompok
sebenarnya dan kelompok predicted,
n1 adalah observasi 𝜋1 dan 𝑛2 adalah
observasi dari 𝜋2 .
29
28
30. Bentuk dari confusion matrix adalah:
Dimana
𝑛1𝑐 = banyaknya item 𝜋1 yang terprediksi secara benar.
𝑛1𝑀 = banyaknya item yang sebenarnya merupakan 𝜋1 namun
terklasifikasi sebagai 𝜋2
𝑛2𝑐 = banyaknya item 𝜋2 yang terprediksi secara benar.
𝑛2𝑀 = banyaknya item yang sebenarnya merupakan 𝜋2 namun
terklasifikasi sebagai 𝜋1
30
29
31. Statistik APER
Apparent Error Rate (APER) didefinisikan sebagai fraksi
dari observasi yang misclassified dari fungsi klasifikasi
sampel.
Ukuran ini tidak bergantung kepada bentuk dari
populasi induk dan dapat dihitung untuk prosedur
klasifikasi apapun.
APER dapat dihitung dari confusion matrix yang
menunjukkan kelompok actual dan predicted.
30
33. APER mudah untuk untuk dihitung. Sayangnya,
APER cenderung underestimate terhadap AER
(Actual Error Rate) dan masalah ini tidak akan
hilang kecuali jika ukuran sampel n1 dan n2
sangat besar.
Hal tersebut karena data yang digunakan untuk
membangun fungsi klasifikasi juga digunakan
untuk mengevaluasinya.
32
34. Lachenbruch’s “Holdout” Procedure
1. Dimulai dengan kelompok observasi 𝜋1. Hilangkan
satu observasi dari kelompok ini dan bentuk fungsi
klasifikasi berdasarkan n1 – 1 dan n2 observasi
sisanya.
2. Klasifikasi observasi “Holdout” menggunakan fungsi
klasifikasi yang dibentuk dari langkah 1.
3. Ulangi langkah 1 dan 2 sampai semua observasi 𝜋1
terklasifikasi. 𝑛1𝑀
(𝐻)
menunjukkan jumlah observasi
holdout (H) yang misclassified di kelompok ini.
4. Ulangi langkah 1 sampai 3 untuk observasi 𝜋2 dan
𝑛2𝑀
(𝐻)
menunjukkan jumlah observasi holdout (H)
yang misclassified di kelompok ini.
33
35. 𝑃(2|1) dan 𝑃(1|2) merupakan peluang
misclassification bersyarat, dimana
Dan total proporsi misclassified, untuk ukuran
sampel cukup, merupakan estimasi yang nearly
unbiased dari expected actual error rate, E(AER)
34
36. Example
Samples of steel produced at two different rolling
temperatures are compared in Table 1 (Kramer and
Jensen 1969a). The variables are y1 = yield point and
y2 = ultimate strength.
35
39. Dari figure 3, diketahui bahwa dua
kelompok tersebut dapat dipisahkan.
Jika titik-titik tersebut diproyeksikan
pada arah yang tepat, maka tidak akan
terdapat overlap.
38
40. Nilai dari titik-titik yang telah diproyeksikan diperoleh
dengan menghitung nilai z untuk setiap observasi
dalam vektor y pada masing-masing kelompok.
Hasilnya ditampilkan pada tabel 8.2.
39
B0=ln p dimana p adalah nilai peluang dan telah diketahui nilainya
K adalah kelompok/group
n = banyak observasi
p = banyak variable dalam fungsi diskriminan
k = banyak kelompok
W = matriks sumsquare dan hasil kali data DALAM kelompok
B = matriks sumsquare dan hasil kali ANTAR kelompok
In discriminant analysis, we must have an idea of prior
probabilities for groups
Prior probabilities is, the chance of an observation falling in a
particular group without any knowledge of the values of X.
The prior probability of class k is πk, where Σ πk = 1
πk is usually estimated simply by empirical frequencies of the
training set.
In discriminant analysis, we must have an idea of prior
probabilities for groups
Prior probabilities is, the chance of an observation falling in a
particular group without any knowledge of the values of X.
The prior probability of class k is πk, where Σ πk = 1
πk is usually estimated simply by empirical frequencies of the
training set.
TPM=minimum OER
Apakah ada karakteristik yang harus dipenuhi oleh obs yang dibuang?
We see that if the
points were projected
on either the y1 or the
y2 axis, there would
be considerable
overlap.
However, it is clear in Figure 3 that the two groups can be
separated. If they are projected in an appropriate direction, as in
Figure 2, there will be no overlap.
The values of the projected points are found by calculating z for each
observation vector y in the two groups. The results are given in Table 8.2,
where the separation provided by the discriminant function is clearly
evident.