MATA KULIAH : STATISTIK NONPARAMETRIK
DOSEN : MALIM MUHAMMAD, M. Sc.
BOBOT : 2 SKS
ANALISIS KORELASI DAN REGRESI
Koefisien Regresi
Analisis untuk mengukur besarnya pengaruh
X terhadap Y.
Koefisien Korelasi
Analisis untuk mengukur kuat tidaknya
hubungan X dan Y.
2
Apa itu Regresi Linier ?
1. Regresi merupakan alat ukur yg digunakan untuk
mengetahui ada tidaknya korelasi antarvariabel.
2. Analisis regresi lebih akurat dalam analisis korelasi
karena tingkat perubahan suatu variabel terhadap
variabel lainnya dapat ditentukan. Jadi pada regresi,
peramalan atau perkiraan nilai variabel terikat pada
nilai variabel bebas lebih akurat.
3. Regresi linier adalah regresi yang variabel bebasnya
(variabel X) berpangkat paling tinggi satu. Untuk
regresi sederhana, yaitu regresi linier yg hanya
melibatkan dua variabel (variabel X dan Y).
☞ Bentuk regresi pertama sekali
diperkenalkan oleh Francis Galton pada
tahun 1886.
☞ Galton menemukan bahwa ada
kecenderungan hubungan antara tinggi
orang tua dan tinggi anak.
☞ Hasil studi Galton ini menghasilkan
hukum regresi semesta atau Law of
Universal Regression.
Sejarah Awal Regresi
Konsep Analisis Regresi
Analisis regresi adalah studi tentang hubungan
antara variabel dependen dengan satu atau lebih
variabel independen.
Analisis regresi digunakan untuk mengetahui
hubungan antara variabel dependen dengan
variabel independen.
Apabila hanya ada satu variabel dependen dan satu
variabel dependen disebut analisis regresi
sederhana.
Apabila terdapat beberapa variabel independen
disebut analisis regresi berganda.
Tujuan Analisis Regresi
1. Untuk menaksir nilai rata-rata dari variabel
terikat berdasarkan nilai-nilai variabel bebas yang
ada.
2. Untuk menguji hipotesis tentang sifat
ketergantungan antarvariabel yakni hipotesis
berdasarkan teori ekonomi.
3. Untuk memprediksi atau meramalkan nilai rata-
rata dari variabel terikat berdasarkan nilai variabel
bebas yang berada diluar rentang sampel.
Kriteria Ordinary Least Squares (OLS)
Garis regresi sampel yang baik apabila nilai prediksinya sedekat mungkin
dengan data aktualnya. Dengan kata lain nilai intercept dan slope yang
menyebabkan residual sekecil mungkin.
Variabel Gangguan (Error term)
Variabel pengganggu (ei) merupakan pengganti semua
variabel yang dihilangkan dari model namun secara
kolektif mempengaruhi variabel terikat.
Metode OLS merupakan suatu metode yang
mengestimasi suatu garis regresi dengan jalan
meminimalkan jumlah dari kuadrat kesalahan setiap
observasi terhadap garis tersebut.
ei = ∑ (Yi – Yi*)2
ei = Yi aktual – Yi prediksi
Pentingnya Variabel Gangguan
Adanya variabel yang dihilangkan atau diabaikan
karena peranannya yang kecil.
Perilaku manusia yang tidak dapat sepenuhnya
diramalkan atau dijelaskan secara rasional, sehingga e
mencerminkan sifat acak (random) dari perilaku
manusia.
Ketidaksempurnaan model matematis atau kesalahan
dalam memilih bentuk hubungan fungsional antar
variabel yang diteliti.
Model yang digunakan terlalu sederhana.
Kesalahan dalam mengumpulkan atau memproses data
serta akibat penjumlahan.
Estimator Slope
2
i
ii
1
2
i
ii
1
2
i
2
i
iiii
1
yˆ
XX
YYXXˆ
XXn
YXYXnˆ
x
x
Yrata-ratanilaiY;YYy
Xrata-ratanilaiX;XX
Dimana
ii
ii
x
Asumsi Model Regresi Linier Klasik
Hubungan antara variabel dependen dan independen
adalah linier dalam parameter :
Yi = b1 + b2Xi + ei
1. Asumsi 1: Variabel bebas (Xi) tidak berkorelasi dengan
faktor gangguan acak, e (error term). Tetapi jika
variabel bebas tersebut bersifat nonstokhastik (nilainya
telah ditentukan sebelumnya) maka asumsi ini secara
otomatis terpenuhi.
2. Asumsi 2: Dengan nilai variabel bebas (Xi) tertentu,
maka nilai harapan atau rata-rata dari faktor gangguan
acak (ei) adalah nol.
E(ei I Xi) = 0
Asumsi Model Regresi Linier Klasik
3. Asumsi 3: Varians dari faktor gangguan acak ei adalah
konstan atau homoskedastisitas (varians yang sama)
var (ei) = σ2
4. Asumsi 4: Tidak ada serial korelasi diantara dua faktor
gangguan acak. Asumsi ini menyatakan tidak ada
autokorelasi.
cov (ei , ej) = 0
5. Asumsi 5: Model regresi ditentukan secara tepat dan
sebagai alternatif tidak ada bias spesifikasi pada model
yang digunakan.
Kriteria BLUE
1. Estimator slope adalah linier yaitu linier terhadap
variabel stokastik Y sebagai variabel dependen.
2. Estimator slope tidak bias yaitu nilai rata-rata
atau nilai harapan E sama dengan nilai yang
sebenarnya.
3. Estimator slope mempunyai varian yang minimum.
Estimator yang tidak bias dengan varian minimum
disebut estimator yang efisien (efficient estimator).
1
ˆ
1
ˆ
1
ˆ
1
ˆ
Karakteristik Garis Regresi
1. Garis regresi melalui rata-rata sampel X dan Y.
2. Nilai rata-rata Y yang ditaksir adalah sama dengan nilai rata-rata Y
yang sebenarnya.
3. Nilai rata-rata residual ei adalah nol.
Varian dan Kovarian
Varians adalah bilangan yang menyatakan
bervariasinya nilai suatu variabel terhadap
nilai rerata hitungnya. Secara definitif
adalah selisih nilai pengamatan dengan nilai
rerata hitung (rerata penyimpangan kuadrat
dari nilai pengamatan dengan nilai rerata
hitungnya).
Kovarian adalah bilangan yang menyatakan
bervariasinya nilai suatu variabel dalam
nisbah asosiatifnya dengan variabel lain.
Faktor Penentu Varian dan Kovarian
1. Ketidakpastian nilai Y yang menyebabkan
ketidakpastian nilai b0, b1 dan hubungan diantaranya.
2. Semakin besar penyebaran nilai-nilai X maka
semakin besar kepercayaan terhadap b0 dan b1.
3. Semakin besar ukuran sampel (N) maka semakin
kecil varian dan kovarian yang ada.
4. Varian b0 adalah besar apabila nilai-nilai X jauh dari
nol.
5. Perubahan slope, b1 tidak memiliki efek pada
intercept dan b0 apabila rata-rata sampel adalah nol.
Jika rata-rata sampel positif, kovarian antara b0 dan
b1 akan menjadi negatif dan sebaliknya.
Standard Error
Standard error digunakan untuk mengukur ketepatan
estimasi dari estimator intercept dan slope.
2
i
2
11
2
i
2
1
2
2
i
2
i
00
2
2
i
2
i
0
ˆVarˆSe
ˆVar
n
XˆVarˆSe
n
XˆVar
x
x
x
x
k-n
eˆ
ˆ
2
i2
Contoh Estimasi
1 10 44 -2 -6 12
2 9 40 -3 -10 30
3 11 42 -1 -8 8
4 12 46 0 -4 0
5 11 48 -1 -2 2
6 12 52 0 2 0
7 13 54 1 4 4
8 13 58 1 8 8
9 14 56 2 6 12
10 15 60 3 10 30
120 500 106
4
9
1
0
1
0
1
1
4
9
30
Time tX tY tX X tY Y ( )( )t tX X Y Y 2
( )tX X
1
120
12
10
n
t
t
X
X
n
1
500
50
10
n
t
t
Y
Y
n
106ˆ 3.533
30
b
ˆ 50 (3.533)(12) 7.60a
2 2
1 1
ˆ( ) 65.4830
n n
t t t
t t
e Y Y
2
1
( ) 30
n
t
t
X X
2
ˆ 2
ˆ( ) 65.4830
0.52
( ) ( ) (10 2)(30)
t
b
t
Y Y
s
n k X X
1 10 44 42.90
2 9 40 39.37
3 11 42 46.43
4 12 46 49.96
5 11 48 46.43
6 12 52 49.96
7 13 54 53.49
8 13 58 53.49
9 14 56 57.02
10 15 60 60.55
1.10 1.2100 4
0.63 0.3969 9
-4.43 19.6249 1
-3.96 15.6816 0
1.57 2.4649 1
2.04 4.1616 0
0.51 0.2601 1
4.51 20.3401 1
-1.02 1.0404 4
-0.55 0.3025 9
65.4830 30
Time tX tY ˆ
tY ˆ
t t te Y Y 2 2ˆ( )t t te Y Y 2
( )tX X
Contoh Estimasi
10 120
12 500
50
t
t
n X
X Y
Y
TUGAS
Model Regresi Linier
Yi = b1 + b2Xi + ei
1. Dengan menggunakan asumsi 1 – asumsi 5 dan OLS. Buktikan bahwa
estimator-estimator kuadrat terkecil model linier di atas merupakan
estimator yang bersifat BLUE.
2. Jelaskan pentingnya sifat-sifat dari BLUE?.
3. Diberikan Variabel random X berdistribusi Asymmetric Exponential Power
Distribution (AEPD) memiliki CDF sebagai berikut:
Gunakan kolmogorov-smirnov untuk membuktikan bahwa data saham
excl.jk harian dari tanggal 21 Mei 2012 – 20 Mei 2013 mengikuti
distribusi AEPD tersebut?. (Catatan gunakan bantuan Software Matlab
atau R).
1 2( , , )AEPF x p p
1
*
1 1
2
*
2 2
1 1
1 ; , 0;
2
1 1
(1 ) ; , 0;
2(1 )
p
p
x
G jika x
p p
x
G jika x
p p