4. 1. 적률의 개념
적률(모멘트, moments)은 어떤 분포의 중심경향성, 산포정도, 비대칭성, 뾰족함 등을 나타내기 위한
측정치들의 집합이다.
K가 어떤 자연수이고, X가 어떤 확률변수라면, X의 k차 적률은 의 기대치로 정의k
X
)()( xXPXXE kk
일반적으로 적률은 X의 분포에만 의존
원점 0에 대한 i차 적률은 정의되며, 원점에 대한 1차 적률인 평균은 E(X) = μ])0[()( ii
XEXE
2. 중심적률의 개념과 구분
확률변수 X의 2차 이상의 적률은 주로 그 평균에 대한 적률들을 사용한다. K차 중심적률은
(X – E(X))의 k차 적률이며, 다음과 같이 표시한다.
]))([( k
k XEXE
2차 중심적률을 X의 분산이라고 하고, Var(X)로 표시
3차 중심적률은 왜도계수, 4차 중심적률은 첨도계수이며 다음과 같이 정의됨
중심곱적률은 X1과 X2의 공분산 Cov(X1, X2)
5. 3장 확률과 확률분포
기대값 및 분산
)()( xXxPXE
2222
)}({)(})(){(}){()( XEXExXPxxxxEXVar
정규분포 확률밀도함수
2
)(
2
1
2
1
)(
x
exf
2
11
2 22
N
i
ii
N
i
ii xPxxPx
XVaraXEaaaXE
babaXEbaXVar
2222
2
8. 체비셰프 정리 또는 부등식(Chebyshev’s theorem or inequality): 어떤 관찰치
집합이라도 그 집합 자료 값들의 평균으로부터 표준편차 k(>0) 배 떨어진 구간에
위치할 그 집합의 비율(상대도수: RF)은 1-1/K^2 이상이다. (p70)
2
1
1)|(|
k
ksXXRF
9. 표본크기의 결정 (e: 표본오차)
2
22
2
)(
e
Z
e
Z
n
n
Ze
유한 모집단 수정계수 = (N – n) / (N – 1)
10. n
σ
ZX /2 점 추정치 ± (임계값)(표준오차)
n
σ
ZX
n
σ
ZX /2/2
모집단 평균의 신뢰구간 공식
표본평균의 표준편차 = 표준오차 (Standard Error)
유의수준은 제1종 오류를 범할 확률이며 α 로 표시한다.
모평균 검정 통계량
모비율 검정 통계량
n
σ
μ)X(
σ
)μX(
Z
X
X
pq
n
pq
pp
Z
1,
(e: 표본오차 = 오차 한계(margin of error)
11.
2
,
,2
YVarXVarYXVar
YXCov
YXCovYVarXVarYXVar
에서
N
YX
YXEYXCov
N
i
YX
YXXY
1
,
YEXEXYE
n
Y
n
X
n
YXn
n
YYXX
sCYXCov
n
i
i
n
i
i
n
i
ii
n
i
XYXY
111
1
,
공분산 특성
12. 상관계수 r, 회귀계수 a
피어슨 적률상관계수 r
2222
)()(
))((
)()(
))((
),(
)()(
),(
yyxx
yyxx
n
yy
n
xx
n
yyxx
yxCov
yVarxVar
yxCov
r
yx
2222
)()( yynxxn
yxxyn
r
222
)(
))((
)(
))((
),(),(
xx
yyxx
S
S
n
xx
n
yyxx
yxCovyxCov
ra
baxy
xx
xy
xyxx
y
x
y
13. 용어 정리
• 평균은 도수의 합을 도수의 갯수로 나눈 값이다.
• 편차는 도수에서 평균의 차이다.
• 분산은 편차 곱에 대한 평균이다.
• 표준편차는 분산의 제곱근이다.
• 공분산
– 두 변량이 상관적으로 변화되는 척도
– 두 변량이 각각의 평균으로부터 변화하는 방향 및 양에 대한 기대값
– x, y 편차 곱에 대한 평균이다.
• 상관계수 r 은 x, y의 공분산을 x, y의 표준편차로 나눈 값이다.
– 상관 계수 (Correlation Coefficient) = 정규화된 공분산
– 공분산이 각 변량의 단위에 의존하게되어 변동 크기량이 모호하므로, 공분산에다가 각 변량의 표준편차를 나누어주어 `정규화`시
킴
• Deviation(편차) = Group Mean - Class Median
Variance(분산) = (∑Deviation^2 * Frequency) / n
Standard Deviation(표준 편차) = √variance (표준 편차의 제곱근)
*평균과의 산포도. 정규 분포 그래프를 생각할 경우 표준 편차가 작으면 위로 솟은 그래프, 크면
옆으로 퍼진 그래프
Standard Error(표준 오차) = Standard Deviation / √n
*당연한 이야기이지만, 표준 편차가 작으면 작아지고 표본의 숫자가 많으면 작아진다.
14. 1,
)( 2
2
kdf
E
EO
피어슨 카이제곱 통계량
분산의 카이제곱 검정
2
0
2
2 )1(
sn
하나의 모집단 분산이나 표준편차를 검정
모집단은 근사적으로 정규분포를 갖는 것으로 가정
귀무가설 H0: σ2 = σ0
2
대립가설 H0: σ2 ≠ σ0
2 또는 σ2 < σ0
2 또는 σ2 > σ0
2
검정통계량 :
표본크기 n, 자유도 ν=n-1, 표본분산 s2,
가설 설정된 모집단 분산의 값 σ0
2 에 대한 χ2 통계량
15. 분산분석표에서
결정계수 = 처리제곱합 / 총변동
총변동 = 처리제곱합 + 오차제곱합
R^2 = SSR / SST = 1 – (SSE/SST)
SSR: 회귀 제곱합
SSE: 오차의 제곱합
SST = 총 제곱합
F = 집단간 평균분산 / 집단내 평균분산
= 실험처리에 의한 평균분산 / 오차에 의한 평균분산
집단간 제곱합(SSR) = 합(집단평균 – 전체평균)^2 x 각 집단의 관찰치수
집단내 제곱합(SSE) = 합(각 집단내 개별관찰치 – 각 집단내 평균)^2
전체 제곱합(SST) = 집단간 제곱합(SSR) + 집단내 제곱합(SSE)
MSR = SSR / k
MSE = SSE / df
SST
SSR
R 2
결정계수(coefficient of determination): R^2
16. 변동의 요인 자승 합(SS) 자유도(v) 자승 평균(MS) F 비율
처리 집단 간
(B)
SST K – 1 MST = SST / (K – 1) F = MST / MSW
표본추출오차(처리집단 내)
(W)
SSW = TSS - SST N – K MSW = SSW / (N – K)
총 변동
(T)
TSS N – 1
17. S = 27, N = 60 일 때 총자승합(total sum of squares)
1
)(
1
2
N
xx
N
i
분자가 총자승합이다
18. 회귀분석
단순회귀분석, 최소제곱법에 의한 회귀직선
정규방정식(Normal Equations)
xbxaxy
nbxay
baxy
2
ra
x
y
회귀계수
단순선형회귀 모형에서
xy 10 ),0(~ 2
N
이고, n = 22, 잔차제곱합(SSE)가 4000 이라면, 분산의 불편추정값은?
2
)2( nSSE
19. 설명 및 미 설명 변동(Explained and Unexplained Variation)
23. 24. S = 27, N = 60이면 총자승합(total sum of squares)은? (2004년 9회)
N
i
i Nxx
1
2
)1/()(
풀이)
S = root ( ) = 27
= 27^2
= 27^2 * (60 – 1) = 1593
N
i
i Nxx
1
2
)1/()(
N
i
i Nxx
1
2
)1/()(
2
)( xxi
24. 14. 단순선형회귀모형 y = b0 + b1x + e에서 오차항 e의 분포가 평균이 0이고
분산이 s^2인 정규분포를 따른다고 가정하자. 22개의 자료들로부터 회귀식을 추정
하고 나서 잔차제곱합(SSE)를 구하였더니 그 값이 4000이었다. 이때 분산 s^2의
불편추정값은? (2005년 10회)
풀이)
4000 = (22 – 2) * s^2,
s^2 = 200
2
)2( nSSE
25. 14. A 도시에서는 실업률이 5.5%라고 발표하였다. 그러나 관련 민간단체에서는
실업률 5.5%는 너무 낮게 추정된 값이라고 믿고 이에 대해 확인하고자 한다.
노동력인구 중 520명을 임의 추출하여 39명이 직업이 없음을 알게 되었다.
이 문제에 대한 적합한 검정통계량 값은?
(2005년 10회, 2008년 13회)
풀이)
z = (39/520 - 0.055) / sqrt(0.055 * 0.945 / 520) = 2.000481
26. 26. 단순회귀분석을 위하여 수집한 자료 10개에 대하여 다음의 요약된 값을
얻었다. 최소제곱법에 의하여 추정된 회귀직선은?
(2006년 11회)
10
1
2
10
1
2
10
1
10
1
10
1
445,103,75,38,30
i
i
i
i
i
ii
i
i
i
i yxyxyx
22
22
)}({)(
)}({)(
)()()(),(
),(
YEYE
XEXE
YEXEXYEYXCov
YXCov
r
y
x
yx
풀이 1)
Sx^2 (x의 분산) = 10.3 – 3^2 = 1.3
x와 y의 공분산 Cov(x, y) = 7.5 – 3*3.8 = -3.6
a = -3.6 / 1.3 = -3
y – 3.8 = -3(x – 3), 그러므로 y = -3x + 12.8
22
)(
))((),(),(
xx
yyxx
S
SyxCovyxCov
ra
baxy
xx
xy
xyxx
y
x
y
27. 풀이 2)
a 의 분자 = sum(xy) – Ym * sum(x) – Xm * sum(y) – n * Xm * Ym
= 75 – 3.8 * 30 – 3 * 38 + 10 * 3 * 3.8 = 75 – 114 – 114 + 114 = -39
a 의 분모 = sum(x^2 -2X*Xm + Xm^2) = 103 – 2 * 30 * 3 + 10 * 9 = 13
a = -39/13 = -3
b = 3.8 – (-3) * 3 = 3.8 + 9 = 12.8
그러므로 y = -3x + 12.8
22
)(
))((),(),(
xx
yyxx
S
SyxCovyxCov
ra
baxy
xx
xy
xyxx
y
x
y
28. 29. A신문사에서 성인 1,000명을 대상으로 현직 대통령에 대한 지지도를 조사한
결과 60%의 지지율을 얻었다. 95%의 신뢰수준에서 이번 조사의 오차한계는
얼마인가? (단, 95% 신뢰수준의 Z값은 +-1.96으로 한다)
(2005년 10회)
풀이) +-1.96 * sqrt(0.6 * 0.4 / 1000) = +-0.030
30. 어느 여론조사기관에서 고등학교의 흡연율을 조사하고자 한다. 흡연률의
95%추정오차 한계가 1% 이내가 되기 위한 표본의 크기는? (단, 표준정규분포를
따르는 확률변수 Z는 P(Z>1.96) = 0.025를 만족한다)
(2005년 10회)
풀이)
0.01 = 1.96 * sqrt(0.5 * 0.5 / n)
n = 1.96^2 * 0.5^2 / 0.01^2 = 9604
29. 6. 대표본에서 변동계수(coefficient of variation) c를 이용하여 모평균
에 대한 95% 신뢰구간을 표시하고자 한다. 표본평균을 , 표본의 크기를 n이라
할 때 올바른 공식은? (2007년 12회)
풀이) 모르겠다.
식1: c = s / y
식2: y +- 1.96 * s * sqrt(1 / n)
답)
y
cy 96.1
31. 28. 어느 대학에서 학생 중 40%가 여성이고 그 중 10%는 아르바이트를 한다.
그 대학교에서 임의로 한 학생을 뽑았을 때 아르바이트를 하고 있는 학생이
여성일 확률은? (2007년 12회)
풀이) 모르겠다
P(여) = 0.4, P(아|여) = 0.1
P(여|아) = ?
답 0.01 출제 오류로 생각됨
대학학생
여성 0.4
남성 0.6
아르바이트 0.1
not 아르바이트 0.9
32. 34. 어떤 화학 반응에서 생성되는 반응량(Y)이 첨가제의 양(X)에 따라
어떻게 변화하는지를 실험하여 다음과 같은 자료를 얻었다. 변화의 관계를
직선으로 가정하고 최소제곱법에 의하여 회귀직선을 추정할 때 추정된 회귀직선의
절편과 기울기는? (2007년 12회, 2010년 18회)
풀이)
X 1 3 4 5 7
Y 2 4 3 6 9
x Y X편차제
곱
Y편차
제곱
X편차
*y편차
1 2 9 7.84 8.4
3 4 1 0.64 0.8
4 3 0 3.24 0
5 6 1 1.44 1.2
7 9 9 17.64 12.6
20 24 20 30.80 23
4 4.8
xx
xy
S
S
abaxy ,
합계
평균
식1
식2: 4.8 = a * 4 + b
a = 23 / 20 = 1.15
B = 4.8 – 1.15 * 4 = 0.2
33. 14. 어떤 비행기가 추락하였고 추락한 지역은 3개의 가능지역이 있다고 하자.
이 때 1-Ai (I = 1, 2, 3)를 비행기가 사실상 i지역에 있을 때, i 지역에서 발견할
확률이라고 하자. 이 때 지역 1에서 찾지 못했다는 조건에서 비행가기 1번째
지역에 있었을 확률은? (2008년 14회)
풀이) 모르겠다.
Ai / (Ai + 2)
34. 21. 어떤 시스템은 각각 독립적으로 작동하는 n개의 성분으로 구성되어 있다.
이 시스템은 그 성분 중, 반 이상 작동을 하면 효과적으로 작동을 한다.
각 성분의 작동확률을 p라고 하면 5개의 성분으로 구성된 시스템이 3개의
성분으로 구성된 시스템보다 더 효과적으로 작동을 하기 위한 p값의 조건은?
(2008년 14회)
풀이) 모르겠다
이항분포를 통해서 해결한다.
작동확률: p, 비동작확률: q = 1 – p
P(X=5) + P(X=4) + P(X=3) > P(X=3) + P(X=2)
부등식 앞은 n=5일 경우, 뒷부분은 n=3 일경우이다.
5C3 * p^3 * q^2 > 3C2 * p^2 * q^1
10*p^3*q^2 > 3*p^2*q
p > 1/2
36. 24. 항아리 속에 흰 구슬 2개, 붉은 구슬 3개, 검은 구슬 5개가 들어있다. 이
항아리 속에서 랜덤하게 (임의로) 구슬 3개를 꺼낼 때, 흰 구슬 2개와 검은
구슬 1개가 나올 확률은? (2009년 16회)
풀이)
(흰, 흰, 검) = 2/10 * 1/9 * 5/8 = 1/72
(흰, 검, 흰) 과 (검, 흰, 흰)도 있으므로 1/72 * 3 = 1/24
37. 25. 어느 지역 주민의 3%가 특정 풍토병에 걸려있다고 한다. 이 병에 대한 검진
방법에 의하면 감염자의 95%가 (+)반응을, 나머지 5%가 (-) 반응을 나타내며
비감염자의 경우는 10%가 (+)반응을, 90%가 (-)반응을 나타낸다고 한다.
지금 주민 중 한 사람을 검진한 결과 (+)반응을 보였다면 이 사람이 병에 감염되어
있을 확률에 가장 가까운 값은? (2009년 16회)
풀이)
0.0285 / (0.0285 + 0.097)
= 0.0285 / 0.1255
= 0.227
답 0.227
지역주민
풍토병 0.03
not 풍토병 0.97
(+)반응 0.95 0.03 * 0.95 = 0.0285
(-) 반응 0.05
(+)반응 0.1 0.97 * 0.1 = 0.097
(-) 반응 0.9
38. 38. 평균이 이고 분산이 16인 정규모집단으로부터 크기가 100인 랜덤표본을
얻고 그 표본평균을 u라 하자. 귀무가설 H0: u = 8과 대립가설 H1: u = 6.416
의 검정을 위하여 기각역을 Xb < 7.2로 둘 때 제 1종 오류와 2종 오류의 확률은?
(2009년 16회)
풀이)
)100/4,(~
)4,(~
2
2
NX
NX
39. 2. 명중률이 75%인 사수가 있다. 1개의 주사위를 던져서 1 또는 2의 눈이 나오면
2번 쏘고, 그 이외의 눈이 나오면 3번 쏘기로 한다. 1개의 주사위를 한번 던져서
이에 따라 목표물을 쏠 때, 오직 한 번만 명중할 확률은?
(2010년 17회)
풀이)
p = 0.75,
P(X1) = 주사위 1또는 2 = 2/6
P(X2) = 주사위 3~6 = 4/6
P(Y1) = 2번 중 한번 명중 = 2C1 * 0.75 * 0.25 = 0.375
P(Y2) = 3번 중 한번 명중 = 3C1 * 0.75 * 0.25^2 = 0.140
주사위
1또는 2: P(X1)
3~6: P(X2) = 4/6
2번 중 한번 명중 P(Y1)
P(Y2)
그러므로, P(X1) * P(Y1) + P(X2) * P(Y2) = 1/3 * 0.375 + 2/3 * 0.140 = 0.125 + 0.093
= 0.218
40. 2. 어느 회사는 4개의 철강공급업체로부터 철판을 공급받는다. 각 공급업체들이
납품하는 철판의 품질을 평가하기 위해 인장강도(kg/psi)를 각 2회씩 측정하여
다음의 중간결과를 얻었다. (2010년 17회)
풀이)
첫 번째 식은 처리제곱합에 대한 것이고, 두 번째 식은 오차제곱합이다.
하지만, 첫 번째 식에서는 각 처리에 대한 회수 2가 빠져 있다.
처리제곱합 SSR = 2 * 15.5 = 31, f = 3
오차제곱합 SSE = 19, f = 4
그러므로,
MSR = 31 / 3 = 10.33
MSE = 19 / 4 = 4.75
F = 10.33 / 4.75 = 2.175
4
1
4
1
2
1
22
19)(,5.15)(
j j i
jijj XXXX
41. 9. 다음은 5년 동안 연도별로 실현된 투자수익률이다.
풀이)
투자수익률은 기하평균계산이다. 답: 0.102
연도 1 2 3 4 5
수익률 0.10 0.22 0.06 -0.05 0.20
다음 중 5년 동안의 연평균 수익률을 가장 잘 나타낸 것은?
(단, 수익률은 소수 3번째 자리에서 반올림)
1/5 0.2)(1*0.05)-(1*0.06)(1*0.22)(1*0.1)(1
42. 7. A상표 전구와 B상표 전구의 수명을 비교하기 위해서 A상표 전구 40개와
B상표 전구 50개를 랜덤하게 수거하여 실험한 결과 표본의 평균수명시간이 각각
Xa = 418(시간)과 Xb = 402(시간)임을 알았다. A, B 각 상표 전구의 수명시간은
정규분포를 따르며, 표준편차는 각각 Sa = 26(시간)과 Sb = 22(시간)이라고
가정할 때, 두 상표 전구의 평균수명시간의 차 Ua – Ub에 대한 95% 신뢰구간은?
(2011년 19회)
풀이)
Ua – Ub = 418 – 402 = 16
신뢰구간 = (+,-) 1.96 * sqrt(26^2/40 + 22^2/50) = (+,-) 10.104
그러므로 (16 – 10.104, 16 + 10.104)
43. 29. 확률변수 X에 대하여 X의 평균은 E(X) = 3이고 X^2의 평균은 E(X^2) = 10.4
이다. 확률변수 Y 를 Y = 7X + 3이라 할 때, X와 Y의 공분산 Cov(X, Y)를 구하면?
(2011년 20회)
풀이)
a = 7, a = Cov(X, Y) / Sx^2 = 7
Sx^2 = Var(X) = E(X^2) – {E(X)}^2 = 10.4 – 9 = 1.4
a = Cov(X, Y) / 1.4 = 7
그러므로 Cov(X, Y) = 7 * 1.4 = 9.8