2. 단일 표본의 평균비교
• 기본가정 : 모집단의 분포는 정규분포
– 표본의 정규성 검정
– R에서의 검정 방법 : Shapiro-Wilk normality test
• 영가설 : 표본의 분포는 정규분포이다.
• 대안가설 : 표본의 분포는 정규분포가 아니다.
– 예제) R의 내장 자료인 mtcars는 1974년 미국의
Motor Trend 잡지로부터 32개의 자동차 모델의 연
비 및 특성을 추출한 자료로 이들 중 수동미션을 채용
한 (am==1) 13개의 자동차의 연비는 정규분포를 이
루고 있는지 검정해보자.
한림대학교 이윤환(http://fb.com/yoonani72)
3. 단일표본의 평균비교
> shapiro.test(mtcars$mpg[mtcars$am==1 ])
Shapiro-Wilk normality test
data: mtcars$mpg[mtcars$am == 1]
W = 0.9458, p-value = 0.5363
– 유의수준을 0.05로 할 때 p-value가 0.5363으로,
표본의 분포가 정규분포를 따른다는 영가설을 채택할 수 있
으며,
이를 바탕으로 정규모집단에서 추출한 표본으로 판단한다.
• 만족하지 못할 경우 비모수 방법을 통한 검정 실시
한림대학교 이윤환(http://fb.com/yoonani72)
4. 단일 표본의 평균비교
• 대표본이고 모집단의 분산을 알 경우
– 표준정규분포를 이용한 z-test 실시
• 대표본이고 모집단의 분산을 모를 경우
– 표본의 개수가 증가(자유도 증가)할 경우 t-분포가 정
규분포에 근사
– 모표준편차의 추정량인 표본표준편차를 이용한 ztest 실시
• 소표본이고 모집단의 분산을 모를 경우
– t-분포를 이용한 t-test 실시
한림대학교 이윤환(http://fb.com/yoonani72)
5. 단일 표본 t-test
• 1973년부터 1974년까지 미국에서 생산된 자동
차들의 평균 연비는 갤런당 20마일(20mpg)로
알려져 있다. 수동미션 차량들이 자동미션 차량
보다 연비가 좋다는 것을 밝히기 위해 수동 미션
차량들의 연비는 20mpg보다 크다고 할 수 있는
지 유의수준 0.05에서 검정하시오.
–
–
–
–
표본의 개수는 한 개 : 갤런당 마일(mpg)
모집단의 분산을 알지 못함
대표본으로 보기 힘듦 (13개의 표본)
단일 표본 t-test 실시
한림대학교 이윤환(http://fb.com/yoonani72)
6. 단일 표본 t-test
• 가설 수립
– 영가설 : μ = 20𝑚𝑝𝑔
– 대안가설 : μ > 20𝑚𝑝𝑔
• 분석을 위한 R 함수
– t.test(x, mu=𝐻0 ,
alternative=(“less”|”greater”|”two.sided”))
• X : 분석에 사용할 데이터
• mu : 영가설하에서의 모평균
• alternative : 대안가설에 따라 “less”, “greater”,
“two.sided” 중에 하나 입력 (생략시 “two.sided”)
한림대학교 이윤환(http://fb.com/yoonani72)
7. 단일표본 t-test
> t.test(mtcars$mpg[mtcars$am==1 ], mu=20, alternative="greater")
One Sample t-test
data: mtcars$mpg[mtcars$am == 1]
t = 2.5682, df = 12, p-value = 0.01231
alternative hypothesis: true mean is greater than 20
95 percent confidence interval:
21.3441
Inf
sample estimates:
mean of x
24.39231
한림대학교 이윤환(http://fb.com/yoonani72)
8. 두 표본의 평균 비교
• 짝을 이룬 두 표본(대응표본)의 검정
– 어떤 처치의 효과를 입증하기 위해 해당 하는 처치를 하기
전의 관찰값을 구하고 동일한 표본으로 부터 처치를 시행한
후 관찰값을 구한 후 둘 사이의 차이가 있는지를 알고 싶다.
• Ex) 병원 등에서 치료 전과 치료 후 치료의 효과가 있는지를 알
고 싶은 경우
– 둘 사이에 차이가 없는 경우는 다음과 같이 될 것이다.
• “치료전 관찰값 – 치료후 관찰값”의 평균은 0
즉, 𝜇치료전−치료후 = 0
– “치료전 관찰값 – 치료후 관찰값” 이 0이면 차이가 없는 것
이고 그렇지 않다면 차이가 있는 것으로 보는 검정 방법
한림대학교 이윤환(http://fb.com/yoonani72)
9. 두 표본의 평균 비교
– 가정
• “치료전 관찰값 – 치료후 관찰값”의 분포는 정규분포를 따라
야 한다.
– 예제) 새로 시판되는 한 다이어트 약의 효과를 알아보기 위하여
성인 남녀 7명의 체중을 다이어트약 복용전에 측정하고, 다이어
트 약의 복용방법에 따라 1개월 간 복용한 다음, 다시 그들의 체
중을 측정한 결과가 다음의 표와 같다.
이 자료로부터 다이어트 약에 효과가 있는지를 유의수준 0.05에
서 검정하라. (노맹석 외, 기초통계학 – R을 이용한 통계분석, 자
유아카데미, 2011년, P268)
복용전
59
72
85
69
78
82
55
복용후
54
65
84
63
72
83
51
한림대학교 이윤환(http://fb.com/yoonani72)
10. 두 표본의 평균 비교
– Step 1) 데이터 입력
> pre <- c(59, 72, 85, 69, 78, 82, 55)
> post <- c(54, 65, 84, 63, 72, 83, 51)
– Step 2) 두 집단의 순서쌍 별로 차이를 구한다.
> diff <- pre - post
> diff
[1] 5 7 1 6 6 -1
4
복용전
59
72
85
69
78
82
55
복용후
54
65
84
63
72
83
51
복용전-복용후
5
7
1
6
6
-1
4
한림대학교 이윤환(http://fb.com/yoonani72)
11. 두 표본의 평균 비교
– Step 3, 가설검정) 값의 차이에 대해 평균이 0인지 검
정한다.
다이어트 약의 효과가 있다면 사전 몸무게가 다이어트
약 복용후 몸무게보다 많이 나갈 것이고 이로 인핸 값
의 차이는 양수로 나타나야 할 것이므로 다음과 같이
가설을 수립한다.
• 영가설 : 다이어트 약의 효과가 없다,
𝜇치료전−치료후 = 0
• 대안가설 : 다이어트 약의 효과가 있다,
𝜇치료전−치료후 > 0
한림대학교 이윤환(http://fb.com/yoonani72)
12. 두 표본의 평균 비교
– Step 4) 검정통계량(유의확률)을 구하기 위한 R 사용
과 판정
> t.test(diff, mu=0, alternative="greater")
One Sample t-test
data: diff
t = 3.5949, df = 6, p-value = 0.005718
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
1.837829
Inf
sample estimates:
mean of x
4
한림대학교 이윤환(http://fb.com/yoonani72)
13. 두 표본의 평균 비교
– Step 5) 판정
• 검정통계량 3.5949는 자유도가 6인 t분포에서 유의확률
0.005718을 가져 유의수준 0.05보다 작으므로 영가설을 기
각한다.
• 다이어트 약은 통계적으로 유의한 효과가 있다.
– 보충) pre-post 값이 정규분포를 따라야 한다.
> shapiro.test(diff)
Shapiro-Wilk normality test
data: diff
W = 0.8846, p-value = 0.2476
한림대학교 이윤환(http://fb.com/yoonani72)
16. 모비율(p) 검정
• 예제) 어느 도시의 사회조사단체에서 취업적렭의
사람들을 대상으로 1,600명을 임의로 추출하여
조사한 결과 96명이 실업자였다. 조사된 자료에
의하면 이 도시의 실업률이 전국실업률 7.8%보
다 낮다고 할 수 있는지를 유의수준 5%에서 검
정하여라.
– (노맹석 외, 기초통계학 – R을 이용한 통계분석, 자유
아카데미, 2011년, P246)
한림대학교 이윤환(http://fb.com/yoonani72)
17. 모비율(p) 검정
• 가설수립
– 영가설 : 𝑝 = 0.078,
전국실업율 0.078과 같다.
– 대안가설 : 𝑝 < 0.078,
전국실업율 0.078보다 작다.
• 검정통계량
–
𝑝 −𝑝
𝑝(1−𝑝)
~ 𝑍(0, 1)
𝑛
– 검정통계량을 사용하여 표준정규분포와 비교하거나
– 위로 부터 계산되는 𝑝 을 사용
한림대학교 이윤환(http://fb.com/yoonani72)