10.단일표본 평균 모비율

단일 표본에서의 평균비교와
모비율검정

단일 표본의 평균비교
• 기본가정 : 모집단의 분포는 정규분포
– 표본의 정규성 검정
– R에서의 검정 방법 : Shapiro-Wilk normality test
• 영가설 : 표본의 분포는 정규분포이다.
• 대안가설 : 표본의 분포는 정규분포가 아니다.

– 예제) R의 내장 자료인 mtcars는 1974년 미국의
Motor Trend 잡지로부터 32개의 자동차 모델의 연
비 및 특성을 추출한 자료로 이들 중 수동미션을 채용
한 (am==1) 13개의 자동차의 연비는 정규분포를 이
루고 있는지 검정해보자.

한림대학교 이윤환(http://fb.com/yoonani72)

단일표본의 평균비교
> shapiro.test(mtcars$mpg[mtcars$am==1 ])
Shapiro-Wilk normality test
data: mtcars$mpg[mtcars$am == 1]
W = 0.9458, p-value = 0.5363

– 유의수준을 0.05로 할 때 p-value가 0.5363으로,
표본의 분포가 정규분포를 따른다는 영가설을 채택할 수 있
으며,
이를 바탕으로 정규모집단에서 추출한 표본으로 판단한다.
• 만족하지 못할 경우 비모수 방법을 통한 검정 실시


단일 표본의 평균비교
• 대표본이고 모집단의 분산을 알 경우
– 표준정규분포를 이용한 z-test 실시

• 대표본이고 모집단의 분산을 모를 경우
– 표본의 개수가 증가(자유도 증가)할 경우 t-분포가 정
규분포에 근사
– 모표준편차의 추정량인 표본표준편차를 이용한 ztest 실시

• 소표본이고 모집단의 분산을 모를 경우
– t-분포를 이용한 t-test 실시


단일 표본 t-test
• 1973년부터 1974년까지 미국에서 생산된 자동
차들의 평균 연비는 갤런당 20마일(20mpg)로
알려져 있다. 수동미션 차량들이 자동미션 차량
보다 연비가 좋다는 것을 밝히기 위해 수동 미션
차량들의 연비는 20mpg보다 크다고 할 수 있는
지 유의수준 0.05에서 검정하시오.
–
–
–
–

표본의 개수는 한 개 : 갤런당 마일(mpg)
모집단의 분산을 알지 못함
대표본으로 보기 힘듦 (13개의 표본)
단일 표본 t-test 실시

단일 표본 t-test
• 가설 수립
– 영가설 : μ = 20𝑚𝑝𝑔
– 대안가설 : μ > 20𝑚𝑝𝑔

• 분석을 위한 R 함수
– t.test(x, mu=𝐻0 ,
alternative=(“less”|”greater”|”two.sided”))
• X : 분석에 사용할 데이터
• mu : 영가설하에서의 모평균
• alternative : 대안가설에 따라 “less”, “greater”,
“two.sided” 중에 하나 입력 (생략시 “two.sided”)


단일표본 t-test
> t.test(mtcars$mpg[mtcars$am==1 ], mu=20, alternative="greater")
One Sample t-test

data: mtcars$mpg[mtcars$am == 1]
t = 2.5682, df = 12, p-value = 0.01231
alternative hypothesis: true mean is greater than 20
95 percent confidence interval:
21.3441
Inf
sample estimates:
mean of x
24.39231


두 표본의 평균 비교
• 짝을 이룬 두 표본(대응표본)의 검정
– 어떤 처치의 효과를 입증하기 위해 해당 하는 처치를 하기
전의 관찰값을 구하고 동일한 표본으로 부터 처치를 시행한
후 관찰값을 구한 후 둘 사이의 차이가 있는지를 알고 싶다.
• Ex) 병원 등에서 치료 전과 치료 후 치료의 효과가 있는지를 알
고 싶은 경우

– 둘 사이에 차이가 없는 경우는 다음과 같이 될 것이다.
• “치료전 관찰값 – 치료후 관찰값”의 평균은 0
즉, 𝜇치료전−치료후 = 0

– “치료전 관찰값 – 치료후 관찰값” 이 0이면 차이가 없는 것
이고 그렇지 않다면 차이가 있는 것으로 보는 검정 방법


– 가정
• “치료전 관찰값 – 치료후 관찰값”의 분포는 정규분포를 따라
야 한다.
– 예제) 새로 시판되는 한 다이어트 약의 효과를 알아보기 위하여
성인 남녀 7명의 체중을 다이어트약 복용전에 측정하고, 다이어
트 약의 복용방법에 따라 1개월 간 복용한 다음, 다시 그들의 체
중을 측정한 결과가 다음의 표와 같다.
이 자료로부터 다이어트 약에 효과가 있는지를 유의수준 0.05에
서 검정하라. (노맹석 외, 기초통계학 – R을 이용한 통계분석, 자
유아카데미, 2011년, P268)
복용전

59

72

85

69

78

82

55

복용후

54

65

84

63

72

83

51


– Step 1) 데이터 입력
> pre <- c(59, 72, 85, 69, 78, 82, 55)
> post <- c(54, 65, 84, 63, 72, 83, 51)

– Step 2) 두 집단의 순서쌍 별로 차이를 구한다.
> diff <- pre - post
> diff
[1] 5 7 1 6 6 -1

4

복용전

59

72

85

69

78

82

55

복용후

54

65

84

63

72

83

51

복용전-복용후

5

7

1

6

6

-1

4


– Step 3, 가설검정) 값의 차이에 대해 평균이 0인지 검
정한다.
다이어트 약의 효과가 있다면 사전 몸무게가 다이어트
약 복용후 몸무게보다 많이 나갈 것이고 이로 인핸 값
의 차이는 양수로 나타나야 할 것이므로 다음과 같이
가설을 수립한다.
• 영가설 : 다이어트 약의 효과가 없다,
𝜇치료전−치료후 = 0
• 대안가설 : 다이어트 약의 효과가 있다,
𝜇치료전−치료후 > 0


– Step 4) 검정통계량(유의확률)을 구하기 위한 R 사용
과 판정
> t.test(diff, mu=0, alternative="greater")
One Sample t-test
data: diff
t = 3.5949, df = 6, p-value = 0.005718
alternative hypothesis: true mean is greater than 0
1.837829
Inf
sample estimates:
mean of x
4


– Step 5) 판정
• 검정통계량 3.5949는 자유도가 6인 t분포에서 유의확률
0.005718을 가져 유의수준 0.05보다 작으므로 영가설을 기
각한다.
• 다이어트 약은 통계적으로 유의한 효과가 있다.

– 보충) pre-post 값이 정규분포를 따라야 한다.
> shapiro.test(diff)
Shapiro-Wilk normality test
data: diff
W = 0.8846, p-value = 0.2476

모비율(p) 검정
• 기본가정
– 표본의 크기가 대표본 (일반적으로 30 이상)

• 모비율의 추정량 : 𝑝
– 𝐸 𝑝 = 𝑝

– Var 𝑝 =

𝑝(1−𝑝)
𝑛

– 대표본으로 𝑝은 근사적으로 정규분포를 따른다.

• 정규분포를 따르는 𝑝의 표준정규분포 변환
–

𝑝 −𝑝
𝑝(1−𝑝)

~ 𝑍(0, 1) : 검정통계량
𝑛


모비율(p) 검정
• 예제) 어느 도시의 사회조사단체에서 취업적렭의
사람들을 대상으로 1,600명을 임의로 추출하여
조사한 결과 96명이 실업자였다. 조사된 자료에
의하면 이 도시의 실업률이 전국실업률 7.8%보
다 낮다고 할 수 있는지를 유의수준 5%에서 검
정하여라.
– (노맹석 외, 기초통계학 – R을 이용한 통계분석, 자유
아카데미, 2011년, P246)


모비율(p) 검정
• 가설수립
– 영가설 : 𝑝 = 0.078,
전국실업율 0.078과 같다.
– 대안가설 : 𝑝 < 0.078,
전국실업율 0.078보다 작다.

• 검정통계량
–

𝑝 −𝑝
𝑝(1−𝑝)

~ 𝑍(0, 1)
𝑛

– 검정통계량을 사용하여 표준정규분포와 비교하거나
– 위로 부터 계산되는 𝑝 을 사용

모비율(p) 검정
• 검정통계량 : 𝑝
– 유의수준에 따른 임계값 -1.645 (𝛼 = 0.05)
–

𝑝 −𝑝
𝑝(1−𝑝)

= −1.645 = −𝑍0.05
𝑛

– 𝑝 = 𝑝 −𝑍0.05
0.078 − 1.645

𝑝(1−𝑝)

𝑛

=

0.078 1−0.078

1600

≈ 0.067


모비율(p) 검정
• 검정통계량 : R 사용
– prop.test(
x=성공의 수, n=전체 조사대상, p=영가설하의 비율,
alternative=(“two.sided”|"less“|”greater”)
)
> prop.test(x=96, n=1600, p=0.078, alternative="less")
1-sample proportions test with continuity correction
data: 96 out of 1600, null probability 0.078
X-squared = 6.9603, df = 1, p-value = 0.004167
alternative hypothesis: true p is less than 0.078
0.00000000 0.07086414
sample estimates:
p
0.06

10.단일표본 평균 모비율

Recommended

Recommended

More Related Content

What's hot

What's hot (8)

Viewers also liked

Viewers also liked (18)

More from Yoonwhan Lee

More from Yoonwhan Lee (13)

10.단일표본 평균 모비율