앞에서 설명한 가설검정은 한 모집단의 특성들에 관한 것이었다. 예를 들면 어느 지역의 도시 근로자들의 월급이 평균 270만원이라고 했을 때 실제로 그러한가에 대한 가설검정을 하는 것이다. 그러나 한 모집단 평균에 대한 가설검정 못지 않게 두 모집단의 평균에 대한 가설검정을 할 때가 많다. 한 지역에서 표본으로 선정된 근로자들의 월급이 270만원이고 다른 지역에서의 근로자들의 월급이 280만원이라고 할 때 두 지역의 근로자들의 월급이 차이가 난다고 볼 수 있는가 하는 것이다. 즉, 두 지역에서 계산된 표본들의 월급차이는 10만원이지만 이러한 차이는 모집단 자체가 서로 다르기 때문에 생기는 차이인지 또는 단순한 표본선정에서 생길 수 있는 오차 때문인지를 알아보는 것이다.
어느 회사의 경리과와 총무과에 직원이 각각 2명 있으며, 이들의 연령은 각각 아래의 표와 같다.
직원 \ 부서 | 경리과 | 총무과 |
---|---|---|
1 | 20 | 20 |
2 | 26 | 24 |
각 과별로 직원을 두 명 뽑을 때 두 과에서 뽑힐 수 있는 선택가능한 표본들은 다음과 같다 (복원추출)
모집단 I | ( 경리과 ) | 모집단 II | ( 총무과 ) | |
---|---|---|---|---|
20, 20 | $\bar{X}_{11}$$ = 20$ | 20, 20 | $\bar{X}_{21}$$ = 20$ | |
20, 26 | $\bar{X}_{12}$$= 23$ | 20, 24 | $\bar{X}_{22}$$= 22$ | |
26, 20 | $\bar{X}_{13}$$ = 23$ | 24, 20 | $\bar{X}_{23}$$ = 22$ | |
26, 26 | $\bar{X}_{14}$$ = 26$ | 24, 24 | $\bar{X}_{24}$$ = 24$ |
위에서 각 과에서 복원추출할 때 뽑힐 수 있는 모든 표본들을 적었다. 이 경우 두 모집단에서 뽑힌 모든 표본평균들 간의 차이를 보면 $4 \times 4 = 16$ 가지 이다.
$\bar{X}_{11}$$- \bar{X}_{21}$$ = 0$ | $\bar{X}_{11}$$- \bar{X}_{22}$$ = -2$ | $\bar{X}_{11}$$- \bar{X}_{23}$$ = -2$ | $\bar{X}_{11}$$- \bar{X}_{24}$$ = -4$ |
$\bar{X}_{12}$$- \bar{X}_{21}$$ = 3$ | $\bar{X}_{12}$$- \bar{X}_{22}$$ = 1$ | $\bar{X}_{12}$$- \bar{X}_{23}$$ = 1$ | $\bar{X}_{12}$$- \bar{X}_{24}$$ = -1$ |
$\bar{X}_{13}$$- \bar{X}_{21}$$ = 3$ | $\bar{X}_{13}$$- \bar{X}_{22}$$ = 1$ | $\bar{X}_{13}$$- \bar{X}_{23}$$ = 1$ | $\bar{X}_{13}$$- \bar{X}_{24}$$ = -1$ |
$\bar{X}_{14}$$- \bar{X}_{21}$$ = 6$ | $\bar{X}_{14}$$- \bar{X}_{22}$$ = 4$ | $\bar{X}_{14}$$- \bar{X}_{23}$$ = 4$ | $\bar{X}_{14}$$- \bar{X}_{24}$$ = 2$ |
만약 경리과 직원이 5명, 총무과 직원이 10명이라면, 복원추출로 두 사람씩 뽑힐 수 있는 표본은 경리과에서 $5 \times 5 = 25$ 개, 총무과에서 $10 \times 10 = 100$ 개, 그러므로 차이를 계산할 때 가능한 표본의 조합은 $25 \times 100 = 2500$ 개가 될 것이다.
예제1. 최근 국내에서 늘어가는 다문화가정에서 자란 아이와 일반가정에서 자란 아이의 한국어 어휘능력에 차이가 있는지를 알아보기 위해 어휘능력 시험을 치러 결과를 알아보았더니 다음과 같았다. 이 어휘검사의 표준편차는 두 모집단 모두 $\sigma = 5$로 나왔다. 두 집단 아이들의 어휘검사의 결과에 차이가 있는지 $\alpha=0.05$의 유의수준에서 검정하라.
다문화가정 | 일반가정 |
---|---|
$n_1$$=50$ | $n_2$$=50$ |
$\bar{X}_1$$=80$ | $\bar{X}_2$$=86$ |
예제2. 지금까지의 경험으로 보아 $A회사$에서 만드는 전구의 평균 수명은 $B회사$에서 만드는 것보다 $200$시간이 더 길다고 한다. $A회사$에서 $169$개의 표본을 뽑아 평균 수명을 조사했더니 $1,400$시간이었고 표준편차는 $130$시간이었다. $B회사$에서는 $144$개를 뽑았는데 표본의 평균 수명은 $1,300$시간이었고 표준편차는 $120$시간이었다. $A회사$의 전체전구의 평균 수명이 $B회사$ 전구보다 $200$시간 길다는 것을 $\alpha=0.05$에서 검정하라.
A회사 | B회사 |
---|---|
$\bar{X}_1$$=1400$ | $\bar{X}_2$$=1300$ |
$S_1 $$= 130$ | $S_2$$= 120$ |
$n_1$$=169$ | $n_2$$=144$ |
$$ \begin{align} & \bar{D} = \frac{\sum(X_1 - X_2)}{n} = \frac{D_i}{n} = \frac{16}{16} = 1\\ & S_d = \sqrt{ \frac{ \sum(D_i-\bar{D})^2 }{n-1} } = \sqrt{\frac{442}{15}} = \sqrt{29.47} = 5.43 \\ \end{align} $$예제1. 어느 회사에서 직업훈련이 근로자의 능률향상에 효과가 있는지를 알고 싶다고 하자. 이를 위해 16명의 근로자를 뽑아서 직업훈련을 하기 전과 후의 작업능률의 점수를 알아보았더니 다음 표와 같았다. 이 조사결과로써 훈련전과 훈련후의 능률이 같다고 할 수 있을까? 모집단에서의 차이의 분포는 정규분포라 가정한다.
먼저 차이의 평균 ( $\bar{D}$ ) 과 표준편차 ( $S_d$ )를 계산하면,
근로자 | 훈련후 $(X_1)$ | 훈련전 $(X_2)$ | 차이 $(D_i = X_1 - X_2)$ | $D_i$$ - \bar{D}$ | $(D_i$$ - \bar{D}$$)^2$ |
---|---|---|---|---|---|
A | 80 | 75 | 5 | 4 | 16 |
B | 90 | 83 | 7 | 6 | 36 |
C | 92 | 96 | -4 | -5 | 25 |
D | 75 | 77 | -2 | -3 | 9 |
E | 86 | 81 | 5 | 4 | 16 |
F | 90 | 90 | 0 | -1 | 1 |
G | 81 | 82 | -1 | -2 | 4 |
H | 70 | 67 | 3 | 2 | 4 |
I | 89 | 94 | -5 | -6 | 36 |
J | 88 | 85 | 3 | 4 | 4 |
K | 82 | 78 | 4 | 3 | 9 |
L | 79 | 82 | -3 | -4 | 16 |
M | 91 | 96 | -5 | -6 | 36 |
N | 90 | 80 | 10 | 9 | 81 |
O | 78 | 87 | -9 | -10 | 100 |
P | 89 | 81 | 8 | 7 | 49 |
합계 | - | - | 16 | - | 442 |
위 예제에서 두 모집단에 뽑힌 표본의 차에 대한 가설검정 때와는 달리 자유도가 $n -1$이었다. 그 이유는 겉으로 보기에는 $\mu_1 - \mu_2$에 대한 가설검정 같지만 실제로는 크기가 $n$인 하나의 표본을 가지고 모집단 $D$에 대한 가설검정을 한 것이기 때문이다.
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/9/92/F_pdf.svg/650px-F_pdf.svg.png", width=300>
가설설정
임계값의 결정
<img src="https://www.safaribooksonline.com/library/view/random-data-analysis/9780470248775/images/tabA-5b.jpg", width=350>
$$ \begin{align} ①&\quad H_{0} : \sigma^2_1 = \sigma^2_2 \\ &\quad H_{a} : \sigma^2_1 > \sigma^2_2 \\ ②&\quad \alpha = 0.05 ( 5\% , 단측검정 ) \\ ③&\quad F_{8, 6}에서 \alpha=0.05 에 해당하는 임계값은 F=4.15 이므로 \\ &\quad 채택영역 : F \le 4.15\\ &\quad 기각영역 : F > 4.15 \\ ④&\quad F = \frac{19.8}{9} = 2.2 \\ &\quad F = 2.2 는 F \le 4.15 안에 포함되어 있으므로 \\ &\quad ( 채택영역 안에 있으므로 ) H_{0}를 기각할 수 없다. \\ ⑤& \quad 2학년 학생의 성적의 차이가 1학년 학생의 성적의 차이보다 크다고 할 수 없다. \end{align} $$예제. 영도중학교에서 1학년 학생들 성적의 차이가 2학년이 되면 더 커질 것이라는 판단하에 실제로 그러한가를 알아보려고 한다. 두 학년의 성적분포는 정규분포일 것이라고 가정을 하였다. 1학년에서 $7$명을 뽑고 2학년에서 $9$명을 뽑아서 각각의 성적의 분산을 조사하여 본 결과 1학년의 분산은 $9$이었으며, 2학년의 분산은 $19.8$이었다. 두 모집단의 분산은 같다고 볼 수 있을까? $\alpha = 0.05$로 검정하라.