Ch11. 단일모집단에 관한 가설검정

  • 가설검정의 예와 순서
  • 모집단 평균에 관한 가설검정
  • 모집단 분산에 관한 가설검정

1. 가설검정의 예와 순서

가설검정의 예

예제 1. 우리나라 여성 전체의 평균 키는 160cm 이고, 분산은 200이라고 한다. 10,000명을 표본으로 하여 조사한 결과 평균 169cm 를 얻었다. 우리나라 여성의 평균 키가 160cm 라고 할 수 있을까?

  • 위의 예제가 모집단 평균에 관한 가설검정의 가장 기본적인 형태다. 그러나 예문을 자세히 읽어보면 의문점이 생길 것이다. 즉, "여성 전체의 키의 분산이 $\sigma^{2}=200$" 이라는 것이다.
  • 모집단의 분산은 모집단의 평균을 알지 못하고는 계산할 수가 없는 것이 보통인데, 위의 예제에서는 모집단의 분산을 이미 아는 것으로 가정하였다.
  • 모집단 평균을 모르기 때문에 가설검정을 하려는 것인데, 모집단 분산을 알고 있다고 가정하는 것은 비현실적이다. 따라서 다음과 같은 예제가 보다 현실적일 것이다.

예제 2. 우리나라 여성의 평균키는 160cm 라고 한다. 이에 대한 가설을 검정하기 위하여 10,000명을 표본으로 하여 조사한 결과, 평균 169cm, 분산 300을 얻었다. 우리나라 여성의 평균 키가 160cm 라고 할 수 있는가?

  • 예제 2에서는 모집단의 분산을 모른다는 가정하에 표본을 이용하여 분산을 구하였다. 현실적으로 통계적 가설검정에서는 에제 2와 같은 문제를 해결하는 것이 보통이다.
  • 그러나 예제 1과 같은 경우도 간혹 있다. 과거의 경험으로 모집단의 표준편차 또는 분산이 어느 정도 알려져 있을 수가 있기 때문이다. 품질관리를 위하여 과거에 통조림의 용량을 여러 번 조사해 본 경험이 있는 통조림공장 같은 곳에서는 그 통조림 용량의 분포에 대하여 개략적인 표준편차 또는 분산을 알고 있을 수가 있다.

예제 1과 같이 모집단 분산을 알고 있는 경우와, 예제 2와 같이 모집단 분산을 알지 못하는 경우에 모집단 평균에 대한 가설검정방법은 서로 다르다. 그러므로 앞으로 1 ) 모집단 분산을 알고 있는 경우와, 2 ) 모집단 분산을 알지 못하는 경우를 구분하여 설명하도록 한다.

모집단 평균에 대한 가설검정의 순서

1. 귀무가설과 대립가설

  • 귀무가설과 대립가설을 설정하는 데 있어서 주의해야 할 점은, 귀무가설은 검정의 대상이 되는 가설이므로 쉽게 가설을 검정할 수 있는 형태로 설정하는 것이 바람직하다. 그러므로 귀무가설은 부등식으로 표시하는 것보다는 아래와 같이 등식(=) 으로 표현하는 것이 좋다.
$$ \begin{align} &H_{0} : \mu = 160 \\ &H_{a} : \mu \ne 160, 또는 \mu > 160, 또는 \mu < 160 \\ \end{align} $$
  • 그러나 $H_{0} : \mu \ge 160, H_{a} : \mu < 160$ 등으로 가설을 세우는 경우도 있다. 이러한 경우에는 $\mu \ge 160$를 직접적으로 검정할 수 없으므로 $\mu \ge 160$의 가장 보수적인 값 $\mu=160$을 귀무가설로 검정하여, 채택되면 $\mu \ge 160$가 채택되는 것으로 간주하고, 반대로 기각되면 $\mu \ge 160$가 기각된 것으로 간주하면 된다.

2. 유의수준의 결정

  • 유의수준의 결정은 연구자의 연구목적, 주관적인 판단 등에 따라 달라지지만 대체로 0.01, 0.05, 0.10 등으로 정하는 것이 보통이다.
  • 실제 의사결정을 할 때에는 의사결정에 오류를 범함으로써 발생될 수 있는 손실을 고려하여 유의수준을 결정해야 한다.
  • 예를 들어 의약품의 성분용량을 검정할 때에는 엄격하게 하여야 하기 때문에, 귀무가설이 맞는데도 불구하고 기각할 오류인 $\alpha-오류$, 즉 유의수준을 크게 하여 검정함으로써 불량품이 발생할 위험을 줄여야 할 것이다.

3. 채택영역과 기각영역 : 임계값 <img src="https://saylordotorg.github.io/text_introductory-statistics/section_12/72f0cd42fda04cdfb0341bcfe11601c1.jpg", width=600>

  • 양측검정에서의 임계값
    • 유의수준이 $\alpha$ 일 때, 양측검정에서는 오른쪽의 임계값 $Z$는 $Z_{\alpha/2}$가 되며 왼쪽의 임계값 $Z$는 $-Z_{\alpha/2}$가 된다.
  • 단측검정에서의 임계값
    • 유의수준이 $\alpha$ 일 때, 대립가설에 따라 $-Z_{\alpha/2}$가 되거나, $Z_{\alpha/2}$가 된다.
    • 즉 대립가설이 $H_{a} : \mu < \mu_{0}$면 $-Z_{\alpha/2}$가 임계값이 되며,
    • 대립가설이 $H_{a} : \mu > \mu_{0}$면 $Z_{\alpha/2}$가 임계값이 된다.

4. 통계량의 계산과 임계값과의 비교

  • 임계값이 결정되면, 표본에서 계산한 통계량이 기각영역에 속하는지 채택영역에 속하는지를 결정해야 한다.
  • 임계값은 주로 $Z$값으로 나타내는 것이 더욱 편리하므로, 표본에서 얻은 통계량 $\bar{X}$도 $Z$값으로 바꾸어야 비교 가능하다. $$Z = \frac{\bar{X}-\mu}{\sigma_{\bar{X}}}$$

5. 결과의 해석

  • 계산된 통계량과 임계값을 비교한 다음 연구자는 $H_{0}$를 기각하거나 채택하게 된다.
  • 그러나 최종적으로는 귀무가설을 기각하거나 채택하는 것이 무엇을 의미하는가를 해석하는 것이 중요하다.
    • 예를 들어 우리나라 여성의 평균 키가 160cm 라고 할 수 있는가에 대한 가설을 검정할 때 귀무가설을 $H_{0} : \mu = 160$, 대립가설을 $H_{a} : \mu \ne 160$ 라고 한다.
    • 그 다음 계산된 통계량이 임계값보다 크면 "귀무가설을 기가한다"라고 하기보다는 "귀무가설을 기각하므로 우리나라 여성의 평균키가 160cm 라고 할 수 없다"라는 해석을 해야만 연구자의 임무를 다하는 것이 된다.

2. 모집단 평균에 대한 가설 검정

모집단의 분산을 알고 있을 때 $( Z-검정 )$

예제 1. 통조림회사에서 수출용 과일통조림을 생산하는데, 그 통조림의 무게가 $16$온스며, 무게의 분포가 정규분포라 한다. 그러나 해외에서는 통조림 무게가 $16$온스가 아니라는 불평이들어오고 있다. 회사측에서는 이를 확인하기 위하여 $25$개래의 통조림을 표본으로 뽑아 평균을 조사하여 본 결과, $\bar{X}=15.5$온스였다. 모집단의 표준편차는 $1.5$온스라는 것을 과거의 경험으로 알고 있다고 하자. $\alpha=0.05$로 하면, 위의 결과로부터 이 회사의 통조림 무게가 $16$온스라고 말할 수 있겠는가?


In [2]:
plt.show()


  • 위의 예제에서 통조림 무게의 분포가 정규분포이므로 $n = 25$일 때의 표집분포도 정규분포이며, $\mu_{\bar{X}} = \mu$이고 $\sigma_{\bar{X}}=\sigma/\sqrt{n}$다. 즉, $\mu_{\bar{X}}=16$온스이고 $\sigma_{\bar{X}}=1.5/5=0.3$이다. 이 표집분포를 그림으로 그리면 아래와 같다.

양측검정

$$ \begin{align} ①&\quad H_{0} : \mu = 16 \\ &\quad H_{a} : \mu \ne 16 \\ ②&\quad \alpha = 0.05 ( 5\% ) \\ ③&\quad 채택영역 : -1.96 \le Z \le 1.96 \\ &\quad 기각영역 : Z < -1.96 또는 Z > 1.96 \\ ④&\quad \bar{X}=15.5에 해당하는 Z 값\\ &\quad Z = \frac{\bar{X}-\mu}{\sigma_{\bar{X}}} = \frac{15.5-16}{0.3} = -1.67 \\ &\quad Z = -1.67 은 채택영역 안에 있으므로 H_{0}를 기각할 수 없다. \\ ⑤& \quad 따라서 통조림의 무게가 16온스라고 주장할 수 있다. \end{align} $$

단측검정

  • 위 예제에서 다른 조건은 같고 통조림의 내용량이 부족하다는 불평이 들어온다고 하자. 이를 검정하기 위해서는 단측검정을 해야 하는데 이 순서는 다음과 같다












what if ?

  • 반대로 통조림의 내용량이 많다는 피드백이 들어온다고 할 때, 검정을 해보세요.














모집단의 분산을 모를 때 $( t-검정 )$

  • 현실에서 대부분 일반적인 상황 ( 모수를 알지 못하는 상황 )
  • $Z$검정과 거의 비슷하나, 검정 통계량을 $Z$값이 아닌 $t$값을 이용한다는 점만 다르다.

t-통계량 $$t = \frac{\bar{X}-\mu}{S_{\bar{X}}}$$

예제 2. 어느 도시에서는 유치원 교사의 이직률이 높아 평균 재직기간이 $\mu=20$개월이라 한다. 실제로 그러한지를 알아보기 위해 유치원 교사 $10$명을 뽑아 재직기간을 조사해 보았더니 다음 $표 11-3$과 같았다. $\mu = 20$개월이라는 가설을 $\alpha=0.05$ 수준에서 양측검정과 단측검정을 하라. 유치원 교사의 재직기간은 개월로 표시하여 정규분포를 이룬다고 가정한다.

교사 재직기간($X_{i}$) $X_{i}$ - $\bar{X}$ $(X_{i}$ - $ \bar{X})^{2}$
A 16 -7 49
B 28 5 25
C 20 -3 9
D 34 11 121
E 22 -1 1
F 18 -5 25
G 30 7 49
H 22 -1 1
I 25 2 4
J 15 -8 64
합계 230(개월) 348
$$ \begin{align} & \bar{X} = \frac{\sum\bar{X_{i}}}{n}=\frac{230}{10} = 23 \\ & S = \sqrt{\frac{\sum(X_{i}-\bar{X})^{2}}{n-1}} = \sqrt{\frac{348}{9}} = 6.2 \\ & S_{\bar{X}} = \frac{S}{\sqrt{n}} = \frac{6.2}{\sqrt{10}} = 1.96 \\ \end{align} $$









양측검정

$$ \begin{align} ①&\quad H_{0} : \mu = 20 \\ &\quad H_{a} : \mu \ne 20 \\ ②&\quad \alpha = 0.05 ( 5\% ) \\ ③&\quad \alpha/2=0.025고, 자유도 n-1=9 일 때 t-분포표를 보면, \\ &\quad 채택영역 : -2.262 \le t \le 2.262 \\ &\quad 기각영역 : t < -2.262 또는 t > 2.262 \\ ④&\quad \bar{X}=23에 해당하는 t 값\\ &\quad t = \frac{\bar{X}-\mu}{S_{\bar{X}}} = \frac{23-20}{1.96} = 1.53 \\ &\quad t = 1.53 은 채택영역 안에 있으므로 H_{0}를 기각할 수 없다. \\ ⑤& \quad 따라서 유치원 교사의 평균 재직기간이 20개월이라 주장할 수 있다. \end{align} $$

단측검정











$t-분포$와 $Z-분포$와의 관계

  • 모집단 분포가 정규분포를 이루며, 모집단 분산을 알고 있을 때 -> $Z-분포$
  • 모집단 분포가 정규분포이긴 하지만, 분산을 모를 때 -> $t-분포$
  • 그러나 표본의 크기가 크면, 모집단 분산과 표본에서 뽑은 분산 간의 차이가 작기 때문에 $t통계량$을 사용하거나 $Z통계량$을 사용하거나 별 차이가 없다. ( 중심극한정리 )
    • 통상적으로 표본의 크기 $n$이 $30$을 넘는 경우
모집단의 분산을 알고 있을 때 표본이 클 때
$(n \ge 30)$
표본이 작을 때
$(n < 30)$
모집단이 정규분포 $Z-분포$ $Z-분포$
모집단이 비정규분포 $Z-분포$ -
모집단의 분산을 모를 때 표본이 클 때
$(n \ge 30)$
표본이 작을 때
$(n < 30)$
모집단이 정규분포 $Z-분포$ $t-분포$
모집단이 비정규분포 $Z-분포$ -



3. 모집단 분산에 관한 가설검정

8장에서 설명한 $\chi2-분포$를 이용하여 정규분포를 이루는 단일모집단의 분산에 관한 가설검정을 할 수 있다.

  • 분산에 대한 가설검정도 평균에 대한 가설검정과 마찬가지로, 계산된 통계량이 표집분포에서 채택영역에 속하는지 또는 기각영역에 속하는지를 알아서 귀무가설을 채택, 거부한다.
  • 만일 표본의 자료에서 계산된 $\chi2값$이 $\chi2-분포$의 양끝에 있다면, 그 표본이 귀무가설에서 설정한 모집단에서 뽑혔다고 볼 수 없을 정도로 예외적이라고 볼 수 있기 때문에 귀무가설을 기각한다.

$\chi2-분포$와 임계값

<img src="http://cfile24.uf.tistory.com/image/270CFE3D548D4F0421B054", width=350>

< figure. $\chi2-분포표$에서의 임계값 >


<img src="http://cfile237.uf.daum.net/image/2255074A5192E82A031593", width=350>

< table. 자유도$(df)$와 유의수준$(\alpha)$에 따른 $\chi2값$ >



양측검정과 단측검정

양측검정

$$ \begin{align} & 채택영역 \quad \quad \chi^{2}_{\alpha/2} \le \frac{(n-1) \cdot S^{2}}{\sigma^{2}} \le \chi^{2}_{1-\alpha/2} \\ & 기각영역 \quad \quad \quad \chi^{2}_{\alpha/2} > \frac{(n-1) \cdot S^{2}}{\sigma^{2}} \\ & \quad \quad \quad 또는 \quad \chi^{2}_{1-\alpha/2} < \frac{(n-1) \cdot S^{2}}{\sigma^{2}} \end{align} $$

단측검정 (대립가설이 $H_{a} : \sigma^{2} > q$인 경우)

$$ \begin{align} & 채택영역 \quad \quad \chi^{2}_{1-\alpha} \ge \frac{(n-1) \cdot S^{2}}{\sigma^{2}} \\ & 기각영역 \quad \quad \chi^{2}_{1-\alpha} < \frac{(n-1) \cdot S^{2}}{\sigma^{2}} \\ \end{align} $$

단측검정 (대립가설이 $H_{a} : \sigma^{2} < q$인 경우)

$$ \begin{align} & 채택영역 \quad \quad \chi^{2}_{\alpha} \le \frac{(n-1) \cdot S^{2}}{\sigma^{2}} \\ & 기각영역 \quad \quad \chi^{2}_{\alpha} > \frac{(n-1) \cdot S^{2}}{\sigma^{2}} \\ \end{align} $$

예제3. 어느 연구소에서 발표한 바에 의하면 우리나라 중소기업의 종업원 임금은 어느 정도 안정되어 있어 임금의 표준편차가 $\sigma$가 $500원$이라고 한다. 그러나 많은 종업원들은 임금격차가 너무 심하기 때문에 표준편차가 이보다 훨씬 크리라고 생각하며, 또 어떤 사람은 전국의 중소기업의 임금수준은 대동소이하여 표준편차가 더 작을 것이라 생각하고 있다. 이를 검정하기 위하여 $51$명을 무작위(random)로 뽑아 그들의 임금을 조사하여 본 결과 표준편차가 $700$원이었다. 종업원 임금은 정규분포를 이룬다고 가정하고 연구소의 발표를 $\alpha=0.10$에서 검정하라. (표준편차 $\sigma=500$은 부산으로 나타내면 $\sigma^{2}=250,000$이다.)

$$ \begin{align} ①&\quad H_{0} : \sigma^{2} = 250,000 \\ &\quad H_{a} : \sigma^{2} \ne 250,000 \\ ②&\quad \alpha = 0.10 ( 10\% , 양측검정 ) \\ ③&\quad \alpha/2=0.05고, 자유도 n-1=50 일 때 \chi2-분포표를 보면, \\ &\quad 채택영역 : 34.75 \le \chi2 \le 67.5 \\ &\quad 기각영역 : \chi2 < 34.75 또는 \chi2 > 67.5 \\ ④&\quad S = 700(원)에 해당하는 \chi2 값\\ &\quad \chi2 = \frac{(n-1) \cdot S^{2}}{\sigma^{2}} = \frac{50 \times 490,000}{250,000} = 98 \\ &\quad \chi2 = 98 은 임계값인 67.50보다 크므로 ( 기각영역 안에 있으므로 ) H_{0}를 기각한다. \\ ⑤& \quad 따라서 임금의 표준편차가 500원이라는 발표를 받아들일 수 없다. \end{align} $$

예제4. 어느 고등학교에서는 고교평준화를 시행한 후 이전보다 학생들의 성적이 고르지 않다는 주장을 하고 있다. 평준화 전의 성적의 분산은 $\sigma^{2}=60$이라고 하며, 교육과학부에서는 지금도 전과 마찬가지일 것이라는 주장이다. 한 연구자는 교육과학부의 주장을 검정하기 위하여 $61$명을 선택하여 그 표본의 분산을 계산하여 본 결과 $S^{2}=70$이었다. 그 표본이 $\sigma^{2}=60$인 모집단에서 나온 것이라고 할 수 있는가를 $\alpha=0.10$에서 검정하려 한다. 고등학교의 성적분포는 정규분포라고 가정한다.