Ch8. 표본 및 표집분포

  • 오차의 종류
  • 통계랑과 표집분포
  • 평균의 표집분포
  • 분산의 표집분포

1. 오차의 종류

표본추출오차 ( Sampling Error )

  • 표본추출오차란 모집단을 대표할 수 있는 전형적인 구성요소를 표본으로 선택하지 못했기 때문에 발생
  • 표본추출상의 오류는 두 가지 요인에 의해서 발생
    • 하나는 표본의 크기 때문에 생기는 우연에 의한 오류
      • 표본의 크기가 커지면 오차는 줄어들게 됨
    • 다른 하나는 모집단을 대표할 수 없는 비전형적인 구성요소를 표본으로 뽑았기 때문에, 즉 편의(bias) 때문에 일어나는 오류
      • bias : 치우침, 표본을 추출할 때 모집단의 구성원 중 특수한 성격을 가진 구성원을 선호하는 경향 / 이는 분석자의 무의식으로 인해 발생할 수 있고, 표본추출의 계획이 불완전하기 때문에 발생

측정오차 ( Measurement Error )

  • 비표본추출오차, 표본추출방법이 잘못된 것이 아니라, 측정하는 과정에서 오류가 발생 (물리적)

2. 통계량과 표집분포

모수 ( Parameter )

유한모집단의 모수 계산

$$ \begin{align} 평균 \quad & \mu = \frac{\sum X_{i}}{N} \\ 분산 \quad & \sigma^{2} = \frac{\sum (X_{i} - \mu)^{2}}{N} \\ 표준편차 \quad & \sigma = \sqrt {\sigma^{2}} = \sqrt {\frac{\sum (X_{i} - \mu)^{2}}{N}} \\ \end{align} $$

무한모집단의 모수 계산

$$ \begin{align} 평균 \quad & \mu = E(X) = \sum X_{i}P_{i} \\ 분산 \quad & \sigma^{2} = Var(X) = \sum [X_{i} - E(X)]^{2} \cdot P(X_{i}) \\ 표준편차 \quad & \sigma = \sqrt{\sigma^{2}} =\sqrt{\sum [X_{i} - E(X)]^{2} \cdot P(X_{i})} \\ \end{align} $$

통계량 ( Statistic )

  • 표본을 구해서 이 표본의 분포특성을 계수화하기 위해 사용되는 방법을 통계량이라고 한다
  • 모수와 마찬가지로 표본의 특성 중 대표적인 것이 평균, 분산, 표준편차 이다
  • 표본의 분산이나 표준편차를 계산할 때는 $n$ 대신 $(n-1)$ 을 사용한다

통계량 계산

$$ \begin{align} 평균 \quad & \bar{X} = \frac{\sum X_{i}}{n} \\ 분산 \quad & S^{2} = \frac{\sum (X_{i} - \bar{X})^{2}}{n-1} \\ 표준편차 \quad & S = \sqrt {S^{2}} = \sqrt {\frac{\sum (X_{i} - \bar{X})^{2}}{n-1}} \\ \end{align} $$

증명 $$ \begin{align} E(S^{2}) &= E \left[ \frac{1}{N} \sum(X_{i}-\bar{X})^{2}) \right]\\ &= E \left[ \frac{1}{N} \sum \{ (X_{i}-\mu)-(\bar{X}-\mu) \}^{2} \right]\\ &= E \left[ \frac{1}{N} \sum \{ (X_{i}-\mu)^{2} - 2(X_{i}-\mu)(\bar{X}-\mu) + (\bar{X}-\mu)^{2} \} \right] \\ &= E \left[ \frac{1}{N} \sum(X_{i}-\mu)^{2} \right] -2E \left[ \frac{1}{N} \sum(X_{i}-\mu)(\bar{X}-\mu) \right] + E \left[ \frac{1}{N} \sum(\bar{X}-\mu)^{2} \right] \\ \end{align} $$

$$ \begin{align} E \left[ \frac{1}{N} \sum(X_{i}-\mu)^{2} \right] &= Var(X) \\ &= \sigma ^{2} \\ -2E \left[ \frac{1}{N} \sum(X_{i}-\mu)(\bar{X}-\mu) \right] &= -2E \left[ \frac{1}{N} \sum(X_{i}-\mu)(\frac{1}{N}\sum (X_{i} - \mu)) \right] \\ &= -2E \left[ \frac{1}{N_{2}} \sum (X_{i}-\mu)^{2} \right] \\ &= -\frac{2}{N} E \left[ \frac{1}{N} \sum(X_{i}-\mu)^{2} \right] \\ &= - \frac{2}{N} \sigma^{2} \end{align} $$
$$ \begin{align} E \left[ \frac{1}{N} \sum(\bar{X}-\mu)^{2} \right] &= Var(\bar{X}) \\ &= Var \left[ \frac{1}{N} \sum X_{i} \right] \\ &= (\frac{1}{N})^{2} \cdot \sum Var(X_{i}) \\ &= \frac{1}{N^{2}} \left[ Var(X_{1}) + Var(X_{2}) + \cdots + Var(X_{N}) \right] \\ &= \frac{1}{N^{2}} \cdot N \cdot Var(X) \\ &= \frac{Var(X)}{N} = \frac{\sigma^{2}}{N} \end{align} $$
$$ \begin{align} E(S^{2}) &= \sigma^{2} - \frac{2}{N}\sigma^{2} + \frac{\sigma^{2}}{N} \\ &= \frac{N-1}{N}\sigma^{2} \\ \therefore \sigma^{2} &= \frac{N}{N-1}E(s^{2}) \\ &= \frac{N}{N-1} E \left[ \frac{1}{N} \sum(X_{i}-\bar{X})^{2} \right] \\ &= E \left[ \frac{\sum(X_{i}-\bar{X})^{2}}{N-1} \right] \\ \end{align} $$

표집분포 ( Sampling Distribution )

  • 표집분포란 모집단에서 일정한 크기로 뽑을 수 있는 표본을 모두 뽑았을 때, 그 모든 표본의 특성치, 즉 통계량의 확률분포를 말한다.
    • 모집단에서 표본을 뽑아 그 표본을 분석할 때, 우리가 뽑은 표본이 과연 모집단을 대표할 수 있는가 ?
    • 이는 표본이 포함하고 있는 오차를 추정해 낼 수 있다는 것을 의미 ( 표집분포가 가능하게 해줌 )
    • 똑같은 크기를 가진 표본을 여러 번 추출 -> 각 표본의 특성치인 통계량들 역시 분포를 갖게 됨 -> 이때 통계량이 어떤 분포를 이루는가를 보여주는 것이 표집분포

3. 평균의 표집분포

  • 특정한 모집단에서 동일한 크기로 가능한 모든 표본을 뽑아서 각각의 표본들의 평균을 계산했을 때, 그 평균들의 확률분포를 말한다.

<img src="https://github.com/JKeun/lecture-statistics/blob/develop/%20img/Distribution-of-Sample-Means.png?raw=true", width=400>

ex. 어느 상자에 90, 60, 30 이라고 쓰여진 카드 3장이 있다. 이 세 장의 카드 중에서 한 장씩 두 장을 표본으로 뽑을 때, 그 표본들의 평균의 분포양상을 알아보자. (복원추출)

$X_{i}$ 확률 $P(X_{i})$
90 1/3
60 1/3
30 1/3
$$\mu = 60$$$$\sigma^{2} = 600$$
< table. 모집단의 확률분포 >

위의 모집단에서 표본크기 $n=2$로 표본을 뽑을 때의 가능한 모든 표본과 이들 표본의 평균은 ?

가능한 표본 표본의 평균 $(\bar{X_{i}})$
90, 90 $\bar{X_{1}} : 90$
90, 60 $\bar{X_{2}} : 75$
90, 30 $\bar{X_{3}} : 60$
60, 90 $\bar{X_{4}} : 75$
60, 60 $\bar{X_{5}} : 60$
60, 30 $\bar{X_{6}} : 45$
30, 90 $\bar{X_{7}} : 60$
30, 60 $\bar{X_{8}} : 45$
30, 30 $\bar{X_{9}} : 30$
< table. $n=2$일 때의 표본 >
$\bar{X_{i}}$ 확률 $P(\bar{X_{i}})$
30 1/9
45 2/9
60 3/9
75 2/9
90 1/9
< table. 평균의 표집분포 >

평균의 표집분포의 평균

$$ \mu_{\bar{X}} = E \left[ \bar{X} \right] = \sum \bar{X_{i}} \cdot P(\bar{X_{i}}) $$

위의 식을 이용하여 위의 표에 제시된 평균의 표집분포의 기댓값을 계산해보자.

$$ \mu_{\bar{X}} = \sum \bar{X_{i}} \cdot P(\bar{X_{i}}) = 30 \times \frac{1}{9} + 45 \times \frac{2}{9} + 60 \times \frac{3}{9} + 75 \times \frac{2}{9} + 90 \times \frac{1}{9} = 60 $$



평균의 표집분포의 평균과 모집단의 평균의 관계 $$ 평균 \quad \mu_{\bar{X}} = \mu $$

증명 $$ \begin{align} \mu_{\bar{X}} = E(\bar{X}) &= E \left[ \frac{1}{N} \sum X_{i} \right] \\ &= \frac{1}{N} \left[ E(X_{1}) + E(X_{2}) + \cdots + E(X_{N}) \right] , \quad ( X_{1}, X_{2}, \cdots X_{N} 은 벡터)\\ &= \frac{1}{N} \cdot N \cdot E(X) \\ &= E(X) = \mu \end{align} $$

평균의 표집분포의 분산

$$ \sigma_{\bar{X}}^{2} = E \left[ (\bar{X_{i}} - \mu_{\bar{X}})^{2} \right] = \sum (\bar{X_{i}} - \mu_{\bar{X}})^{2} \cdot P(\bar{X_{i}}) $$

위의 식을 이용하여 모집단의 분산과 표본평균의 분산을 계산해보자.

$$ 모분산 \quad \sigma^{2} = (90-60)^{2} \times \frac{1}{3} + (60-60)^{2} \times \frac{1}{3} + (30-60)^{2} \times \frac{1}{3} = 600 $$$$ 표본평균의 분산 \quad \sigma_{\bar{X}}^{2} = (30-60)^{2} \times \frac{1}{9} + (45-60)^{2} \times \frac{1}{9} + (60-60)^{2} \times \frac{3}{9} + (75-60)^{2} \times \frac{2}{9} + (90-60)^{2} \times \frac{1}{9} = 300 $$



평균의 표집분포의 분산(표준편차)과 모집단의 분산(표준편차)의 관계 $$ 분산 \quad \sigma_{\bar{X}}^{2} = \frac{\sigma^{2}}{n} \\ 표준편차 \quad \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} $$

증명 $$ \begin{align} Var(\bar{X}) &= Var \left[ \frac{1}{N} \sum X_{i} \right] \\ &= (\frac{1}{N})^{2} \cdot \sum Var(X_{i}) \\ &= \frac{1}{N^{2}} \left[ Var(X_{1}) + Var(X_{2}) + \cdots + Var(X_{N}) \right] , \quad ( X_{1}, X_{2}, \cdots X_{N} 은 벡터) \\ &= \frac{1}{N^{2}} \cdot N \cdot Var(X) \\ &= \frac{Var(X)}{N} = \frac{\sigma^{2}}{N} \end{align} $$

모집단의 분포와 평균의 표집분포

  • 모집단이 정규분포일 때

    • 모집단이 정규 분포일 때 평균의 표집분포는 표본의 크기 $n$에 관계없이 언제나 정규분포를 이루며,
    • 표집분포의 평균 $\mu_{\bar{X}}$와 표준편차 $\sigma_{\bar{X}}$는 다음과 같다. $$ 평균 \quad \mu_{\bar{X}} = \mu \\ 표준편차 \quad \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} $$
  • 모집단이 정규분포가 아닐 때

    • 모집단이 정규분포가 아닐 때에는 표집분포가 정규분포라고 단정지을 수 없다.
    • 그러나 아래의 그림에서와 같이 표집분포는 표본의 크기 $n$을 크게 할수록 정규분포에 접근하게 된다. 이를 중심극한정리(central limit theorem)라 한다.
    • 이때에도 표집분포의 평균 $\mu_{\bar{X}}$와 표준편차 $\sigma_{\bar{X}}$는 다음과 같다. $$ 평균 \quad \mu_{\bar{X}} = \mu \\ 표준편차 \quad \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} $$

중심극한정리 (Central Limit Theorem)

https://www.khanacademy.org/math/statistics-probability/sampling-distributions-library/sample-means/v/central-limit-theorem

  • 통계학에서 가장 중요한 정리
    • 그 이유는 모집단의 분포모양과는 상관없이 표본의 크기가 커지면 표집분포가 정규분포를 이루게 되어, 정규분포의 성질을 쉽게 이용할 수 있기 때문
  • 모집단이 정규분포면 표본의 크기 $n$ 이 작을 때에도 평균의 표집분포는 정규분포를 따름
  • 모집단이 정규분포가 아니더라도 $n$ 이 커질수록 정규분포에 접근
    • 대게 표본의 크기가 30 이상이면 정규분포를 이룬다.

<img src="https://upload.wikimedia.org/wikipedia/commons/1/12/Central_Limit_Theorem.png", width=600 >

< figure. Central Limit Theorem >
  • 모집단의 크기가 작을 때
    • 위의 결과는 모집단이 매우 크거나 무한하다는 가정하에 설립, 그렇다면 모집단이 유한할 때는 ? (비복원추출일 때)
    • 모집단의 크기 $N$이 작은 유한모집단에서는 표준편차에 대한 조정이 필요함

      $$ \begin{align} \sigma_{\bar{X}} &= \frac{\sigma}{\sqrt{n}} \cdot \sqrt{\frac{N-n}{N-1}} \\ N &: 모집단의 크기 \\ n &: 표본의 크기 \\ \end{align} $$
    • 모집단이 아주 크거나, 모집단의 크기에 비하여 표본의 크기가 작을 때에는 $\sqrt{(N-n)/(N-1)}$ 은 1에 가까워짐
    • 반대로, 모집단의 크기에 비해 표본의 크기가 커질수록 조정계수의 값은 1보다 작아짐
    • 대체로 표본크기가 모집단크기의 5% ($\frac{n}{N} \ge 0.05$) 이상이면 조정 필요

4. 분산의 표집분포

분산의 표집분포

  • 어떤 모집단이 $\sigma^{2}$ 의 분산을 가질 때, 이 모집단으로부터 크기가 동일하게 선택가능한 모든 표본을 뽑아서 각각의 분산을 계산했을 때,
  • 표본분산 $S^{2}$ 들은 일정한 분포를 이루게 된다.

$\chi^{2}$분포(chi-square distribution)