Ch13. 분산분석 ( ANOVA Test )

앞에서 우리는 두 모집단의 평균을 비교하기 위해 $Z-검정$과 $t-검정$을 사용하였다. 그러나 일상생활에서나 학문적인 연구에서 여러 모집단의 평균을 동시에 비교해야 할 경우가 많이 있다. 예를 들면 화장품의 판매촉진을 위하여 광고매체인 신문, 라디오, 텔레비전을 이용할 때 각각의 광고효과가 차이가 있는가를 알아보고자 하는 경우 등이다. 세 매체 간 광고효과의 차이를 비교하기 위하여 $t-검정$이나 $Z-검정$을 한다고 하면 ${3}\choose{2}$$=3$번의 검정을 해야 한다. 만일 "이메일 광고" 방법까지 추가한다면 ${4}\choose{2}$$=6$번의 비교를 해야 할 것이다.
이렇게 세 집단 이상을 비교할 때 $Z-검정$과 $t-검정$을 사용하면 번거로울 뿐만 아니라 또 다른 문제가 생긴다. 즉, 두 집단을 여러 번 비교하게 되면 귀무가설이 맞는데도 불구하고 잘못 기각하는 위험률인 $\alpha$가 커진다. (가설이 여러개가 되고 이로 인해 1종오류 또한 증가) 예를 들어 네 집단을 비교하여 생기는 가설검정 오류가 $\alpha=0.05$가 되기를 원할 때, $t-검정$을 하면 $6$번을 비교해야 하므로 $\alpha=1-(1-\alpha)^6=1-(1-0.05)^6=0.265$가 된다. 이것은 $\alpha=0.05$의 유의수준에서 $6$개의 독립된 $t-검정$을 할 때 $\alpha$오류를 범할 확률은 결과적으로 $26.55\%$ 가 된다는 것을 의미한다.
이렇게 여러 모집단 평균을 동시에 비교하는 데 사용되는 통계적 연구방법이 분산분석 ( analysis of variance ) 이며 간단히 ANOVA 라고도 한다.

  • 분산분석의 기본개념
  • 일원분산분석
  • 이원분산분석

1. 분산분석의 기본개념

  • 분산분석은 $F-분포$를 처음으로 개발한 영국의 통계학자인 피셔(R.A. Fisher, 1890~1962)에 의해 소개
  • 이 분석방법은 미리 정해진 오류를 유지하면서 3개 이상의 모집단 평균이 서로 같은지 여부를 검증
    • 독립변수를 몇 개의 수준 또는 범주로 나누고, 각 범주에 따라 나누어진 집단 간의 평균 차이를 검정하는 것
    • 독립변수의 수준에 따라 나누어진 각 집단의 평균 간의 차이가 통계적으로 유의한지를 검정하는 것이므로 $t-검정$을 확대한 것이라고 볼 수 있음
  • 그러나 분산분석이 $t-검정$과 다른 것은, $t-검정$은 집단들의 평균을 비교하는 반면에, 분산분석은 집단의 분산을 사용하여 비교한다는 것

일원분산분석과 이원분산분석

  • 일원분산분석 ( one-way analysis of variance )
    • 독립변수가 하나일 때
    • ex. "광고매체"라는 하나의 독립변수를 여러개의 수준(신문, 라디오, 텔레비전, 이메일광고)으로 나누어 광고매체들 간의 광고효과 차이가 있는가를 알아보는 경우
  • 이원분산분석 ( two-way analysis of variance )
    • 독립변수가 두 개일 때
    • ex. 만일 "광고매체"뿐만 아니라 "소비자의 나이"도 광고 효과에 어떤 영향을 주는지를 알아보는 경우
  • 다원분산분석
    • 독립변수가 3개 이상일 때
    • 다원분산분석은 계산만 복잡할 뿐 기본개념은 이원분산분석과 같음


분산분석의 예

예제. 어느 회사에서는 세 개의 서로 다른 기계를 사용하여 제품을 생산하고 있는데, 각각의 기계가 1시간에 생산하는 제품의 양을 다섯 차례 관찰하여 적은 결과가 아래의 표에 나타나 있다.

기계 각 기계의 생산량 $\bar{X_i}$
1475349504649
2555458615256
3545051514951

표를 보면 기계 1을 1시간씩 다섯 번 조사한 결과 시간당 생산량의 평균은 $49$다. 그리고 같은 방법으로 측정한 기계 2의 평균은$56$, 기계 3의 평균은 $51$이다. 이때 다섯 번의 표본 생산량에 기초하여 세 기계의 평균 생산량은 동일하다고 볼 수 있는가? 이와 같은 문제에 대한 답을 제시하는 것이 분산분석이다

이 예의 귀무가설은 "세 기계의 평균 생산량이 모두 동일하다"이며, 대립가설은 "평균 생산량이 모두 동일하지는 않다"가 된다.

$$ \begin{align} H_0 : \quad & \mu_1 = \mu_2 = \mu_3 \\ H_1 : \quad & 모든 평균이 동일하지는 않다. \\ & ( 즉, 평균이 서로 다른 기계가 있다. ) \end{align} $$
귀무가설이 기각된다면 표본생산량들이 뽑혀 나온 각 모집단의 평균이 모두 같지는 않음을 말한다. 그러나 세 집단 중에서 어느 집단이 서로 다른지는 알 수 없다. 다시 말하면 대립가설은 $"\mu_1 \ne \mu_2 \ne \mu_3"$ 가 아니다.

분산분석은 위의 가설을 검정하기 위해 생산량의 변동 또는 분산을 요인의 수준차이에 기인한 부분과 우연 또는 오차에 의한 부분으로 분해한 다음, 전자가 후자보다 충분히 클 때 요인의 수준에 따라 집단 간 차이가 있는 것으로 판단한다. 이를 이해하기 위해 이번에는 위의 표와 약간 다른 경우를 생각해 보자.

기계 각 기계의 생산량 $\bar{X_i}$
1573253386549
2364964716056
3576948364551

< table. A >

기계 각 기계의 생산량 $\bar{X_i}$
1484949495049
2565556575656
3505151525151

< table. B >

두 표를 비교해 보면, 세 기계에서 만들어진 생산량의 평균은 같지만 1시간마다 조사한 개별 생산량을 다르게 나타내고 있다. $표A$는 1시간마다의 생산량에 차이가 많다. 그러나 $표B$는 매 시간마다의 생산량이 상당히 고르게 나타나 있다.

이 두 개의 표를 비교해 보면 세 기계의 생산량의 평균이 서로 차이가 있는지 없는지는 단순히 기계 $1, 2, 3$에서 얻은 평균만으로 단정할 수는 없다고 생각할 것이다.

평균 생산량은 $49, 56, 51$로 동일하더라도 만일 조사결과가 $표B$와 같이 나타났다면 세 기계의 차이는 분명히 존재한다고 볼 수 있으며, 따라서 귀무가설은 기각될 것이 분명하다. 왜냐하면 $표B$에서 나타난 세 기계의 평균 생산량 $\bar{X_i}$들의 차이는 우연이라고 볼 수가 없기 때문이다.

분산분석의 기본가정

분산분석은 세 집단 이상을 비교하는 방법이므로 두 집단 비교를 확산시킨 것이라 말할 수 있다. 따라서 분산분석을 할 때는 두 집단 비교를 위한 $Z-검정$과 $t-검정$을 실시할 때와 동일한 가정을 한다.

기본가정

  • 가정 1 : 각 집단에 해당되는 모집단의 분포가 정규분포다.
  • 가정 2 : 각 집단에 해당되는 모집단의 분산이 같다.
  • 가정 3 : 각 모집단 내에서의 오차나 모집단 간의 오차는 서로 독립적이다.

2. 일원분산분석 ( One-way analysis of variance )

자료의 구성

  • 분산분석을 하기 위해 계산을 하려면 자료가 어떻게 구성되어 있고 각 자료가 어떻게 표시되어 있는지를 알아야 한다.
관찰번호 집단1 집단2 집단j
1 $X_{11}$ $X_{12}$ $\cdots$ $X_{1j}$
2 $X_{21}$ $X_{22}$ $\cdots$ $X_{2j}$
3 $X_{31}$ $X_{32}$ $\cdots$ $X_{3j}$
$\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$
i $X_{i1}$ $X_{i2}$ $\cdots$ $X_{ij}$
$\bar{X_1}$ $\bar{X_2}$ $\cdots$ $\bar{X_j}$ $\bar{X}$
< table. 일원분산분석의 자료구성 >
$$ \begin{align} &\bar{X} : 전체평균 \\ &\bar{X_j} : j 번째 집단의 평균 \\ &X_{ij} : j 번째 집단의 i 번째 관찰값 \end{align} $$

관찰값의 모형

  • 관찰값을 $X_{ij}$ 라 하면 $X_{ij}$ 는 다음과 같은 요소로 구성
$$X_{ij} = \mu + \alpha_j + \epsilon_{ij}$$$$ \begin{align} &\mu : 전체평균 \\ &\alpha_j : j 번째 집단의 영향 \\ & \epsilon_{ij} : j 번째 집단에 있는 관찰값 i 의 우연적 오차 \end{align} $$
  • 각 관찰값은 전체평균 $\mu$와, 수준이 다른 집단에 있기 때문에 생기는 전체평균과의 차이 $\alpha_j$, 그리고 각 집단에 있는 관찰값 $i$ 의 개인차 또는 오차 $\epsilon_{ij}$ 로 이루어져 있음을 알 수 있다. 위 식은 하나의 모형이며 이를 실제연구에서 얻을 수 있는 통계값으로 표현하면 다음과 같다.
$$X_{ij} = \bar{X} + ( \bar{X_j} - \bar{X}) + (X_{ij} - \bar{X_j})$$$$ \begin{align} &(\bar{X_j} - \bar{X}) : j 번째 집단의 평균과 전체평균 간의 차이 \\ &(X_{ij} - \bar{X_j}) : 각 관찰값과 각 집단평균 간의 차이 \\ \end{align} $$
  • 위 식에서 $\bar{X}$ 를 왼쪽 항으로 옮겨 다음과 같이 변형시킬 수 있다.
$$( X_{ij} - \bar{X} ) = ( \bar{X_j} - \bar{X}) + (X_{ij} - \bar{X_j})$$
  • 위 식에서 왼쪽 식과 오른쪽 식을 각각 제곱하여 전체관찰수만큼 합하면 다음과 같다.
$$\sum\sum( X_{ij} - \bar{X} )^2 = \sum\sum(\bar{X_j} - \bar{X})^2 + \sum\sum(X_{ij} - \bar{X_j})^2$$$$ \begin{align} \bigg( \quad &\small{ \sum\sum [ ( \bar{X_j} - \bar{X}) + (X_{ij} - \bar{X_j})]^2 }\\ &\small{ \sum\sum(\bar{X_j} - \bar{X})^2 + 2\sum\sum(\bar{X_j}-\bar{X})(X_{ij}-\bar{X_j}) + \sum\sum(X_{ij}-\bar{X_j})^2 }\\ &\small{ (\because \sum(X_{ij}-\bar{X_j}) = 0) }\\ &\small{ 2\sum\sum(\bar{X_j}-\bar{X})(X_{ij}-\bar{X_j}) = 2\sum(\bar{X_j}-\bar{X}) \cdot 0 = 0} \quad \bigg) \end{align} $$
  • 위 식에서 오른쪽 항의 $\sum\sum(\bar{X_j} - \bar{X})^2$ 을 집단간 제곱합(sum of squares between groups: SSB)이라 하며, $\sum\sum(X_{ij} - \bar{X_j})^2$ 은 집단내 제곱합(sum of squares within groups: SSW), 그리고 왼쪽 항의 $\sum\sum( X_{ij} - \bar{X} )^2$ 은 총제곱합(total sum of squares: SST)이라 한다.

예제. 어느 음료수회사에서 맛은 같고, 색깔은 무색, 분홍, 오렌지, 초록으로 하여 음료수를 제조, 판매하고 있다. 음료수 색깔이 음료수 판매량과 관계가 있는가를 알아보기 위하여, 일정한 인구를 갖는 여섯 지역을 선택하여 각각의 판매량을 조사하였더니 아래 표와 같았다.

도시 무색(1) 분홍(2) 오렌지(3) 초록(4) 합계
1 26 31 27 30
2 28 28 25 29
3 25 30 28 32
4 29 27 24 31
5 27 29 26 32
6 27 29 26 32
합계
평균
162
$\bar{X_1}$$=27$
174
$\bar{X_2}$$=29$
156
$\bar{X_3}$$=26$
186
$\bar{X_4}$$=31$
678
$\bar{X}$$=28.25$

판매량의 차이를 색깔로 설명할 수 있을까? 만일 색깔이 판매량에 영향을 미치는 요인이라면 색깔별 판매량의 평균은 동일하지 않을 것이다. 이러한 사실을 규명하기 위해 먼저 귀무가설과 대립가설을 성정하여 보자.

$$ \begin{align} &H_0 : \mu_1(무색) = \mu_2(분홍) = \mu_3(오렌지) = \mu_4(초록) \\ &H_1 : 적어도 어느 하나는 다르다. \end{align} $$

총제곱합 ( SST )

  • 종속변수의 총분산을 총제곱합(total sum of squares : $SST$)이라 하는데, 총제곱합은 모든 표본자료의 각 관찰값에서 전체표본의 평균을 뺸 것을 제곱해서 합한 것이다.
$$ SST = \sum\sum(X_{ij} - \bar{X} )^2 $$

예제.$$ \begin{align} SST &= \sum\sum(X_{ij} - \bar{X} )^2 \\ &= (26-28.25)^2 + (28-28.25)^2 + \cdots + (32-28.25)^2 + (32-28.25)^2 \\ &= 126.5 \end{align} $$

집단간 제곱합 ( SSB )

  • 집단간 제곱합(sum of squares between groups : $SSB$)은 음료수 색깔이라는 요인에 의해 설명되는 부분이다. 이는 각 집단 평균값과 전체평균 간의 제곱합이며, 이때 각 집단의 관찰수$(n_i)$만큼 곱해 주어야 한다.
$$ SSB = \sum n_i(\bar{X_j} - \bar{X} )^2 $$

예제.$$ \begin{align} SSB &= \sum n_i(\bar{X_j} - \bar{X} )^2 \\ &= 6(27-28.25)^2 + 6(29-28.25)^2 + 6(26-28.25)^2 + 6(31-28.25)^2 \\ &= 88.5 \end{align} $$

집단내 제곱합 ( SSW )

  • 총제곱합 중에서 색깔이란 변수로도 설명되지 않는 부분을 집단내 제곱합(sum of squares within group : $SSW$)이라고 하는데, 이는 각 집단내 개별 관찰값 $i$의 우연적 오차를 말한다. 집단내 제곱합 $SSW$는 각 집단에 있는 관찰값들과 그 집단의 평균 $\bar{X_j}$간의 차이를 제곱하여 모두 합한 것이다.
$$ SSW = \sum\sum(X_{ij} - \bar{X_j} )^2 $$

예제.$$ \begin{align} SSW &= \sum\sum(X_{ij} - \bar{X_j} )^2 \\ \bigg( \quad &\small{\sum(X_{i1} - \bar{X_1} )^2 = (26-27)^2 + \cdots + (27-27)^2 = 10 }\\ &\small{\sum(X_{i2} - \bar{X_2} )^2 = (31-29)^2 + \cdots + (29-29)^2 = 10 }\\ &\small{\sum(X_{i3} - \bar{X_3} )^2 = (27-26)^2 + \cdots + (26-26)^2 = 10 }\\ &\small{\sum(X_{i4} - \bar{X_4} )^2 = (30-31)^2 + \cdots + (32-31)^2 = 8 } \quad \bigg)\\ &= 10 + 10 + 10 + 8 = 38 \end{align} $$

  • 총제곱합은 집단간 제곱합과 집단내 제곱합으로 구성되어 있으며, 각각의 자유도는 다음과 같다.
$$ \begin{align} &제곱합 : SST = SSB + SSW \\ &자유도 : N - 1 = (J-1) + (N-J) \end{align} $$
  • 분산분석의 계산절차를 보여주기 위하여 $SST, SSB, SSW$를 모두 계산하였지만, 이들 중 두 개만 계산하여도 된다.

평균제곱

  • 분산분석을 하기 위해서는 제곱합으로 계산된 SSBSSW를 자유도로 나누어 평균제곱(mean squares)을 구해야 한다.
  • 표준화된 수치
  • MSB : mean squares between groups, 집단간 평균제곱
  • MSW : mean squares within group, 집단내 평균제곱
$$ \begin{align} &집단간 \quad MSB = \frac{SSB}{J-1} \\ &집단내 \quad MSW = \frac{SSW}{N-J} \end{align} $$

예제.$$ \begin{align} &MSB = \frac{SSB}{J-1} = \frac{88.5}{3} = 29.5\\ &MSW = \frac{SSW}{N-J} = \frac{38}{20} = 1.9\\ \end{align} $$

$F-통계량$

  • 집단간 분산과 집단내 분산 간의 비율
    • 만일 집단간 분산이 집단내 분산에 비해 그 비율이 크면 집단에 따른 차이가 크다는 것을 의미
    • 즉 독립변수를 몇 개의 수준으로 나누어 그 차이를 알아내는 것이 의미있다는 것
$$ F_{J-1, N-J} = \frac{MSB}{MSW} $$

예제.$$ \begin{align} F = \frac{29.5}{1.9} = 15.526 \end{align} $$

분산분석표(ANOVA table)와 가설검정

분산분석표 ( ANOVA table )

분산원 제곱합 자유도 평균제곱 $F값$
집단간 $ SSB $=$ \sum n_i(\bar{X_j} $-$ \bar{X} )^2 $ $J$-$1$ $MSB $=$ \frac{SSB}{J-1}$ $\frac{MSB}{MSW} $
집단내 $ SSW $=$ \sum\sum(X_{ij} $-$ \bar{X_j} )^2 $ $N$-$J$ $MSW $=$ \frac{SSW}{N-J}$
합계 $ SST $=$ \sum\sum(X_{ij} $-$ \bar{X} )^2 $ $N$-$1$

예제. 청량음료와 색깔의 분산분석표

분산원 제곱합 자유도 평균제곱 $F값$
집단간 88.5 3 29.5 15.526
집단내 38 20 1.9
합계 126.5 24

예제. 가설검정

$$ \begin{align} ①&\quad H_0 : \mu_1(무색) = \mu_2(분홍) = \mu_3(오렌지) = \mu_4(초록) \\ &\quad H_1 : 색깔에 따라서 판매량이 다를 수 있다. \\ ②&\quad \alpha = 0.05 ( 5\% , 단측검정 ) \\ ③&\quad \alpha=0.05고, 자유도 3, 20 일 때 F-분포표를 보면, \\ &\quad 채택영역 : F_{3, 20} \le 3.10 \\ &\quad 기각영역 : F_{3, 20} > 3.10 \\ ④&\quad F = 15.526 은 임계값인 3.10 보다 크므로 ( 기각영역 안에 있으므로 ) H_{0}를 기각한다. \\ ⑤& \quad 따라서 청량음료의 색깔에 따라 판매량이 다르다. \end{align} $$

관계에 대한 설명력 $\eta^2$

  • 분산분석 결과 F값이 유의하다는 것은 집단 간의 차이가 오차의 정도를 넘어설 만큼 크다는 것을 의미
  • 그러나 집단 간 차이(독립변수의 영향) 때문에 생기는 분산이 총분산(종속변수)을 얼마나 설명하는가를 알려주지는 못함
  • 독립변수의 설명력을 알기 위해서 자주 사용되는 지수로 $\eta^2$(에타 제곱)이 있다. ($\eta^2$ : 상관비, correlation ratio)
$$\eta^2 = \frac{SSB}{SST} $$

예제. $$\eta^2 = \frac{SSB}{SST} = \frac{88.5}{126.5} \ 0.70 $$

"색깔의 종류"라는 독립변수가 종속변수인 "판매량"의 분산을 약 70% 설명한다는 것을 알 수 있다.

3. 이원분산분석 ( Two-way analysis of variance )

주효과와 상호작용효과

  • 이원산분석은 두 개의 독립변수 중 어느 변수에 분산의 원인이 있는지 그리고 두 변수의 상호작용은 어떠한지 등을 알아본다.

    예를 들어 어느 회사에서 새로운 상품의 인지도를 높이기 위해 TV, 신문 그리고 라디오를 통한 세 가지 광고방법 중에서 어느 방법이 더 효과적인지를 알아보려고 한다. 그러나 홍보과에서는 TV광고는 어린이에게 효과가 있고, 라디오 광고는 청소년, 그리고 신문광고는 중년 내지 장년층에게 효과가 있을 것이라고 주장한다. 만일 세 방법 중 어느 한 방법만 사용하면 특정대상에게는 관심을 높일 수 있지만, 다른 대상층에게는 아무런 효과를 가져올 수 없다는 것이다. 따라서 세 가지 광고방법에 의한 효과를 알기 위해서는 대상자의 연령층이라는 또 다른 변수와 함께 그 효과를 분석해야 한다.

  • 결국 이 경우에는 독립변수가 두 개인데, 두 변수의 효과를 알아보는 것을 주효과(main effect) 분석이라고 한다.
  • 이원산분석은 이렇게 두 변수의 영향을 동시에 분석한다는 편리함 외에 두 개의 주효과 간의 상호작용효과(interaction effect)를 알아볼 수 있다는 장점도 있다.
    • 만일 두 변수의 효과를 알아보기 위해 일원분산분석을 두 번 한다고 해도 상호작용효과는 알 수 없다.

상호작용효과의 예

예제. 결혼만족도가 교육수준에 따라 어떻게 차이가 나는지를 알기 원한다고 하자. 어떤 연구에서 교육수준이 높을수록 결혼만족도가 낮다는 분석결과가 나왔다. 그런데 다른 연구자는 이러한 결과가 성별에 따라 달라질 수 있다고 생각하여 연구계획을 달리 하였다. 즉, 교육수준과 성별을 모두 적용하였을 때 결혼만족도가 어떻게 달라지는가 하는 연구다. 이 경우에 "만족도"는 교육수준, 성별 그리고 교육수준과 성별 간의 상호작용에 따라 달라질 것이다. 상호작용을 다시 말하면, 여자의 경우에는 교육수준이 높을수록 결혼만족도가 낮으며 남자의 경우에는 교육수준이 높을수록 결혼만족도가 높다면, 이것은 성별에 따라 교육수준이란 독립변수의 역할이 달라진다는 것을 의미한다.

결혼만족도를 알아보기 위해 여러 문항으로 구성된 검사지를 실시한 결과 다음과 같은 점수가 나왔다고 하자. 표 안의 숫자는 만족도에 대한 각 집단의 평균 점수다.

성별 \ 교육수준 평균
65 55 60
45 75 60
평균 55 65 60

In [1]:
import matplotlib.pylab as plt
a = np.array([[65, 55],
            [45, 75]])
b = np.array([[0, 1],
            [0, 1]])

plt.scatter(b, a)
plt.plot((0, 1), (65, 55))
plt.plot((0, 1), (45, 75))
plt.xticks([0, 1], ["upper", "lower"])
plt.legend(["male", "female"], loc="upper left")
plt.show()


위의 표를 보면 교육수준을 고려하지 않고 남녀의 결혼만족도를 보면 둘 다 $60$점으로 똑같은 정도의 만족도를 갖는다. 또 다른 변수인 교육수준을 보면 교육을 많이 받은 사람의 만족도는 $55$인 데 비해 교육수준이 낮은 사람의 만족도는 $65$로 높게 나왔다. 따라서 두 변수 중 교육수준만이 "결혼만족도"라는 종속변수에 영향을 끼치는 것으로 나타났다.

그러나 위 그림을 보면 이러한 결론이 충분하지 않다는 것을 알 수 있다. 남자의 경우에는 교육수준이 낮을 때 만족도가 낮지만 여자의 경우에는 교육수준이 높을 때 오히려 만족도가 낮다는 것을 알 수 있다. 이러한 경우, 즉 한 독립변수가 다른 독립변수의 수준에 따라 달리 작용하므로 상호작용의 효과가 있다는 것을 알 수 있다.

상호작용이 있는지를 쉽게 알기 위해서는 두 변수에 의한 평균값의 차를 구해 본다. 성별에 따라 교육수준을 비교해 보면 $(65-55)=10, (45-75)=-30$ 이며, 교육수준에 따라 성별을 비교해 보면 $(65-45)=20, (55-75)=-20$ 이다. 상호작용이 있는 경우에는 한 독립변수의 수준에 따라 다른 변수의 평균값의 차의 부호가 서로 다르다. 또한 상호작용이 있는 경우 그림을 그려보면 두 선의 방향이 서로 다르거나 어긋난다.




자료의 구성

  • 첫번째 독립변수를 $A$라 하고 나누어진 수준의 개수를 $J$라 한다.
  • 두번째 독립변수를 $B$라 하고, 나누어진 수준의 개수를 $K$라 한다.
  • 관찰값은 $X_{ijk}$로 표시하는데, $i$는 집단 내의 위치를 나타내고, $j$는 첫번째 독립변수의 수준을, $k$는 두번째 독립변수의 수준을 나타낸다.
    • ex. $X_{231}$은 독립변수 $A$의 세번째 수준과 독립변수 $B$의 첫번째 수준에 해당되는 집단에서 두번째 관찰값을 나타낸다.
$\quad$$B$ \ $A$$\quad$ $\quad$$A_1$$\quad$ $\quad$$A_2$$\quad$ $\quad$$A_3$$\quad$ $\quad$$\bar{X_{\cdot k}}$$\quad$
$X_{111}$ $X_{121}$ $X_{131}$
$B_1$ $X_{211}$ $X_{221}$ $X_{231}$ $\bar{X_{\cdot 1}}$
$X_{311}$ $X_{321}$ $X_{331}$
$\bar{X_{jk}}$ $\bar{X_{11}}$ $\bar{X_{21}}$ $\bar{X_{31}}$
$X_{112}$ $X_{122}$ $X_{132}$
$B_2$ $X_{212}$ $X_{222}$ $X_{232}$ $\bar{X_{\cdot 2}}$
$X_{312}$ $X_{322}$ $X_{332}$
$\bar{X_{jk}}$ $\bar{X_{12}}$ $\bar{X_{22}}$ $\bar{X_{32}}$
$\bar{X_{j \cdot}}$ $\bar{X_{1 \cdot}}$ $\bar{X_{2 \cdot}}$ $\bar{X_{3 \cdot}}$ $\bar{X}$
< table. 이원분산분석의 자료구성 >
$$ \begin{align} &\bar{X} : 전체평균 \\ &\bar{X_{j \cdot}} : 독립변수 A의 j수준에 있는 관찰값들의 평균 \\ &\bar{X_{\cdot k}} : 독립변수 B의 k수준에 있는 관찰값들의 평균 \\ &\bar{X_{jk}} : 독립변수 A의 j수준과 독립변수 B의 k수준에 있는 관찰값들의 평균 \\ \end{align} $$

관찰값의 모형

  • 이원분산분석에서 관찰값 $X_{ijk}$는 다음과 같은 수리적 모형을 갖는다.
$$X_{ijk} = \mu + \alpha_j + \beta_k + (\alpha \beta)_{jk} + \epsilon_{ijk}$$$$ \begin{align} X_{ijk} &: 독립변수 A의 j번째 수준과 독립변수 B의 k번째 수준의 영향을 받은 i번째 관찰값 \\ \mu &: 전체평균 \\ \alpha_j &: 독립변수 A의 효과 \\ \beta_k &: 독립변수 B의 효과 \\ (\alpha \beta)_{jk} &: 두 독립변수 A, B 의 상호작용 효과 \\ \epsilon_{ijk} &: 관찰값 i의 개인차 혹은 오차 \end{align} $$
  • 위 모형은 실제연구에서 다음과 같은 통계값으로 표현된다.
$$X_{ijk} = \bar{X} + ( \bar{X_{j \cdot}} - \bar{X}) + (\bar{X_{\cdot k}} - \bar{X}) + (\bar{X_{jk}} - \bar{X_{j \cdot}} - \bar{X_{\cdot k}} + \bar{X}) + (X_{ijk} - \bar{X_{jk}})$$
  • 위 식에서 전체평균 $\bar{X}$ 를 왼쪽 항으로 옮기면 다음과 같다.
$$X_{ijk} - \bar{X} = ( \bar{X_{j \cdot}} - \bar{X}) + (\bar{X_{\cdot k}} - \bar{X}) + (\bar{X_{jk}} - \bar{X_{j \cdot}} - \bar{X_{\cdot k}} + \bar{X}) + (X_{ijk} - \bar{X_{jk}})$$$$ \begin{align} (X_{ijk} - \bar{X}) &: 각 관찰값과 전체평균 간의 차이 \\ ( \bar{X_{j \cdot}} - \bar{X}) &: 독립변수 A의 j수준의 영향 \\ (\bar{X_{\cdot k} - \bar{X}}) &: 독립변수 B의 k수준의 영향 \\ (\bar{X_{jk}} - \bar{X_{j \cdot}} - \bar{X_{\cdot k}} + \bar{X}) &: 독립변수 A의 j수준과 독립변수 B의 k수준의 상호작용영향 \\ (X_{ijk} - \bar{X_{jk}}) &: 개인차 혹은 오차 \end{align} $$
  • 위 식은 다음과 같이 제곱합으로 표현할 수 있다.
$$ SST = SSA + SSB + SSAB + SSW $$
  • 각 제곱합은 다음과 같이 계산한다.
$$ \begin{align} & SST = \sum\sum\sum(X_{ijk}-\bar{X})^2 = \sum\sum\sum X_{ijk}^2 - \frac{(\sum\sum\sum X_{ijk})^2}{JKn} \\ & SSA = \sum\sum\sum(\bar{X_{j \cdot}}-\bar{X})^2 = \sum Kn(\bar{X_{j \cdot}}-\bar{X})^2 \\ & SSB = \sum\sum\sum(\bar{X_{\cdot k}}-\bar{X})^2 = \sum Jn(\bar{X_{\cdot k}}-\bar{X})^2 \\ & SSAB = \sum\sum n(\bar{X_{jk}} - \bar{X_{j \cdot}} - \bar{X_{\cdot k}} + \bar{X})^2 \\ & SSW = \sum\sum\sum (X_{ijk} - \bar{X_{jk}})^2 \end{align} $$
  • $\sum\sum\sum X_{ijk}^2$은 모든 관찰값의 제곱을 합한 것이며, $\sum\sum\sum X_{ijk}$는 모든 관찰값을 합한 것이다. $n$은 각 집단의 사례수를 의미하므로 $JKn$은 전체사례수 $N$이 된다.

제곱합과 자유도

  • 이원분산분석에서 제곱합과 자유는 다음과 같은 관계를 갖는다.
$$ \begin{align} &제곱합 : SST = SSA + SSB + SSAB + SSW \\ &자유도 : JKn-1 = (J-1) + (K-1) + (J-1)(K-1) + JK(n-1) \end{align} $$

평균제곱

  • 각 효과를 검정하기 위해 먼저 제곱합을 자유도로 나누어 평균제곱을 구하면 다음과 같다.
$$ \begin{align} MSA &= SSA / (J-1) \\ MSB &= SSB / (K-1) \\ MSAB &= SSAB / (J-1)(K-1) \\ MSW &= SSW / JK(n-1) \\ \end{align} $$

이원분산분석표

분산원 제곱합 자유도 평균제곱 $F값$
A효과 $SSA$ $J$-$1$ $MSA $=$ SSA$ /$(J$-$1)$ $MSA$/$MSW$
B효과 $SSB$ $K$-$1$ $MSB $=$ SSB$ /$(K$-$1)$ $MSB$/$MSW$
AB상호작용 $SSAB$ $(J$-$1)$$(K$-$1)$ $MSAB $=$ SSAB$ /$(J$-$1)$$(K$-$1)$ $MSAB$/$MSW$
집단내 $SSW$ $N$-$JK$ $MSW $=$ SSW$ /$JK(n$-$1)$
합계 $SST$ $N$-$1$

이원분산분석의 예

S전자회사에서의 근로자의 생산성을 높이는 데 어떤 훈련방법이 효과적인지, 그리고 훈련방법은 근로자의 숙련도에 따라 그 효과가 달라지는지에 대해 연구하였다. 연구대상으로 선출된 근로자들은 무작위로 각각의 집단에 배정되었다. 훈련방법은 세 종류로 구분되었고, 숙련도는 두 수준으로 구분되었다. 훈련의 결과로 나타난 생산량은 아래 표와 같으며 훈련방법을 독립변수 A, 숙련도를 독립변수 B라고 하였다.

$\quad$$A_1$$\quad$ $\quad$$A_2$$\quad$ $\quad$$A_3$$\quad$ $\quad$$\bar{X_{\cdot k}}$$\quad$
$9$ $5$ $8$
$8$ $8$ $7$
$B_1$ $6$ $7$ $9$ $7$
$10$ $6$ $6$
$7$ $4$ $5$
$\bar{X_{jk}}$ $8$ $6$ $7$
$3$ $4$ $7$
$4$ $5$ $9$
$B_2$ $6$ $2$ $6$ $5$
$5$ $5$ $5$
$2$ $4$ $8$
$\bar{X_{jk}}$ $4$ $4$ $7$ $\sum$$\sum$$\sum$ $X_{ijk}$=$180$
$\bar{X_{j \cdot}}$ $6$ $5$ $7$ $\bar{X} $=$ 6$
$\sum$$\sum X_{ij}^2$ $420$ $276$ $510$ $\sum$$\sum$$\sum$ $X_{ijk}^2$=$1206$
< table. 훈련방법과 숙련도에 의한 생산성 >
$$ \begin{align} SST &= \sum\sum\sum(X_{ijk}-\bar{X})^2 = \sum\sum\sum X_{ijk}^2 - \frac{(\sum\sum\sum X_{ijk})^2}{JKn} = 1260 - \frac{(180)^2}{30}=126 \\ SSA &= \sum\sum\sum(\bar{X_{j \cdot}}-\bar{X})^2 = \sum Kn(\bar{X_{j \cdot}}-\bar{X})^2 = 10 \times (6-6)^2 + 10 \times (5-6)^2 + 10 \times (7-6)^2 = 20\\ SSB &= \sum\sum\sum(\bar{X_{\cdot k}}-\bar{X})^2 = \sum Jn(\bar{X_{\cdot k}}-\bar{X})^2 = 15 \times (7-6)^2 + 15 \times (5-6)^2 = 30\\ SSAB &= \sum\sum n(\bar{X_{jk}} - \bar{X_{j \cdot}} - \bar{X_{\cdot k}} + \bar{X})^2 = 5 \times (8-6-7+6)^2 + 5 \times (6-5-7+6)^2 + 5 \times (7-7-7+6)^2 + 5 \times (4-6-5+6)^2 + 5 \times (4-5-5+6)^2 + 5 \times (7-7-5+6)^2 \\ &= 20\\ SSW &= SST - SSA - SSB - SSAB = 126 - 20 - 30 - 20 = 56 \end{align} $$

평균제곱

$$ \begin{align} &MSA = \frac{SSA}{J-1} = \frac{20}{2} = 10 \quad MSAB = \frac{SSAB}{(J-1)(K-1)} = \frac{20}{2} = 10 \\ &MSB = \frac{SSB}{K-1} = \frac{30}{1} = 30 \quad MSAB = \frac{SSW}{(N-JK)} = \frac{56}{24} = 2.333 \\ \end{align} $$

예제. 분산분석표

분산원 제곱합 자유도 평균제곱 $F값$
A효과 20 2 10 4.286
B효과 30 1 30 12.859
AB효과 20 2 10 4.286
집단내 56 24 2.333
합계 126 29

예제. 독립변수 A효과에 관한 가설검정

$$ \begin{align} ①&\quad H_0 : \alpha_j = 0 또는 H_0 : 훈련방법은 차이가 없다. \\ &\quad H_1 : \alpha_j \ne 0 또는 H_1 : 훈련방법은 차이가 있다. \\ ②&\quad \alpha = 0.05 \\ ③&\quad F_{0.05(2,24)} 에서 임계값은 3.40 \\ &\quad 채택영역 : F \le 3.40 \\ &\quad 기각영역 : F > 3.40 \\ ④&\quad F = 4.286 은 임계값인 3.40 보다 크므로 ( 기각영역 안에 있으므로 ) H_{0}를 기각한다. \\ ⑤& \quad 즉, 훈련방법에 따라 생산성에 차이가 있다. \end{align} $$

예제. 독립변수 B효과에 관한 가설검정











예제. 독립변수 A, B의 상호작용효과에 관한 가설검정










일원분산분석과 이원분산분석에서 오차의 비교

  • 훈련방법의 차이$(독립변수 A)$ 가 전체분산에서 차지하는 비율$(\eta^2)$
    • 훈련방법의 차이는 종속변수의 분산 중 $15.9\%$를 설명해 준다.
$$독립변수 A의 설명력 : \eta^2 = \frac{SSA}{SST} = \frac{20}{126} = 0.159$$
  • 그러면 나머지 $84.1%$의 분산은 어떠한 이유라고 설명할 수 있는가?
    • 이것은 결국 오차에 의한 분산
    • 전체분산이 정해져 있는 상황에서, 훈련방법의 차이만을 독립변수로 생각했기 때문에 오차가 이렇게 많을 뿐이지 만일 생산량에 영향을 줄 수 있는 또 다른 독립변수를 발견해 낼 수 있다면 오차분산은 작아질 수 있다.
    • 그러면 훈련방법의 차이뿐만 아니라 근로자의 숙련도(독립변수 B)의 정도에 따라 분산이 영향을 받는다고 한다면 전체분산에서 숙련도라는 독립변수의 영향 만큼 뺼 수 있다. 또한 두 독립변수 간의 상호작용까지 합하면 오차분산은 더욱 작아진다.
$$ \begin{align} &독립변수 B의 설명력 : \eta^2 = \frac{SSB}{SST} = \frac{30}{126} = 0.238 \\ &독립변수 AB의 상호작용의 설명력 : \eta^2 = \frac{SSAB}{SST} = \frac{20}{126} = 0.159 \\ &독립변수 A, B, AB 상호작용의 설명력 : \eta^2 = \frac{SSA + SSB + SSAB}{SST} = \frac{70}{126} = 0.556 \end{align} $$
  • 그러므로 오차분산의 비율은 다음과 같다.
$$오차분산의 비율 : 1 - 0.556 = 0.444 (44.4\%)$$
  • 생산량을 설명할 수 있는 독립변수가 "훈련방법" 하나일 때는 오차분산이 $84.1\%$에 달하였지만 종속변수를 설명할 수 있는 독립변수가 하나 더 포함되고 따라서 상호작용 효과도 생겨나서 오차분산은 $44.4\%$로 줄었다. 다시 말하면 종속변수의 변동원인이 어디에 연유하는지를 더 잘 알게 되었다.
  • 만일 "근무연한"과 "결혼여부"에 따라 생산성이 달라진다는 이론적 근거가 있다면, 이들을 독립변수로 차가사용하여 오차를 줄일 수도 있다.

<img src="https://github.com/JKeun/lecture-statistics/blob/develop/%20img/ch13-ANOVA-Test-Error-variation.001.jpeg?raw=true", width=450>