앞에서 우리는 두 모집단의 평균을 비교하기 위해 $Z-검정$과 $t-검정$을 사용하였다. 그러나 일상생활에서나 학문적인 연구에서 여러 모집단의 평균을 동시에 비교해야 할 경우가 많이 있다. 예를 들면 화장품의 판매촉진을 위하여 광고매체인 신문, 라디오, 텔레비전을 이용할 때 각각의 광고효과가 차이가 있는가를 알아보고자 하는 경우 등이다. 세 매체 간 광고효과의 차이를 비교하기 위하여 $t-검정$이나 $Z-검정$을 한다고 하면 ${3}\choose{2}$$=3$번의 검정을 해야 한다. 만일 "이메일 광고" 방법까지 추가한다면 ${4}\choose{2}$$=6$번의 비교를 해야 할 것이다.
이렇게 세 집단 이상을 비교할 때 $Z-검정$과 $t-검정$을 사용하면 번거로울 뿐만 아니라 또 다른 문제가 생긴다. 즉, 두 집단을 여러 번 비교하게 되면 귀무가설이 맞는데도 불구하고 잘못 기각하는 위험률인 $\alpha$가 커진다. (가설이 여러개가 되고 이로 인해 1종오류 또한 증가) 예를 들어 네 집단을 비교하여 생기는 가설검정 오류가 $\alpha=0.05$가 되기를 원할 때, $t-검정$을 하면 $6$번을 비교해야 하므로 $\alpha=1-(1-\alpha)^6=1-(1-0.05)^6=0.265$가 된다. 이것은 $\alpha=0.05$의 유의수준에서 $6$개의 독립된 $t-검정$을 할 때 $\alpha$오류를 범할 확률은 결과적으로 $26.55\%$ 가 된다는 것을 의미한다.
이렇게 여러 모집단 평균을 동시에 비교하는 데 사용되는 통계적 연구방법이 분산분석 ( analysis of variance ) 이며 간단히 ANOVA 라고도 한다.
예제. 어느 회사에서는 세 개의 서로 다른 기계를 사용하여 제품을 생산하고 있는데, 각각의 기계가 1시간에 생산하는 제품의 양을 다섯 차례 관찰하여 적은 결과가 아래의 표에 나타나 있다.
기계 각 기계의 생산량 $\bar{X_i}$ 1 47 53 49 50 46 49 2 55 54 58 61 52 56 3 54 50 51 51 49 51 표를 보면 기계 1을 1시간씩 다섯 번 조사한 결과 시간당 생산량의 평균은 $49$다. 그리고 같은 방법으로 측정한 기계 2의 평균은$56$, 기계 3의 평균은 $51$이다. 이때 다섯 번의 표본 생산량에 기초하여 세 기계의 평균 생산량은 동일하다고 볼 수 있는가? 이와 같은 문제에 대한 답을 제시하는 것이 분산분석이다
이 예의 귀무가설은 "세 기계의 평균 생산량이 모두 동일하다"이며, 대립가설은 "평균 생산량이 모두 동일하지는 않다"가 된다.
$$ \begin{align} H_0 : \quad & \mu_1 = \mu_2 = \mu_3 \\ H_1 : \quad & 모든 평균이 동일하지는 않다. \\ & ( 즉, 평균이 서로 다른 기계가 있다. ) \end{align} $$
귀무가설이 기각된다면 표본생산량들이 뽑혀 나온 각 모집단의 평균이 모두 같지는 않음을 말한다. 그러나 세 집단 중에서 어느 집단이 서로 다른지는 알 수 없다. 다시 말하면 대립가설은 $"\mu_1 \ne \mu_2 \ne \mu_3"$ 가 아니다.
분산분석은 위의 가설을 검정하기 위해 생산량의 변동 또는 분산을 요인의 수준차이에 기인한 부분과 우연 또는 오차에 의한 부분으로 분해한 다음, 전자가 후자보다 충분히 클 때 요인의 수준에 따라 집단 간 차이가 있는 것으로 판단한다. 이를 이해하기 위해 이번에는 위의 표와 약간 다른 경우를 생각해 보자.
기계 각 기계의 생산량 $\bar{X_i}$ 1 57 32 53 38 65 49 2 36 49 64 71 60 56 3 57 69 48 36 45 51 < table. A >
기계 각 기계의 생산량 $\bar{X_i}$ 1 48 49 49 49 50 49 2 56 55 56 57 56 56 3 50 51 51 52 51 51 < table. B >
두 표를 비교해 보면, 세 기계에서 만들어진 생산량의 평균은 같지만 1시간마다 조사한 개별 생산량을 다르게 나타내고 있다. $표A$는 1시간마다의 생산량에 차이가 많다. 그러나 $표B$는 매 시간마다의 생산량이 상당히 고르게 나타나 있다.
이 두 개의 표를 비교해 보면 세 기계의 생산량의 평균이 서로 차이가 있는지 없는지는 단순히 기계 $1, 2, 3$에서 얻은 평균만으로 단정할 수는 없다고 생각할 것이다.
평균 생산량은 $49, 56, 51$로 동일하더라도 만일 조사결과가 $표B$와 같이 나타났다면 세 기계의 차이는 분명히 존재한다고 볼 수 있으며, 따라서 귀무가설은 기각될 것이 분명하다. 왜냐하면 $표B$에서 나타난 세 기계의 평균 생산량 $\bar{X_i}$들의 차이는 우연이라고 볼 수가 없기 때문이다.
관찰번호 | 집단1 | 집단2 | 집단j | ||
---|---|---|---|---|---|
1 | $X_{11}$ | $X_{12}$ | $\cdots$ | $X_{1j}$ | |
2 | $X_{21}$ | $X_{22}$ | $\cdots$ | $X_{2j}$ | |
3 | $X_{31}$ | $X_{32}$ | $\cdots$ | $X_{3j}$ | |
$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | |
i | $X_{i1}$ | $X_{i2}$ | $\cdots$ | $X_{ij}$ | |
$\bar{X_1}$ | $\bar{X_2}$ | $\cdots$ | $\bar{X_j}$ | $\bar{X}$ |
예제. 어느 음료수회사에서 맛은 같고, 색깔은 무색, 분홍, 오렌지, 초록으로 하여 음료수를 제조, 판매하고 있다. 음료수 색깔이 음료수 판매량과 관계가 있는가를 알아보기 위하여, 일정한 인구를 갖는 여섯 지역을 선택하여 각각의 판매량을 조사하였더니 아래 표와 같았다.
도시 | 무색(1) | 분홍(2) | 오렌지(3) | 초록(4) | 합계 |
---|---|---|---|---|---|
1 | 26 | 31 | 27 | 30 | |
2 | 28 | 28 | 25 | 29 | |
3 | 25 | 30 | 28 | 32 | |
4 | 29 | 27 | 24 | 31 | |
5 | 27 | 29 | 26 | 32 | |
6 | 27 | 29 | 26 | 32 | |
합계 평균 |
162 $\bar{X_1}$$=27$ |
174 $\bar{X_2}$$=29$ |
156 $\bar{X_3}$$=26$ |
186 $\bar{X_4}$$=31$ |
678 $\bar{X}$$=28.25$ |
판매량의 차이를 색깔로 설명할 수 있을까? 만일 색깔이 판매량에 영향을 미치는 요인이라면 색깔별 판매량의 평균은 동일하지 않을 것이다. 이러한 사실을 규명하기 위해 먼저 귀무가설과 대립가설을 성정하여 보자.
$$ \begin{align} &H_0 : \mu_1(무색) = \mu_2(분홍) = \mu_3(오렌지) = \mu_4(초록) \\ &H_1 : 적어도 어느 하나는 다르다. \end{align} $$
예제.$$ \begin{align} SST &= \sum\sum(X_{ij} - \bar{X} )^2 \\ &= (26-28.25)^2 + (28-28.25)^2 + \cdots + (32-28.25)^2 + (32-28.25)^2 \\ &= 126.5 \end{align} $$
예제.$$ \begin{align} SSB &= \sum n_i(\bar{X_j} - \bar{X} )^2 \\ &= 6(27-28.25)^2 + 6(29-28.25)^2 + 6(26-28.25)^2 + 6(31-28.25)^2 \\ &= 88.5 \end{align} $$
예제.$$ \begin{align} SSW &= \sum\sum(X_{ij} - \bar{X_j} )^2 \\ \bigg( \quad &\small{\sum(X_{i1} - \bar{X_1} )^2 = (26-27)^2 + \cdots + (27-27)^2 = 10 }\\ &\small{\sum(X_{i2} - \bar{X_2} )^2 = (31-29)^2 + \cdots + (29-29)^2 = 10 }\\ &\small{\sum(X_{i3} - \bar{X_3} )^2 = (27-26)^2 + \cdots + (26-26)^2 = 10 }\\ &\small{\sum(X_{i4} - \bar{X_4} )^2 = (30-31)^2 + \cdots + (32-31)^2 = 8 } \quad \bigg)\\ &= 10 + 10 + 10 + 8 = 38 \end{align} $$
예제.$$ \begin{align} &MSB = \frac{SSB}{J-1} = \frac{88.5}{3} = 29.5\\ &MSW = \frac{SSW}{N-J} = \frac{38}{20} = 1.9\\ \end{align} $$
분산원 | 제곱합 | 자유도 | 평균제곱 | $F값$ |
---|---|---|---|---|
집단간 | $ SSB $=$ \sum n_i(\bar{X_j} $-$ \bar{X} )^2 $ | $J$-$1$ | $MSB $=$ \frac{SSB}{J-1}$ | $\frac{MSB}{MSW} $ |
집단내 | $ SSW $=$ \sum\sum(X_{ij} $-$ \bar{X_j} )^2 $ | $N$-$J$ | $MSW $=$ \frac{SSW}{N-J}$ | |
합계 | $ SST $=$ \sum\sum(X_{ij} $-$ \bar{X} )^2 $ | $N$-$1$ |
예제. 청량음료와 색깔의 분산분석표
분산원 | 제곱합 | 자유도 | 평균제곱 | $F값$ |
---|---|---|---|---|
집단간 | 88.5 | 3 | 29.5 | 15.526 |
집단내 | 38 | 20 | 1.9 | |
합계 | 126.5 | 24 |
$$ \begin{align} ①&\quad H_0 : \mu_1(무색) = \mu_2(분홍) = \mu_3(오렌지) = \mu_4(초록) \\ &\quad H_1 : 색깔에 따라서 판매량이 다를 수 있다. \\ ②&\quad \alpha = 0.05 ( 5\% , 단측검정 ) \\ ③&\quad \alpha=0.05고, 자유도 3, 20 일 때 F-분포표를 보면, \\ &\quad 채택영역 : F_{3, 20} \le 3.10 \\ &\quad 기각영역 : F_{3, 20} > 3.10 \\ ④&\quad F = 15.526 은 임계값인 3.10 보다 크므로 ( 기각영역 안에 있으므로 ) H_{0}를 기각한다. \\ ⑤& \quad 따라서 청량음료의 색깔에 따라 판매량이 다르다. \end{align} $$예제. 가설검정
예제. $$\eta^2 = \frac{SSB}{SST} = \frac{88.5}{126.5} \ 0.70 $$
"색깔의 종류"라는 독립변수가 종속변수인 "판매량"의 분산을 약 70% 설명한다는 것을 알 수 있다.
예를 들어 어느 회사에서 새로운 상품의 인지도를 높이기 위해 TV, 신문 그리고 라디오를 통한 세 가지 광고방법 중에서 어느 방법이 더 효과적인지를 알아보려고 한다. 그러나 홍보과에서는 TV광고는 어린이에게 효과가 있고, 라디오 광고는 청소년, 그리고 신문광고는 중년 내지 장년층에게 효과가 있을 것이라고 주장한다. 만일 세 방법 중 어느 한 방법만 사용하면 특정대상에게는 관심을 높일 수 있지만, 다른 대상층에게는 아무런 효과를 가져올 수 없다는 것이다. 따라서 세 가지 광고방법에 의한 효과를 알기 위해서는 대상자의 연령층이라는 또 다른 변수와 함께 그 효과를 분석해야 한다.
예제. 결혼만족도가 교육수준에 따라 어떻게 차이가 나는지를 알기 원한다고 하자. 어떤 연구에서 교육수준이 높을수록 결혼만족도가 낮다는 분석결과가 나왔다. 그런데 다른 연구자는 이러한 결과가 성별에 따라 달라질 수 있다고 생각하여 연구계획을 달리 하였다. 즉, 교육수준과 성별을 모두 적용하였을 때 결혼만족도가 어떻게 달라지는가 하는 연구다. 이 경우에 "만족도"는 교육수준, 성별 그리고 교육수준과 성별 간의 상호작용에 따라 달라질 것이다. 상호작용을 다시 말하면, 여자의 경우에는 교육수준이 높을수록 결혼만족도가 낮으며 남자의 경우에는 교육수준이 높을수록 결혼만족도가 높다면, 이것은 성별에 따라 교육수준이란 독립변수의 역할이 달라진다는 것을 의미한다.
결혼만족도를 알아보기 위해 여러 문항으로 구성된 검사지를 실시한 결과 다음과 같은 점수가 나왔다고 하자. 표 안의 숫자는 만족도에 대한 각 집단의 평균 점수다.
성별 \ 교육수준 | 상 | 하 | 평균 |
---|---|---|---|
남 | 65 | 55 | 60 |
여 | 45 | 75 | 60 |
평균 | 55 | 65 | 60 |
In [1]:
import matplotlib.pylab as plt
a = np.array([[65, 55],
[45, 75]])
b = np.array([[0, 1],
[0, 1]])
plt.scatter(b, a)
plt.plot((0, 1), (65, 55))
plt.plot((0, 1), (45, 75))
plt.xticks([0, 1], ["upper", "lower"])
plt.legend(["male", "female"], loc="upper left")
plt.show()
위의 표를 보면 교육수준을 고려하지 않고 남녀의 결혼만족도를 보면 둘 다 $60$점으로 똑같은 정도의 만족도를 갖는다. 또 다른 변수인 교육수준을 보면 교육을 많이 받은 사람의 만족도는 $55$인 데 비해 교육수준이 낮은 사람의 만족도는 $65$로 높게 나왔다. 따라서 두 변수 중 교육수준만이 "결혼만족도"라는 종속변수에 영향을 끼치는 것으로 나타났다.
그러나 위 그림을 보면 이러한 결론이 충분하지 않다는 것을 알 수 있다. 남자의 경우에는 교육수준이 낮을 때 만족도가 낮지만 여자의 경우에는 교육수준이 높을 때 오히려 만족도가 낮다는 것을 알 수 있다. 이러한 경우, 즉 한 독립변수가 다른 독립변수의 수준에 따라 달리 작용하므로 상호작용의 효과가 있다는 것을 알 수 있다.
상호작용이 있는지를 쉽게 알기 위해서는 두 변수에 의한 평균값의 차를 구해 본다. 성별에 따라 교육수준을 비교해 보면 $(65-55)=10, (45-75)=-30$ 이며, 교육수준에 따라 성별을 비교해 보면 $(65-45)=20, (55-75)=-20$ 이다. 상호작용이 있는 경우에는 한 독립변수의 수준에 따라 다른 변수의 평균값의 차의 부호가 서로 다르다. 또한 상호작용이 있는 경우 그림을 그려보면 두 선의 방향이 서로 다르거나 어긋난다.
$\quad$$B$ \ $A$$\quad$ | $\quad$$A_1$$\quad$ | $\quad$$A_2$$\quad$ | $\quad$$A_3$$\quad$ | $\quad$$\bar{X_{\cdot k}}$$\quad$ |
---|---|---|---|---|
$X_{111}$ | $X_{121}$ | $X_{131}$ | ||
$B_1$ | $X_{211}$ | $X_{221}$ | $X_{231}$ | $\bar{X_{\cdot 1}}$ |
$X_{311}$ | $X_{321}$ | $X_{331}$ | ||
$\bar{X_{jk}}$ | $\bar{X_{11}}$ | $\bar{X_{21}}$ | $\bar{X_{31}}$ | |
$X_{112}$ | $X_{122}$ | $X_{132}$ | ||
$B_2$ | $X_{212}$ | $X_{222}$ | $X_{232}$ | $\bar{X_{\cdot 2}}$ |
$X_{312}$ | $X_{322}$ | $X_{332}$ | ||
$\bar{X_{jk}}$ | $\bar{X_{12}}$ | $\bar{X_{22}}$ | $\bar{X_{32}}$ | |
$\bar{X_{j \cdot}}$ | $\bar{X_{1 \cdot}}$ | $\bar{X_{2 \cdot}}$ | $\bar{X_{3 \cdot}}$ | $\bar{X}$ |
분산원 | 제곱합 | 자유도 | 평균제곱 | $F값$ |
---|---|---|---|---|
A효과 | $SSA$ | $J$-$1$ | $MSA $=$ SSA$ /$(J$-$1)$ | $MSA$/$MSW$ |
B효과 | $SSB$ | $K$-$1$ | $MSB $=$ SSB$ /$(K$-$1)$ | $MSB$/$MSW$ |
AB상호작용 | $SSAB$ | $(J$-$1)$$(K$-$1)$ | $MSAB $=$ SSAB$ /$(J$-$1)$$(K$-$1)$ | $MSAB$/$MSW$ |
집단내 | $SSW$ | $N$-$JK$ | $MSW $=$ SSW$ /$JK(n$-$1)$ | |
합계 | $SST$ | $N$-$1$ |
S전자회사에서의 근로자의 생산성을 높이는 데 어떤 훈련방법이 효과적인지, 그리고 훈련방법은 근로자의 숙련도에 따라 그 효과가 달라지는지에 대해 연구하였다. 연구대상으로 선출된 근로자들은 무작위로 각각의 집단에 배정되었다. 훈련방법은 세 종류로 구분되었고, 숙련도는 두 수준으로 구분되었다. 훈련의 결과로 나타난 생산량은 아래 표와 같으며 훈련방법을 독립변수 A, 숙련도를 독립변수 B라고 하였다.
$\quad$$A_1$$\quad$ | $\quad$$A_2$$\quad$ | $\quad$$A_3$$\quad$ | $\quad$$\bar{X_{\cdot k}}$$\quad$ | |
---|---|---|---|---|
$9$ | $5$ | $8$ | ||
$8$ | $8$ | $7$ | ||
$B_1$ | $6$ | $7$ | $9$ | $7$ |
$10$ | $6$ | $6$ | ||
$7$ | $4$ | $5$ | ||
$\bar{X_{jk}}$ | $8$ | $6$ | $7$ | |
$3$ | $4$ | $7$ | ||
$4$ | $5$ | $9$ | ||
$B_2$ | $6$ | $2$ | $6$ | $5$ |
$5$ | $5$ | $5$ | ||
$2$ | $4$ | $8$ | ||
$\bar{X_{jk}}$ | $4$ | $4$ | $7$ | $\sum$$\sum$$\sum$ $X_{ijk}$=$180$ |
$\bar{X_{j \cdot}}$ | $6$ | $5$ | $7$ | $\bar{X} $=$ 6$ |
$\sum$$\sum X_{ij}^2$ | $420$ | $276$ | $510$ | $\sum$$\sum$$\sum$ $X_{ijk}^2$=$1206$ |
$$ \begin{align} &MSA = \frac{SSA}{J-1} = \frac{20}{2} = 10 \quad MSAB = \frac{SSAB}{(J-1)(K-1)} = \frac{20}{2} = 10 \\ &MSB = \frac{SSB}{K-1} = \frac{30}{1} = 30 \quad MSAB = \frac{SSW}{(N-JK)} = \frac{56}{24} = 2.333 \\ \end{align} $$평균제곱
예제. 분산분석표
분산원 | 제곱합 | 자유도 | 평균제곱 | $F값$ |
---|---|---|---|---|
A효과 | 20 | 2 | 10 | 4.286 |
B효과 | 30 | 1 | 30 | 12.859 |
AB효과 | 20 | 2 | 10 | 4.286 |
집단내 | 56 | 24 | 2.333 | |
합계 | 126 | 29 |
$$ \begin{align} ①&\quad H_0 : \alpha_j = 0 또는 H_0 : 훈련방법은 차이가 없다. \\ &\quad H_1 : \alpha_j \ne 0 또는 H_1 : 훈련방법은 차이가 있다. \\ ②&\quad \alpha = 0.05 \\ ③&\quad F_{0.05(2,24)} 에서 임계값은 3.40 \\ &\quad 채택영역 : F \le 3.40 \\ &\quad 기각영역 : F > 3.40 \\ ④&\quad F = 4.286 은 임계값인 3.40 보다 크므로 ( 기각영역 안에 있으므로 ) H_{0}를 기각한다. \\ ⑤& \quad 즉, 훈련방법에 따라 생산성에 차이가 있다. \end{align} $$예제. 독립변수 A효과에 관한 가설검정
예제. 독립변수 B효과에 관한 가설검정
예제. 독립변수 A, B의 상호작용효과에 관한 가설검정
<img src="https://github.com/JKeun/lecture-statistics/blob/develop/%20img/ch13-ANOVA-Test-Error-variation.001.jpeg?raw=true", width=450>