어떠한 자료를 사용하여도 변수 간의 관계식을 구할 수는 있다. 그러나 그 관계식이 변수 간의 관계를 잘 말해 주지 않는다면 그 관계식은 아무 소용이 없다. 그리고 독립변수의 값이 주어지면 종속변수를 예측 할 수는 있지만 예측된 값이 실제와 상당히 차이가 나면 오히려 종속변수에 대한 잘못된 정보만 주게 될 뿐 아무런 도움이 되지 못한다.
이 장에서는 변수 간의 관계를 말해 주는 회귀방정식을 구한 다음, 그 방정식이 독립변수와 종속변수 간의 관계를 잘 말해 주는지, 즉 종속변수를 얼마나 잘 설명해 주는지를 알아보는 적합도검정방법에 대해 알아본다. 또한 이 장에서는 독립변수가 2개인 중회귀분석을 설명하고 두 독립변수에 대한 유의도검정도 포함된다.
<img src="https://github.com/JKeun/study-of-statistics-basic/blob/develop/%20img/standard-error.png?raw=true", width=450>
예제. 어느 회사에서는 판매원의 능력에 대한 평점과 그들의 학력수준 간의 회귀식을 구하기 위해 $15$ 명을 추출하여 그들의 학력과 평점을 알아보았다. 학력수준은 정규학교에 다닌 햇수를 말하고, 평점은 여러 가지 항목을 평가하여 계산한 점수다.
대상자 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
학력수준 | 6 | 12 | 10 | 11 | 4 | 13 | 15 | 6 | 9 | 7 | 11 | 16 | 8 | 8 | 14 |
평점 | 4.0 | 3.5 | 3.0 | 2.5 | 4.5 | 2.5 | 1.0 | 5.5 | 3.5 | 1.5 | 3.0 | 2.0 | 2.0 | 3.0 | 3.5 |
1) 학력과 평점에 대한 회귀식을 구하라.
2) 모집단에 대한 회귀식의 추정오차 $S_e$ 를 구하라.
대상 | $X_i$ | $Y_i$ | $X_i^2$ | $Y_i^2$ | $X_i$$Y_i$ | $\hat{Y_i}$ | $( Y_i - $$\hat{Y_i} )$ | $( Y_i - $$\hat{Y_i} )^2$ | $(\hat{Y_i} -$$\bar{Y} )^2$ | $(Y_i -$$\bar{Y} )^2$ |
---|---|---|---|---|---|---|---|---|---|---|
1 | 6 | 4.0 | 36 | 16 | 24 | 3.72 | 0.28 | 0.0784 | 0.5184 | 1 |
2 | 12 | 3.5 | 144 | 12.25 | 42 | 2.64 | 0.86 | 0.7396 | 0.1296 | 0.25 |
3 | 10 | 3.0 | 100 | 9 | 30 | 3.0 | 0 | 0 | 0 | 0 |
4 | 11 | 2.5 | 121 | 6.25 | 27.5 | 2.82 | -0.32 | 0.1024 | 0.0324 | 0.25 |
5 | 4 | 4.5 | 16 | 20.25 | 18.0 | 4.08 | 0.42 | 0.1764 | 1.1664 | 2.25 |
6 | 13 | 2.5 | 169 | 6.25 | 32.5 | 2.46 | 0.04 | 0.0016 | 0.2916 | 0.25 |
7 | 15 | 1.0 | 225 | 1.0 | 15.0 | 2.10 | -1.1 | 1.21 | 0.81 | 4.0 |
8 | 6 | 5.5 | 36 | 30.25 | 33.0 | 3.72 | 1.78 | 3.1684 | 0.5184 | 6.25 |
9 | 9 | 3.5 | 81 | 12.25 | 15.0 | 3.18 | 0.32 | 0.1024 | 0.0324 | 0.25 |
10 | 7 | 1.5 | 49 | 2.25 | 33.0 | 3.54 | -2.04 | 4.1616 | 0.2916 | 2.25 |
11 | 11 | 3.0 | 121 | 9.0 | 31.5 | 2.82 | 0.18 | 0.0324 | 0.0324 | 0 |
12 | 16 | 2.0 | 256 | 4.0 | 10.5 | 1.92 | 0.08 | 0.0064 | 1.1664 | 1 |
13 | 8 | 2.0 | 64 | 4.0 | 32.0 | 3.36 | -1.36 | 1.8496 | 0.1296 | 1 |
14 | 8 | 3.0 | 64 | 9.0 | 24.0 | 3.36 | -0.36 | 0.1296 | 0.1296 | 0 |
15 | 14 | 3.5 | 196 | 12.25 | 49.0 | 2.28 | 1.22 | 1.4884 | 0.5184 | 0.25 |
합계 | 150 $\bar{X}=$$10$ |
45 $\bar{Y}=$$3$ |
1678 | 154 | 418 | 45 | 0 | 13.2472 | 5.7672 | 19.0 |
<img src="https://github.com/JKeun/study-of-statistics-basic/blob/develop/%20img/regression-deviations.png?raw=true", width=400>
예제. 위의 예제에서 판매원의 학력수준과 평점에 대한 자료에서 결정계수 $r^2$ 을 구하라.
예제. 위의 예제의 판매원의 학력수준과 평점에 대한 자료에서 두 변수 간에 회귀모형이 성립되는지를 $\alpha = 0.05$ 수준에서 $F-검정$ 하라.
예제. 위의 예제의 판매원의 학력수준과 평점에 대한 자료에서 학력수준이 과연 평점을 예측할 수 있는 회귀변수인지를 $\alpha = 0.05$ 에서 검정하라.
예제. 가정의 사회경제적 환경 $(X_1)$ 과 부모의 교육정도 $(X_2)$ 가 어린이의 학습준비도 $(Y)$ 에 영향을 주는지 알아보기 위해, 열 명의 취학전 어린이에게 초등학교 교육을 받을 수 있는지에 대한 준비도 검사를 실시하였다. 검사는 20점 만점이며 실시결과는 다음의표와 같다. 사회경제적 환경은 1에서 10등급까지, 교육정도는 1에서 5등급까지로 나누었다. 단, 사회경제적 환경과 교육정도는 등간척도로 가정한다.
※ 명목척도,서열척도,등간척도,비율척도,측정척도와 통계 분석 방법 : https://goo.gl/OFwZ5E
변수\대상자 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
$X_{1i}$ | 2 | 5 | 10 | 6 | 3 | 4 | 1 | 7 | 4 | 8 |
$X_{2i}$ | 1 | 2 | 3 | 3 | 1 | 5 | 2 | 4 | 4 | 5 |
$Y_i$ | 7 | 8 | 15 | 6 | 3 | 10 | 5 | 12 | 14 | 20 |
1) 회귀식 $\hat{Y} = a + b_1 X_{1i} + b_2 X_{2i}$ 를 구하라.
2) 회귀식의 추정오차 $S_e$ 와 결정계수 $R^2$ 을 구하라.
대상자 | $X_{1i}$ | $X_{2i}$ | $Y_i$ | $x_{1i}$ | $x_{2i}$ | $y_i$ | $x_{1i}^2$ | $x_{2i}^2$ | $x_{1i}$$x_{2i}$ | $x_{1i}$$y_i$ | $x_{2i}$$y_i$ |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 1 | 7 | -3 | -2 | -3 | 9 | 4 | 6 | 9 | 6 |
2 | 5 | 2 | 8 | 0 | -1 | -2 | 0 | 1 | 0 | 0 | 2 |
3 | 10 | 3 | 15 | 5 | 0 | 5 | 25 | 0 | 0 | 25 | 0 |
4 | 6 | 3 | 6 | 1 | 0 | -4 | 1 | 0 | 0 | -4 | 0 |
5 | 3 | 1 | 3 | -2 | -2 | -7 | 4 | 4 | 4 | 14 | 14 |
6 | 4 | 5 | 10 | -1 | 2 | 0 | 1 | 4 | -2 | 0 | 0 |
7 | 1 | 2 | 5 | -4 | -1 | -5 | 16 | 1 | 4 | 20 | 5 |
8 | 7 | 4 | 12 | 2 | 1 | 2 | 4 | 1 | 2 | 4 | 2 |
9 | 4 | 4 | 14 | -1 | 1 | 4 | 1 | 1 | -1 | -4 | 4 |
10 | 8 | 5 | 20 | 3 | 2 | 10 | 9 | 4 | 6 | 32 | 20 |
합계 | 50 | 30 | 100 | 70 | 20 | 19 | 94 | 53 |
대상자 | $X_{1i}$ | $X_{2i}$ | $Y_i$ | $\hat{Y_i}$ | $(Y_i -$$\bar{Y} )^2$ | $( Y_i - $$\hat{Y_i} )^2$ |
---|---|---|---|---|---|---|
1 | 2 | 1 | 7 | 3.788 | 9 | 10.317 |
2 | 5 | 2 | 8 | 8.160 | 4 | 0.026 |
3 | 10 | 3 | 15 | 14.212 | 25 | 0.621 |
4 | 6 | 3 | 6 | 10.852 | 16 | 23.542 |
5 | 3 | 1 | 3 | 4.628 | 49 | 2.650 |
6 | 4 | 5 | 10 | 12.886 | 0 | 8.329 |
7 | 1 | 2 | 5 | 4.800 | 25 | 0.040 |
8 | 7 | 4 | 12 | 13.544 | 4 | 2.384 |
9 | 4 | 4 | 14 | 11.024 | 16 | 8.857 |
10 | 8 | 5 | 20 | 16.246 | 100 | 14.093 |
합계 | 50 | 30 | 100 | 100.140 | 248 | 70.859 |
예제. 위의 예제에서 어린이의 학습준비도에 관한 자료를 가지고 회귀모형의 유의성을 검정하라. $(\alpha = 0.01)$
In [1]:
from sklearn.linear_model import LinearRegression
data = np.array([[2, 5, 10, 6, 3, 4, 1, 7, 4, 8],
[1, 2, 3, 3, 1, 5, 2, 4, 4, 5],
[7, 8, 15, 6, 3, 10, 5, 12, 14, 20]])
X = data[:-1]
y = data[-1]
X = X.T
In [2]:
model = LinearRegression().fit(X, y)
print(model.coef_)
print(model.intercept_)
In [3]:
import statsmodels.api as sm
df_X = sm.add_constant(X)
model_2 = sm.OLS(y, df_X)
result = model_2.fit()
print(result.summary())