ex. 서울시 대학 신입생의 수학능력시험 평균 점수를 알아보려 한다. 각 대학에서 총 400명의 표본을 뽑아 그들의 점수를 조사하여 본 결과 평균 점수가 250점이었다고 한다면, 모집단의 평균 점수는 얼마라고 볼 수 있는가?
정보의 효과와 추정구간의 크기는 상반관계(trade-off)
ex. 모집단의 평균 $\mu$을 알기위해 표본의 평균 통계량 $\bar{X}$를 이용하게 되는데 이때 $\bar{X}$는 $\mu$의 추정량(estimator)이 되며, 표본평균의 구체적인 수치, 예를 들어 $\bar{X} = 250$은 모집단의 평균을 추정하는 추정값(estimate)이 된다.
점추정에서 모수를 추정하는 데 무엇을 추정량으로 삼느냐가 매우 중요한 문제다. 모집단의 평균 $\mu$ 를 추정하기 위해서는 표본의 산술평균, 기하평균, 중앙값 등 여러 가지 통계량을 사용할 수 있으나, 그중에서도 표본의 산술평균을 추정량으로 사용하는 이유는 무엇인가? 만일 표본의 중앙값을 추정량으로 삼는다면 어떤 문제가 생기는가? 이러한 문제는 모집단의 평균 $\mu$를 추정하는 데만 적용되는 것이 아니고 모집단의 다른 특성치, 예를 들면 비율이나 분산 등을 추정할 때에도 마찬가지로 적용된다.
(인쇄물 참고)
In [1]:
import numpy as np
import scipy.stats as sp
import matplotlib.pylab as plt
from matplotlib.patches import Polygon
mu = 140; std = 30;
rv = sp.norm(mu, std)
xx = np.linspace(50, 230, 100)
fig = plt.figure()
ax = fig.add_subplot(111)
plt.plot(xx, rv.pdf(xx), 'r', linewidth=2)
ix = np.linspace(mu-2*std, mu+2*std)
iy = rv.pdf(ix)
verts = [(mu-2*std, 0)] + list(zip(ix, iy)) + [(mu+2*std, 0)]
poly = Polygon(verts, facecolor='0.7', edgecolor='0.5')
ax.add_patch(poly)
plt.text(140, 0.005, "95%", horizontalalignment="center", fontsize=15)
plt.annotate("80(-2std)", xy=(80, 0), xytext=(80, 0.002),
arrowprops=dict(facecolor="black", linewidth=0.3),
fontsize=13
)
plt.annotate("140(mean)", xy=(140, 0), xytext=(140, 0.002),
arrowprops=dict(facecolor="black", linewidth=0.3),
fontsize=13
)
plt.annotate("200(+2std)", xy=(200, 0), xytext=(200, 0.002),
arrowprops=dict(facecolor="black", linewidth=0.3),
fontsize=13
)
plt.show()
In [3]:
fig = plt.figure(figsize=(7, 7))
ax1 = fig.add_subplot(221)
plt.plot(xx, rv.pdf(xx), 'r', linewidth=2)
ix1 = np.linspace(mu+2*std, mu+4*std)
iy1 = rv.pdf(ix1)
verts1 = list(zip(ix1, iy1)) + [(mu+2*std, 0)]
poly1 = Polygon(verts1, facecolor='#1E90FF', edgecolor='0.5')
ax1.add_patch(poly1)
plt.annotate(r"$Z_{\alpha} = 1.64$", xy=(200, 0), xytext=(200, -0.002),
arrowprops=dict(facecolor="black", headwidth=5, headlength=5, width=1 ),
fontsize=13
)
plt.annotate(r"$\alpha = 0.05$", xy=(210, 0.0005), xytext=(220, 0.002),
arrowprops=dict(facecolor="black", headwidth=5, width=1 ),
fontsize=13
)
ax2 = fig.add_subplot(222)
plt.plot(xx, rv.pdf(xx), 'r', linewidth=2)
ix2 = np.linspace(mu-4*std, mu-2*std)
iy2 = rv.pdf(ix2)
verts2 = [(mu-2*std, 0)] + list(zip(ix2, iy2))
poly2 = Polygon(verts2, facecolor='#1E90FF', edgecolor='0.5')
ax2.add_patch(poly2)
plt.annotate(r"$-Z_{\alpha} = -1.64$", xy=(80, 0), xytext=(80, -0.002),
arrowprops=dict(facecolor="black", headwidth=5, headlength=5, width=1 ),
fontsize=13
)
plt.annotate(r"$\alpha = 0.05$", xy=(70, 0.0005), xytext=(100, 0.002),
arrowprops=dict(facecolor="black", headwidth=5, width=1 ),
fontsize=13
)
ax3 = fig.add_subplot(212)
plt.plot(xx, rv.pdf(xx), 'r', linewidth=2)
ix3 = np.linspace(mu-4*std, mu-2*std)
iy3 = rv.pdf(ix3)
verts3 = [(mu-2*std, 0)] + list(zip(ix3, iy3))
poly3 = Polygon(verts3, facecolor='#1E90FF', edgecolor='0.5')
ax3.add_patch(poly3)
ix4 = np.linspace(mu+2*std, mu+4*std)
iy4 = rv.pdf(ix4)
verts4 = [(mu+2*std, 0)] + list(zip(ix4, iy4))
poly4 = Polygon(verts4, facecolor='#1E90FF', edgecolor='0.5')
ax3.add_patch(poly4)
plt.annotate(r"$-Z_{\alpha}/2 = -1.96$", xy=(80, 0), xytext=(80, -0.002),
arrowprops=dict(facecolor="black", headwidth=5, headlength=5, width=1 ),
fontsize=13
)
plt.annotate(r"$\alpha /2 = 0.025$", xy=(70, 0.0005), xytext=(90, 0.002),
arrowprops=dict(facecolor="black", headwidth=5, width=1 ),
fontsize=13
)
plt.annotate(r"$Z_{\alpha}/2 = 1.96$", xy=(200, 0), xytext=(175, -0.002),
arrowprops=dict(facecolor="black", headwidth=5, headlength=5, width=1 ),
fontsize=13
)
plt.annotate(r"$\alpha /2 = 0.025$", xy=(210, 0.0005), xytext=(160, 0.002),
arrowprops=dict(facecolor="black", headwidth=5, width=1 ),
fontsize=13
)
plt.show()
$Z$-통계량 $$ Z = \frac{(\bar{X} - \mu_{\bar{X}})}{\sigma_{\bar{X}}}$$
$Z$ 값에 대한 신뢰구간 $$ P(-Z_{\alpha /2} \le Z \le Z_{\alpha/2}) = 1 - \alpha $$
$\mu$ 값에 대한 신뢰구간
$$
P(\bar{X} - Z_{\alpha /2} \cdot \sigma_{\bar{X}} \le \mu \le \bar{X} + Z_{\alpha/2} \cdot \sigma_{\bar{X}} ) = 1 - \alpha
$$
신뢰도 $(1-\alpha)$ | $Z=0$에서 $Z_{\alpha /2}$까지 면적 | $Z_{\alpha / 2}$ |
---|---|---|
0.90 | 0.450 | 1.64 |
0.95 | 0.475 | 1.96 |
0.99 | 0.495 | 2.57 |
$t$-통계량
$t$-통계량을 이용한 신뢰구간 $$ P(-t_{\alpha /2} \le \frac{(\bar{X} - \mu_{\bar{X}})}{S_{\bar{X}}} \le t_{\alpha /2}) = 1-\alpha $$
$t$-분포에서의 신뢰구간 $$ P(\bar{X} -t_{\alpha /2} \cdot S_{\bar{X}} \le \mu \le \bar{X} + t_{\alpha /2} \cdot S_{\bar{X}}) = 1-\alpha $$
$t$-분포