z변환은 평균 u, 표준편차 σ인 정규확률변수를

평균 0, 표준편차 1인 표준정규확율변수로 바꿔준다.

z변환

$$z=\frac{x-u}{\sigma}$$

In [1]:
options(jupyter.plot_mimetypes = 'image/png')
Winter = c(-0.05,0.41,0.17,-0.13,0.00,-0.05,0.00,0.17,0.29,0.04,0.21,0.08,0.37,0.17,0.08,-0.04,-0.04,0.04,-0.13,-0.12,0.04,0.21,0.17,
            0.17,0.17,0.33,0.04,0.04,0.04,0.00,0.21,0.13,0.25,-0.05,0.29,0.42,-0.05,0.12,0.04,0.25,0.12)

Summer = c(0.00,0.38,-0.12,0.12,0.25,0.12,0.13,0.37,0.00,0.50,0.00,0.00,-0.13,-0.37,-0.25,-0.12,0.50,0.25,0.13,0.25,0.25,0.38,0.25,0.12,
            0.00,0.00,0.00,0.00,0.25,0.13,-0.25,-0.38,-0.13,-0.25,0.00,0.00,-0.12,0.25,0.00,0.50,0.00)

x=Winter-Summer
summary(x)
sd(x)
plot(density(x))


Out[1]:
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
-0.54000 -0.20000  0.04000  0.03415  0.29000  0.54000 
Out[1]:
0.278145426079201

In [2]:
# z-tranform
z=(x-mean(x))/(sd(x))
summary(z)
sd(z)
plot(density(z))


Out[2]:
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
-2.06400 -0.84180  0.02105  0.00000  0.91990  1.81900 
Out[2]:
1

문제 1

중학생들의 키가 평균 u=150, 표준편차 σ=20인 정규분포일때, 키가 170이상인 확률은 얼마인가?

P(x≥170)에 대하여 z변환((x-u)/σ)하여 정규분포표를 통하여 계산

P(x-150)/20≥(170-150)/20 = P(z≥1)


In [3]:
p=pnorm(1, mean=0, sd=1)
ans=1-p
print(ans)


[1] 0.1586553

문제 2

중학생들의 키가 평균 u=150, 표준편차 σ=20인 정규분포일때, 키가 130이상과 170이하 확률은 얼마인가?

P(130≤x≤170)에 대하여 z변환((x-u)/σ)하여 정규분포표를 통하여 계산

P((130-150)/20≤(x-150)/20≤(170-150)/20 = P(-1≤z≤1)


In [4]:
ans = pnorm(1, mean=0, sd=1) - pnorm(-1, mean=0, sd=1)
print(ans)


[1] 0.6826895

표본추출

모집단에서 작은 부분집합인 표본을 추출하여 확률을 구함

모집단의 확률을 P라고 하면 표본의 확률은 $$\hat{P}$$(x/n)이라고 함

$$1) \hat{P}의 평균은 E[\hat{P}]=P$$$$2) \hat{P}의 표준 편차 \sigma(\hat{P})=\sqrt{P(1-P)/n}$$$$3) n값(표본)이 크면 \hat{P}는 근사적으로 정규분포를 따른다.$$

문제3

1000개의 제품에 대한 양품인 확률이 85%인 경우 표본에 대한 양품인 확률의 표준편차는 얼마인가

$$\sigma(\hat{P})=\sqrt{0.85(0.15/1000)}$$

In [5]:
sqrt(0.85*(0.15/1000))


Out[5]:
0.0112915897906362

표본의 측정값의 68%가 아래 구간의 있다고 예상할 수 있다

$$0.8387≤\sigma(\hat{P})≤0.8613$$

표본평균의 분포(z-분포)

중심극한정리

평균 u, 표준편차 σ인 모집단에서 크기 n인 표본들을 무작위로 추출하면

n이 커질수록 표본평균($$\bar{X}$$)는 평균 $$\mu$$, 표준편차 $$\frac{\sigma}{\sqrt(n)})$$인 정규분포에 가까워진다.

$$\bar{X} \sim N(\mu, \frac{\sigma}{\sqrt(n)})$$

중심극한정리에 대하여 z변환을 수행하면

$$P(a≤ \bar{X} ≤ b)= P(\frac{a-\mu}{\frac{\sigma}{\sqrt(n)}}) ≤ z ≤ P(\frac{b-\mu}{\frac{\sigma}{\sqrt(n)}})$$

표본 표준편차의 분포(t-분포)

t-분포

표본의 표준편차를 통해 모집단의 표준편차($$\sigma$$)를 추정하기 위하여

표본의 표준편차는 $$s=\frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^2$$ 다음 확률변수에서 $$z=\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt(n)}}$$

$$\mu$$

대신에 s를 바꿔넣어 새로운 확율변수를 정의함 $$t=\frac{\bar{X}-\mu}{\frac{s}{\sqrt(n)}}$$ 표본의 수(n)을 클수록(자유도(n-1) 많을 수록) t는 표준정규분포에 가까워짐

가설 검증

1960년대 미국 남부에서 배심원 선정에 대한 인종 편견이 문제가 되었다.

이론적으로 배심원 명부는 자격이 있는 시민들 중에서 무작위로 선정되지만

남부주에서는 자격이 있는 시민들 중 50% 흑인이지만, 배심원 명부에 등재된 80명중에서 흑인이 4명뿐이였다.

그리서 피고들이 배심원들의 평결에 이의를 제기했고, 항소심에서 참고인으로 증언했다.

80명의 배심원에서 4명만 흑인이 될 확률


In [6]:
options(scipen=999)
pbinom(4, 80, prob=0.5)


Out[6]:
0.00000000000000000137889436469425

In [7]:
options(jupyter.plot_mimetypes = 'image/png')
x=rbinom(80, size=80, prob=0.5)
plot(density(x),xlim=c(0,80))
points(4, 0,pch=19, type="p")


가설검증의 4단계

1단계. 모든 가설을 세운다

$H_0, 귀무가설(영가설)$ 앞의 예에서 배심원이 전체 모집단에서 무작위로 선정된 것이 $H_0$ 흑인이 선정될 확률은 $p=0.5$ $H_1, 대립가설$ 흑인이 배심원으로 선정될 확률이 $p<0.5$

2단계. 검증통계량

귀무가설에 반대되는 증거를 평가할 통계량을 정한다.$p=0.5, n=80$인 이항확률변수 X임

3단계. p값

귀무가설이 사실이라면, 검증통계량이 관측될 확율을 구한다. $pbinom(4, 80, prob=0.5) = 0.0000000000000000014$

4단계. p값과 유의수준 $\alpha$를 비교한다

$\alpha$는 어떤 결과가 통계적으로 의미 있다고 판단하는 기준점(0.05, 0.01을 많이 사용)

즉 $p-value \le \alpha$ 이면 귀무가설 $H_0$를 기각한다.(위의 예에서는 판사가 귀무가설을 기각함)


In [ ]:


In [ ]: