Ch5. 확률분포의 개념

  • 확률변수와 확률분포
  • 이산확률변수와 연속확률변수
  • 확률함수와 확률밀도함수
  • 확률분포의 기댓값과 분산
  • 두 확률변수의 결합분포

1. 확률변수와 확률분포

확률변수의 개념 ( Random Variable )

  • 동전 한 개를 던질 때, 모든 가능한 사건의 집합 = 표본공간 ( Sample Space ) 은?
    • S = { 앞면 , 뒷면 }
  • 그러나 실제 통계학적 방법 및 분석과정에 들어서면, 어떠한 수치를 부여할 필요가 있다
    • S = { 1 , 0 } : 앞면에는 1, 뒷면에는 0을 부여
    • S = { 1,000 , -500 } : 앞면이 나오면 1,000원을 받고, 뒷면이 나오면 500원을 잃는 게임을 할 경우 가능한 사건의 집합 ( S )
  • 즉, 확률변수란 일정한 확률을 가지고 발생하는 사건에 수치를 부여한 것을 말하며, 보통 X 로 표시한다
    • 동전 던지는 실험에서는 앞면이 나타나는 횟수가 확률변수
    • 동전게임에서는 게임결과로 받는 보상금이 확률변수가 된다

Q. 연습문제
동전 던지는 실험에서 앞면(H)이 나올 경우를 1이라 할 때(fair coin), 다음 중 올바른 확률 표기법은?

  1. $ P(\emptyset) = 0 $
  2. $ P(1) = 1/2 $
  3. $ P(H) = 1/2 $
  4. $ P(\{1\}) = 1/2 $
  5. $ P(\{H\}) = 1/2 $
  6. $ P(X=1) = 1/2 $
  7. $ P(X=H)= 1/2 $

확률분포 ( Probability Distributioin )

  • 동전을 두 번 던질 때, 모든 가능한 사건들과 각 사건이 나타날 확률에 대해서 다음과 같이 정의 가능하다
  • 표본공간(Sample Space), S = {HH, HT, TH, TT}
사건 앞면의 수 각 사건의 확률
{ H , H } 2 1/4
{ H , T } 1 1/4
{ T , H } 1 1/4
{ T , T } 0 1/4
  • 만약 앞면이 나올 횟수를 확률변수(X)로 하고자 한다면, 다음과 같이 확률분포를 정의 가능하다
  • 표본공간 S = {2, 1, 0}
확률변수($X_{i}$) P($X_{i}$)
0 1/4
1 1/2
2 1/4
  • 즉, 확률분포란 어떤 확률변수가 취할 수 있는 모든 값들과 이 값들이 나타날 확률을 표시한 것이다.

2. 이산확률변수와 연속확률변수

이산확률변수 ( Discrete Random Variable )

  • 확률변수가 취할 수 있는 값의 수가 유한하거나 셀 수 있는(Countalbe) 확률변수를 의미
    • ex. 동전을 1,000개 던질 때 앞면의 갯수
  • 이산확률분포 ( Discrete Probability Distribution )
    • 베르누이분포
    • 이항분포

연속확률변수 ( Continuous Random Variable )

  • 확률변수가 취할 수 있는 값이 일정한 구간 내의 실수로서 그 수가 무한한 확률변수를 의미
    • ex. 체중, 온도, 키 등 ( 어떤 유한한 구간에 있더라도 그 수가 무한히 많아짐 )
  • 연속확률분포 ( Continuous Probability Distribution )
    • 정규분포
    • t 분포
    • F 분포
    • $\chi^{2}$분포

3. 확률질량함수와 확률밀도함수

확률질량함수 ( pmf : Probability Mass Function )

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/85/Discrete_probability_distrib.svg/440px-Discrete_probability_distrib.svg.png", width=250>

  • 확률질량함수란 이산확률변수가 취할 수 있는 모든 값에 대해 확률이 얼마인지를 알려주는 함수이다
  • 표기법 : $P(X_{i})$
  • ex. 동전던지기에 대한 확률함수로 정의하면,
    • $ P(X_{i}) = 1/2$ ,    $ X_{i} = \{ H , T \} $ <br ><br >
  • pmf 는 아래 두 조건을 만족해야 한다.
    1. 특정한 값 $X_{i}$ 가 발생할 확률은 $ 0 \le P(X_{i}) \le 1$ 이다
    2. $ \Sigma P(X_{i}) = 1$

확률밀도함수 ( pdf : Probability Density Function )

<img src="http://work.thaslwanter.at/Stats/html/_images/PDF.png", width=250>

  • 연속확률변수가 일정한 범위 내에서 취할 수 있는 값은 무한히 많다
  • 그러므로 어떤 한 값에만 국한된 확률은 말할 수 없다
  • 그 대신 어떤 구간(interval)에 대한 확률은 계산할 수 있다
    • ex. 기온이 a℃ ~ b℃ 이 확률이 30%라고 한다면, $P(a \le X \le b) = 0.3$
  • 이처럼 연속확률분포의 양상을 나타내는 곡선을 식으로 표현한 것을 확률밀도함수(pdf) 라고 한다 <br ><br >
  • pdf 의 특징
    1. 연속확률분포에서 어느 한 특정값 $X_{i}$ 가 발생할 확률 $P(X_{i})=0$ 이다
    2. 연속확률분포에서의 확률은 어떤 특정한 두 값, 즉 일정구간 사이의 값을 취할 확률로 계산된다. 즉, $P(a \le X \le b)$ 는 구간 [a, b] 사이의 확률밀도함수 $f(X)$와 X 축 사이의 면적이다.
    3. 확률밀도함수는 언제나 비음의 값을 갖는다. 즉, $f(X) \ge 0$ 이다.
    4. 확률밀도함수 아래에 있는 전체의 면적은 언제나 1 이다. 즉, $P(-\infty \le X \le \infty) = 1$ 이다.

연속확률분포와 이산확률분포의 비교

<img src="http://4.bp.blogspot.com/-vrO5l2mDP5o/VV8vNUEKvjI/AAAAAAAAAFM/XZRbbMiKJl4/s1600/Discrete%2BPDF%2B.png", width=500>

  • 연속확률분포 : 특정 구간의 pdf 아래의 넓이가 확률
  • 이산확률분포 : y 축의 높이가 확률

4. 확률분포의 기댓값과 분산

기댓값 ( Expected Value )

  • 확률분포의 평균값 ( average, weigthed average )
  • 표기법 : $E(X)$ or $\mu_{X}$
  • 기댓값의 계산 $$ E(X) = \Sigma X_{i} \cdot P(X_{i}) $$

  • 기댓값의 특성

    1. 확률변수 X 에 일정한 상수 $a$ 를 곱한 확률변수의 기댓값은 확률변수 X 의 기댓값에 $a$ 를 곱한 것과 같다.
      • $ E(aX) = a \cdot E(X) $
    2. 확률변수 X 에 일정한 상수 $b$ 만큼을 가감한 확률변수의 기댓값은 확률변수 X 의 기댓값에 $b$ 를 가감한 것과 같다.
      • $ E(X + b) = E(X) + b $   or   $ E(X - b) = E(X) - b$
    3. 위의 두 가지 결과를 결합하면 다음 식이 성립된다.
      • $ E(aX \pm b) = a \cdot E(X) \pm b$

Q. 연습문제
동전을 던져 앞면이 나오면 400원을 받고, 뒷면이 나오면 800원을 받는 게임이 있다고 하자. 이 게임의 기댓값은 600원이 된다. 상금을 2배로 올린 후에 일률적으로 200원씩 더 올린다면 그때의 기댓값은 얼마인가?

분산 ( Variance )

  • 확률분포의 분산
  • 표기법 : $ Var(X)$ or $\sigma^{2}_{X}$
  • 분산의 계산 $$ \begin{align} Var(X) & = \Sigma[X_{i} - E(X)]^{2} \cdot P(X_{i}) \\ & = E[\{X - E(X)\}^{2}] \\ & = E(X^{2}) - [E(X)]^{2} \end{align}$$

표준편차 ( Standard Deviation )

  • 확률분포의 표준편차
  • 표기법 : $ \sigma $
  • 표준편차의 계산 <br > $$ \sigma_{X} = \sqrt { \Sigma[X_{i} - E(X)]^{2} \cdot P(X_{i}) } $$

  • 분산과 표준편차의 특성

    1. 어떤 확률변수에 일정한 상수를 더한 확률변수의 분산은 본래의 확률변수의 분산과 같다. 확률변수에 상수를 더하는 것은 분포의 분산도에는 아무런 영향을 미치지 못하기 때문이다.
      • $ Var(X + b) = Var(X) \\ \sigma(X + b) = \sigma(X)$
    2. 어떤 확률변수에 일정한 상수 $a$ 를 곱한 확률변수의 분산은 본래의 확률변수의 분산에 $a^{2}$ 를 곱한 것과 같다.
      • $ Var(aX) = a^{2}Var(X) \\ \sigma(aX) = a \cdot \sigma(X)$
    3. 위의 두 식을 종합하면 다음과 같은 식이 성립된다.
      • $ Var(aX + b) = a^{2} Var(X) \\ \sigma(aX + b) = a \cdot \sigma(X)$

Q. 연습문제
어느 투자대상의 미래수익성(X)에 대하여 조사하였더니 E(X) = 500만원이었으며, Var(X) = 400이었다. 이 투자대상에 비해 수익이 두 배가 되는 투자대상이 있다면, 기대수익과 표준편차는 얼마인가?

5. 두 확률변수의 결합분포

결합확률분포 ( Joint Probability Distribution )

  • 두 개 이상의 확률변수가 관련된 확률분포

주변확률분포 ( Marginal Probability Distribution )

  • X와 Y의 결합분포에서 X 또는 Y의 어느 하나만의 확률분포를 말하며, 결합확률분포의 주변(marginal)에 표시되기 때문에 이를 주변확률분포라 한다

<img src="http://image.slidesharecdn.com/42jointmarginalconditionalprobmath4lt-150316083455-conversion-gate01/95/lecture-joint-conditional-and-marginal-probabilities-16-638.jpg?cb=1427173931", width=600>

Q. 연습문제

  1. $P(X=no rain, Y=some wind) 확률을 구하라 $
  2. $P(Y=strong wind) 확률을 구하라 $
  3. $E(X) 를 구하라 $ (no rain = 1, light rain = 3, heavy rain = 5 이라 할 때)

공분산 ( Covariance )

  • 두 확률변수의 분포가 결합될 때 그 결합확률 분포의 분산을 측정하는 것
  • 공분산은 2개의 확률변수의 상관정도를 나타내는 값이다. (1개 변수의 이산정도를 나타내는 분산과는 별개임)
  • X 변수 값이 상승할 떄, Y 변수 값도 상승하면 공분산 값은 양수, 하락하면 공분산 값은 음수
  • 공분산의 계산 $$ \begin{align} Cov(X, Y) & = E[(X-E(X))(Y-E(Y))] \\ & = E(XY) - E(X) \cdot E(Y) \end{align} $$

Q. 연습문제
기댓값의 특성을 이용하여 위의 식을 증명하세요.


In [ ]:

정답 : <br > $$ 1, 5, 6 ( 확률은 표본이 아닌, 사건에 정의되는 수치이다. ) $$

정답 :<br > $$ \begin{align} E(X) & = 600 (원) \\ E(2X + 200) & = E(2X) + 200 = 2 \cdot E(X) + 200 \\ & = 2 \times 600 + 200 = 1,400 (원) \end{align}$$

정답 :<br > $$ \begin{align} E(2X) & = 2 \times 500 = 1,000 (만원) \\ Var(2X) & = 2^{2}Var(X) = 4 \times 400 = 1,600 \\ \sigma(2X) & = 2 \cdot \sqrt{400} = 40 (만원) \end{align}$$

정답 :<br > $$ \begin{align} 1)\quad & = 0.2 \\ 2)\quad & = 0.05 + 0.15 + 0.1 = 0.3\\ 3)\quad & = no rain \times 0.36 + light rain \times 0.34 + heavy rain \times 0.3 \\ \quad & = 1 \times 0.36 + 3 \times 0.34 + 5 \times 0.3 \\ \quad & = 2.88 ( almost light rain ) \end{align}$$


In [ ]:


In [ ]:


In [ ]:


In [ ]:


In [ ]:


In [ ]: