In [7]:
%install_ext https://raw.githubusercontent.com/joelkim/ipython-tikzmagic/master/tikzmagic.py
In [8]:
%load_ext tikzmagic
우리는 초등학교부터 고등학교, 그리고 대학교에 이르기까지 확률과 통계의 개념에 대한 여러가지 지식을 공부한다. 그러나 그 교육과정 어디에도 확률의 수학적 정의를 서술한 내용은 보기 힘들다. 확률의 수학적 정의를 익히는 것은 확률과 관련된 복잡한 문제를 푸는 것 뿐 아니라 지금까지 생각해오던 확률에 대한 관점을 새롭게 환기시키는데도 큰 도움이 된다.
표본(sample)은 선택된 특정한 하나의 사실을 말한다. 확률론에서는 보통 $\omega$(소문자 오메가)라는 그리스 문자로 표기한다.
예를 들어 "주사위를 던져서 2라는 숫자를 표시하는 면이 위로 나온 사실"은 표본이다. 이때 주의할 점은 확률론에서 말하는 표본은 그 의미가 광범위하며 추상적일 수 있다. 즉 이 경우에 표본은 단지 "2"라고 하는 숫자를 뜻하지 않을 수도 있다는 점이다. 이 점을 확실하게 하기 위해 앞으로는 주사위에서 발생할 수 있는 표본에 대해 다음과 같은 기호를 정하자.
⚀: 1이라는 숫자를 표시하는 면이 위로 나온 표본
⚁: 2라는 숫자를 표시하는 면이 위로 나온 표본
⚂: 3이라는 숫자를 표시하는 면이 위로 나온 표본
⚃: 4라는 숫자를 표시하는 면이 위로 나온 표본
⚄: 5라는 숫자를 표시하는 면이 위로 나온 표본
⚅: 6이라는 숫자를 표시하는 면이 위로 나온 표본
또한 "하나의" 사실이라는 것이 숫자 하나에 해당하는 정보만 가지고 있는 것도 아니다. 예를 들어 "지구상의 살아있는 사람 중 어떤 선택된 한 명"도 샘플이다. 이 샘플이 가지고 숫자 정보를 보자면 키, 몸무게, 허리둘레, 혈액형, 등 수많은 차원의 정보를 가질 수 있다. 또 다른 예로 "한국거래소에 상장되어 거래되는 주식 중 하나"라는 표본은 매일 매일의 거래 가격 정보라는 시계열(time series) 형태의 정보도 가질 수 있다.
표본 공간(sample space)은 선택될 수 있는 모든 표본의 집합을 말한다. 확률론에서는 보통 $\Omega$(대문자 오메가)라는 그리스 문자로 표기한다.
주사위의 경우에는 다음과 같은 유한한 표본을 가진다.
사건(event)는 표본 공간의 부분집합을 뜻한다. 확률론에서는 보통 $A,B, C, \cdots$ 식으로 대문자 알파벳으로 표기한다.
주사위의 경우 가능한 사건은 다음과 같은 것을이 있을 수 있다. 물론 이 사건들이 가능한 사건의 전부 즉, 모든 부분집합을 나열하고 있는 것은 아니다.
$$ A = \{⚃,⚄,⚅\} $$$$ B = \{⚀,⚂,⚄\} $$$$ C = \{⚁\} $$$$ D = \{⚀,⚁,⚂,⚃,⚄,⚅\} $$사건이란 전체 표본 공간 중에서 우리가 관심을 가지고 있는 일부 표본의 집합을 뜻한다. 예를 들어 위 수식의 $A$라는 사건은 "3보다 큰 숫자가 주사위의 윗면이 되는 경우"를 뜻한다. 따라서 보통의 우리말로 서술할 때 "~가 나오는 경우"라는 개념이 사건에 해당한다.
확률(probability)이란 각각의 사건에 대해 할당된, 다음과 같은 3가지 조건(공리)을 만족하는 실수를 말한다. 보통 대문자 알파벳 $P$ 로 나타낸다.
(1) 모든 사건에 대해 확률은 실수이고 양수이다.
$$P(A)\in\mathbb{R}, P(A)\geq 0 $$(2) 표본공간이라는 사건에 대한 확률은 1이다.
$$P(\Omega) = 1$$(3) 공통 원소가 없는 두 사건의 합집합의 확률은 각각의 사건의 확률의 합이다.
$$ A \cap B = \emptyset \;\;\; \rightarrow \;\;\; P(A \cup B) = P(A) + P(B) $$이 세가지를 콜모고로프의 공리(Kolmogorov's axioms)라고 한다.
보통 확률론을 공부하지 않은 사람들이 가장 흔히 가지고 있는 오해가 확률이 표본에 대해 정의된다는 것이다. 즉, 기호로 나타내면 다음과 같은 수식을 연상한다.
$$ P(⚀) = \dfrac{1}{6} $$이 개념과 수식은 틀렸다!
이미 기술한 확률의 정의에 따라 확률은 표본이 아닌 사건에 대해 정의된다. 그러므로 정확한 수식은 다음과 같다.
$$ P(\{⚀\}) = \dfrac{1}{6} $$몇가지 확률을 정의한 예를 들어보면 다음과 같다.
$$P(\{⚁,⚂\}) = \frac{1}{3}$$$$P(\{⚀,⚂,⚄\}) = \frac{1}{2}$$$$P(\{⚀,⚁,⚂,⚃,⚄,⚅\}) = 1$$앞서 주사위의 경우는 표본의 수가 6개 밖에 되지 않는 경우였다. 그럼 표본의 수가 무한한 경우도 살펴보자.
다음 그림과 같은 시계가 있다. 시계라고 해도 되고 복권 당첨에 사용되는 회전판이라고 생각해도 된다. 이 시계의 긴 바늘이 가리킬 수 있는 각도의 종류는 몇 가지가 있을까?
정각 12시를 가리킨다면 0도이고 정각 1시를 가리키면 30도이다. 만약 12시 30분이라면 15도를 가리킬 것이다. 그런데 0도와 15도 사이에는 1도도 있을 수 있고 0도와 1도 사이에는 0.5도가 있을 수 있다. 0도와 0.5도 사이에는 0.25도, 그리고 그 사이에는 0.1436....도 등으로 무한한 경우가 존재할 수 있다.
In [10]:
%%tikz
\filldraw [fill=white] (0,0) circle [radius=1cm];
\foreach \angle in {60,30,...,-270} {
\draw[line width=1pt] (\angle:0.9cm) -- (\angle:1cm);
}
\draw (0,0) -- (90:0.8cm);
그렇다면 이 시계 바늘 문제에서 바늘이 정각 12시를 가르킬 확률 즉, 각도가 정확하게 0이 될 확률은 얼마일까?
만약 모든 각도에 대해 가능성이 똑같다면, 바늘이 정각 12시를 가르킬 확률 즉, 각도가 정확하게 0이 될 확률은 0이다.
수식으로 나타내면 다음과 같다.
$$ P(\{ \theta = 0^{\circ} \}) = 0$$각도가 0이 아닌 어떤 경우도 마찬가지이다. 예를 들어 시계 바늘이 1시를 가리키는 경우, 즉 각도가 30도가 되는 경우도 마찬가지이다.
$$ P(\{ \theta = 30^{\circ} \}) = 0$$왜 그럴까. 모든 각도에 대해 가능성이 똑같으므로 그 확률을 $x$라는 값이라고 하자. 그런데 각도가 나올 수 있는 경우는 무한대의 경우가 있으므로 만약 $x$가 0이 아니라면 $x \times \infty = \infty$로 전체 표본 집합의 확률이 무한대가 된다. 즉, 1이 아니다. 이는 확률을 정의하는 두번째 조건을 만족하지 못하므로 확률이라 부를 수 없다.
따라서 표본의 수가 무한하고 모든 표본에 대해 표본 하나만을 가진 사건의 확률이 동일하다면, 표본 하나에 대한 사건의 확률은 언제나 0이다.
확률이 표본이 아닌 사건에 대해 정의된 이유가 바로 이때문이다.
이번에는 표본의 집합이자 표본 집합의 부분집합인 사건(event)을 생각해보자. 다음과 같은 사건에 대한 확률은 얼마라고 말할 수 있을까?
이 경우에는 동일한 가능성을 지닌 경우가 12개 있다고 볼 수 있다. (1시와 2시 사이, 2시와 3시 사이 등) 따라서 다음과 같이 말해도 무방하다.
$$ P(\{ 0^{\circ} \leq \theta < 30^{\circ} \}) = \frac{1}{12}$$이제 확률이라는 것이 각각의 사건에 대해 배정 혹은 할당된 0과 1사이의 숫자라는 점을 알게되었다.
다시 주사위의 경우로 돌아가서 실제로 확률을 배정해 보면 다음과 같이 쓸 수 있다.
$$ P(\emptyset) = 0 $$$$ P(\{⚀\}) = \dfrac{1}{6} $$$$ P(\{⚁\}) = \dfrac{1}{6} $$$$ P(\{⚂\}) = \dfrac{1}{6} $$$$ P(\{⚃\}) = \dfrac{1}{6} $$$$ P(\{⚄\}) = \dfrac{1}{6} $$$$ P(\{⚅\}) = \dfrac{1}{6} $$$$ P(\{⚀, ⚁\}) = \dfrac{1}{3} $$$$ P(\{⚀, ⚂\}) = \dfrac{1}{3} $$$$ P(\{⚀, ⚃\}) = \dfrac{1}{3} $$$$ \vdots $$각각의 눈금이 사건에 포함되거나 포함되지 않는 두 가지 경우가 있기 때문에 확률을 정의할 수 있는 사건의 수는 $2^6$개 즉, 32개가 존재한다. 따라서 확률을 정의한다는 것은 이 32개의 사건에 대해 모두 0부터 1사이의 어떤 숫자를 할당해 주는 일이다.
따라서 확률은 할당된 이러한 숫자를 말하는 경우도 있지만 사건으로부터 숫자로 이어지는 관계 즉, 사상(mapping)를 뜻할 수도 있다.
시그마 필드(sigma field)는 확률이 정의된 사건의 모음(collections of events)을 말한다. 즉, 집합의 집합이라고 말할 수 있다. 시그마 대수(sigma algebra)라고 하는 경우도 있다.
수학적으로 시그마 필드는 다음과 같은 조건을 만족하는 집합의 모음이다.
(1) 시그마 필드 $\mathcal{F}$ 는 공집합 $\emptyset$ 를 포함한다.
$$ \emptyset \in \mathcal{F} $$(2) 시그마 필드 $\mathcal{F}$ 가 어떤 하나의 집합 $A$ 를 포함하면 그 집합의 여집합 $A^C$도 포함해야 한다.
$$ A \in \mathcal{F} \;\;\; \rightarrow \;\;\; A^C \in \mathcal{F} $$(3) 시그마 필드 $\mathcal{F}$ 가 어떤 두 집합 $A$, $B$ 를 포함하면 그 집합들의 합집합 $A \cup B$도 포함해야 한다.
$$ A, B \in \mathcal{F} \;\;\; \rightarrow \;\;\; A \cup B \in \mathcal{F} $$시그마 필드의 개념이 있다면 주사위의 확률을 정의하기 위해 32개의 모든 사건을 나열하지 않아도 된다. 일부 사건에 대한 확률만 지정하고 나면 시그마 필드의 정의와 확률의 정의에 의해 시그마 필드에 있는 나머지 사건들이 정의될 수 있다.
이렇게 몇 개의 사건을 시작점으로 나머지 시건들을 정의해서 시그마 필드를 만들어나가는 과정을 시그마 필드 생성(generated) 이라고 한다.
기호로는 다음과 같이 쓸 수 있다.
$$ \mathcal{F} = \sigma \big( \emptyset, \{⚀\}, \{⚁\}, \{⚂\}, \{⚃\}, \{⚄\}, \{⚅\} \big) $$동일한 시그마 필드를 다음과 같이 생성할 수도 있다.
$$ \mathcal{F} = \sigma \big( \emptyset, \{⚀\}, \{⚀,⚁\}, \{⚀,⚁,⚂\}, \{⚀,⚁,⚂,⚃\}, \{⚀,⚁,⚂,⚃,⚄\}, \{⚀,⚁,⚂,⚃,⚄,⚅\} \big) $$지금까지 설명한, 확률을 정의하는데 필요한 요소들을 나열해 보자.
이 세가지를 모아놓은 것을 확률 공간(probability space)이라고 한다. $(\Omega, \mathcal{F}, P)$ 로 표기한다.
확률의 정의에서 주의할 점은 지금까지 말한 확률에 대한 조건을 만족하면 모두 확률이라고 할 수 있다는 점이다.
예를 들어 다음과 같은 사실은 확률의 정의와 무관하다.
이는 우리가 확률 값을 만들 때 흔히 사용되는 방법이지만 여러가지 확률 값을 만드는 방법의 하나일 뿐이고 꼭 이대로 확률 값 즉, 숫자를 배정해야할 이유는 없다.
예를 들어 다음과 같이 확률을 배정할 수도 있다.
$$ \left\{\emptyset, \{⚀\}, \{⚁\}, \{⚂\}, \{⚃\}, \{⚄\}, \{⚅\} \right\} \rightarrow \left \{ 0, 0.5, 0.3, 0.2, 0, 0, 0 \right\} $$