Cheating Sheet

  • 필요한 부분만 참고하여 문제를 푸세요.

선형대수 기초 ( 행렬의 곱셈 )

<img src="./ img/cheating-matrix.png", width=400>

기본 미분 법칙

  • 상수 $$\frac{d}{dx} (c) = 0$$

  • 거듭제곱 $$\frac{d}{dx} (x^n) = nx^{n-1}$$

최빈값 ( mode )

: 최빈값은 빈도수가 가장 많이 발생한 괄찰값을 말함

  • ex) 1, 3, 6, 6, 6, 7, 7, 12, 12, 19 있을때, 최빈값은 6이다.

중앙값 ( median )

: 중앙값은 수치로 된 자료를 크기순서대로 나열할 때, 가장 가운데에 위치하는 관찰값을 말한다.

  • ex) 1, 2, 4, 5, 7, 9, 10 있을때, 중앙값은 5이다.

산술평균 ( arithmetic mean )

: 우리가 흔히 사용하는 간단한 평균, 그냥 "평균" 이라고도 한다.

$$\bar{X} = \frac{X_1 + X_2 + \cdots + X_n}{n} = \frac{\sum X_i}{n} $$

가중평균 ( weighted arithmetic mean )

: 같은 모집단에서 표본을 서로 다른 개수로 뽑은 경우(가중치가 존재하는 경우) 평균값을 구할때 사용

$$\bar{X} = \frac{n_1 \bar{X_1} + n_2 \bar{X_2} + \cdots + n_k \bar{X_k}}{n_1 + n_2 + \cdots + n_k} = \frac{\sum n_i \bar{X_i}}{n_i} $$

분산 ( variance )

: 자료가 평균으로부터 얼마나 떨어져 분포하는지를 가늠하는 숫자
: 분산이란 각각의 관찰값에 대한 평균과의 편차를 제곱하여 그 평균을 구한 것

  • 모집단의 분산 ( ${ \sigma }^{ 2 }$ )
  • 표본의 분산 ( ${S}^2$)
    • $n$ 대신 $(n-1)$을 나누는 이유는, $(n-1)$을 나누어줌으로써 모집단의 $\sigma$를 추정하는데 더 적절한 표준편차를 구하기 위함이다

<img src="http://www.safetygo.com/xe/files/attach/images/384/602/013/02df6495492411476f5dd9608a8718f6.gif",width=450,height=250>

표준편차 ( standard deviation )

: 분산의 양의 제곱근

  • 모집단의 표준편차 ( $\sigma = \sqrt{\sigma ^2}$ )
  • 표본의 표준편차 ( $S = \sqrt{S ^2}$ )

집합이론

  • 확률이론을 쉽게 설명하기 위해서는 집합이론의 용어와 부호 사용하는 것이 편리
  • 집합 ( set ) 이란 개체 또는 원소 ( element )의 모임이라 정의
  • 원소는 { ... } 속에 넣는 것이 관례
    • ex. A = { 남자, 여자 }, B = { 10대, 20대, 30대, ... }

1. 여집합

2. 합집합

3. 교집합

합집합의 계산

  • $ A \cup B = A + B - A \cap B $
    • if) 집합 $A$와 $B$가 서로 배타적( mutually exclusive )일 때 ( $A \cap B = \emptyset$ )
    • $ A \cup B = A + B $

조건부확률

베이즈정리 ( Bayes' theorem )

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/2b8c21165bcf1ad1d21d7047686d227c649aae16", width=250, height=250>

기댓값 ( Expected Value )

  • 확률분포의 평균값 ( average, weigthed average )
  • 표기법 : $E(X)$ or $\mu_{X}$
  • 기댓값의 계산 $$ E(X) = \Sigma X_{i} \cdot P(X_{i}) $$

  • 기댓값의 특성

    1. 확률변수 X 에 일정한 상수 $a$ 를 곱한 확률변수의 기댓값은 확률변수 X 의 기댓값에 $a$ 를 곱한 것과 같다.
      • $ E(aX) = a \cdot E(X) $
    2. 확률변수 X 에 일정한 상수 $b$ 만큼을 가감한 확률변수의 기댓값은 확률변수 X 의 기댓값에 $b$ 를 가감한 것과 같다.
      • $ E(X + b) = E(X) + b $   or   $ E(X - b) = E(X) - b$
    3. 위의 두 가지 결과를 결합하면 다음 식이 성립된다.
      • $ E(aX \pm b) = a \cdot E(X) \pm b$

분산 ( Variance )

  • 확률분포의 분산
  • 표기법 : $ Var(X)$ or $\sigma^{2}_{X}$
  • 분산의 계산 $$ \begin{align} Var(X) & = \Sigma[X_{i} - E(X)]^{2} \cdot P(X_{i}) \\ & = E[\{X - E(X)\}^{2}] \\ & = E(X^{2}) - [E(X)]^{2} \end{align}$$

표준편차 ( Standard Deviation )

  • 확률분포의 표준편차
  • 표기법 : $ \sigma $
  • 표준편차의 계산 <br > $$ \sigma_{X} = \sqrt { \Sigma[X_{i} - E(X)]^{2} \cdot P(X_{i}) } $$

  • 분산과 표준편차의 특성

    1. 어떤 확률변수에 일정한 상수를 더한 확률변수의 분산은 본래의 확률변수의 분산과 같다. 확률변수에 상수를 더하는 것은 분포의 분산도에는 아무런 영향을 미치지 못하기 때문이다.
      • $ Var(X + b) = Var(X) \\ \sigma(X + b) = \sigma(X)$
    2. 어떤 확률변수에 일정한 상수 $a$ 를 곱한 확률변수의 분산은 본래의 확률변수의 분산에 $a^{2}$ 를 곱하 것과 같다.
      • $ Var(aX) = a^{2}Var(X) \\ \sigma(aX) = a \cdot \sigma(X)$
    3. 위의 두 식을 종합하면 다음과 같은 식이 성립된다.
      • $ Var(aX + b) = a^{2} Var(X) \\ \sigma(aX + b) = a \cdot \sigma(X)$

베르누이분포 ( Bernoulli Distribution )

This can also be expressed as

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/a7523b2ddba75e02e1afe1ba4f5f9f7599305585", >

이항확률분포 ( Binomial Probability Distribution )

$$ \begin{align} k &: 성공횟수 \\ n &: 시행횟수 \\ p &: 성공확률 \\ 1-p=q &: 실패확률 \\ {n}\choose{k} &: ~_{n}C_{k} \end{align} $$

이항분포의 기댓값과 분산

$$ \begin{align} 기댓값 \quad \mu &= E(X) = np \\ 분산 \quad \sigma^{2} &= Var(X) = np(1-p) = npq \\ 표준편차 \quad \sigma &= \sqrt{np(1-p)} = \sqrt{npq} \\ \end{align} $$

다항분포 ( Multinomial Distribution )

  • 실험의 결과 또는 표본을 뽑는 결과가 상호배타적인 k 개의 사건으로 나타나는 경우
    • ex. 주사위를 던지는 실험 => { 1, 2, 3, 4, 5, 6 }

$$ \begin{align} k &: 발생 가능한 결과 갯수 ( k = 2 이면 이항분포와 같다 ) \\ n &: 전체 시행 횟수 \\ x_{i} &: 각 결과별 발생 횟수 \\ p_{i} &: 각 결과별 확률 \\ \end{align} $$

표준정규분포

  • 표준정규분포는 모든 정규분포를 평균 $\mu=0$, 표준편차 $\sigma=1$이 되도록 표준화한 것이다. 어떤 확률변수 $X$의 관찰값이 그 분포의 평균으로부터 표준편차의 몇 배 정도나 떨어져 있는가를 다음과 같이 표준화된 확률변수 $Z$로 나타내기 때문에 표준정규분포를 $Z$-분포 라고도 한다.
$$ Z = \frac{X-\mu}{\sigma} $$

<img src="http://www.ktword.co.kr/img_data/1995_4.JPG", width=160>

< figure. Standard Normal Distribution >

<img src="https://cdn.namuwikiusercontent.com/b0/b041d8f0f6deec5bf96dba163cbc15829001a17560e6de6d37a7038d4ada20d7.jpg?e=1488320568&k=EI1Jbm7rpfTmw3ifSPF69Q", width=380>

< figure. 표준정규분포표 >

모집단 평균의 구간 추정 ( $\sigma$ 를 알고 있는 경우 )

$Z$-통계량 $$ Z = \frac{(\bar{X} - \mu_{\bar{X}})}{\sigma_{\bar{X}}}$$

$Z$ 값에 대한 신뢰구간 $$ P(-Z_{\alpha /2} \le Z \le Z_{\alpha/2}) = 1 - \alpha $$

$\mu$ 값에 대한 신뢰구간
$$ P(\bar{X} - Z_{\alpha /2} \cdot \sigma_{\bar{X}} \le \mu \le \bar{X} + Z_{\alpha/2} \cdot \sigma_{\bar{X}} ) = 1 - \alpha $$


신뢰도 $(1-\alpha)$ $Z=0$에서 $Z_{\alpha /2}$까지 면적 $Z_{\alpha / 2}$
0.90 0.450 1.64
0.95 0.475 1.96
0.99 0.495 2.57
< table. 신뢰도에 따른 $Z_{\alpha / 2}$ 값 >
  • 신뢰도 또는 신뢰수준 ( confidence level )
    • $1 - \alpha $
    • 신뢰도는 구간으로 추정된 추정값이 실제 모집단의 모수를 포함하고 있을 가능성
  • 신뢰구간 ( confidence interval )
    • 이때 모수가 포함될 것으로 추정된 구간
  • 신뢰도가 높을수록 신뢰구간은 넓어진다.
    • 이는 범위가 넓을수록 그 속에 모집단의 평균이 포함될 가능성이 더 높아짐을 뜻하며,
    • 반면, 범위가 넓을수록 신뢰구간이 갖는 정보의 가치는 줄어들게 됨을 의미한다.

통계적 가설검정의 순서

  1. 귀무가설($H_{0}$) 과 대립가설($H_{a}$) 의 설정
  2. 유의수준($\alpha$) 의 결정
  3. 유의수준을 충족시키는 임계값의 결정
  4. 통계량의 계산과 임계값과의 비교
  5. 결과의 해석

가설검정의 기본용어

귀무가설과 대립가설

  • 귀무가설 ( $H_{0}$ : null hypothesis )
    • 직접 검정대상이 되는 가설
  • 대립가설 ( $H_{a}$ or $H_{1}$ : alternative hypothesis )
    • 귀무가설이 기각될 때 받아들여지는 가설

유의수준과 임계값

  • 표본에서 계산된 통계량이 가설로 설정된 모집단의 성격과 현저한(significant) 차이가 있는 경우에는 모집단에 대해 설정한 귀무가설을 기각하게 된다
  • 이때 명확히 밝혀두어야 할 두가지가 있는데, 첫째는 현저하게 차이가 난다는 것이 무엇을 의미하는지, 둘째는 모집단에 대해 설정한 가설을 채택 또는 기각하는 임계값이 어떤 점이 되어야 하는지이다

  • 유의수준 ( significance level )
    • 오류를 감수할 확률 ( 때문에 오류를 범했을 때 손실이 얼만만큼 발생하느냐가 큰 고려요인 )
    • 유의수준을 얼마로 할 것인가에 대해서는 연구의 성격, 연구자의 주관 등이 개입되게 되므로 어느 연구에나 적용될 수 있는 보편타당한 기준은 없다
    • 보통 연구에서는 $\alpha$수준을 $0.01, 0.05, 0.10$ 등으로 정하는 경우가 많다
  • 임계값 ( critical value )
    • 주어진 유의수준에서 귀무가설의 채택과 기각에 관련된 의사결졍을 할 때, 그 기준이 되는 값
    • 이 임계값을 중심으로 귀무가설의 기각영역(rejection area)과 채택영역(acceptance area)이 결정된다

양측검정과 단측검정

<img src="https://saylordotorg.github.io/text_introductory-statistics/section_12/72f0cd42fda04cdfb0341bcfe11601c1.jpg", width=800>

  • 양측검정 ( two-tailed test )
    • $H_{0}: \mu = \mu_{0}$
    • 표본 통계량이 $\mu$ 보다 현저히 크거나 작으면 기각
    • 기각 영역은 확률분포의 양측에 있게 되므로, 유의수준 $\alpha$도 양쪽 극단으로 갈려 한쪽의 면적이 $\alpha / 2$가 된다
  • 단측검정
    • $H_{0}: \mu \ge \mu_{0} \quad or \quad H_{0}: \mu \le \mu_{0}$
    • $H_{0}: \mu \ge \mu_{0}$의 경우, 표본 통계량이 $\mu_{0}$보다 현저히 작으면 기각
    • 기각 영역은 확률분포의 한쪽 극단에만 존재

회귀분석의 개념

  • 회귀분석의 목적

    • 회귀분석은 함수적 관계로 알고 있는 두 변수의 관계를 자료를 통해 확인해 보는 것 ( 인과관계 파악 )
    • 한 변수를 기초로 하여 다른 변수를 예측하는 것 ( 예측 )
  • 회귀분석 종류

    • 단순회귀분석 ( simple regression analysis ) : 하나의 독립변수와 하나의 종속변수 사이의 관계 분석
    • 다중회귀분석 ( multiple regression analysis ) : 여러개의 독립변수들과 하나의 종속변수 사이의 관계 분석

단순회귀모형과 회귀식

  • 독립변수와 종속변수 간의 1차함수관계 또는 선형관계를 가정할 때 회귀모형은 다음 두 요소를 결합한 형태로 나타낼 수 있다.
    • 확정적 함수관계를 나타내는 부분 : $\alpha + \beta X_i$
    • 확률적 오차항 : $\epsilon_i$
  • $\alpha, \beta$ : 회귀계수 ( regression coefficient )
    • 회귀식을 보면 절편을 $\alpha$ 로 하고 기울기가 $\beta$ 인 직선이 됨을 알 수 있다.
    • 이에 반해서 회귀모형을 그림에서 보면 독립변수와 종속변수가 점으로 나타나 있으며 오차항에 따라서 그 모양이 다양하게 될 수 있다. ( 독립변수에 대응하는 종속변수의 값이 오차항에 따라서 확률적으로 다르게 나타나기 때문 )

모집단의 경우

$$ \begin{align} 단순회귀모형 \quad & Y_i = \alpha + \beta X_i + \epsilon_i \\ 단순회귀식 \quad & \mu_{Y \cdot X_i} = \alpha + \beta X_i \\ \end{align} $$


  • 모집단의 회귀식을 구하는 것은 실제로 불가능한 경우가 대부분이므로 우리는 표본으로부터 회귀식을 구하여 모수를 추정하여야 한다.
    • $\hat{Y_i}$ : 회귀식을 통해 구해지는 수치 ( 예측값 )
    • $e_i$ : 예측오차, 추정오차 또는 잔차(residual) $$e_i = Y_i - \hat{Y_i}$$

표본의 경우

$$ \begin{align} 단순회귀모형 \quad & Y_i = a + b X_i + e_i \\ 단순회귀식 \quad & \hat{Y_i} = a + b X_i \\ \end{align} $$