R에서의 확률분포

d를 붙이면 확률밀도함수(probability density function)

p를 붙이면 누적밀도함수(cumulation density function)

q를 붙이면 분위수 함수

r를 붙이면 난수를 생성함

정규분포(Normal Distribution)

dnorm(0, mean=0, sd=1) # N(0,1)의 0에서의 밀도 함수값
pnorm(0, mean=0, sd=1) # N(0,1)의 0까지의 누적밀도 함수값
qnorm(0.5, mean=0, sd=1) # N(0,1)의 50% 분위수 값
rnorm(5, mean=0, sd=1) # N(0,1)를 따르는 난수 5개 발생

In [2]:
dnorm(0, mean=0, sd=1)  
pnorm(0, mean=0, sd=1)  
qnorm(0.5, mean=0, sd=1)
rnorm(5, mean=0, sd=1)


Out[2]:
0.398942280401433
Out[2]:
0.5
Out[2]:
0
Out[2]:
  1. -0.602637636895993
  2. -0.659182997253518
  3. -1.59759087550114
  4. 0.816145418829405
  5. -0.802318274262988

In [4]:
options(jupyter.plot_mimetypes = 'image/png')
x=rnorm(10000, mean=0, sd=1)
plot(density(x))


chi-square(Chi-square Distribution)

자유도(df)가 커질 수록 정규분포에 가까워 진다.

ncp(non-centrality parameter)는 선택값이다.

dchisq(0, df=1) # chisq(0,1)의 0에서의 밀도 함수값
pchisq(0, df=1) # chisq(0,1)의 0까지의 누적밀도 함수값
qchisq(0.5, df=1) #chisq(0,1)의 50% 분위수 값
rchisq(5, df=1) # N(0,1)를 따르는 난수 5개 발생

In [18]:
dchisq(0, df=10)
pchisq(0, df=10)
qchisq(0.5, df=10)
rchisq(5, df=10)


Out[18]:
0
Out[18]:
0
Out[18]:
9.34181776559197
Out[18]:
  1. 20.1263452380664
  2. 11.2605732317928
  3. 14.0385219630656
  4. 8.72324917985907
  5. 11.9376260514098

In [19]:
x=rchisq(10000, df=10)
sx=(x-mean(x))/(sd(x)/sqrt(10000))
plot(density(sx))


확률(Probability)은 불확실성 속에서 이떤 사건이 일어날 가능성이 어는 정도인지를 수치화

표본공간(sample space)는 통계적 실험에서 모든 가능한 실험 결과들의 집합이며, 사상(Event)는 표본 공간의 부분집합으로 관심이 있는 실험결과들의 집합임.
사상(Event) A, B에 대하여
A∪ B : 합사상, A ∩ B 곱사상, Ac를 A의 여사상, A ∩ B = φ인 경우 서로 배반(disjoint)인 사상이라 한다.
표본공간의 모든 원소가 일어날 가능성이 모두 같은 경우 사상 A가 일어날 확률 P(A)는

P(A) = 사상 A에 속하는 원소의 갯수/표본공간의 전체 원소의 갯수

P( A∪ B) = P(A)+P(B) - P(A ∩ B)
P(Ac) = 1-P(A)
P(A1∪ A2 ∪ A3 ∪ ... An) = P(A1)+P(A2)+P(A3) ... P(An) 각 사상이 배반일 경우
A ⊂ B 이면 P(A) ≤ P(B)

조건부 확률 P(B|A)=P(A ∩ B)/P(A)는 곱셈정리에 의하여 P(A ∩ B) = P(B|A)*P(A)


In [ ]:
options(jupyter.plot_mimetypes = 'image/png')
x=c(6,2,4,8,10) # 5 persons working years
mean(x) # mean
sum((x-mean(x))^2)/length(x) # variance σ2
hist(x)