定义:设离散型随机变量 $X$ 的分布律(概率质量函数)为 $$ P\{X=x_k\} = p_k, k=1,2,..., $$ 若级数 $$ \sum_{k=1}^\infty x_kp_k $$ 绝对收敛,则称级数 $\sum_{k=1}^\infty x_kp_k$ 的和为随机变量 $X$ 的数学期望 Mathematical Expectation,记为 $E(X)$,即 $$ E(X) = \sum_{k=1}^\infty x_kp_k $$
设连续型随机变量 $X$ 的概率密度为 $f(x)$,若积分 $$ \int_{-\infty}^{\infty}xf(x)dx $$ 绝对收敛,则称积分 $\int_{-\infty}^{\infty}xf(x)dx$ 的值为随机变量 $X$ 的数学期望,记为 $E(X)$,即 $$ E(X) = \int_{-\infty}^{\infty}xf(x)dx $$
数学期望简称期望 Expectation,简称均值 Mean Value。
数学期望 $E(X)$ 完全由随机变量 $X$ 的概率分布所确定。若 $X$ 服从某以分布,也称 $E(X)$ 是这一分布的数学期望。
定理:设 $Y$ 是随机变量 $X$ 的函数:$Y=g(X)$($g$ 是连续函数)。
(i) 如果 $X$ 是离散型随机变量,它的分布律为 $P\{X=x_k\}=p_k, k=1,2,...$,若 $\sum_{k=1}^\infty g(x_k)p_k$ 绝对收敛,则有 $$ E(Y) = E[g(X)] = \sum_{k=1}^\infty g(x_k)p_k $$
(ii) 如果 $X$ 是连续型随机变量,它的概率密度为 $f(x)$,若 $\int_{-\infty}^{\infty} g(x)f(x)dx$ 绝对收敛,则有 $$ E(Y) = E[g(X)] = \int_{-\infty}^{\infty} g(x)f(x)dx $$
定理的重要意义在于当我们求 $E(Y)$ 时,不必算出 $Y$ 的分布律或概率密度,而只需要利用 $X$ 的分布律或概率密度就可以了。
数学期望的几个重要性质:以下设所遇到的随机变量的数学期望存在。
1) 设 $C$ 是常数,则有 $E(C)=C$。
2) 设 $X$ 是一个随机变量,$C$ 是常数,则有 $E(CX) = CE(X)$。
3) 设 $X, Y$ 是两个随机变量,则有 $E(X+Y) = E(X) + E(Y)$。这一性质可以推广到任意有限个随机变量之和的情况。
4) 设 $X, Y$ 是相互独立的随机变量,则有 $E(XY) = E(X)E(Y)$。这一性质可以推广到任意有限个相互独立的随机变量之积的情况。
定义 设 $X$ 是一个随机变量,若 $E\{[X-E(X)]^2\}$ 存在,则称 $E\{[X-E(X)]^2\}$ 为 $X$ 的方差,记为 $D(X)$ 或 $Var(X)$,即 $$ D(X) = Var(X) = E\{[X-E(X)]^2\} $$ 在应用上还引入量 $\sqrt{D(X)}$,记为 $\sigma(X)$,称为标准差 Standard Deviation或均方差
按定义,随机变量 $X$ 的方差表达了 $X$ 的取值与其数学期望的偏离程度。若 $D(X)$ 较小意味着 $X$ 的取值比较集中在 $E(X)$ 附近,反之,若 $D(X)$ 较大则表示 $X$ 的取值较分散。因此,$D(X)$ 是刻画 $X$ 取值分散程度的一个量,它是衡量 $X$ 取值分散程度的一个度量。
由定义知,方差实际上就是随机变量 $X$ 的函数 $g(X) = (X-E(X))^2$ 的数学期望。于是对离散型随机变量,有 $D(X) = \sum_{k=1}^\infty[x_k-E(X)]^2p_k$;对连续型随机变量,有 $D(X) = \int_{-\infty}^{\infty}[x-E(X)]^2f(x)dx$。
随机变量 $X$ 的方差可按下列公式计算 $D(X) = E(X^2) - [E(X)]^2$,证明如下: $$ \begin{split} D(X) &= E{[X-E(X)]^2} = E{X^2 - 2XE(X) + [E(X)]^2} \\ &= E(X^2) - 2E(X)E(X) + [E(X)]^2 \\ &= E(X^2) - [E(X)]^2 \end{split} $$
方差的几个重要性质:以下设所遇到的随机变量其方差存在。
1) 设 $C$ 是常数,则 $D(C)=0$。
2) 设 $X$ 是随机变量,$C$ 是常数,则有 $D(CX)=C^2D(X),D(X+C)=D(X)$。
3) 设 $X, Y$ 是两个随机变量,则有 $D(X+Y) = D(X) + D(Y) + 2E\{(X-E(X))(Y-E(Y))\}$。特别,若 $X, Y$ 相互独立,则有 $D(X+Y) = D(X) + D(Y)$,这一性质可以推广到任意有限多个相互独立的随机变量之和的情况。
4) $D(X)=0$ 的充要条件是 $X$ 以概率 $1$ 取常数 $E(X)$,即 $P\{X=E(X)\}=1$
定理 设随机变量 $X$ 具有数学期望 $E(X)=\mu$,方差 $D(X)=\sigma^2$,则对于任意正数 $\epsilon$,不等式 $$ P\{|X-\mu| \geq \epsilon \} \leq \frac{\sigma^2}{\epsilon^2} $$ 成立,这一不等式称为切比雪夫(Chebyshev)不等式。
定义 量 $E\{[X-E(X)][Y-E(Y)]\}$ 称为随机变量 $X$ 与 $Y$ 的协方差 Covariance。记为 $Cov(X, Y)$,即 $$ Cov(X, Y) = E\{[X-E(X)][Y-E(Y)]\} $$ 而 $$ \rho = \frac{Cov(X, Y)}{\sqrt{D(X)}\sqrt{D(Y)}} $$ 称为随机变量 $X$ 与 $Y$ 的相关系数 Correlation。
由定义,即知 $$ Cov(X, Y) = Cov(Y, X), Cov(X, X) = D(X) $$
对于任意两个随机变量 $X$ 和 $Y$,下列等式成立: $$ D(X+Y) = D(X) + D(Y) + 2Cov(X,Y) $$
由 $Cov(X,Y)$ 的定义式展开,易得 $$ Cov(X,Y) = E(XY) - E(X)E(Y) $$
协方差具有下述性质:
1) $Cov(aX, bY) = abCov(X, Y)$, a, b是常数。
2) $Cov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y)$
相关系数具有下述性质:
1) $|\rho_{XY}| \leq 1$
2) $|\rho_{XY}| = 1$ 的充要条件是,存在常数 $a, b$ 使 $P\{Y=a+bX\}=1$
当 $|\rho_{XY}|$ 较大时,$X, Y$ 线性相关的程度较好。当 $|\rho_{XY}|$ 较小时,$X, Y$ 线性相关的程度较差。特别当 $|\rho_{XY}|=1$ 时,$X, Y$ 之间以概率 $1$ 存在着线性关系。当 $|\rho_{XY}|=0$ 时,称 $X, Y$ 不相关。
当 $X, Y$ 相互独立时,$|\rho_{XY}|=0$,即 $X, Y$ 不相关。反之,若 $X, Y$ 不相关,$X, Y$ 却不一定相互独立。(实际上,他们可能存在确定性的非线性关系)。不相关只是就线性关系来说的,而相互独立是就一般关系而言的。
定义 设 $X$ 和 $Y$ 是随机变量,若 $$ E(X^k), k=1,2,... $$ 存在,称它为 $X$ 的k阶原点矩,简称k阶矩。若 $$ E\{[X-E(X)]^k\}, k=2,3,... $$ 存在,称它为 $X$ 的k阶中心矩。若 $$ E(X^kY^l), k,l=1,2,... $$ 存在,称它为 $X$ 和 $Y$ 的k+l阶混合矩。若 $$ E\{[X-E(X)]^k[Y-E(Y)]^k\} $$ 存在,称它为 $X$ 和 $Y$ 的k+l阶混合中心矩。
显然,$X$ 的数学期望 $E(X)$ 是 $X$ 的一阶原点矩,方差 $D(X)$ 是 $X$ 的二阶中心矩,协方差 $Cov(X, Y)$ 是 $X$ 和 $Y$ 的二阶混合中心矩。
为了介绍 $n$ 维随机变量的协方差矩阵,先从二维随机变量讲起。二维随机变量 $(X_1, X_2)$ 有四个二阶混合中心矩(设它们都存在),分别记为 $$ \begin{split} c_{11} &= E\{[X_1 - E(X_1)]^2\} \\ c_{12} &= E\{[X_1-E(X_1)][X_2-E(X_2)]\} \\ c_{21} &= E\{[X_2-E(X_2)][X_1-E(X_1)]\} \\ c_{22} &= E\{[X_2 - E(X_2)]^2\} \end{split} $$
将它们排成矩阵的形式 $$ \begin{bmatrix} c_{11}\, c_{12} \\ c_{21}\, c_{22} \end{bmatrix} $$
这个矩阵称为随机变量 $(X_1, X_2)$ 的协方差矩阵 Covariance Matrix。
设 $n$ 维随机变量 $(X_1, X_2, ..., X_n)$ 的二阶混合中心矩 $c_{ij}=Cov(X_i, X_j)=E\{[X_i-E(X_i)][X_j-E(X_j)]\}, i,j=1,2,...,n$ 都存在,则称矩阵 $$ \begin{bmatrix} c_{11} & c_{12} & \cdot\cdot\cdot & c_{1n} \\ c_{21} & c_{22} & \cdot\cdot\cdot & c_{2n} \\ \vdots & \vdots & & \vdots \\ c_{n1} & c_{n2} & \cdot\cdot\cdot & c_{nn} \\ \end{bmatrix} $$ 为 $n$ 维随机变量 $(X_1, X_2, ..., X_n)$ 的协方差矩阵。由于 $c_{ij}=c_{ji}(i \neq j; i,j=1,2,...,n)$,因而上述矩阵是一个对称矩阵。
一般,$n$ 维随机变量的分布是不知道的,或者是太复杂,以致在数学上不易处理,因此在实际应用中协方差矩阵就显得重要了。
引入向量 $$ X=\begin{bmatrix}x_1\\ x_2\\ \vdots\\ x_n \end{bmatrix}, \mu=\begin{bmatrix}\mu_1\\ \mu_2\\ \vdots\\ \mu_n \end{bmatrix} = \begin{bmatrix}E(X_1)\\ E(X_2)\\ \vdots\\ E(X_n) \end{bmatrix} $$
$n$ 维正态随机变量 $(X_1, X_2, ..., X_n)$ 的概率密度定义为 $$ f(x_1, x_2, ..., x_n) = \frac{1}{(2\pi)^{\frac{n}{2}}(det C)^{\frac{1}{2}}}exp\{-\frac{1}{2}(X-\mu)^{T}C^{-1}(X-\mu)\} $$ 其中 $C$ 是 $(X_1, X_2, ..., X_n)$ 的协方差矩阵。
$n$ 维正态随机变量具有以下四条重要性质:
1) $n$ 维正态随机变量 $(X_1, X_2, ..., X_n)$ 的每一个分量 $X_i, i=1,2,...,n$ 都是正态随机变量;反之,若 $(X_1, X_2, ..., X_n)$ 都是正态随机变量,且相互独立,则 $(X_1, X_2, ..., X_n)$ 是 $n$ 维正态随机变量;
2) $n$ 维随机变量 $(X_1, X_2, ..., X_n)$ 服从 $n$ 维正态分布的充要条件是 $(X_1, X_2, ..., X_n)$ 的任意线性组合 $l_1X_1 + l_2X_2 + \cdot\cdot\cdot + l_nX_n$ 服从一维正态分布(其中 $l_1, l_2,..., l_n$)不全为零。
3) 若 $(X_1, X_2, ..., X_n)$ 服从 $n$ 维正态分布,设 $(Y_1, Y_2, ..., Y_n)$ 是 $X_j(j=1,2,...,n)$ 的线性函数,则 $(Y_1, Y_2, ..., Y_n)$ 也服从多维正态分布。这一性质称为正态变量的线性变化不变性。
4) 设 $(X_1, X_2, ..., X_n)$ 服从 $n$ 维正态分布,则" $(X_1, X_2, ..., X_n)$ 相互独立"与" $(X_1, X_2, ..., X_n)$ 两两不相关"是等价的。
In [ ]: