L'Écart type et la variance

D'abord, une vidéo.


In [1]:
from IPython.display import YouTubeVideo
YouTubeVideo("RgH1XrzAd9M")


Out[1]:

Et aussi deux articles sur Wikipedia:

Définitions

$$\begin{aligned} E(X) &= \frac{1}{n} \sum_{i=1}^{n} X_i \\ \sigma_{X}^2 &= E\left[(X - E(X))^2\right] \quad &\text{la variance de }X \\ \sigma_{X} &= \sqrt{E\left[(X - E(X))^2\right]} \quad &\text{l'écart type de }X \end{aligned}$$

Mais on peut trouver une forme plus facile à manier.

Théorème de König-Huygens

On va déduire le théorème de König-Huygens, qui va nous donner la forme la plus connue de l'écart type.

$$\begin{aligned} \sigma_{X}^2 &= E\left[(X - E(X))^2\right] \\ &= E\left[X^2\right] - E\left[2XE(X)\right] + E\left[E(X)^2\right] \\ &= E(X^2) - 2E(X)^2 + E(X)^2 \\ &= E(X^2) - E(X)^2 \\ \sigma_{X} &= \sqrt{E(X^2) - E(X)^2} \end{aligned}$$

La variance

Je veux savoir $\newcommand{\Var}{\mathop{\mathrm{Var}}}\Var(aX+b)$ et $\Var(X+Y)$.

$$\begin{aligned} \Var(aX+b) &= E\left[(aX+b)^2\right] - E\left[aX+b\right]^2 \\ &= E\left[a^2X^2+2abX+b^2\right] - \left(aE(x)+b\right)^2 \\ &= a^2E(X^2)+2abE(X)+b^2 - \left(a^2E(X)^2 + 2abE(X) + b^2\right) \\ &= a^2E(X^2) - a^2E(X)^2 \\ &= a^2\left(E(X^2) - E(X)^2\right) \\ &= a^2\Var(E^2) \end{aligned}$$

C'est peut-être plus simple à voir si on traite la $a$ et la $b$ indépendamment. Le $a$ va s'échapper de $E\left((ax)^2\right) - E(ax)^2$, et les $b$s vont se neutraliser dans $E\left((aX - E(aX))^2\right)$.

Or, pour $\Var(X+Y)$, il nous faudra $\newcommand{\cov}{\mathop{\mathrm{cov}}}\cov(X,Y)$. Une définition.

$$\begin{aligned} \cov(X,Y) &= E\left[(X-E(X))(Y-E(Y))\right] \\ &= E\left[XY - XE(Y) - YE(X) + E(X)E(Y)\right] \\ &= E(XY) - E\left[XE(Y)\right] - E\left[YE(X)\right] + E\left[E(X)E(Y)\right] \\ &= E(XY) - E(X)E(Y) - E(Y)E(X) + E(X)(Y) \quad &A\text{ et }E(B)\text{ sont indépendants, même si les variables ne le sont pas} \\ &= E(XY) - E(X)E(Y) \\ E(XY) &= \cov(X,Y) + E(X)E(Y) \end{aligned}$$

Mais quand les variables $X$ et $Y$ sont indépendantes, $E(XY) = E(X)E(Y)$, et ainsi, on a $\cov(X,Y) = 0$ dans ce cas.

On continue avec $\Var(X+Y)$.

$$\begin{aligned} \Var(X+Y) &= E((X+Y)^2) - E(X+Y)^2 \\ &= E(X^2+2XY +Y^2) - (E(X)+E(Y))^2 \\ &= E(X^2)+2E(XY)+E(Y^2) - \left(E(X)^2 + 2E(X)E(Y) + E(Y)^2)\right) \\ &= \left(E(X^2)-E(X)^2\right) + \left(E(Y^2)-E(Y)^2\right) + 2\left(E(XY)-E(X)E(Y)\right) \\ &= \Var(X) + \Var(Y) + 2\cov(X,Y) \end{aligned}$$

La variance de $\bar{X}_n$

$$\begin{aligned} \Var(\bar{X}_n) &= \Var\left[ \frac{1}{n} \sum_{k=1}^{n} X_n \right] \\ &= \frac{1}{n^2} \sum_{k=1}^{n} \Var(X_n) \\ &= \frac{1}{n^2} n\Var(X) \\ &= \frac{\Var(X)}{n} \end{aligned}$$