• 分散
  • 標準偏差

偏差とは

各データの平均値からの差のこと

平均偏差

偏差の平均値を取りたいが全部足すと0になる. なので, マイナスの偏差はマイナスを取り, 偏差の平均を取る.
平均からの距離を, 平均したもの

$$ \frac{1}{n}\sum_{i=1}^{n}|x_{i}-\bar{x}| $$

偏差を足し合わせてデータ数:nで割っている. つまり平均をとっている.
$ |x_{i}-\bar{x}| $ は, 絶対値を取り, 偏差を全てプラスに変えている.
(ここでの$ \bar{x} $ は平均値のことっぽい)

分散(variance)

分散の直感的なイメージ いろいろなサイズの正方形(二乗しているので)を足し, データの個数で割り, 面積の平均を求める.

$$ \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} $$

二乗した誤差を足し合わせてデータ数:nで割っている. つまり二乗誤差の平均をとっている.
$ (x_{i}-\bar{x})^{2} $ は, 二乗して, 偏差を全てプラスに変えている.
二乗は, 面積をイメージして良い.

標準偏差(standard deviation)

二乗した面積のイメージをルートの計算をすることで長さに戻す. $$ \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} $$

相関係数(correlation coefficient)

$$ r = \frac{\frac{1}{n}\sum_{i=1}^{n}( x_{i}-\bar{x})(y_{i}-\bar{y})}{{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}} $$

分母の $\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}$ と $\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}$ は標準偏差と同じであり, 二乗しているのでかならずプラスになる.

分子の $\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})$ を共分散という. $(x_{i}-\bar{x})$ 横軸, $(y_{i}-\bar{y})$ 縦軸の,平均からの距離(偏差) 平均より小さいところはマイナスになる.


In [ ]: