確率分布のもう一つの特性値:分散

前回述べた「期待値」は、確率分布の位置(location)を表す特性値である。
もう一つの重要な特性値は分布の幅・ばらつきの大きさ(scale)である。
これは例えば、あるクラスの生徒の身長をメートル単位で表すかセンチメートル単位で表すかという単位の問題がある。
また、個人で余剰資金を貯めて運用するのに、銀行預金などのいわゆる無リスク資産として持つより、株や投資信託などのリスク資産として持つ方が、価格の変動がより大きい。これも確率分布の分散の大きさの違いと捉えることができる。
n個のデータがあった時の標本分散は以下の式で表される。

[math]
\hat{\sigma}^2=\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2
[/math]

一方、連続分布の場合の分散(二次のモーメント)は以下となる。

[math]
V(X)=\int (x-E(X))^2 f(x)dx
[/math]

データが正規分布に従っている場合に、分布の分散パラメータ[math]\sigma ^2[/math]の最尤推定量は上記の標本分散であるが、この推定量の確率変数としての平均値は真の平均値と一致しない。真の平均値と一致する推定量(不偏推定量)は以下のようにnでなくn-1で割ったものとなる。

[math]
s^2=\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2
[/math]