Introduction
分散はなぜ偏差の絶対値ではなく2乗を使うのか。この話題は度々Twitterでもみかけます。
こういうのってちゃんと統計の講義を受けたら説明してもらえるんでしょうかね?筆者は高校でも大学でも統計をちゃんと教わったことがないので実際どうなっているのかわからないのですが、高校生向けの教材を見る限りにおいてはいきなり2乗が出てきて絶対値だとどうなるのかみたいなあまり詳しく扱われていないと思います。ただ、数理統計の教科書を読んでみると結構いろいろなことが書いてあります。
バイト1で必要に迫られちょくちょく調べて得た知見をもとに2乗以外だとどうなるのかということをまとめていきたいと思います。
何かツッコミや質問等ありましたらページ下部のコメントフォームまたはTwitterまでお願いします。
※スマホ版では数式が表示できないためPC版に切り替えて御覧ください。
目次
1. 分散と平均値
ある変数の列
このデータをある一つの値
:Mean Absolute Error(平均絶対値誤差) と、2乗した値を平均する
:Mean Squared Error(平均二乗誤差) とが考えられます。
誤差が小さい
より
いうまでもなくこれらは(算術)平均値と分散ですね。つまり平均値は平均二乗誤差を最小にするデータの代表値、分散はこれに対するデータの「ばらつき」であるとみなすことができます。
他の統計量と比べ数学的にも扱いやすく、特に正規分布との相性がよく正規分布の仮定をおけばさらに色々な情報が表せるため引っ張りだこな統計量です。
1.1. 不偏推定量
「数学的に扱いやすい」ということを見るため平均と分散の不偏性を確認してみましょう。
推測統計の立場から、上の
さて、この標本に対する統計量とは
詳しい計算は省きます3が、平均値は不偏推定量です。
分散はそのままでは不偏推定量ではありませんが、常に母分散の
さらに言えば、この期待値についての平均二乗誤差を考えてやるとこれが小さいほど母推定の信頼度が高いと言えます(より有効であるという4)。これは重み付け平均や中央値(中央値が不偏推定量となる場合(母分布が左右対称な場合など)に限る)よりも平均の場合のほうが小さく、この意味でも平均値は有用です。
2. 中央値と平均絶対偏差
前章で飛ばした
(
(
となるので、連続性から増減を考え
のときに
偶数のときは幅がありますが、
2.1. 中央値不偏推定量
さて、代表値と「ばらつき」を表す統計量が定義されたのでこれを使って母推定を行いたいですね。
結論から言えば中央値は一般には5不偏推定量ではありません。
このnote に標本中央値による推定と母中央値が一致しない具体例が示されている通り、標本中央値は期待値として母集団の性質を反映していません。
しかし、期待値とは確率分布に対する平均値です。中央値が相手の土俵で戦って真価を発揮しないのはある意味当然と言えるでしょう。
上記資料では引き続き「中央値不偏推定量(median-unbiassed estimator)」という推定量を導入しています。標本統計量に対して取る中央値が母推定量であるような統計量を定めたもので、中央値はめでたくこれに該当することがわかります。
2.2. 中央値絶対偏差
ところでMAEの定義には違和感があります。というのも偏差として
:Median Absolute Error(中央値絶対値誤差) (MAEという略称が被ってしまったので’をつけています)と呼ばれることがあります 6。
これが
3. "0-ノルム"と最頻値
「ばらつき」の定義として偏差の2乗と1乗の場合を見たのでそのままのノリで「0乗」の場合を考えてみましょう。
(Mean Zero-norm Error …というものが一般に定義されているわけではなく今名前をつけました。)
ここで「
このように定義した
この場合、
これもまた解析がしんどいので今後の課題としますが、中央値と同様、最頻値不偏性(mode-unbiassedness)を導入することもできるようです9
3.1. ∞ノルムでは?
指数を減らした場合があるのなら当然指数を増やしたバージョンも考えられます。
(これもまた造語)
これは
4. 「ばらつき」と距離
長くなりましたが以上で見たように、(統計的にどれくらい有用かを別として)様々な「距離」11の定義に応じて「ばらつき」を定義できるが、2乗の場合が一番使いやすそうだということが言えると思います。やはり微分可能であるというのが大きい。
最後に「距離」と統計量の対応をまとめてみます。
代表値 | 「ばらつき」 | 対応する「距離」 |
---|---|---|
平均値 | 分散 | |
中央値 | 平均絶対偏差 | |
最頻値 | 不正解率 | “0-ノルム” |
中点値 | 範囲/ |
参考文献
尾畑伸明(2014)『数理統計学の基礎』共立出版
Takayuki Uchiba (2020)「標本中央値は母中央値の不偏推定量か」note https://note.com/utaka233/n/n412b5e6e4c73
@greatonbi (2020)「腑に落ちない人のための不偏性と一致性の解説」 https://qiita.com/greatonbi/items/ec5db93ec70189704c0e
Lp空間 - Wikipedia
Average absolute deviation - Wikipedia
高校教材の校正業務をしています。最近統計必修化の対応でこの分野の問題が増えてきたためゆとりなんでわかんないですじゃ済まなくなってきて大変です。 ↩︎
この「データ」の扱いかたは立場によって変わってきます。記述統計の立場では表すべき全データ、推測統計の立場では母集団から確率的にサンプリングした標本、ベイズ統計の立場では逆に確率的に母集団パラメータを確率的に定めるデータというようになりますね。ベイズはともかく記述統計と推測統計の用語はしばしば入り交じるのでめちゃくちゃややこしいです。 ↩︎
『数理統計学の基礎』p170 ↩︎
左右対称な分布などでは中央値は平均値と一致し、不偏統計量となる。 ↩︎
斉次性(
)を満たさない ↩︎https://ja.wikipedia.org/wiki/Lp空間#p___の場合 なお、ちゃんと距離の定義を満たす別の「
ノルム」も存在するそうです。 ↩︎Sung, Nae-Kyung (1990) “An Optimality Criterion for Median-unbiased Estimators” Journal of the Korean Statistical Society - Sec.3 (読みかけ) ↩︎
数学的な距離の定義を満たさない"0-ノルム"も含む ↩︎
0 件のコメント:
コメントを投稿