1. 分散と平均値

ある変数の列 \( X _1, X _2, \ldots, X _n \) 2 があるとします。
このデータをある一つの値 \( \mu \) で代表したとき、その値がどれくらい信頼できるかという指標がほしいですね。代表値と各々のデータの誤差を絶対値として平均する

\( \displaystyle\mathrm{MAE} _\mu=\frac{1}{n}\sum _{i}^n |X _i - \mu| \)

:Mean Absolute Error(平均絶対値誤差) と、2乗した値を平均する

\( \displaystyle\mathrm{MSE} _\mu=\frac{1}{n}\sum _{i}^n (X _i - \mu)^2 \)

:Mean Squared Error(平均二乗誤差) とが考えられます。

誤差が小さい \( \mu \) の方が代表値として嬉しいのでこれらの誤差を最小にする \( \mu \) を考えてみますが、絶対値があると数式的に計算が面倒なので後に回し、まずは \( \mathrm{MSE} \) を計算してみます。

\( \displaystyle \frac{d}{d\mu} \mathrm{MSE} _\mu = \frac{1}{n}\sum _i 2(\mu^2-X _i) = 2\{\mu -(\frac{1}{n}\sum _iX _i)\} \)

より \( \mathrm{MSE} _\mu \) は \( \mu=\frac{1}{n}\sum _iX _i \) のとき極値をとります。導関数が \( \mu \) について1次なので明らかにこれは最小値で、代入すると \( \frac{1}{n}\sum _iX _i^2-(\frac{1}{n}\sum _iX _i)^2 \) を取ることがわかります。

1.1. 不偏推定量

推測統計の立場から、上の \( X _1, \ldots, X _n \) をある分布に従う母集団から無作為抽出した確率変数の集合=標本として見ます。この標本から母集団の性質を推定したいというのが推測統計の目的です。
さて、この標本に対する統計量とは \( X _1, \ldots, X _n \) を引数に取る関数であるので抽出に対しランダム性を持っています。このランダムネスに対して取った期待値が「真の値」=母集団の統計量と一致していると嬉しいのでこのような性質を持つ統計量を不偏推定量と呼びます。

分散はそのままでは不偏推定量ではありませんが、常に母分散の \( \frac{n-1}{n} \) 倍になっているので \( \frac{n}{n-1} \) 倍してやると不偏推定量になります。


2. 中央値と平均絶対偏差

前章で飛ばした \( \mathrm{MAE} _\mu \) についても考えていきます。
\( \mathrm{MSE} _\mu \) は \( \mu \) についての\( |\mathrm{1次式}| \)を足し合わせたものなので区分的に1次関数でかつ連続になっています。\( X _1, \ldots, X _n \) を昇順に並び替えたものを \( X’ _1, \ldots, X’ _n \) として、 \( \mu \) を \( \mu=X’ _i (i=1, \ldots, n) \) となる境界値で場合分けしていきます。

\( \mu\le X’ _1 \text{のとき}, \text{傾き}=-n \)
\( X’ _1\le \mu\le X’ _2 \text{のとき}, \text{傾き}=-n+2 \)
\( \vdots \)
(\( n \):偶数のとき)
\( X’ _{n/2-1}\le \mu\le X’ _{n/2} \text{のとき}, \text{傾き}=-2 \)
\( X’ _{n/2}\le \mu\le X’ _{n/2+1} \text{のとき}, \text{傾き}=0 \)
\( X’ _{n/2+1}\le \mu\le X’ _{n/2+2} \text{のとき}, \text{傾き}=2 \)
(\( n \):奇数のとき)
\( X’ _{(n-1)/2}\le \mu\le X’ _{(n+1)/2} \text{のとき}, \text{傾き}=-1 \)
\( X’ _{(n+1)/2}\le \mu\le X’ _{(n+3)/2} \text{のとき}, \text{傾き}=1 \)
\( \vdots \)
\( X’ _n\le \mu \text{のとき}, \text{傾き}=n \)

\( \begin{cases}X’ _{n/2}\le \mu \le X’ _{n/2+1}&:n\text{が偶数のとき}\\mu=X’ _{(n+1)/2} &:n\text{が奇数のとき}\end{cases} \)
のときに \( \mathrm{MAE} _\mu \) は最小になります。

偶数のときは幅がありますが、 \( \mu=\frac{X’ _{n/2}+X’ _{n/2+1}}{2} \) はこの範囲内なので、\( \mu \) が中央値のとき \( \mathrm{MAE} _\mu \) は最小になります。これはMean Absolute Deviation(平均絶対偏差)と呼んだりします。(ただし「平均絶対偏差」は\( \mu \)が平均値など他の統計量である場合も指すことがある。つまり”MAD”と言ったときにそれが中央値をを中心とした絶対偏差であるかどうかは文脈による。)

2.1. 中央値不偏推定量

このnote に標本中央値による推定と母中央値が一致しない具体例が示されている通り、標本中央値は期待値として母集団の性質を反映していません。
上記資料では引き続き「中央値不偏推定量(median-unbiassed estimator)」という推定量を導入しています。標本統計量に対して取る中央値が母推定量であるような統計量を定めたもので、中央値はめでたくこれに該当することがわかります。

2.2. 中央値絶対偏差

ところでMAEの定義には違和感があります。というのも偏差として \( |X _i-\mu| \) を取った後に全体をまとめるときに平均を使っている点です。MAEが中央値と関連しているのならば \( |X _i-\mu| \) の代表値としては中央値をとってもいいはずです。

\( \displaystyle\mathrm{MAE}’ _\mu=\mathrm{median}[ |X _i - \mu|\ (i=1, \ldots, n)] \)

:Median Absolute Error(中央値絶対値誤差) (MAEという略称が被ってしまったので’をつけています)と呼ばれることがあります 6

これが \( \mu=\mathrm{median}[X _i] \) で最小になりかつ中央値不偏統計量になっていてくれると大変きれいですがどうも中央値不偏にはならないようです。だいぶ計算がしんどいので詳しくはまたの機会にしますが、こういう統計的扱いやすさの差が平均・分散との使われ方の差になっているのかなと思います。

3. "0-ノルム"と最頻値


\( \displaystyle\mathrm{MZE} _\mu=\frac{1}{n}\sum _{i}^n |X _i - \mu|^0 \)

(Mean Zero-norm Error …というものが一般に定義されているわけではなく今名前をつけました。)
ここで「\( x^0 \)」は \( x=0 \) で定義されませんが、便宜的に \( 0^0=0 \) と定義します。
このように定義した \( \sum _{i} |x _i|^0 \) は距離の定義を満たさない7ものの、 \( L^p \)ノルムで \( p\to 0 \) とした極限であるため、"0-ノルム"と呼ばれることがある8そう。なお、本記事の MAE、MADはそれぞれ \( p=1,2 \) の \( L^p \)ノルムに相当します。

この場合、 \( X _i\neq \mu \) のときは \( 1 \) 、 \( X _i=\mu \) のときは \( 0 \) となるので、\( \sum _{i} |X _i - \mu|^0 \) はすなわち \( \# \{ i | X _i \neq \mu \}=n - \# \{i | X _i= \mu \} \) になります。
\( X _i= \mu \) である \( i \) の個数が最大の \( \mu \) とは他ならぬ最頻値のことであり \( \mathrm{MZE} \) は \( \mu \) で最小となります。


3.1. ∞ノルムでは?

\( p=3,4,\ldots \)と順に考えていけるはずですが、きりがないので一気に \( p\to \infty \) の極限を考えてみます。"0-ノルム"の場合に習って \( L^\infty \) ノルムを考えるとこの場合は \( |x| _\infty=\max\{|x _1|, |x _2|, \ldots \} \) となるので

\( \displaystyle\mathrm{MME} _\mu=\frac{1}{n}\max{|X _i-\mu|} \)

これは \( \mu \) が \( X _i \) の最大値と最小値の中点にある時(これには中点値と名付けられています10)に最小になり、範囲 \( R=\max _i{X _i}-\min _i{X _i} \) として最小値 \( R/2n \) をとります。

4. 「ばらつき」と距離



代表値 「ばらつき」 対応する「距離」
平均値 分散 \( L^2 \)ノルム (ユークリッド距離)
中央値 平均絶対偏差 \( L^1 \)ノルム (マンハッタン距離)
最頻値 不正解率 “0-ノルム”
中点値 範囲/\( 2n \) \( L^\infty \)ノルム (一様ノルム・チェビシェフ距離)


Takayuki Uchiba (2020)「標本中央値は母中央値の不偏推定量か」note https://note.com/utaka233/n/n412b5e6e4c73
@greatonbi (2020)「腑に落ちない人のための不偏性と一致性の解説」 https://qiita.com/greatonbi/items/ec5db93ec70189704c0e
Lp空間 - Wikipedia
Average absolute deviation - Wikipedia

  1. 高校教材の校正業務をしています。最近統計必修化の対応でこの分野の問題が増えてきたためゆとりなんでわかんないですじゃ済まなくなってきて大変です。 ↩︎

  2. この「データ」の扱いかたは立場によって変わってきます。記述統計の立場では表すべき全データ、推測統計の立場では母集団から確率的にサンプリングした標本、ベイズ統計の立場では逆に確率的に母集団パラメータを確率的に定めるデータというようになりますね。ベイズはともかく記述統計と推測統計の用語はしばしば入り交じるのでめちゃくちゃややこしいです。 ↩︎

  3. この記事なんかが実際に実験してみた結果も載っているのでわかりやすいと思います。 ↩︎

  4. 『数理統計学の基礎』p170 ↩︎

  5. 左右対称な分布などでは中央値は平均値と一致し、不偏統計量となる。 ↩︎

  6. https://en.wikipedia.org/wiki/Median_absolute_deviation ↩︎

  7. 斉次性(\( |ax|=a|x| \))を満たさない ↩︎

  8. https://ja.wikipedia.org/wiki/Lp空間#p___の場合 なお、ちゃんと距離の定義を満たす別の「\( L^0 \)ノルム」も存在するそうです。 ↩︎

  9. Sung, Nae-Kyung (1990) “An Optimality Criterion for Median-unbiased Estimators” Journal of the Korean Statistical Society - Sec.3 (読みかけ) ↩︎

  10. https://ja.wikipedia.org/wiki/要約統計量#中点値 ↩︎

  11. 数学的な距離の定義を満たさない"0-ノルム"も含む ↩︎