2020年9月12日土曜日

中心極限定理の使われ方が雑

 表題について、高校数学B「確率分布と統計的推測」の分野について議論したいと思います。

 ※数式や画像が多いのでPCモードでの閲覧を推奨します。スマートフォン版の方は「ウェブ バージョンを表示」をクリックしてください。

 高校数学での中心極限定理は「サンプル数 \(n\) が大きいときの二項分布 \(\mathrm{B}(n,p) \) は正規分布 \( N(np, \frac{p(1-p)}{n}) \) で近似できる」のような形で使われることが多いです。

 実際にこの性質を利用した問題はセンター試験にも出題されています。

 例として2017年度本試験数学②大問5では、(1)で事象の起こる確率 \(p=\frac{8}{27}\) と試行回数 \(n=152\) を求めた後、事象の起こる回数 \(W\)が38以上になる確率を求めよという問題がありました。

2017年センター本試験 数学② 大問5(2)
東進ドットコム 解答速報 から引用
 さて、誘導に沿って問題を解いてみます。
まず \( W\sim \mathrm{B}(n, p) \) [1] を正規分布で近似すると 
\[ W \sim\hspace{-.9em}\raise{1.05ex}{.}\hspace{.1em}\raise{-0.2ex}{.} \ \mathrm{N}(np, np(1-p)) \]
これを正規化して
\[ Z=\dfrac{W-{1216}/{27}}{{152}/{27}} \sim\hspace{-.9em}\raise{1.05ex}{.}\hspace{.1em}\raise{-0.2ex}{.} \  \mathrm{N}(0,1)\]
となります。ここから
\[ P(W\geq 38)=P(Z\geq-1.25)=P(0\leq Z\leq 1.25)+0.5\]
正規分布表から \(P(0\leq Z\leq 1.25)=0.3944\) と読み取れるので
\[ P(W\geq 38)=0.8944\fallingdotseq \underline{0.89} \]
[コサ]が求められます。

 ところで試行回数 \(n\) のうち起こる確率 \(p\) の事象が \(W\) 回起こる確率は \( {}_n \mathrm{C}_k p^k(1-p)^{n-k} \) で求められますよね。すなわち
\[ P(W\geq 38)= \sum_{k=38}^{152} {}_n \mathrm{C}_k \left(\frac{8}{27}\right)^k\left(1-\frac{8}{27}\right)^{152-k} \]
です。
 この値を計算してやると
\[\frac{33653006695169935368398710875490279090671133062832375432984836442909851024578153406720653472464602036893988778750761275112082009807140743185850783429484841877046240945268727009822247699465627606603232862322992279977984}{36922589523355488684862534309606828646354858539339639340108704606860278316954612223011926714496786380566924041472156813147058283837186067759425594341390772627248925636473894065900906894946778020270362243511617241359521}\]
\[\fallingdotseq 0.9114\ldots\]

 さて困りました。センター試験の模範解答 [2] によれば答えの近似値は \(0.89\) とあるのですが、誘導に従って正規分布表を使ったあとすべて放り投げて218桁の確率計算をゴリ押しして \(0.91\) と求めてしまった人は不正解になるのでしょうか?
\( P(W\geq 38)=0.91\ldots \) の方が近似値として正しいのに?
数学② 表紙
中日進学ナビ 解答速報 から引用
小数で答える場合は指定された桁数までの概数で回答することが指定されているのでこちらは厳密な数値が「\(=\)」で結ばれていてその近似値を解答欄に答えているとみなせます。

 今回の問題は最後の数式を「\(=\)」にしてしまったこと [3] と\(n\) がたった3桁しかないのに中心極限定理の近似精度を無視して答えを小数第2位までも求めさせてしまったこと [4] ですが、特に後者は今回の問題に限らず小・中・高に渡った数学教育の問題点だと考えます。
 \(\pi\) はもちろん \(3\) ではないし \(3.14\) でも \(3.14159265359\)でもありません。 \(\pi\) は \(\pi\) であって \(3.14\leq\pi<3.15\) とか \(\pi=3.14\ldots\) が「数学的に正しい」。 有効数字3桁の数、または小数第2位までの概数なのだからここまでしか求めらないし、ここまでしか求めなくて良い。1桁の概数であるとちゃんと言っていれば「円周率が3」とか「3.1」として概数計算すればいいのに、(せっかく小学4年生で概数を習っているのに)5年生では円周率で無駄に細かい小数計算をさせられる小学生が不憫です。
 「\( \log 2=0.3010 \)とする」も非常に気持ち悪い表現です。\( \log 2 \) と \( 0.3010 \) はもちろん異なる数値なので「小数第4位までの概数として一致する」という二項関係 [5] を導入していると解釈するしかありませんが、「数値として等価」の \(=\) と文脈上明らかに区別できる図形の合同や相似という同値関係には違う記号を割り当てているのに、ここでは \(\fallingdotseq\) を使わないという理由も無いでしょう。

 すこし脱線しましたが、センター試験でさえも中心極限定理の扱いが雑という話でした。我々の世代では高校数学では統計なんて全く触らないで来たという人も多いでしょうが、今後統計分野が必修化されるにつれこういう話をちゃんと扱えるようになっておく必要ができてくるのかな、と思います。

ご意見・感想・質問などは下のコメント欄かTwitterにてお願いします。



追記
 Twitterにて 問題文で \(P\) を近似値と定めているのでは?とご指摘を受けましたが「確率変数の条件を引数にとりその確率を返す表記 \(P(\bullet)\) 」って教科書で定義されてませんでしたっけ?手元に教科書がないので情報提供をいただけると助かります。



追々記 2020/09/15
 上記について、教科書を色々調べてみました。
・数学Advanced 数学B (東京書籍)(平成30年度新刊)
・高等学校 数学B (数研出版)(どの年度のものか不明)
・詳説数学B (啓林館)(平成25年度)
では「確率変数 \(X\) が値 \(k\) を取る確率を \(P(X=k)\)、 \(X\) が \(a≦X≦b\) の範囲にある確率を \(P(a≦X≦b)\) と表す。」のような記述が確認できました。
1冊だけ、
・数学Standard 数学B (東京書籍)(平成30年度新刊)
では「確率変数 \(X\) が値 \(k\) を取る確率を \(P(X=k)\) と表すと、 \(P(X=k)=~~\) 」のように一時的な宣言としてのみ使用されていました。



再追記 2020/09/24
・東京書籍 数学B(東京書籍)(平成24年度)
自分が使っていたものも調べてみましたが「数学Standard 数学B (東京書籍)」と同様定義の形では宣言されていませんでした。




[1]: 確率変数 \(X\) が 確率分布\(\mu(\theta)\) に従うことを \( X\sim\mu(\theta) \) と表記する。参考
[2]: 問題の参照元は東進だが大学入試センターからの模範解答は公開されているので違いはないと思われる
[3]: ここが「≒」であったならば「"正規分布表から求めた近似値"を問うているので0.89が答え」と言い張ってもよいのだが、「\( P(W\geq 38)=0.89\ldots \)」はどうしても誤りなのである
[4]: 中心極限定理の収束速度は高校範囲外であるので問えないし面倒なので私もここでは扱わないが、問題作成者は近似値がちゃんと近似できているのかくらいの確認を行う義務があろう
[5]: これは同値関係なんでしょうか。なんとなく推移律あたりが怪しい気がします(証明はしていない)

0 件のコメント:

コメントを投稿