20世紀に発展し,今なお使われている推測統計の概要を 眺めて,その有力な武器である統計的検定の 意味と問題点を考える。
平均: $\mu = \frac{n+1}{2}$
分散: $\sigma^2 = \frac{n^2 -1}{12}$
$ f(x) = \frac{n!}{x!(n-x)!}p^x (1-p)^{n-x} $
\[ z = \frac{x-\mu}{\sigma} (標準化変換) \]
連続量データは母集団の正規分布性を仮定できることが多い。 その場合,2つの確率分布が使える。
母集団が$N[0,1]$,そこから$n$ 個のデータを抽出する。
\[ Z = X_1^2 + X_2^2 + ... + X_n^2 \]
$Z$ は自由度$n$ の $\chi^2$分布に従う。
\[ Z = \frac1{\sigma^2}\sum_{i=1} ^n (X_i -\mu)^2 \] は自由度 $n$ の$\chi^2$分布
\[ Z = \frac1{\sigma^2}\sum_{i=1} ^n (X_i -\overline{X})^2 = \frac{ns^2}{\sigma^2} \] は自由度 $n-1$ の$\chi^2$分布
母集団が$N[\mu,\sigma^2]$,そこから$n$ 個のデータを抽出する。
\[ T = \frac{\sqrt{n-1}(\overline{X}-\mu)}{s} \]
$T$ は自由度$n-1$ の t-分布に従う。
t-分布は区間推定で多用される確率分布
母集団がどうであれ,ランダムサンプリングしてやれば正規分布が生まれるというありがたい定理
$X_1, X_2, ..., X_n$ :
互いに独立な確率変数
ただし,どれも平均 $\mu$, 分散 $\sigma^2$で分布している。
平均 \[ \overline{X} = \frac1n\sum_{i=1}^{n}X_i \] を考えると,$n \rightarrow \infty $ の極限で,
$\overline{X}$ は正規分布 $N[\mu,\sigma^2/n] $ に従う。
ランダムに浮動する数値の重ね合わせは正規分布する。ありがたや
$[-0.5,0.5]$ の区間で一様分布する確率変数の和の分布を調べる。
アドルフ・ケトレがスコットランドの兵士 5736人の胸囲のデータを測って作ったヒストグラム
体格のデータは数多くの要因の重ね合わせで生じる。そのために正規分布に近い分布 が現れたのだろう。 →内在する中心極限定理の効果
健康診断などでは母集団が正規分布しているとみなせるものが多い。
$\overline{X}$ も当然確率変数。
一種の逆問題
標本平均の期待値は母平均に一致する。
\[ V[\overline{X}] = \frac{\sigma^2}{n} \]標本平均の分散は母分散に比例し,サンプルサイズに反比例する。
これらは母集団がどういう分布をしていても成立する。
標本分散は母分散よりちょっと小さくなる。
ここまでは問題なく使える。
\[ V[s^2] = \ldots\ldots \]標本分散の分散は母集団の性質に依存する。
母集団が正規分布していればχ二乗分布が現れる。
トウモロコシの実を調べたところ, 144 粒の種のうち黄色の種が 119 個,白の種 が 25個であった。メンデルの法則を念頭に置いて,この実が純系の黄色系(顕性),白色系(潜性)を親とする1代交配種であるという仮説は棄却できるか。 危険率を5%にとって検定せよ。
仮説:この実は2種類の純系の親からの雑種である。すなわち黄色と白色の種の出現確率は 3:1 である。
仮説が正しければ,黄色の種の数は $B[n,p]$の二項分布に従うはず。ここで $n=144, p = 3/4$
黄色の種の数の期待値は $\mu = np = 108 $, 標準偏差は $\sigma=\sqrt{np(1-p)} = 5.196$
実際に出現した数 $x = 119$,これを標準化変換する。 \[ z = \frac{x-\mu}{\sigma} = 2.11 \]
$z$ は標準正規分布のどこに位置しているか?
$1.960 < z < 2.326$ より, 97.5%の外,99% の内側
実際に出現した数は 95% の範囲の外側(棄却域)に落ちているので,危険率 5% で仮説は棄却される。
「97.5パーセント点なのにどうして?」
この場合に,データのずれは平均より大きい方にも小さい方にも発生する可能性があるから。 棄却域は左右両側にあるのだ。
p値 0.035で仮説は棄却できる。
こんなふうに表現して,危険率には特に言及しないことも多い。
古物商に25枚の「金貨」が持ち込まれた。その重さ(g)は下の通り
32.97, 36.37, 35.24, 36.03, 34.84, 33.63, 37.94, 33.48, 34.09, 33.74, 34.53, 36.86, 31.79, 35.61, 34.14, 34.51, 35.13, 32.83, 34.89, 32.19, 36.67, 36.01, 37.04, 35.1, 33.73
本物は $\mu = 35.03, \sigma = 0.925$
本物かニセモノかを検定で判断する。
\[ Z = \frac1{\sigma^2}\sum_{i=1} ^n (X_i -\mu)^2 \] は自由度 $n$ の$\chi^2$分布に従う。
計算してみると,$Z = 70.49 $
$\nu = 25$の $\chi^2$分布と照らし合わせる
70.49 は右側の棄却域に落ちる。
本物であれば分布の端の方に入る確率は小さいので, こいつはおそらく本物じゃなかろう。
あるモデルの基準となる統計量が定義できれば,実値との二乗和を使って検定が可能
独立なら$X$はある自由度をもつ$\chi^2$分布に従う。
→分布からはみ出せば独立 という仮説を棄却(何か傾向がある)
仮説=モデルとする確率分布上での仮想的な確率
「危険率 0.05 で棄却」は,「正しい確率が 0.95」ではない!
しかし上の誤解は多い。そもそも正しく理解していないようだ。
有力な医学雑誌 Lanset などは統計的検定を使った論文は アクセプトしない。
調査された世帯は全国の世帯から無作為抽出された2000世帯ほど
調査をやり直せば数字は揺らぐはず
『半分、青い』の視聴率の95%信頼区間は関西地区で $23.6\pm0.9$% だった。
真の視聴率 = $p$, 調査世帯数 = $n$, 視聴数の実値 = $x$
得られる視聴率= $x/n$: 二項分布 $B[n,p]$ に従って分布する。
$n$ が大きいので正規分布を使える。 $\mu = np, \sigma^2 = np(1-p)$ を使って $x$ を標準化変換
正規分布のパーセント点を使って区間を求める
『半分、青い』の視聴率の95%信頼区間は関西地区で $23.6\pm0.9$% だった。
視聴率が 22.7〜24.5%の間に入る確率は95%である。 (ただし調査にランダムに行われている限り)