統計学セミナー—

20世紀の統計学を牽引したモデル思考―統計的検定の意味をめぐって

小波秀雄

この講演の目的

20世紀に発展し,今なお使われている推測統計の概要を 眺めて,その有力な武器である統計的検定の 意味と問題点を考える。

基本的な確率分布(離散型)

一様分布(離散型)

\[ f(x) = \frac1n,\: (1 \le x \le n) \]

平均: $\mu = \frac{n+1}{2}$

分散: $\sigma^2 = \frac{n^2 -1}{12}$

二項分布 $B[n,p]$

$ f(x) = \frac{n!}{x!(n-x)!}p^x (1-p)^{n-x} $

  • 平均: $\mu = np$
  • 分散: $\sigma^2 = np(1-p)$

  • ポアソン分布 $P[\mu]$

    \[ f(x) = \frac{\mu^x}{x!} e^{-\mu} \]

  • 平均: $\mu$
  • 分散: $\sigma^2 = \mu$
  • 基本的な確率分布(連続型)

    一様分布(連続型)

    \[ f(x) = \frac1a,\: (0 \le x \le a) \]

    • 平均: $\mu=\frac{a}{2}$
    • 分散: $\sigma^2 = \frac{a^2}{12}$

    正規分布

    標準正規分布 $N[0,1]$

    \[ f(x) = \frac1{\sqrt{2\pi}} \exp({\frac{-x^2}{2}}) \]

    一般の正規分布 $N[\mu,\sigma^2]$

    \[ f(x) = \frac1{\sqrt{2\pi} \sigma} \exp({\frac{-(x-\mu)^2}{2\sigma^2}}) \]

    • 平均:$\mu$
    • 分散: $\sigma^2$

    両者の関係

    \[ z = \frac{x-\mu}{\sigma} (標準化変換) \]

    正規母集団からの標本抽出で現れる確率分布

    連続量データは母集団の正規分布性を仮定できることが多い。 その場合,2つの確率分布が使える。

    Χ二乗分布

    母集団が$N[0,1]$,そこから$n$ 個のデータを抽出する。

    \[ Z = X_1^2 + X_2^2 + ... + X_n^2 \]

    $Z$ は自由度$n$ の $\chi^2$分布に従う。

    \[ T_n(x) = \frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2} \]

    $N[\mu,\sigma^2]$ に従う母集団から $n$ 個抽出

    \[ Z = \frac1{\sigma^2}\sum_{i=1} ^n (X_i -\mu)^2 \] は自由度 $n$ の$\chi^2$分布

    \[ Z = \frac1{\sigma^2}\sum_{i=1} ^n (X_i -\overline{X})^2 = \frac{ns^2}{\sigma^2} \] は自由度 $n-1$ の$\chi^2$分布

    t-分布

    母集団が$N[\mu,\sigma^2]$,そこから$n$ 個のデータを抽出する。

    \[ T = \frac{\sqrt{n-1}(\overline{X}-\mu)}{s} \]

    $T$ は自由度$n-1$ の t-分布に従う。

    t-分布は区間推定で多用される確率分布

    中心極限定理と正規分布

    母集団がどうであれ,ランダムサンプリングしてやれば正規分布が生まれるというありがたい定理

    $X_1, X_2, ..., X_n$ : 互いに独立な確率変数
    ただし,どれも平均 $\mu$, 分散 $\sigma^2$で分布している。

    平均 \[ \overline{X} = \frac1n\sum_{i=1}^{n}X_i \] を考えると,$n \rightarrow \infty $ の極限で,

    $\overline{X}$ は正規分布 $N[\mu,\sigma^2/n] $ に従う。

    ランダムに浮動する数値の重ね合わせは正規分布する。ありがたや

    ちょっとしたシミュレーション

    $[-0.5,0.5]$ の区間で一様分布する確率変数の和の分布を調べる。

    そのままで正規分布するデータも

    アドルフ・ケトレがスコットランドの兵士 5736人の胸囲のデータを測って作ったヒストグラム

    体格のデータは数多くの要因の重ね合わせで生じる。そのために正規分布に近い分布 が現れたのだろう。 →内在する中心極限定理の効果

    健康診断などでは母集団が正規分布しているとみなせるものが多い。

    無作為標本抽出

    \[ \overline{X} = \frac1n \sum_1^n X_i : 標本平均 \] \[ s^2 = \frac1n (X_i - \overline{X}) : 標本分散 \]

    標本平均と標本分散は確率変数である。

    $\overline{X}$ も当然確率変数。

    フィッシャーらが創始した推測統計

    標本平均,標本分散から $\mu$, $\sigma^2$ を知ることができるか?

    一種の逆問題

    いつでも使える簡単な関係

    標本平均$\overline{X}$の期待値(平均)と分散

    \[ E[\overline{X}] = \mu \]

    標本平均の期待値は母平均に一致する。

    \[ V[\overline{X}] = \frac{\sigma^2}{n} \]

    標本平均の分散は母分散に比例し,サンプルサイズに反比例する。

    これらは母集団がどういう分布をしていても成立する。

    標本分散($s^2$)の期待値(平均)と分散

    \[ E[s^2] = \frac{n-1}{n} \sigma^2 \]

    標本分散は母分散よりちょっと小さくなる。

    ここまでは問題なく使える。

    \[ V[s^2] = \ldots\ldots \]

    標本分散の分散は母集団の性質に依存する。

    母集団が正規分布していればχ二乗分布が現れる。

    仮説検定とはなにか

    平均値を検定する

    トウモロコシの実を調べたところ, 144 粒の種のうち黄色の種が 119 個,白の種 が 25個であった。メンデルの法則を念頭に置いて,この実が純系の黄色系(顕性),白色系(潜性)を親とする1代交配種であるという仮説は棄却できるか。 危険率を5%にとって検定せよ。

    仮説とはなにか

    仮説:この実は2種類の純系の親からの雑種である。すなわち黄色と白色の種の出現確率は 3:1 である。

    仮説が正しければ,黄色の種の数は $B[n,p]$の二項分布に従うはず。ここで $n=144, p = 3/4$

    黄色の種の数の期待値は $\mu = np = 108 $, 標準偏差は $\sigma=\sqrt{np(1-p)} = 5.196$

    実際に出現した数 $x = 119$,これを標準化変換する。 \[ z = \frac{x-\mu}{\sigma} = 2.11 \]

    $z$ は標準正規分布のどこに位置しているか?

    $1.960 < z < 2.326$ より, 97.5%の外,99% の内側

    検定の結果:

    実際に出現した数は 95% の範囲の外側(棄却域)に落ちているので,危険率 5% で仮説は棄却される。

    細かい補足

    「97.5パーセント点なのにどうして?」

    この場合に,データのずれは平均より大きい方にも小さい方にも発生する可能性があるから。 棄却域は左右両側にあるのだ。

    p値について

    p値 0.035で仮説は棄却できる。

    こんなふうに表現して,危険率には特に言及しないことも多い。

    $\chi^2$検定は多彩

    金貨の真贋を検定する

    古物商に25枚の「金貨」が持ち込まれた。その重さ(g)は下の通り

    32.97, 36.37, 35.24, 36.03, 34.84, 33.63, 37.94, 33.48, 34.09, 33.74, 34.53, 36.86, 31.79, 35.61, 34.14, 34.51, 35.13, 32.83, 34.89, 32.19, 36.67, 36.01, 37.04, 35.1, 33.73

    本物は $\mu = 35.03, \sigma = 0.925$

    本物かニセモノかを検定で判断する。

    これを使ってみる

    \[ Z = \frac1{\sigma^2}\sum_{i=1} ^n (X_i -\mu)^2 \] は自由度 $n$ の$\chi^2$分布に従う。

    計算してみると,$Z = 70.49 $

    $\nu = 25$の $\chi^2$分布と照らし合わせる

    70.49 は右側の棄却域に落ちる。

    仮説が意味をもつのは棄却された時

    本物であれば分布の端の方に入る確率は小さいので, こいつはおそらく本物じゃなかろう。

    $\chi^2$検定はいろいろある

    あるモデルの基準となる統計量が定義できれば,実値との二乗和を使って検定が可能

    「なんとか検定」が腐るほどある。

    独立性の検定

    600人に音楽と色の好みを聞いてみた

    仮説:2組のデータは独立

    \[ X = \sum_{i=1}^m\sum_{j=1}^n \frac{(x_{ij} - a_ib_j/N)^2}{a_ib_j/N} \]

    独立なら$X$はある自由度をもつ$\chi^2$分布に従う。

    →分布からはみ出せば独立 という仮説を棄却(何か傾向がある)

    仮説検定の数値は何を意味している?

    危険率,p値は確率を意味するか?

    NO!

    危険率 0.05 とかp値 0.05 の意味?

    仮説=モデルとする確率分布上での仮想的な確率

    「危険率 0.05 で棄却」は,「正しい確率が 0.95」ではない!

    しかし上の誤解は多い。そもそも正しく理解していないようだ。

    医学統計の最近の動き

    有力な医学雑誌 Lanset などは統計的検定を使った論文は アクセプトしない。

    代わりに何を?

    論文には区間推定の値を載せること

    信頼区間の推定

    信頼区間とは

    「『半分、青い』の視聴率は関西地区で 23.6% だった」

    これは正確ではない。

    調査された世帯は全国の世帯から無作為抽出された2000世帯ほど

    調査をやり直せば数字は揺らぐはず

    視聴率の正しい発表の仕方(区間推定の結果も付ける)

    『半分、青い』の視聴率の95%信頼区間は関西地区で $23.6\pm0.9$% だった。

    視聴率調査の数理

    真の視聴率 = $p$, 調査世帯数 = $n$, 視聴数の実値 = $x$

    得られる視聴率= $x/n$: 二項分布 $B[n,p]$ に従って分布する。

    $n$ が大きいので正規分布を使える。 $\mu = np, \sigma^2 = np(1-p)$ を使って $x$ を標準化変換

    正規分布のパーセント点を使って区間を求める

    区間推定の意味

    『半分、青い』の視聴率の95%信頼区間は関西地区で $23.6\pm0.9$% だった。

    視聴率が 22.7〜24.5%の間に入る確率は95%である。 (ただし調査にランダムに行われている限り)

    区間推定の結果には,確率としての意味がある。

    以上です。 ご自由に質問なさってください。