t検定について理解したこと


検定手法そのものではなくて、概念(考え方)として、「ハンバーガーショップで学ぶ楽しい統計学 」で学んだこと。

1.母集団の推定
t検定は、標本(サンプル)から母集団を推定する手法に基づいている。
サンプルサイズに応じたt分布というのがあり、サンプルサイズが十分に大きい(自由度が無限大)とき、t分布=正規分布となる。

母集団の推定には、平均と不偏分散、をもちいる。
不偏分散とは、分散を求めるときに除する数値をサンプルサイズより1少なくする。

母集団の平均 = 標本の平均
母集団の分散 = 不偏分散
       =((データー平均)の2乗)の総和)/(個数−1)

2.母集団の平均(母平均)の推計
標本をたくさん集めたとき、それぞれの標本平均の分布はt分布にしたがう。
標本平均の平均は、母平均に一致する
標本平均の分散は、推定毋分散をサンプルサイズで割ったもの
つまり標本平均の分散は、標本自体の分散よりサンプルサイズ分だけ小さくなる。

標本平均の平均 ←標本平均を使う
標本平均の分散 ←毋分散(=不偏分散)/標本数

これを利用して、ある一つの標本から母集団の平均を推定するには、標本平均の分散から計算して得られる95%信頼区間(求めた値が分布の面積比95%の領域内にあるということ)によって推定値に幅をもたせる(区間推計)。
区間推計にはt分布表から自由度(サンプルサイズ−1)を参照してもとめたtを用いる。

信頼区間 = 標本平均±t×標本標準誤差

標本標準誤差 = 標本平均の標準偏差
       =(不偏分散/サンプルサイズ)の平方根

3.標本平均の差の信頼区間
標本平均の差(標本平均Aー標本平均B)の分布もまたt分布にしたがうので、上記信頼区間の式がそのまま使える(式の詳細は省略)。

平均の差の信頼区間 =(標本平均A-標本平均B)±t×差の標本標準誤差

標本平均の差から95%区間推計によってそれぞれの母集団の平均を推定したとき、その範囲に0が含まれると、もとの母平均は一致する可能性が95%ある(下の図はあくまでも理解を助けるためのイメージ図)。

t-test

4.t検定
上記の式で、有効区間=0とし、「母平均が等しい」との仮説を立てて、tの値をもとめると、tが1.96(自由度無限大の場合)より大きいか小さいかでその仮説の真偽を判定できる。

0=(標本平均A-標本平均B)±t×差の標本標準誤差

すなわち

t=(標本平均A-標本平均B)/差の標本標準誤差

t>1.96   のとき、「母平均は等しい」という確率が5%未満。

つまり、前提とした「母平均が等しい」ということは、あまり起こりえない(20回に1回程度)ので、仮説は間違っているとみなす。

t=<1.96 のとき、「母平均は等しい」ということが95%の確率で起こりうるので、仮説は正しい。

この読み取りを説明するのがまだうまくできないが、

「母平均は等しい」ということが95%の確率で起こりうるが、それは95%の信頼区間で推定した母集団(AとBの平均値の差)の最大値と最小値の範囲に0が含まれるというだけで、0になる確率がどのくらいかはわからない。

ということで良いのだろうと思う。

t検定は、「母平均が等しい」という仮説の検定であって、それ以上のことはわからない。


日 - 9 月 16, 2007   01:21 午後