実験データでよく使う基本統計量のまとめ
2008年12月 清水顕史
n個の実測値(データ)x1,x2,…,xnが得られたとき、データの全体像を把握するのに便利な統計量を考える。
例えばイネ品種Kaの催芽種子に酸性ストレス処理を行い1週間後の根長(cm)が、4, 2.1, 2.9, 1.7, 2.3, 0.9になったとする(n =6)。このような実験で得られるデータは、標本抽出(サンプリング)といって、同じ条件の実験を無限に繰り返したときに得られるデータ全体(これを母集団という)の中から一部を抜き出したものと考える。統計量は標本そのものではなく、標本から推定する母集団を把握するために用いる。一部(=標本)から全体を推定するには、母集団に対しある仮定を行わなければならない。一般的に母集団は正規分布に従うと仮定することが多い、というのも正規分布は下式にその確率密度を示すように、μとσ2という2つの変量(パラメター)によって形が決まる確率分布であるため、この2つを推定できれば母集団の全体像を把握でき便利なためである。母集団の分布を決める変量を母数という。母数のうちでも特に平均を母平均、分散を母分散という。統計量は標本から母数を推定するためのものといえる。
正規分布の確率密度
正規分布(Normal Distribution)は母数を使ってN(μ, σ2)で表すことができる。“互いに独立に正規分布に従う変数の和も正規分布に従う”ことが知られており(この性質を再生性という)、測定機器の誤差や操作上の誤差・環境誤差のように幾重にも積みうる実験データの誤差を表すには大変便利な確率分布である。また、一般的な統計解析で用いる手法の多くは母集団が正規分布に従うことに基づいている。
標準正規分布 N(0,1)
(1)平均値(期待値)
平均値(期待値)はデータ全体の重心を表すもので、最も一般的な統計量である。真の母平均μは無限個(n = ∞)のデータの期待値を意味する。n個のデータの相加平均(算術平均)の期待値はμに等しいことが知られている。その期待値が真の母数に等しい推定量を不偏推定量という。
@
平均値はExcelではaverage関数で計算できる。
(2)分散
分散は、真の母平均μからのデータのバラツキを表すもので、平均値の次に一般的な統計量である。n個のデータの分散は、μからの偏差平方を平均することによって得られる。ただし、真の平均値μが不明である場合(一般的な実験データの場合)は、この式をそのまま使用することはできない。例えば、或るクラスの×月×日の英語の点数の分散を求める場合などμが計算可能な特殊な場合でのみ使用できる。
A
分散はExcelではVARP関数で計算する。
μが不明の場合の不偏分散については(4)に示す。
(3)標準誤差
真の母平均μからの標本平均の期待値はE[(
)2]である。
なので、
E[()2]=
となり、
=
=
=
ここで、第二項は、“独立な確率変数の関数の積の期待値はそれぞれの期待値の積で表される”という性質を使用すると、
になる。よって、
B
となる。ここで、Aの結果を用いた。
実験データを図示する際にエラーバーとして使用されることがある標準誤差(Standard errorつまりs.e.)は、E[()2]の平方根に等しい。つまり
である。s.e.は標本平均がどれだけ母平均μに近づけているかを示す値で、エラーバーは
±s.e.の範囲の中にμが含まれる確率が約68%であることを示している。標準誤差はデータの母平均を示すことに興味がある場合に用いる。
Excelではstdev関数でσを計算し、counta関数などで数えたサンプル数の平方根(sqrt関数)でσを割ることによって得られる。
(4)不偏分散
真の母平均μが得られない場合、不偏分散をどのように計算すればよいだろう。μの不偏推定量はなので、差し当たり
からの偏差の平均平方V2を考える。
ここで第三項は、
であるから、
ここで右辺の第一項は(2)の式Aよりσ2であり、第二項は(3)の式Bよりσ2/nである。
よって、E[V2]=σ2(1 - 1/n)となる。ここで、S2 =V2* n /(n-1)という値を考えてやると、E[S2]=σ2となり、S2は母分散σ2の不偏推定量となる。
C
よって、標本平均からの
の偏差の平方和をn-1で割ると、不偏分散S2が得られる。
不偏分散はExcelではVAR関数で計算できる。
不偏分散S2の平方根は本当は不偏推定量ではないが、標準偏差(s.d.)として知られデータのバラツキを示すためによく用いられる。エラーバーで示す±s.d.の範囲内には、母集団のデータの約68%が含まれると考える。標準偏差はExcelではstdev関数で計算する。
(5) 標準偏差(s.d.)と標準誤差(s.e.)の違い
標準偏差はσ、標準誤差はである。標準偏差は母集団のバラツキを推定するものさしであり、標準誤差は
の推定精度の高さを示す指標である。標準誤差はサンプル数nを増やすほど小さくする(より精度を高くする)ことができる。