信号解析 第2回講義録
日時:2006年4月17日
講義内容:時系列信号の確率・統計処理
担当者:情報知能工学科 小島史男
1. はじめに
さていよいよ信号解析の講義にはいっていきます。先週述べたように、今期で扱う信号はランダムな信号です。したがってその取り扱いの基本は確率・統計量です。今回は時系列信号の統計的記述について学習します。スペクトル解析では教科書を指定しましたが、今回はノート講義が中心です。それではわかりにくいという受講者もいますので、ここで参考図書をあげておきます。講義の内容はだいたい
北川源四郎 著 時系列解析入門 岩波書店 (2005) ISBN4-00-005455-4
にそって進めていきますので、参考にしてください。また英語による学習のほうが便利なひとは当方に相談してください。学力レベルにあわせた参考図書を案内します。それでは、前回シミュレーションをおこなったRandom Walkの統計的記述をまず例に挙げて説明にはいりましょう。
2. 酔歩(Random Walk)
最初()コインをトスして表(Head)がでたときは+1、裏(Tail)がでたときは-1進むときの現在位置を
とすると時系列信号ができることは最初の講義で示しました。この信号は
のように記述することにします。このYのことを確率変数といいます。この確率変数は
の2つの離散値しかとりませんが、どちらをとるかは確率によって決まります。表がでる確率と裏がでる確率はそれぞれつぎのように与えることができます。
このとき確率変数の期待値(平均値)は
となります。また分散は
となり、Yは平均値0分散1の確率変数ということになります。このように、時系列信号では確率的な取り扱いを行います。
3. 連続確率変数
ところで、もしわれわれの日常生活におけるデータを確率変数としてとらえたとき、どのような取り扱いが必要でしょうか。先週の講義では楽天の株価変動を時系列信号の例としてあげました。この変数の適用範囲は円という貨幣単位ですから、この信号は自然数となるでしょう。また1日の気温の変化の記録はどうでしょうか。温度の物理量は実数ということになります。また交流の電気信号なら複素数となるでしょう。ここでは簡単のため確率変数が
で値域が与えられる場合について考えましょう。この場合確率を
で与えます。ここで
は以下の性質をもつ単調増加関数とします。
またこの関数がyについて連続で微分可能とすれば次の関数を定義することができます。
これらの関数をそれぞれ分布関数、確率密度関数と呼びます。これらを用いると酔歩と同様に、連続確率変数の平均値および分散はそれぞれ次のように記述することができます。
4. 時系列の統計量
時系列が実数値の確率変数で与えられるとき、前節の結果でその統計量を記述することができます。平均値や分散はそれぞれ
と記述できます。これらは時間の関数nに依存して決まりますので、それぞれ平均値関数、分散関数と呼ばれます。ところで、前回の講義でも説明しましたように、時系列では時間の経過のあいだの関係性を記述できることが本質的です。このままですと時間nごとの統計量だけでは、時間変化の統計的記述はできていません。先週時系列の特徴をつかむのに散布図の例を挙げました。散布図は時系列の時間差の分布を2次元座標に落としたものですが、これに関連する統計量として以下に示す自己共分散関数があります。
時系列の統計量として平均値関数、分散関数に加え、自己共分散関数という特徴量を考えていくことになります。
5. 弱定常過程
一般的には時系列の統計量としては、
が同時に起こる同時分布関数、同時確率密度分布を考えないといけないことになります。しかしこれは問題を大変複雑化してしまうので、すこし制限を設けましょう。いま、時系列
の平均値関数、分散関数が時間nに依存しない(すなわち定数値)、そして自己共分散関数は時間差のみに依存するとします。すなわち、下記に示す統計量をもつ時系列
のことを弱定常確率過程と呼びます。
さらに自己共分散関数を規格化した自己相関関数
は大変便利な指標です。この値はかならず-1と+1の間で値をとります。正数の場合“正の相関”、負数の場合“負の相関”、また0に近いほど関係が薄く、1に近いほど関係が強いということが評価できます。
6. 時系列データの統計量の推定
では本日の講義でもっとも重要な部分を最後に学習します。これまでの講義で時系列信号の統計量について、それがもし弱定常過程ならば平均値(定数)、自己共分散関数(時間差の関数)、自己相関関数(値域[-1,1])で記述できることがわかりました。でも少し考えてみると、われわれが日常取得できる時系列がはたして弱定常過程なのでしょうか。これはよく考えていかないといけないことですがこの問題はこれから少しずつ考えていくことにします。とりあえず実数値弱定常過程としましょう。それでもまだ問題があります。平均値、自己共分散関数、自己相関関数を計算するには、結局確率密度関数g(y)を知っている必要があります。しかしわれわれのまわりの信号の分布はわかりませんので、何らかの方法で結局推定せざるを得ません。そのひとつの方法は、分布の形を仮定することです。確率モデルとはそのようなもので、たとえばガウス型時系列分布としてのブラウン運動はその典型例です。もうひとつの方法は時系列データから直接推定する方法です。実数値をとる定常時系列の推定統計量として以下の3つの特徴量を紹介します。
(1) 平均の推定値
(2) 自己共分散関数の推定値
(3) 自己相関関数の推定値
これらの推定統計量は時系列のサンプリングデータに基づいて計算できるので、それぞれの統計量に標本という接頭語をつけて、標本平均、標本自己共分散関数、標本自己相関関数と呼びます。これらの推定量はサンプリングデータから直接計算できますが、これがなぜ意味をもつのでしょうか。教科書にはあまり詳しく書いていませんが、弱定常確率過程にエルゴード性を仮定すれば、この標本数Nを無限にとっていけば、前節で紹介した統計量に確率1で収束することが保証されています。したがって弱定常過程であれば、上記3つの統計量が十分よい近似を与えることになります。どちらにしても時系列データから直接計算できるのはこの3つの統計量ということになります。この講義の後半では、この推定量をExcelで求めて、時系列の特徴を調べていくことにします。
本日の宿題:適当な時系列信号を作成し、その標本平均、標本自己共分散関数から標本自己相関関数を求め図示してください。レポートはA4用紙に記入してください。わからない場合は金曜日午前中11時から12時までのあいだでしたら対応できます。部屋は自然科学研究科3号館301号室です。
注:Excelのマクロを使用するにはマクロのセキュリテイを中にしないといけません。Excel2003では、「ツール」->「マクロ」->「セキュリテイ」と進み、設定を「中」にして実行してください。またVBAを使うには「ツール」->「マクロ」->「Visual
Basic Editor」と進んでください。ダウンロードしたファイルにはそれぞれプログラムが入っています。