マルコフ連鎖と隠れマルコフモデルの違いは何ですか?
1. 序章
表面的には、マルコフ連鎖(MC)と隠れマルコフモデル(HMM)は非常によく似ています。
2つの方法でそれらの違いを明らかにします。最初に、それらの数学的詳細に飛び込むことによって。 第二に、さまざまな問題を検討することにより、それぞれを使用して解決します。
一緒に、これはモデルとそれらの潜在的なアプリケーションの背後にあるロジックの深い理解を構築します。
それを行う前に、彼らの一般的な構成要素である確率過程から始めましょう。
2. 確率過程
要するに、確率過程は、などのインデックスによって順序付けられたランダムに描画された値のシーケンスです。
要素は確率分布から抽出されるため、シーケンスは確率的です。 それらは通常、自然のプロセスや現象の数学的モデルとして使用されます。
例としてポアソン点過程を取り上げましょう。
(1)
ここで、は何らかのイベントの発生数であり、は分布の期待値です。 後者は、サンプルを描画する前に予想される発生の平均数です。
この確率過程は、イベントがランダムに発生するが、時間の経過とともに平均的な割合で発生する場合に使用されます。 それは、特定の地域での自動車事故の数からニューロンが放出する活動電位の数まで、何でもかまいません。
結果として、各観測は次の観測とは関係がありません。 つまり、確率分布は時間の経過とともに一定です。 しかし、そうでなかったらどうしますか?
そこでMCが活躍します。
3. マルコフ連鎖/プロセス
異なる状態の1つになる可能性のある離散システムを考えてみましょう。 各状態には、他の状態に移行する確率があります。 これにより、遷移確率の行列である遷移行列を作成できます。
ステップについてシステムを観察し、シーケンスを取得するとします。ここで、はステップでのシステムの状態です。
前のステップでの観測を前提として、次の観測が状態にある確率はどれくらいですか?
良い、
つまり、次のことを意味します。
(2)
これは、MCプロセスとマルコフプロセスのどちらを使用しているかに関係なく当てはまります。 しかし、これら2つの違いは何ですか?
驚いたことに、それらが何を包含するかについてはあまり合意がありません。 この定義に落ち着きましょう:
離散状態空間を持つ確率過程はMCです。 ただし、状態空間が連続している場合、それはマルコフ過程です。
マルコフ過程の行列の代わりに遷移カーネルを使用します。 さらに、両方のマルコフモデルを離散時間または連続時間で分割できます。
3.1. アプリケーション
重要なのは、物理システムの測定/観測にマルコフモデルを適用する場合、マルコフ性を仮定する必要があるということです。 さらに、遷移行列は時間の経過とともに変化しないため、物理システムは同じであると想定する必要があります。
そこから、システムの状態をモデル化する方法を決定する必要があります。 観測を個別の状態に分類しますか、それとも連続的にすることを許可しますか? また、離散時間または連続時間についても同じ選択を行う必要があります。
この情報を使用して、2つの異なる方法で進めることができます。
まず、いくつかの観測された状態のシーケンスを使用して、遷移行列を較正するとします。 これは、最尤推定(MLE)を使用して実現できます。 つまり、これは「私たちが持っているデータを最もよく説明するモデルのパラメーターは何ですか?」と尋ねます。
次に、反対のことを行うことができます。遷移行列パラメーターの選択に十分な自信があり、特定のシーケンスの可能性を評価したいと考えています。
簡単な例を使用して、これら2つのアプローチを調べてみましょう。
今後数日でそこにいるアリの数を予測したいと思います。 ある箱にアリがいるとしましょう。 毎日、箱の小さな部分にいるアリの数を数えます。
これらの状態がマルコフ性に従い、翌日のアリの数は1だけ増減できると仮定しましょう。
したがって、パラメーターを使用する代わりに、パラメーターのみを使用します。 また、さらに単純化して、これらの確率が小さなセクションの現在のアリの数にのみ依存すると仮定しましょう。
(3)
これで、パラメーターの代わりに、次の1つだけがあります。
このパラメータを推定するために、小さなセクションのアリの数のシーケンスを取得します。 MLEを使用してを取得するとします。 次の図は、50匹のアリから始まり、平均軌道が黒で示されている20個のシミュレートされたシーケンスを示しています。
このことから、アリは箱のその部分をますます避けているように見えると結論付けます。 これは、なぜこれが起こっているのかについてのさらなる調査を促す可能性があります。
ばかげた例ですが、MCを使用することの有用性をうまく示しています。
一部のシステムは、取得が数学的に困難または計算コストの高い確率分布で動作します。 このような場合、分布は、サンプリングに費用がかからない別の分布からサンプリングすることによって近似する必要があります。 このような方法は、マルコフ連鎖モンテカルロの一部です。
4. 隠れマルコフモデル
MCの状態を直接観察することができます。 HMMは、2次シーケンスしか観察できない場合に使用されます。 つまり、基本的な状態のシーケンスはhiddenです。
重要なことに、この2次シーケンスは、非表示状態のシーケンスに依存します。 したがって、この観測されたシーケンスは、隠されたシーケンスに関する情報を提供します。
非表示の状態が遷移行列を持っているように、二次状態は
これで2つの行列があるため、パラメーターの数は状態の数とともに急速に増加する可能性があります。
説明するために、可能な観測状態と非表示状態があると仮定しましょう。
行列の要素は確率であるため、各行の合計は1になる必要があります。 したがって、最後のパラメーターは1から確率の合計を引いたものであるため、各非表示状態にはパラメーターがあります。 このように、遷移行列を決定するためのパラメーターがあります。
同様に、各非表示状態は、異なる状態の1つを「放出」します。 これらの状態確率は合計して1になる必要があります。 したがって、放出マトリックスのパラメータがあります。
まとめると、パラメータがあります。 さらに悪いことに、状態がスカラーではなくベクトルである場合、スケーリングはさらに壊滅的になります。
Forward Algorithm のような動的計画法は計算を高速化しますが、HMMは隠れ状態がほとんどないシステムでのみ計算上実行可能です。
それにもかかわらず、HMMにはMCよりもはるかに幅広いアプリケーションのセットがあります。
4.1. アプリケーション
大まかに言えば、 HMMは、観察された状態のシーケンスがいくつかの未知の根本的な要因に依存する場合に賢明なオプションです。
MCは根本的な要因を明示的に考慮しないため、ここでは適切な選択ではありません。
それでも、HMMを自然システムに適用することはMCのアプローチと似ています。 主な追加要因は、隠れた状態です。
アプリケーションは、モデルパラメータについての情報量によって異なります。 2つの主要なものの概要を簡単に説明しましょう。
まず、遷移行列要素と放出行列要素の両方がわからない場合は、統計的学習に依存する必要があります。
MCの例では、MLEを使用して、モデルパラメーターの最適な選択を決定しました。 HMMの場合、多くのパラメーターがあるため、より効率的な方法が必要です。 バウムウェルチアルゴリズムはその一例です。
次に、上の図に示すように、モデルパラメータがわかっていれば、予測を実行できます。
これをより直感的に理解するために、簡単な例に戻りましょう。
予測した100日間の小さなセクションのアリの数を測定したとしましょう。 軌道が私たちの予測とまったく一致しなかったことがわかります。
さらに、アリは2つの行動段階を示すことが通知されます。1つはアリがセクションに入るようにバイアスをかけるもので、もう1つは反対の段階を行うものです。 これらは私たちの隠された状態です。
セクション内のアリの数を調べる代わりに、アリが去ったか到着したかを確認します。 したがって、2つの観測可能な状態があります。
遷移と放出のマトリックスは次のとおりです。
(4)
グラフィカル形式:
ここで、100日間サンプルを収集し、バウムウェルチアルゴリズムを使用して、そのデータを説明する可能性が最も高いパラメーターを決定するとします。
(5)
以前と同じように軌道をシミュレートし、エンターバイアス状態から開始すると仮定します。
今回は、単一の軌道の図も追加します。 また、それぞれ、エンターバイアスとリーブバイアスの2つの状態が緑と赤で含まれます。
ご覧のとおり、隠された状態はアリの行動にうまく対応しています。
このような予測以外にも、システムのプロパティを推測するための他の多くの分析があります。
5. 結論
この記事では、確率過程とは何かについて説明しました。 MCとHMMの概要を説明し、その知識を使用してそれらの違いを明確にするための簡単な例に適用しました。
どちらの方法にも、この記事の範囲外の膨大な数のアプリケーションと拡張機能があることを強調する価値があります。