1. 序章

マルコフ決定過程(MDP)を介して、強化学習問題を定式化できます。 このような問題の本質的な要素は、環境、状態、報酬、ポリシー、および価値です。

ポリシーは、状態からアクションへのマッピングです。 最適なポリシーを見つけることは、最大の報酬を生み出すことにつながります。 MDP環境では、動的計画法アルゴリズムを使用して最適なポリシーを計算できます。これにより、各州で将来の報酬の合計が可能な限り高くなります。

動的計画法アルゴリズムは、環境のMDPの完全なモデルがあることを前提として機能します。 したがって、ワンステップの先読みアプローチを使用して、考えられるすべてのアクションの報酬を計算することができます。

このチュートリアルでは、特定のMDPに最適なポリシーを見つける方法について説明します。 具体的には、値の反復とポリシーの反復という2つの動的計画法アルゴリズムについて学習します。次に、これらのアルゴリズムの長所と短所について説明します。

2. ポリシーの反復

ポリシーの反復では、任意のポリシーを選択することから始めます。 次に、収束するまでポリシーを繰り返し評価して改善します。

状態値関数を計算してポリシーを評価します。

   

次に、ワンステップ先読みを使用して初期ポリシーを置き換えることにより、改善されたポリシーを計算します。

   

ここで、はアクションを実行することによって生成される報酬であり、は将来の報酬の割引係数であり、は遷移確率です。

最初は、最初のポリシーが最適であるかどうかは気にしません。 実行中は、ポリシー評価とポリシー改善の手順を繰り返すことにより、反復ごとに改善に集中します。 このアルゴリズムを使用して、一連のポリシーを作成します。各ポリシーは、前のポリシーよりも改善されています。

   

ポリシーが改善されなくなるまで、ポリシー評価とポリシー改善の手順を実行します。

有限MDPには有限数のポリシーがあるため、定義されたプロセスは有限です。 最終的に、最適なポリシーと最適な値の関数の収束が保証されます。

3. 価値の反復

値の反復では、推定値を繰り返し更新することにより、最適な状態値関数を計算します。

ランダム値関数から始めます。 各ステップで、それを更新します。

   

したがって、1つのステップを先読みし、各反復で可能なすべてのアクションを調べて、最大値を見つけます。

更新ステップは、ポリシー反復アルゴリズムの更新ステップと非常によく似ています。 唯一の違いは、値の反復アルゴリズムで可能なすべてのアクションを最大限に活用することです。

値反復アルゴリズムは、評価してから改善する代わりに、状態値関数を1つのステップで更新します。 これは、先を見越して可能なすべての報酬を計算することで可能になります。

値反復アルゴリズムは、最適値に収束することが保証されています。

4. ポリシーの反復と 価値の反復

ポリシーの反復と値の反復はどちらも、強化学習環境で最適なポリシーを見つける動的計画法アルゴリズムです。どちらも、ベルマンの更新のバリエーションを採用し、ワンステップの先読みを活用します。

ポリシーの反復では、固定ポリシーから始めます。 逆に、値の反復では、値関数を選択することから始めます。 次に、両方のアルゴリズムで、収束に達するまで繰り返し改善します。

ポリシー反復アルゴリズムは、ポリシーを更新します。 値反復アルゴリズムは、代わりに値関数を反復処理します。 それでも、両方のアルゴリズムは、各反復でポリシーと状態値関数を暗黙的に更新します。

各反復で、ポリシー反復関数は2つのフェーズを通過します。 1つのフェーズでポリシーを評価し、もう1つのフェーズでポリシーを改善します。 値反復関数は、可能なすべてのアクションに対して効用関数を最大化することにより、これら2つのフェーズをカバーします。

値の反復アルゴリズムは単純です。 これは、ポリシー反復の2つのフェーズを1つの更新操作に結合します。 ただし、値の反復関数は、可能なすべてのアクションを一度に実行して、最大のアクション値を見つけます。 その後、値反復アルゴリズムは計算量が多くなります。

どちらのアルゴリズムも、最終的に最適なポリシーに収束することが保証されています。 それでも、ポリシー反復アルゴリズムは、より少ない反復内で収束します。 その結果、ポリシーの反復は、値の反復アルゴリズムよりも速く終了すると報告されます。

5. 結論

MDPを使用して、強化学習環境をモデル化します。 したがって、MDPの最適なポリシーを計算することは、時間の経過とともに報酬を最大化することにつながります。 動的計画法アルゴリズムを利用して、最適なポリシーを見つけることができます。

この記事では、MDPの最適なポリシーを見つけるために2つのアルゴリズムを調査しました。ポリシーの反復と値の反復のアルゴリズムは同じ原理で機能します。 それらの長所と短所について説明しました。