1. 序章

このチュートリアルでは、強化学習エージェントをトレーニングするための2つの異なるアプローチ(オンポリシー学習とオフポリシー学習)について説明します。

まず、彼らが解決することになっていることを再検討し、その過程で、それぞれがどのような長所または短所を持っているかを調べます。

2. 強化学習の基本

一般に、強化学習は、複雑な環境がある場合に使用されます。 環境は、一連の状態として定義できる限り、ゲーム、ナビゲートするトラック、または実際には何でもかまいません。 私たちの主な目標は、エージェントがすべての特定の状態で可能なすべてのアクションのセットから最適なアクションを選択するように導く、いくつかの最適なアクションポリシーを見つけることです。  そのような方針を見つけたとき、私たちはしばしば環境を「解決した」と言います。

これは、ワームがリンゴに向かってナビゲートしようとしている学習可能な環境の例です。 この場合、ワームはエージェントになり、ワームが移動できるタイルは状態を示します。 各州は報酬を与えます。この例では、ワームは、リンゴを含む州を除くすべての州に入ると、報酬を受け取ります。 それがその状態に達すると、彼はポジティブな報酬を受け取ります:

これはRL問題の最小限の例ですが、ほとんどの場合、関係する環境は非常に複雑であり、完全な知識を得るのはほとんど不可能です。 これが、 Monte Carlo メソッドを使用して、解決しようとしている環境をサンプリングし、それに関する知識を得る理由です。

与えられたポリシーに従い、ある時点で最終状態に達するまで環境と対話するようにエージェントを設定しました。 そのようなトラバーサルの1つはエピソードと呼ばれ、エージェントがパス上で取得した一連の状態、アクション、および報酬で構成されます。 説明のために、エージェントが何らかのポリシーに基づいて行動し、エピソードを収集するように設定しましょう。

ここでの目標は、上記のような環境を通過するトラバーサルの多くのエピソードを収集することです。  次に、これらを使用して、実際の状態値関数やアクション値関数を繰り返し推定できます。

状態値関数は、で開始およびその後に開始するときに、予想される累積報酬に基づいて各状態に値を割り当てます。 特定のポリシーの品質を評価するために使用されます。

一方、状態アクション値関数は、特定の状態とアクションおよびその後のフォローに対して期待される累積報酬を表し、ポリシーを改善するために使用されます。 これらの関数のいずれかの正しい見積もりがあれば、それらの出力を使用して最適なポリシーを簡単に構築できるため、タスクは完了したと言えます。

3. 探索対。 搾取

収集されるエピソードが多いほど、関数の推定値が高くなるため、より良い結果が得られます。 ただし、問題があります。 ポリシー改善のアルゴリズムが常にポリシーを貪欲に更新する場合、つまり、即時の報酬につながるアクションのみを実行する場合、貪欲なパスにないアクションと状態は十分にサンプリングされず、潜在的により良い報酬は学習プロセスから隠されたままになります。

基本的に、現在の情報を考慮して最善の決定を下すか、より多くの情報を探索して見つけるかを選択する必要があります。 これは、Explorationvsとしても知られています。 搾取のジレンマ。

私たちはそれらの間の中間点のようなものを探しています。 完全な探索は、必要な情報を収集するために多くの時間を必要とすることを意味し、完全な探索は、エージェントをローカルの報酬の最大値に固執させることになります。 すべてのアクションが十分にサンプリングされるようにするには、オンポリシーメソッドとオフポリシーメソッドの2つのアプローチがあります。

4. オンポリシーメソッド

オンポリシーメソッドは、ソフトなポリシーの形式でランダム性を含めることにより、探索と悪用のジレンマを解決します。つまり、貪欲でないアクションがある程度の確率で選択されます。 これらのポリシーは-貪欲なポリシーと呼ばれます。これは、確率でランダムなアクションを選択し、確率で最適なアクションに従うためです。

 

アクションスペースからランダムに選択する確率はであるため、特定の非最適アクションを選択する確率はです。 ただし、最適なアクションに従う確率は常にわずかに高くなります。これは、それを完全に選択する確率と、アクション空間のサンプリングから選択する確率があるためです。

   

また、最適なアクションは他のアクションよりも頻繁にサンプリングされるため、ポリシーに準拠したアルゴリズムを作成すると、一般に収束が速くなりますが、エージェントを関数の局所最適にトラップするリスクもあります。

4.1. SARSA

-欲張り戦略を使用するオンポリシーアルゴリズムの代表的なものの1つは、state-action-reward-state-action(SARSA)です。 エピソード全体を使用してアクション値関数を推定するのではなく、後続の2つのタイムステップからのサンプルを使用するため、このように呼ばれます。

エピソードの状態ごとに、SARSAはaction-value関数に関して-greedyポリシーを使用してアクションを選択します。 それは報酬を受け取り、次の状態に移行して別の貪欲な行動を起こします。

5. ポリシー外の方法

ポリシー外の方法は、探索との異なるソリューションを提供します。 搾取の問題。 オンポリシーアルゴリズムは探索に使用されるのと同じ貪欲なポリシーを改善しようとしますが、オフポリシーアプローチには動作ポリシーとターゲットポリシーの2つのポリシーがあります。 行動ポリシーは探索とエピソードの生成に使用され、ターゲットまたは目標ポリシーは機能の推定と改善に使用されます。

これが機能するのは、ターゲットポリシーが環境の「バランスの取れた」ビューを取得し、適切なアクションを追跡し、より適切なアクションを見つけようとしながら、潜在的なミスから学習できるためです。 ただし、覚えておくべきことの1つは、ポリシー外学習では、推定しようとしているものとサンプリングしているものの間に分布の不一致があるということです。 そのため、この不一致を促進するために重要度サンプリングと呼ばれる手法がよく使用されます。

5.1. Q学習

考慮すべき非常に人気のあるポリシー外学習は、-learningとしても知られるSARSAMaxです。 ここでは、-greedyアクションを選択するのではなく、常に最大値のアクションを選択することによって、Q関数を更新しようとしています。

式では、-greedyポリシーbによって選択されたものと、他の貪欲な「max」ポリシーによって選択されたものの両方を使用して関数を更新していることがわかります。

6. 結論

この記事では、強化学習の基本を確認し、ポリシーに準拠した学習とポリシーに準拠していない学習という2つのアプローチファミリーを検討しました。 例として、SARSAとSARSAMaxまたはQ学習という2つの一般的なアルゴリズムを取り上げました。 彼らがどのように探査対の問題と戦ったかを見ました。 搾取と各アプローチが提供するもの。