Q学習とSARSA - 開発者ドキュメント

1. 序章

時間差学習は、強化学習に導入されるときの最初のステップであることがよくあります。このトピックを拡張し、強化学習の基本を紹介するために、2つの著名なアルゴリズムがよく使用されます。それらのアルゴリズムはQ学習とSARSAです。

一見すると、これらのアルゴリズムは非常によく似ており、それらがどのように異なるのか、なぜその違いが重要なのかを識別するのは難しい場合があります。それがまさにこの記事で説明していることです。値関数とQ関数について簡単に復習します。次に、QラーニングとSARSAの更新ルールを紹介し、違いを強調します。

最後に、問題の例としてCliffWorldを紹介し、その違いが学習した行動にどのように影響するかを強調します。

詳細については、Q学習の詳細な紹介に関する別の記事をご覧ください。

2. 強化学習とは

強化学習は、マルコフ決定過程（MDP）の概念に基づいています。 MDPはタプルとして定義されます。は状態のセット、はアクションのセット、は状態遷移関数、は報酬関数、は割引係数です。 MDPでは、現在を考えると未来は過去から独立しており、これはマルコフ性として知られています。

強化学習問題の解決策は、多くの場合、値ベースのアルゴリズムとポリシーベースのアルゴリズムのカテゴリに分けられます。 Qラーニングなどの価値ベースの方法が人気があり、特にQラーニングは、DQN、Dueling-DQN、Rainbowなどの人気のある実装を通じて大きな注目を集めています。

ただし、Q学習アプローチの人気により、強化学習について学習する際に有益であるにもかかわらず、Q学習に非常に関連するアルゴリズムであるSARSAが最近あまり注目されていない理由を疑問視する可能性があります。

2.1. 値関数とQ関数

値関数は、エージェントが特定の状態にあることがどれだけ良いかを推定する状態の関数です。エージェントが将来の報酬に関して期待できることに基づいて、状態がどれだけ良いかを測定します。これは期待収益です。将来何が起こるかは、エージェントが実行するアクションとそのポリシーによって異なります。したがって、値関数はポリシーに関連して定義されます。

式1では、状態の値は、将来の状態に対する報酬の指数関数的に割引された期待値として定義されていることがわかります。

(1)

Q関数は、特定の状態で特定のアクションを実行し、ポリシーに従うことで期待される収益を表します。また、アクション値関数の割引された将来の報酬に対して定義されたこの期待を示します。

これは、QラーニングまたはSARSAで学習する機能です。その定義は、式2で確認できます。

(2)

エージェントが未来をどのように認識するかは、その行動に影響を与えます。

3. SARSAとは

State、Action、Reward、State、Actionに拡張されるSARSAは、ポリシーに基づく価値ベースのアプローチです。値の反復の形式として、値の更新ルールが必要です。

SARSAの場合、これを式3で示します。

(3)

Q値更新ルールは、SARSAとQ学習を区別するものです。 SARSAでは、現在の状態とアクションの組み合わせと次の状態とアクションの組み合わせを使用して時間差の値が計算されていることがわかります。これは、更新を実行するためにポリシーが実行する次のアクションを知る必要があることを意味しますステップ。

これにより、SARSAは、ポリシーの現在の選択に基づいて更新されるため、ポリシー上のアルゴリズムになります。

4. Qラーニングとは

Q学習は、最適なポリシーの使用を想定しているという点で、更新ルールがSARSAとは異なります。使用可能なアクションに対して関数を使用すると、Q学習アルゴリズムがポリシー外のアプローチになります。

これは、更新するポリシーの動作が、探索パラメーターを使用して最適なアクションとランダムなアクションの選択のどちらかを選択する世界を探索するために使用するポリシーとは異なるためです。

(4)

5. これはどういう意味ですか？

値関数はポリシーに関連して定義されると前述しました。また、SARSAが現在従っているポリシーに関してどのように更新されるか、および最適なポリシーに関してQ学習がどのように更新されるかを見てきました。

どちらのアプローチも、通常、世界で行動するときはポリシーに従います。 Q値を更新するために使用されるポリシーのこの違いは、学習したポリシーの違いにつながります。

ここで、CliffWorldを使用した例でそれを探ります。

5.1. 例：クリフワールド

単純なグリッドワールドベースの問題を使用することで、この一見小さな違いの影響を強調することができます。クリフワールド。崖の世界では、エージェントは崖の端に沿って開始セルからゴールセルまで歩く必要があります。落ちることなく。

ステップにはペナルティがあり、崖から降りるとペナルティがあります。最短経路は崖の端に沿った直線です。これは最短経路ですが、エージェントが踏み外した場合、大きなマイナスのペナルティが発生する可能性があります。

崖の世界は強化学習：サットンとバルトによる紹介から引き出されています。フィールドの独創的なテキスト：

最短経路はわかっていますが、QラーニングとSARSAのエージェントは、それが最善かどうかについて意見が分かれます。私たちのポリシーに準拠したSARSAエージェントは、確率論的ポリシーに従ってアクションを選択および更新するため、崖の端をよりリスクが高いと見なします。 つまり、崖から降りて高いマイナスの報酬を受け取る可能性が高いことを知ったということです。

対照的に、私たちのQ学習エージェントは、常に最高のQ値を持つアクションを選択する最適なポリシーに基づいてポリシーを学習しました。崖の端を落ちずに歩く能力に自信があります。

5. 結論

強化学習は、多くの潜在的な用途とアプリケーションを備えた強力な学習パラダイムです。ただし、これまで見てきたように、最終的なソリューションや動作が異なる可能性がある設計上の決定には敏感です。 2つの古典的な値ベースの強化学習方法の違いを探るそのような複雑さの1つを調べました。

エージェントが予想される将来の収益を認識する方法は、エージェントが学習する方法と、エージェントが達成する最終的なポリシーに影響を与えます。エージェントが確率論的ポリシーで行動する場合、報酬についてより不確実になり、より安全なパスを選択します。一方、常に最良のアクションを選択することを期待するエージェントは、リスクの高いアクションの場合、より直接的に行動します。

強化学習アルゴリズムの将来に対するこの感度を理解することは、それらをうまく活用する方法を理解するための鍵です。