1. 概要

このチュートリアルでは、強化学習のポリシーの概念を学習します。

この記事の最後では、強化学習の基本的な概念とそのポリシーベースの方法について説明します。

2. ポリシーの定義

強化学習は、機械学習のブランチであり、いくつかの目標を追求する上でエージェントの有用性を最大化するために、環境で動作するエージェントのトレーニング専用です。

その根底にある考えは、はラッセルを述べており、インテリジェンスはエージェントとその環境の間の相互作用の創発的な特性であるというものです。 このプロパティは、いくつかのタスクの実行においてエージェントの選択を方向付けることにより、エージェントのアクションをガイドします。

同様に、インテリジェンスは、エージェントがその目標に関連して適切な戦略を選択する能力であると言えます。 考えられるすべての行動の目的論的指向のサブセットである戦略は、ここでは「ポリシー」の概念に関連しています。

したがって、ポリシーは、エージェントが目標を追求するために使用する戦略です。 ポリシーは、エージェントの状態と環境の関数としてエージェントが実行するアクションを指示します。

3. ポリシーの数学的定義

正式な用語を使用して、参照するマルコフ決定過程の観点からポリシーを定義します。 マルコフ決定過程は、次のように構成された形式のタプルです。

最初の要素は、エージェントの内部状態を含むセットです。  一緒に、すべての可能な状態は、エージェントのいわゆる状態空間にまたがります。 エージェントシミュレーション用グリッドワールドの場合、通常、ボード上のエージェントの位置と、必要に応じていくつかのパラメーターで構成されます。

2番目の要素は、エージェントのアクションを含むセットです。 アクションは、エージェントが環境に関連して実行できる可能な動作に対応しています。 一緒に、すべてのアクションのセットは、そのエージェントのアクションスペースにまたがります。

アクションは、エージェントの状態の変更につながる可能性もあります。 これは、ある状態から別の状態への遷移の確率を含む行列によって表されます。 その要素、、には、考えられるすべてのアクションと状態のペアの確率が含まれています。

4番目の要素は、エージェントの報酬関数で構成されます。 エージェントの状態を入力として受け取り、エージェントの報酬に対応する実数を出力します。

これで、ポリシーを正式に定義できます。これは、で示します。 ポリシーは、エージェントが考えられるすべての状態に対して実行する必要のある推奨アクションで構成されます

4. 強化学習のポリシーの例

それがどのように機能するかをよりよく理解するために、実際のシナリオでのポリシーの例を見てみましょう。 この例では、エージェントはその空腹を満たすために環境から食物を採餌する必要があります。 次に、食べた果物に基づいて報酬を受け取ります。

エージェントの内部状態は、この場合はボード上のその場所に対応します。 この例では、アクションスペースは4つの可能な動作で構成されています。 確率行列には、のすべてのアクションの状態のすべてのペアワイズの組み合わせが含まれます。 ベルヌーイ分布で、次のようになります。

報酬関数はこのように定義されます。 空のセルにある場合、エージェントは空腹の影響をシミュレートするために-1の負の報酬を受け取ります。 代わりに、エージェントが果物のあるセルにいる場合、この場合は梨とリンゴの場合、それぞれ+5と+10の報酬を受け取ります。

したがって、報酬関数は次のようになります。

シミュレーションは任意の有限数のタイムステップで実行されますが、エージェントが成果を上げた場合は早期に終了します。

5. ポリシーの評価

次に、エージェントは2つのポリシーとを検討します。 表記を少し単純化すると、次のエージェントの状態から始まる一連のアクションとしてポリシーを示すことができます。

次に、エージェントは2つのポリシーから選択する必要があります。 それらに対して効用関数を計算することにより、エージェントは以下を取得します。

ポリシーの評価は、ユーティリティがで最大化されていることを示しています。これにより、エージェントはこのタスクのポリシーとして選択します。

6. 結論

この記事では、強化学習エージェントのポリシーの概念について学習しました。 また、その応用の一例を検討しました。