1. 序章

このチュートリアルでは、転移学習とドメイン採用の違いとニュアンスを探ります。 転移学習は、ある機械学習の問題から得られた知識を別の問題で使用することを表す広義の用語です。 ドメイン適応は、データドメインの変更のみをカバーする転送学習の特殊なケースを説明します。

2. 古典的な教師あり学習

転移学習を明確にするために、古典的な教師あり機械学習の問題と比較します。理解を深めるために、犬と猫の写真のサンプルデータセットを使用します。

2.1. 構造

従来の設定では、特徴を抽出するデータセットフォームがあります。 これらの機能には、ラベルが必要です。たとえば、高レベルの機能、犬の足、犬の顔、犬の体を含む画像には、ラベルdogを割り当てます。 したがって、セット機能の値をセットラベルに割り当てる関数があります。

本番環境でモデルを使用すると、異なるが類似したデータセットがあり、犬と猫が表示されます。そして、それらの写真は同じラベル「犬」と「猫」に割り当てられます。

この図では、2つのデータセットとが表示されています。これらは異なりますが類似しています。

データセットから、特徴を抽出します。 また、特定の機能セットに対して、1つ以上のラベルを割り当てます。 機能、予測関数、およびラベルは同じままです。

3. 転移学習

Transfer Learningは、従来の監視対象の場合と同様の構造で機能する機械学習手法のコレクションについて説明しています。対照的に、大幅に異なるデータセットや機能でも機能します。

3.1. 転移学習の青写真

転移学習プロセスの構造を見てみましょう。 ご覧のとおり、ラベルと予測関数は次のように変更できます。

さらに、教師あり学習と同様の構造になっています。 しかし、対照的に、転移学習の場合、ビルディングブロックのいずれも同じである必要はありません。 2つの機械学習設定間の接続は、2番目の予測関数の作成に使用される予測関数の利用です。

この場合、ソースとターゲットのステップが異なることに注意してください。 転移学習には、他の場合も含まれます。 ラベルのみが異なり、機能は同じです。

同じラベルで大きく異なるが類似したデータセットのケースをカバーするインスタンスは、一種の転移学習でもあります。 これについては、ドメインの適応に関するセクションで説明します。

3.2. 転移学習の例

この概念を犬と猫の写真の例に適用してみましょう。 ここで、牛と馬の写真を示す2番目のデータセットがあると想像してください。 牛や馬は猫とは大きく異なります。

それにもかかわらず、それらはすべて哺乳類であり、4フィートで同様の形状をしています。 解決策として、犬、牛、馬など、検出したいオブジェクトの形状を表すレイヤーを取得し、それらをフリーズすることができます。 フリーズとは、予測関数からそれらを切り取り、予測関数に入れて、フリーズしたレイヤーをトレーニングせずに関数をトレーニングすることを意味します:

右側のレイヤーが緑色であることがわかります。これは、ソースドメインの予測関数を作成するときにレイヤーをトレーニングする必要があることを示しています。 一方、予測は、ソースドメインからの既存のフリーズされたレイヤーを使用して作成されます。 凍結されたレイヤーは、トレーニングプロセス中はそのままです。

4. ドメイン適応

ドメイン適応は、すでに述べたように、転移学習の特殊なケースです。

4.1. ブループリント

ドメイン適応では、基礎となるデータセットを変更するだけで、機械学習モデルの機能を変更します。 ただし、特徴空間は同じままです。予測関数は同じままです。

4.2. 応用

ドメイン適応をこの例に適用すると、大幅に異なるが、どういうわけか類似したデータセットを考えることができます。 これには犬と猫の写真が含まれている可能性がありますが、ソースデータセットのものとは大きく異なります。たとえば、ソースデータセットには、プードルと黒猫しかありません。 一方、ターゲットデータセットでは、シュナウザーと白猫がいる可能性があります。

では、予測関数がデータセットの正しいラベルを予測できるようにするにはどうすればよいでしょうか。 ドメイン適応は、この質問に対する答えを提供します。

4.3. ドメイン適応の種類

3種類のドメイン適応を検討します。 これらは、基礎となるドメイン内のラベル付きの例の数によって定義されます。

  • 監視されていないドメインの適応は、ラベル付きの例だけでなく、ラベルなしの例もあるソースドメインで機能します。 ターゲットドメインには、ラベルのない例のみがあります。
  • 半教師ありドメインの適応は、ターゲットドメインのいくつかの例にラベルが付けられていることを期待しています。
  • 監視対象ドメインは、すべての例にラベルが付けられていることを示します。

5. ドメイン適応の方法

ドメイン適応では、実用的なアプローチをもう少し詳しく見ることができます。 これは、データセットを変更するだけで、新しい機械学習プロセスに合わせてモデルを調整するのがはるかに簡単になるという事実にあります。

5.1. 発散ベースのドメイン適応

発散ベースのドメイン適応は、2つのサンプルが同じ分布からのものであるかどうかをテストする方法です。 ブループリントの図で見たように、データセットから抽出された特徴は大きく異なります。 この違いにより、予測関数が意図したとおりに機能しなくなります。 トレーニングされていない機能が供給されている場合は、誤動作します。 これは、異なる機能を受け入れるが、同じ機能スペースを必要とする理由でもあります。

このため、発散ベースのドメイン適応は、両方のデータセットに「等しく近い」機能を作成します。これは、最大平均不一致、相関調整、対照的なドメイン不一致、またはワッサースタインメトリック。

5.2. 反復アプローチ

反復アプローチでは、予測関数を使用して、非常に信頼性の高いターゲットドメインのサンプルにラベルを付けます。 そうすることで、関数を再トレーニングします。 したがって、信頼性の低いサンプルに適用するにつれて、ターゲットドメインにますます適合する予測関数を作成します。

6. 結論

これまで見てきたように、転移学習は、新しい環境で既存の機械学習モデルを使用するためのさまざまな方法を提供します。 ドメイン適応の特殊なケースでは、実際のシナリオで頻繁に発生する問題、つまり別個のデータセットがあります。

この場合、発散ベースのドメインとドメインの適応、および反復アプローチがソリューションを提供します。 さらに、これらのソリューションは、機械学習の分野における現代の研究の大きな部分を占めています。