1. 概要

このチュートリアルでは、自己管理型学習の概要を説明します。最初に、用語を定義し、機械学習におけるその重要性について説明します。 次に、自己管理学習の例といくつかの制限を示します。

2. 予選

過去数年間、機械学習の分野は、自動運転車から致命的な病気の予測に至るまで、私たちの生活の多くの側面に革命をもたらしました。 この驚異的な進歩の重要な要素は、注意深くラベル付けされた大量のデータの可用性です。

ただし、機械学習の分野が教師あり学習とラベル付きデータでどこまで進むことができるかには限界があることは明らかです。たとえば、注釈を付けるのが困難または費用がかかる多くのタスクがあります。低リソース言語の翻訳のような多くのデータ。 したがって、AIを人間レベルの知能に近づけるには、注釈なしでモデルをトレーニングすることを含む方法に焦点を当てる必要があります。最も有望な方法の1つは、自己監視学習です。

3. 意味

自己監視学習の背後にある動機は、最初にラベルなしデータを使用して一般的な特徴表現を学習し、次にいくつかのラベルを使用してダウンストリームタスクでこれらの表現を微調整することです。 発生する問題は、ラベルを知らなくても、これらの有用な表現をどのように学習するかです。

自己監視学習では、モデルは監視信号としてラベルを使用するのではなく、データ自体を使用してトレーニングされます。たとえば、一般的な自己監視方法は、モデルをトレーニングして、の隠れた部分を予測することです。入力の観測された部分が与えられた入力。

以下に、監視(左)モデルと自己監視(右)モデルがどのように機能するかを図式的に示します。

4. 重要性

純粋に教師あり学習モデルを置き換えることを目的とした、ますます多くの自己教師ありモデルが今日提案されています。 機械学習の進歩には、さまざまな理由から自己監視が非常に重要です。

まず、自己監視学習は、時間とお金を節約するために多くのデータに注釈を付ける必要性を減らします。 また、注釈が困難または不可能な領域での機械学習の使用を可能にします。 自己監視の重要性を示すもう1つの要因は、どこでも利用できる膨大な量のラベルなしデータです。 インターネットやソーシャルメディアが広く使用されているため、自己監視型の機械学習モデルのトレーニングに簡単に使用できる画像、ビデオ、オーディオクリップが大量にあります。

5. 例

それでは、自己監視学習の例をいくつか紹介して、それがどのように機能するかをよりよく説明しましょう。

5.1. ビジュアル

より良い視覚的表現を学習するために、多くの自己監視方法が提案されてきた。 以下に示すように、疑似ラベルを生成するために入力画像を操作する方法はたくさんあります。

画像のカラー化では、自己監視モデルがグレースケール入力画像を着色するようにトレーニングされます。 前のチュートリアルでは、RGB画像をグレースケールに変換する方法を紹介しました。 したがって、トレーニング中は、同じ画像をグレースケールとRGB形式で使用できるため、ラベルは必要ありません。 トレーニング後、学習された特徴表現は画像の重要な意味特性をキャプチャし、分類やセグメンテーションなどの他のダウンストリームタスクで使用できます:

自己監視で一般的なもう1つのタスクは、モデルが破損またはノイズの多いバージョンから画像を復元することを学習するノイズ除去です。任意のタイプを簡単に追加できるため、モデルはラベルなしでデータセットでトレーニングできます。入力画像の画像ノイズ

画像修復では、画像の欠落領域を再構築することが目標です。具体的には、モデルはいくつかの欠落ピクセルを含む画像を入力として受け取り、これらのピクセルを埋めて、画像の一貫性。 すべての画像のランダムな部分をトリミングしてトレーニングセットを生成できるため、ここで自己監視を適用できます。

5.2. 視聴覚

自己監視学習は、視聴覚対応の検索などの視聴覚タスクにも適用できます

ビデオクリップでは、ミュージシャンがギターの弦を弾き、その結果生じるメロディーのように、オーディオイベントとビジュアルイベントが一緒に発生する傾向があることがわかっています。 視聴覚対応のモデルをトレーニングすることで、視覚イベントと音声イベントの関係を学ぶことができます。具体的には、モデルは入力としてビデオとオーディオクリップを受け取り、2つのクリップが同じイベントに対応するかどうかを判断します。 。 ビデオのオーディオモダリティとビジュアルモダリティの両方が事前に利用可能であるため、ラベルは必要ありません。

5.3. 文章

言語モデルをトレーニングする場合、豊富な単語表現を学習するために予測目標を定義することは非常に困難です。 自己監視学習は、BERTのような大規模な言語モデルのトレーニングで広く使用されています。

監督なしで一般的な単語表現を学習するために、2つの自己監督トレーニング戦略が使用されます。

  • MaskedLM ここでは、入力文からいくつかの単語を非表示にし、これらの非表示の単語を予測するように言語モデルをトレーニングします。
  • Next Sentence Prediction ここで、モデルは入力として1組の文を受け取り、それらの関係を学習します(2番目の文が最初の文の後にある場合)。

以下に、MaskedLM(左)と次の文の予測(右)のトレーニング目標の例を示します。

6. 制限事項

その強力な機能にもかかわらず、自己監視学習には、常に考慮すべきいくつかの制限があります。

6.1. トレーニングの時間

機械学習モデルのトレーニングが環境に悪影響を与えるためにかかる時間と計算能力については、すでに多くの論争があります。 実際の注釈を監視せずにモデルをトレーニングすると、さらに時間がかかる可能性があります。したがって、この余分な時間を、データセットに注釈を付けて教師あり学習で作業するのにかかる時間と常に比較する必要があります。方法。

6.2. ラベルの精度

自己監視学習では、実際のラベルを使用する代わりに、モデルに対してある種の疑似ラベルを生成します。 これらの疑似ラベルが不正確であると、モデルの全体的なパフォーマンスが低下する場合があります。したがって、生成された疑似ラベルの品質を常に確認する必要があります。

7. 結論

このチュートリアルでは、自己管理型学習について説明しました。 まず、用語を定義し、機械学習の分野でどれほど役立つかについて話しました。 次に、自己管理学習の実際的な例とその制限のいくつかを紹介しました。