1. 序章

このチュートリアルでは、弱教師あり学習の概念を紹介します。 まず、教師あり学習の一般的な定義を見ていきます。 次に、弱教師あり学習、そのタイプ、および主なアプリケーションについて説明します。

2. 教師あり学習

人工知能と機械学習では、教師あり学習は、ラベル付きデータセットを使用して機械(またはディープ)学習アルゴリズムをトレーニングし、新しいインスタンスの予測を推測することを指します。

トレーニングされたアルゴリズムのパフォーマンスは、多くの要因に依存します。 それらの最初のものは、データセットが大きく、高品質のラベリングで完全に注釈が付けられていることです。 監視中にこのようなデータセットを使用することを、強力な監視学習と呼びます。

ほとんどの場合、このように大きくて適切に注釈が付けられたデータセットを使用することは、非常にコストがかかるか、実用的ではありません。 注釈プロセスを主導するには、問題ごとに多くのドメインエキスパートが必要であるため、注釈を付けて修正するのに多くの時間がかかり、元のデータ自体にノイズが多いか、非常に限られている場合があります。 このような場合、弱く教師あり学習が注釈とモデリングの最初の選択肢です。

3. 弱教師あり学習

弱い監視は、次の場合に監視ありトレーニングとモデリングのために、より多くのラベル付きデータを取得するための機械学習のブランチです。

  • 利用可能なラベル付きデータは、良好なパフォーマンスの監視対象モデルを取得するには不十分です
  • 利用可能なラベル付きデータはノイズが多いか、不正確なソースから取得されています
  • ドメインの専門家が不足しているか、それらを取得するには非常にコストがかかります
  • 手動注釈の利用可能な時間は非常に限られています

機械学習モデルのトレーニング中に、指定されたラベル付きデータと新しいラベル付きデータを取得するための弱い教師ありの組み合わせを使用することを、弱い教師あり学習と呼びます。

4. 弱い監視の種類

弱い監視は、人間の専門家の注釈のコストを削減し、トレーニングに利用できるラベル付きデータを増やすことを目的としています。 3つのタイプがあります。 不完全、不正確、および不正確な監督。

4.1. 不完全な監督

このタイプでは、トレーニングデータのサブセットのみがラベル付けされます。 ほとんどの場合、このサブセットは正しく正確にラベル付けされていますが、監視対象モデルのトレーニングには不十分です。

不完全な監視に対処するための2つの手法があります。 アクティブラーニングと半教師あり学習。

まず、アクティブラーニングについて話しましょう。 この手法は、弱い学習を強いタイプに変換します。 人間の専門家は、ラベルのないデータに手動で注釈を付ける必要があります。 人間の専門家からすべてのラベルを取得するにはコストがかかるため、ラベルのないデータのサブセットのみに注釈を付けるように求められます。

この場合、問題は、手動アノテーションのコストを最小限に抑え、モデルのパフォーマンスを大幅に向上させるサブセットを見つけることです。

このサブセットを選択するには、次の2つの方法があります。

  1. 有益性。 人間の専門家によって注釈が付けられるラベルのないインスタンスを選択するための初期モデルを構築するのは、ラベルの付いたデータに依存します。
  2. 代表性。 手動で注釈を付ける必要があるグループを見つけるのは、クラスタリング手法に依存します。

次は半教師あり学習です。この手法は、ラベルなしデータがテストデータである半教師あり学習に続きます。 これは、ラベル付きデータを使用して予測モデルをトレーニングし、ラベルなしデータを使用してラベルを取得するためのテストを行うことを意味します。 この手法には人間の専門家は関与していません。

4.2. 不正確な監督

このタイプの指定されたラベルは不正確です。場合によっては、このタイプには誤解を招くレコードも含まれています。 識別機能がないため、これらはラベル以上のものを受け入れることができます。 開発者は、利用可能なラベルを使用して、トレーニングデータにルールと制約を作成します。

このタイプの監視では、マルチインスタンス学習を使用します。 マルチインスタンス学習では、インスタンスのバッグ(サブセット)は、バッグ内のインスタンスの1つ(キーインスタンス)または大部分に従ってラベル付けされます。アルゴリズムごとに、バッグジェネレーターは方法を指定します多くのインスタンスが各バッグに含まれている必要があります。 バッグには、画像、テキストドキュメント、株のレコードセットなどがあります。

4.3. 不正確な監督

このタイプでは、ラベルが間違っているか低品質です。不正確なラベルは通常、公開データセットまたはクラウドソーシングデータセットの収集に起因します。

このアイデアは、誤ってラベル付けされた可能性のあるインスタンスを特定し、それらを修正または削除することです。このアイデアを実現するための実用的な手法の1つは、データ編集アプローチです。

データ編集アプローチは、相対的な近傍のグラフを作成します。各ノードはインスタンスであり、エッジは異なるラベルの2つのノードを接続します。 インスタンス(ノード)は、多くのエッジに接続されている場合、疑わしいと見なされます。 次に、この疑わしいインスタンスは、大多数に従って削除または再ラベル付けされます。

クラウドソーシングデータセットの場合、すべてのアノテーターの多数決に従ってラベルを取得します。

5. 弱い監視の適用

弱い監視は、特定の監視タスクまたは問題に関連付けられていません。 トレーニングデータセットの注釈が不完全であるか、優れたパフォーマンスの予測モデルを取得するには不十分である場合は常に、弱い監視が使用されます。

弱い監視は、画像分類、オブジェクト認識、テキスト分類、スパム検出、医療診断、および経済的問題(住宅価格の見積もりなど)で使用できます。

6. 結論

このチュートリアルでは、強い監督学習と弱い監督学習の一般的な定義を示しました。 次に、弱い監視とそのタイプの詳細について説明しました。 不完全、不正確、および不正確。