ラベル付きデータとラベルなしデータの違いは何ですか?
1. 概要
このチュートリアルでは、一般原則のアプローチの下で、ラベルなしデータとラベル付きデータの違いと類似点を調べます。
チュートリアルの終わりまでに、2つのクラスのデータを区別するための理論的基礎に精通するようになります。 また、解決しようとしているタスクに関連して、どちらを使用するかについても理解します。
ここで説明するアプローチは少し珍しいものです。 ただし、事前の知識とデータ収集の取り組みとの関係、および一方が他方にどのように影響するかについて、より深く理解することができます。
2. データ、情報、知識について
まず、一般的なAIシステムを構築する方法に関する基本的な考え方について説明し、この考え方から、そのシステムのデータの一部にラベルを付ける必要性を導き出すことができるかどうかを確認します。 これができれば、ラベル付きデータとラベルなしデータの違いは、私たちが実行する特定のタスクに由来するものではないと主張できます。 むしろ、それはそのシステムのアーキテクチャのベイジアンアプリオリに由来するということです。
2.1. 機械学習システムの概念アーキテクチャ
AIシステムを開発するための従来のアーキテクチャには、データ、情報、知識の区別と、それに続く階層構造への配置が含まれます。
この構造は、「ナレッジピラミッド」または「DIKピラミッド」と呼ばれることが多く、頭字語はそのコンポーネントの最初の文字を表します。 この理論的アプローチは大部分が批判されていますが、AIシステムの開発のための共有概念リファレンスとして一般的に使用されています。
このモデルでは、AIシステムがデータを情報に集約することで世界を理解し、情報を処理して知識を抽出し、その知識を使用して後続のデータ収集を指示することを想像しています。
ここで、このモデルをさらに基本的なコンポーネントに分割してみましょう。
2.2. データと測定
ピラミッドの最下層には、機械学習システムを現実に接続する基盤となるデータが含まれています。 データは、センサーによって実行された測定値または観測値のコレクションとして解釈できます。センサーは、生の形式または明確に表現されていない形式を持っています。
データの例は次のとおりです。
- 数値を含む行列
- テキストの文字列
- カテゴリ値のリスト
- サンプリングされた可聴周波数
このコンテキスト内で、「データ」はデータ構造に含まれる1つまたは複数の値に対応します。 この記事の主題である2つのクラスのデータにさらに区別する方法については後で説明します。
2.3. 情報とデータの集約
次に、データからパターンを抽出するために、さまざまな方法でデータを集約できます。 パターンは、データの分散方法の規則性に対応しており、数学モデルまたは統計モデルをパターンに適用することで取得できます。
データの規則性に対応するパターンまたはスキームは、しばしば「情報」と呼ばれます。
情報は、生データよりも外部の現実の複雑さを要約する能力が高いため、ピラミッドのより高いレベルに配置します。 同じ考えを見る別の方法は、情報、データのスキームまたはパターンによって、将来の測定結果の予測を実行できるが、データ自体は実行できないと言うことです。
2.4. 知識と情報について
データセットでパターンが抽出されると、それらを使用して、システムのアクションから生じる世界の将来のステータスを予測できます。 自由落下しているオブジェクトとその位置の間に、時間の経過とともに変化する特定のパターンが存在することを学習したとします。
自由落下するオブジェクトに適したパターンを特定することで、次の2つのことが可能になります。
- 自由落下する物体の将来の位置を予測する
- オブジェクトを押して、任意に決められた速度で落下させます
次に、この特定のパターンを抽出する際に得られた知識を、将来の目に見えない状況に一般化することができます。 自由落下するオブジェクトの位置が特定の方法で時間とともに変化することを学習した後、この知識を一般化して、オブジェクトの位置がそのパターンに十分に対応する方法で時間とともに変化する場合、そのオブジェクトはまた、自由落下です:
最後に、同じクラスに対応するすべてのデータを、類似した実世界の現象を表すという意味でグループ化できます。 そうすると、データにラベルが割り当てられ、予測可能で既知の方法でデータを操作できるようになります。
2.5. 知識とラベルの関係
上で議論した意味で、知識は、世界が機能する方法に関する先験的な仮説に対応します。 この仮説は、今度は、私たちが行った、またはまだ行っていない測定に関して私たちが抱く期待を形作ります。
私たちまたは機械学習システムがデータ収集を行う場合、その知識を使用して、取得するデータのいくつかの特性を事前に予測できます。 そのような特徴は、私たちが世界について持っている一般的な知識またはそれが機能する方法に由来します。 そのような場合、私たちは知識から、データが持つと想定する特定の特性を引き出していると言えます。
この考えはベイズの用語で表現することもできます。 これは、センサーと測定値の特性に関する知識が、収集されたデータが他の類似の状況で収集されたものと共通する少なくともいくつかの特性を持っているという完全な信頼に対応することを述べることによって行われます。 次に、この知識は、センサーによって受信された生データであるラベルのないデータを、関連する事前知識によって形成されたデータに変換します。
2.6. 猫と犬に関する事前知識がラベルなしをラベル付きデータに変える
畳み込みニューラルネットワークで分類したい2つのクラスの写真があるとします。 これらのクラスは「猫」と「犬」であるとも言います。 CNNに表示している画像には、先験的な知識に対応して、クラス「猫」またはクラス「犬」のいずれかに属しているという暗黙の仮定が含まれています。
機械学習システムの観点から、この仮定は、言い換えれば、「この世界では、私が所有するセンサーは、2つのカテゴリのいずれかに属するデータを提供してくれます」と言うことができます。 したがって、機械学習システムには、特定の画像に対する事前の知識または信念があります。
これは必ずしも世界がどのように機能するかではありませんが、その機械学習システムに暗黙的に含まれる世界表現がどのように構築されるかは必然です。 ある意味で、これがこの記事で提案するアイデアであり、すべてのデータはラベルのないデータです。 事前知識のある私たちによる割り当てのみが、そのデータをラベル付きデータに変換します。
3. ラベル付きデータとラベルなしデータ
したがって、世界の知識とベイズの事前確率の観点から、ラベル付きデータとラベルなしデータを区別するための理論的基礎について説明しました。 これで、2つのカテゴリのデータがどのような技術的特性を持っているかがわかります。 また、どちらか一方で可能な機械学習タスクについても学びます。
3.1. ラベルのないデータ
ラベルのないデータは、上記の意味で、存在する唯一の純粋なデータです。 センサーのスイッチを入れたり、目を開けたりして、環境や世界の仕組みについて何も知らない場合は、ラベルのないデータを収集します。
数値、ベクトル、または行列はすべて、ラベルのないデータの例です。 それらから、どのセンサーがそれらを収集したか、またはそれらが取得された世界の状況について何も理解していないため、それらはラベル付けされていません。 同様に、その世界がどのように機能するかについて何も知る必要はありません。
この意味で、ラベルのないデータに関連する事前知識はほとんど、またはまったくありません。
3.2. ラベル付きデータ
ラベル付きデータは、世界の運営方法を事前に理解している必要があるデータです。 人間または自動タガーは、事前の知識を使用してデータに追加情報を課す必要があります。 ただし、この知識は、実行する測定には含まれていません。
ラベル付けされたデータの典型的な例は次のとおりです。
- 「猫」または「犬」というラベルが関連付けられた猫または犬の写真
- 商品のレビューに関するテキストの説明、およびその商品のユーザーによって関連付けられたスコア
- 売り家の特徴とその販売価格
タグ付けの際に使用しなければならないベイジアン事前分布は、明らかでない場合があります。 猫の写真と「猫」という言葉は、どのように関連性のあるものと見なすことができますか?
この質問への答えは本質的に認識論的であり、この記事の範囲外です。 しかし、簡単に言えば、システムが保持する知識は必ずしも絶対的または普遍的ではなく、そのシステムに関連してのみ意味があるという考えを指摘することができます。 人間のタガーは、他の方法では存在しないラベルを割り当てるために、事前の知識から引き出して、画像に「猫」のラベルを割り当てる必要があります。
このコンテキスト内で、ラベル付けされたデータは、測定の直接の結果ではない追加のベイジアン事前分布を重ね合わせるデータです。 この事前知識は、人間または機械学習システムが保持する知識に由来します。 この知識は、がであるかがでないかにかかわらず、データがであるべきことを決定します。
この事前情報に基づいて導き出されたすべての結論は、その事前情報の有効性と同じくらい有効です。 これが、データセットの準備において正確にタグ付けすることが非常に重要なステップである理由です。
4. いつ使用しますか
ラベル付きデータとラベルなしデータの違いは重要です。 これは、一方で可能なさまざまなことが他方では不可能であるためです。 特に、いくつかの機械学習アルゴリズムを使用して、ラベル付きデータを処理したり、ラベルなしデータを処理したりすることができます。
特定の基準に従って、最終的に1つのタイプのデータを他のタイプよりも選択することになります。 これらの基準は次のとおりです。
- タスクの種類
- タスクの目的
- データの可用性
- タグ付けを実行するために必要な一般的な知識と専門的な知識のレベル
- 決定機能の複雑さ
それらをもっと詳しく見てみましょう。
4.1. タスクの種類
ラベル付きデータにより、教師あり学習タスクのカテゴリに分類される回帰および分類タスクの実行が可能になります。
回帰分析の一般的なタスクには、多変量または多変量回帰による見えない値の予測、2つの変数間の関係をマッピングする関数の識別、および科学的仮説の実証的テストが含まれます。
分類には、クラスまたはカテゴリの観測への帰属が含まれます。 機械学習システムは、ラベル付けされたトレーニングデータに割り当てられたカテゴリのリストに基づいてこの属性を実行します。
分類は、コンピュータビジョンおよび音声テキストシステムによるエンティティ認識の一般的なタスクです。 これらのシステムでは、特定の入力に関連付けられたラベルを識別する必要があります。 そうすることで、オブジェクトや単語を認識し、適切にタグ付けする方法を学ぶことができます。
ラベルなしデータにより、教師なし学習のカテゴリに分類されるクラスター化および次元削減タスクを実行できます。
クラスター化は、それらが属するベクトル空間内で互いに近接に配置されるなど、共通の特性を共有する観測のサブセットの識別を意味します。 一般的なクラスタリングアルゴリズムには、 K-means 、K-NearestNeighbors、およびDBSCANが含まれます。
次元削減タスクは、後続の処理に必要なリソースを制限するために、データセットの複雑さの減少専用です。 これには、データセットからの単純なモデルの抽出専用の主成分分析と、そのモデルが元のデータセットに対して持つエラーが含まれます。 他の手法は、自動エンコード、特徴選択、およびt-SNEです。
教師なし学習のもう1つの一般的なタスクは、機能スケーリングです。これは、データセットを標準化または正規化して、ニューラルネットワークの後続のトレーニングを容易にすることを目的としています。 これは通常、最急降下法による学習を容易にするために、データをニューラルネットワークに供給する直前のステップとして行われます。
4.2. タスクの目的
必要なデータのタイプを区別するためのもう1つの基準は、作業の目的です。
教師なし学習、およびそれに対応するラベルなしデータにより、データセットの定量的特性に純粋に基づく洞察を抽出できます。 事前の知識はほとんど必要ないため、通常、それに関連する目的はそれほど複雑ではありません。
たとえば、データセットの次元数の削減が含まれる場合があります。 通常、ニューラルネットワークのトレーニングに必要な計算リソースを制限する目的で次元削減を行います。
また、データセットをより高度な抽象的な表現にエンコードするニューラルネットワークの開発も含まれる場合があります。 このタイプのニューラルネットワークを「オートエンコーダ」と呼びます。 オートエンコーダ自体には追加の機能はありませんが、教師あり学習のために追加のレイヤーでそれらをチェーンすることができます。
教師あり学習には、多くの場合、より多様な目的があります。 これは、研究されている現象についてのより深い知識を前提としているためです。
これらの目的には、次のものが含まれます。
- 画像内のオブジェクトの認識
- 株式の価値の予測
- X線スキャンに基づく医療診断の定式化
これらすべての目的は、データセット、モデル、および外界の間の関係を意味します。これは、数学的な抽象化に限定されません。 代わりに、それは世界の特定の特性が特定の他の特性に影響を与えるという理解に基づいています。 この影響は安定して予測可能な方法で発生するため、世界での運用に使用できます。
4.3. データの可用性
最後の重要な基準には、データのタグの可用性が含まれます。 人間のタガーによるデータのラベル付けは、非常に費用のかかるプロセスです。 実際、機械学習システムの開発に関連する他のすべてのコストを覆い隠す傾向があります。
また、時間がかかります。 画像用の非常によく知られているタガーの中には、非常に低い運用コストで実行されるものもありますが、機能とラベルの十分な大きさのデータセットを収集するには時間がかかります。
これは、特定のタスクを選択した理由として、1つのタイプのデータが利用できることが多いことを意味します。 不可能ではありませんが、実際には、抽象的な用語でタスクを選択してから、データの収集を開始することはほとんどありません。 多くの場合、利用可能なデータセットに基づいてタスクを選択します。 もちろん、この規則の例外は頻繁にあります。
4.4. 人間のタガーに関する一般的な知識と専門的な知識
ラベル付けされたデータの可用性も、ラベルにエンコードされた知識が専門知識であるか一般知識であるかによって大幅に変化します。
一般的な知識とは、人間のタガーが実際に所有することを期待できる知識です。 これには、たとえば、上記の例のように、猫と犬の画像を認識する機能が含まれます。 また、音声またはビデオの音声をテキスト形式に変換する機能を含めることもできます。
一般的な知識のみを必要とするデータセットのラベル付けは通常安価であり、タスクを一般の人々にアウトソーシングすることでそれを実行できます。 この典型的な例は、手書きの数字のタグ付けです。これは、ほとんどの人が実行できます。
専門知識とは、経験豊富な専門家だけが持つことが期待できる知識です。
これには、たとえば、X線スキャンでの骨折や歯科疾患の特定が含まれます。 医療専門家だけがこのタスクを実行でき、専門知識のレベルと一致する給与を要求します。 このため、専門知識を必要とするデータのラベル付けには、そのセクターの専門家の平均給与に比例するコストがかかります。
4.5. 決定関数の複雑さとラベル付けされたデータセットのサイズ
問題の複雑さが増すにつれて、ラベル付けのスケールに関連するコストも非常に低くなります。 機械学習が学習する必要のある意思決定機能が複雑になるほど、システムに必要なラベル付きデータが多くなります。 決定関数の複雑さが増した結果として、ラベル付けされたデータセットは、より適切に決定空間をサンプリングできるように、より大きくする必要があります。
データセット内のクラスターが強く分離されている場合、クラスター化を使用して分類を置き換えることができますが、その場合、分類タスクを実行するために必要なラベル付きの例はほとんどないため、この段落で説明した条件は無効になります。
5. 結論
この記事では、ラベル付きデータとラベルなしデータの違いについて、ベイズ推定と情報理論による説明を検討しました。
まず、センサーまたは測定値から発生するすべてのデータを一般的にラベルなしと見なすことを提案しました。 そうすれば、ラベル付きデータをラベルなしデータとして扱い、その構造または機能に関する事前知識を追加することができます。
また、機械学習システムのアーキテクチャの基本原則から、ラベル付きデータとラベルなしデータの区別をどのように導き出すことができるかについても見てきました。 ラベル付けされたデータは、世界が機能する方法に関する仮定によって形成されたデータです。
私たちはついに、どちらか一方を選択するための基準を見てきました。 特に、これらはタスクのタイプと目的、およびラベル付けされたデータの可用性です。