醜いアヒルの子の定理 - 開発者ドキュメント

1. 序章

このチュートリアルでは、醜いアヒルの子の定理とその機械学習との関係について学びます。

まず、アルゴリズムバイアスの問題と、それが機械学習モデルの開発に与える影響について説明します。

次に、醜いアヒルの子の定理に集中し、その定理を研究します。このようにして、分類タスクで何らかのバイアスが避けられない理由を学習します。

このチュートリアルの最後に、ある種の偏見のない分類が不可能である理由を説明できるようになります。

2. アルゴリズム的バイアスの問題

2.1. 分類または選択における体系的なエラー

一部のアルゴリズムは、結果を生成する方法に体系的なエラーがあり、特定のクラスを他のクラスよりも優先する不当な結果になる可能性があります。 これは、コンピュータサイエンスに関する文献で、アルゴリズムバイアスと呼ばれる問題です。

アルゴリズムバイアスは、自律システム、ヘルスケアシステム、マーケティングキャンペーン、デジタルサービスの提供など、さまざまな状況で発生する可能性があります。消費者に、そして電子統治のための自動化された意思決定。

自然言語処理におけるアルゴリズムバイアスの古典的な例は、女性の名前と家族および関係との関連付け、および男性の名前とキャリアおよび職業上の成功との関連付けで構成されます。これは、一部のモデルによって学習され、文献に記載されています[X280X ]。

2.2. アルゴリズム的バイアスはバイアス用語ではありません

人工知能のコンテキストでは、機械学習モデルに関連するバイアスについて頻繁に話します。したがって、アルゴリズムバイアスをモデルバイアスに減らしたいと思うかもしれません。

ただし、これは間違いです。 モデルバイアスはアルゴリズムバイアスのサブセットですが、それに還元することはできません。アルゴリズムバイアスには、モデルバイアスだけでなく、非代表的なトレーニングデータに由来する選択バイアスも含まれます。また、関心のある機能と見なす測定値に関する偏見も含まれています。

最後に、分類タスク用に選択したオントロジーから派生したバイアスも含まれています。醜いアヒルの子の定理は後者に関して特に重要です。なぜなら他のどの方法よりも本質的に好ましい分類方法がないことを証明しているからです。

3. 醜いアヒルの子の定理

3.1. すべての可能なアヒルのスペース

動物学における一般的なタスクは、動物種の分類法の作成です。機械学習では、教師あり学習の分類問題の観点から分類法を考えることに慣れています。動物学では、代わりに、分類法を類似性に従って動物をグループ化する問題と考えています。

基本的な考え方は、2匹の動物が十分な数の類似した特徴を示す場合、2匹の動物は同じ分類学的グループに属するということです。たとえば、醜いアヒルの子と2羽の美しい白鳥のペアワイズの類似性を調べたい場合があります。

私たちが持っている直感的な考えは、もちろん、2つの白鳥は互いに非常に似ていますが、醜いアヒルの子は奇妙なものです。 しかし、醜いアヒルの子の定理は、これが必ずしもそうではないことを示しています。

3.2. アヒルの抽象的な概念

アヒルは抽象化の世界に住んでいますが、それ自体が抽象概念として扱うこともできます。「duck」と呼ばれる抽象クラスをコーディングしていると想像してみてください。これには、有限数のブール値の特徴が関連付けられています。

これらの特徴は、例えば、アヒルの色、サイズ、くちばし、または水鳥のその他の身体的、行動的、心理的特性を表すことができます。

ここで、いくつかのアヒルをクラスにグループ化したいとしましょう。しかし、どの機能が他の機能よりも重要であるかについて、先入観はありません。この場合、抽象機能のすべての可能な組み合わせと、それらに関連する可能性のある値を一覧表示できます。 次に、任意の機能を選択し、その機能を最初に記述し、他のすべての機能を次に説明するビットの文字列を辞書式順序で並べ替えることができます。

簡単にするために値を使用して、考えられるすべての組み合わせをリストしてみましょう。

考えられるすべてのアヒルの空間にある特定のアヒルについて、次の質問をすることができます。どのアヒルがそれに最も似ていないのでしょうか。 文字列のすべてのペア間のハミング距離を計算することでこの質問に答えることができます。たとえば、アヒルの番号1から始めると、アヒルの番号4が最も類似していない数字、具体的には2つであることがわかります。

このグラフは、ハミング距離に応じた、アヒル空間内の抽象的なアヒル間の距離を表しています。

任意のアヒルの子から始めて、この方法で計算すると、醜いアヒルの子は最初のと最も似ていないものです。上記の場合、最初の抽象的なアヒルに関連する醜いアヒルの子はアヒル番号4です。

3.3. コンクリートアヒルの類似性

ただし、個々の機能のみを比較するという制限は、ほとんど任意です。実際、利用可能な機能から複数の機能を選択する方が有益だったかもしれません。または、実際、それらすべてを組み合わせたブール関数。ただし、使用するブール関数を選択するための基準がないため、唯一の偏りのないアプローチは、それらすべてを選択することです。

サイズの特徴ベクトルにはブール関数があります。この文脈では、私たちが考えるブール関数のアリティと考えることもできます。前に見た2つの機能から始めると、すべてのブール関数の出力に対応するサイズのバイナリ文字列を生成できます。

これをさらに明確にするために例を見てみましょう。命題「笑顔」と「シルクハットをかぶっている」という命題でエンコードし、上記の3羽のアヒルでこれらの特徴を測定できます。

これは、3つのアヒルを構成するすべての可能なブール関数の表現です。

これで、各アヒルが他のアヒルと正確に共通のビットと、それとは異なるビットを持っていることに気付くことができます。言い換えると、すべての可能なブール関数に関連付けられたベクトル間のペアワイズハミング距離は常にに等しいことがわかります。 つまり、すべてのアヒルは他のアヒルと同じように似ているか、同じように異なっています。

このプロパティは、想定する特定の値とは無関係です。意味のあるものとして選択する機能の数を増やすと、それに応じてブール関数の数が増えます。 ただし、類似ビット数と非類似ビット数の比率は1のままです。

これは、測定用に選択した特定の機能に関しても不可知論者であることに注意してください。尊重しなければならない唯一の条件は、2つのアヒルが同じ特徴ベクトルを持たないことですが、この条件は常に満たされます。実際、すべてのアヒルが別個のオブジェクトとして識別できる場合は常に当てはまります。