1. 序章

このチュートリアルでは、相関現象が分類アルゴリズムなどの機械学習アルゴリズムに与える影響を分析します。

以下の説明は、一般的なパターン認識の問題に当てはまります。

2. 間奏:相関と因果関係

相関は因果関係を意味しません。 たとえば、風の増加は風力発電所のブレードの速度の増加を引き起こし、それは発電の増加につながりますが、ブレードの速度の増加は増加を引き起こしません風。 ただし、一方の数値を他方の数値から予測できるという点で、2つの現象は関連しています。

次の図は、同じ例の別の観点を示しています。

認識論の観点から、2つの概念は論理的に異なります。例で見たように、相関は対称です(変数に相関する変数は変数が変数に相関することを意味します)が、因果関係は非対称です完了しました。

相関は、統計的な観点から分析できる概念です。 したがって、機械学習のほとんどの方法の統計的性質を考えると、一般に、因果関係ではなく相関について話すことは理にかなっています。

相関係数が実際に何を表すかに関するチュートリアルには、これらの概念に関する優れた議論があります。

相関の現象は、分類器の構造と動作方法に影響を与えません。 ただし、それらは個々の予測に悪影響を及ぼし、最終結果の品質に影響を与える可能性があります。

その理由は、後で説明するように、アルゴリズムで問題を分析するときに発生するいくつかの一般的な制約にあります。 これらの制約の中で、最も重要なのは利用可能なデータセットのサイズです。

3. 相関と共線性

相関と共線性は別の現象ですが、接点があるので、相関の例として考えます。

相関は、ある変数の増加が別の変数の増加に関連している場合は正になり、一方の変数の増加がもう一方の変数の減少に関連している場合は負になります。

3.1. 相関

統計では、相関は2つの確率変数間の依存度の尺度です(これまで見てきたように、必ずしも因果関係はありません)。 一般に、相関という言葉は線形関係を意味します。

相関は、別の変数の値を知っている1つの変数で予測を行うことができるため、前向きな現象になる可能性があります。

相関は依存性と同義であるため、統計的な観点から2つの独立した確率変数は相関していません。

相関係数(通常はまたはで示される)として知られる、相関のいくつかの尺度があります。 最も一般的なのはピアソン相関係数で、2つの変数間の線形依存度を測定します。 この線形関係は、2つの変数間の数学的依存性が非線形関数に従っている場合でも意味があります。

これらは他の相関係数であり、スピアマンの順位相関相互情報量などの非線形関係にも敏感です。

3.2. 相関係数

ピアソンの積-モーメント相関係数(PPMCC)は、ピアソンの相関係数または単に相関係数とも呼ばれ、元のデータに適合する最小二乗の品質の尺度です。 数学的には、2つの変数の共分散とそれらの標準偏差の比率です。

   

ここで、レコードと平均を持つデータセットの場合:

   

手段を参照せずに、次のように同等の方法で表現できます。

   

3.3. 共線性

統計では、共線性(多重共線性も)は、重回帰モデルの1つの予測変数が他の変数からかなりの精度で線形に予測できる現象です

多重共線性は、少なくともサンプルデータセット内では、モデル全体の予測力や信頼性を低下させません。 個々の予測子に関する計算にのみ影響します。 つまり、共線予測子を使用した多変量回帰モデルは、予測子のバンドル全体が結果変数をどれだけうまく予測できるかを示すことができますが、個々の予測子または予測子間の冗長性について有効な結果が得られない場合があります。

多重共線性がないということは、通常、完全な多重共線性がないことを意味します。これは、予測子間の正確な(非確率的)線形関係です

一般線形モデルの場合:

   

この式の行列形式を再編成すると、統計的予測子を記述できます。

   

ただし、共線性の場合、逆数を計算することはできません。 したがって、この予測子は存在しません 。 その理由を理解する価値があります。

3.4. 多重共線性の問題

逆行列を計算できるのは正方行列だけです。 積は正方行列です。

正方行列のランクは、線形独立の行または列の数です。 フルランク行列には、行列の行または列の数に等しい線形独立の行または列の数があります。それ以外の場合は、ランク不足と呼ばれ、この場合、行列()の場合は。

非正方行列の場合、ランクは行と列の間の最小値です。 一般に、すべての列(機能)が独立している場合、データセットの入力行列はフルランクになります。

したがって、共線性(完全な多重共線性)が存在する場合、データ行列のランクが不足します。

代数の2つの基本的な結果は次のことを確立します。

  1. ランクが不足している場合

私たちの予測子の場合、データセットからの一般的な非正方行列の結果がランク不足である場合、したがって、正方行列はランク不足であり、その行列式はnullです。

行列の場合、逆行列は次の式に従って計算できます。

   

   

しかし 。 この結果と前の2つのプロパティから、共線性の場合、線形予測子は存在しないことがわかります。 この結果は、任意の次数の行列に一般化できます。

多重共線性はデータマトリックスの特性であり、基礎となる統計モデルではありません

4. 次元の呪い

データセット内のレコードの数は、統計モデルで処理できる機能の最大数を条件付けます。 特定の状況では、データセットを同等のデータセットに変換するために、いくつかの前処理技術を適用する必要がある場合があります。これにより、良好な結果を確実に得ることができます。

例として、一連の画像から始めて可能な限り最良の分類を達成することを目的とした活版印刷文字認識システムを考えてみましょう。

最初のステップは、いくつかの特徴(特徴抽出)を特定することです。これは、各画像が属する分類器によって予測されたカテゴリにリンクできるいくつかの入力パラメーターです。

機能の数を増やすと分類器のパフォーマンスが向上することに直感的に同意できます。 この場合、私たちが行っているのは、システムに入力される情報を増やすことです。これにより、原則として、より高い解像度でパターンを認識できるようになり、入力と出力の間のマッピングが改善されます。

この状況は、たとえば、画像の1つのピクセルでシステムの各入力を識別し、数千または数万のオーダーの入力次元を取得することによって、特徴の数を任意に増やすことを示唆しています。

ただし、経験的な実践では、機能の数を特定の制限を超えて増やすと、分類器のパフォーマンスが低下することが示されています。 理由を見てみましょう。

4.1. 例

各変数を特定の間隔に分割します。 これにより、次の図のように、入力スペース全体がいくつかのセルに分割されます。

データセットの各インスタンスは、セルの1つのポイント、および出力変数の値に対応します。

入力スペースに新しいポイントが与えられた場合、与えられたポイントと同じセルに属するデータセット内のすべてのポイントを計算し、の値を平均することで、対応する値を決定できます。

細分割の数を増やすと、セルの数が指数関数的に増える代わりに、システムの解像度が上がります。 各入力変数が範囲に分割され、入力の次元がである場合、セルの総数はに等しくなります。

データセットの代表的なポイントがないセルがある状況に到達するため、特定の制限を超えて増加すると、分類器の品質が低下します。 この異常は「次元の呪い」として知られており、この場合、唯一の解決策は、データセット内のレコード数を増やすか、特徴の数を減らすことです。

ただし、データセットが通常一連の測定によって与えられる実際の問題の場合、分類子を作成するときにレコードの数は固定されます。 実際には、データセットのサイズは、システム内で「解決」できる機能の最大数を条件付けます

相関と共線性は、分類器のパフォーマンスにグローバルに影響を与えない現象ですが、実用的な観点からは否定的な要素です。 このような場合、データセットの本質的な解決能力を超えて、分類器が多くの機能を処理しなければならない可能性のある冗長なデータがあります。

したがって、ルールは、データセットの前処理を実行して、制御された再現可能な方法で、元の情報のほとんどを含む最小数の特徴を取得することです。ここで、データの分散はこの量の尺度です。情報の

これはまさに主成分分析が行うことです。

5. 主成分分析(PCA)

入力行列の相関と共線性は収差と見なされます。 前のセクションの画像の極端なケースで見たように、入力スペースのすべての領域で十分な分解能を持つにはデータ量が不十分な状況につながる可能性のある冗長な情報を導入します。

私たちが議論した問題を形式化しましょう。 特徴(列)と行(データセットのレコード)で構成されるデータセットの入力行列を呼び出します。 入力の相関の場合、次の問題があります。

  1. 分類器を構築するプロセスでは、入力と出力の間のマッピングが依存する機能を特定する必要があります。 一般にモデルがないため、機能の選択は部分的に任意であり、一般に、データセットに相関関係が導入されます
  2. この場合、すべてのコンポーネントが線形独立ではない場合、ランクが不足する可能性があります
  3. より多くの情報を提供し、より重要になるため、分散の大きい機能を使用することをお勧めします。
  4. 高度に相関する特徴、または高い共分散を持つことは悪いことです。なぜなら、それらは情報をほとんど失うことなく相互に推定でき、したがってそれらを一緒に保つことは冗長だからです。 この場合、機能の数の選択は、利用可能なデータの数によって提供される機能に対して過剰になる可能性があります。

私たちが探しているのは、次の方法です。

  1. 可能であれば、元の入力行列を新しいフルランク行列に変換します。 これにより、相関と共線性に関連する問題のほとんどが解決されます
  2. 制御された方法で入力のサイズを縮小し、入力と出力の間のマッピングに不可欠ではない情報を排除できる基準を特定します。

PCAはこれらの問題を解決します。 これは、フィーチャの数と同じ数の線形独立軸の新しいセットでの元のデータの回転と投影です。 その結果、理想的な状況では、新しいフルランクのデータマトリックスが作成されます。 この新しい行列は、元のデータセットよりも小さい新しいデータセットになり、特徴の数は元のデータの任意の量の情報を保持します

次の画像は、元の軸の回転と、直交軸PCA1およびPCA2の新しいセットへの投影を示しています。

PCAの詳細な説明は、 PCA:主成分分析のチュートリアルにあります。

6. 結論

このチュートリアルでは、相関現象が予測手法内で一般的にどのように有害であるかを分析しました。

データセットの固定サイズは、アルゴリズムに組み込むことができる機能の最大量を条件付けます。 相関効果の場合、データには冗長な情報が含まれています。 この状況では、制御された方法でデータセットのサイズを縮小し、冗長な情報の一部を排除できます。

主成分分析は、この目的で使用される方法論の1つであり、機械学習のすべての技術者に義務的な知識の技術の武器の一部を形成します。