1. 概要

このチュートリアルでは、テーブルまたはデータセットの機能を正規化する方法を学習します。

まず、正規化が役立つ理由と、それをいつ適用することが期待されるかについて説明します。 次に、テーブル内の機能を正規化するための3つの最も一般的な方法を示します。

このチュートリアルの終わりに、正規化の概念とその最も一般的な実装の公式について理解します。

2. 一般的な正規化

2.1. 直感的に正規化とは何ですか?

正規化の考え方が存在するのは、一般に、新しいデータセットが正規化されないことを期待する必要があるためです。 ただし、機械学習モデルのトレーニングを計画しているデータセット正規化することが望ましい場合がよくあります。 これが何を意味するのかはすぐにわかりますが、今のところ、これが当てはまる理由を直感的に理解することが重要です。

5人で構成されるクラスの生徒の体重と身長の分布を考えてみましょう。

学生 重量(Kg) 高さ(cm)
Dotty 89 182.1
ハムザ 68 146.8
デボンテ 75 170.5
アレックス 68 154.8
リース 86 180.6

これは、対応する散布図です。

上の図を見ると、体重と身長の2つの特徴の間にある種の関係が存在することがわかります。 より正確には、関係が線形であると疑うことができ、それに適合するモデルを特定したい場合があります。

2.2. 複雑なフィット

線形モデルは、勾配と切片の2つのパラメーターで構成されます。 どの線形モデルがこのデータセットに適合するか正確にはわからないため、ランダムな値をとに割り当てることから始めることができます。 簡単にするために、最初に両方と:の両方に0を割り当てたとしましょう。

そうすると、モデルが不正確であることがわかります。これは、プロットが低すぎることと、フラットすぎることです。 次に、との両方の値を少し増やして、線が観測値に近づくかどうかを確認できます。

今は良く見えます。 次に、パラメータ、およびの値を増やすプロセスを繰り返すことができます。 フィット感に満足するまでこれを行います。

このアプローチは機能しますが、収束するまでにかなりの反復が必要になる場合があります

2.3. シンプルにする方法

ただし、データセットが原点を中心に配置されていれば、私たちにとってはもっと良かったでしょう。 もしそうなら、モデルで正しいパラメータをそれほど広く検索する必要はなかったでしょう。 これを見てみましょう 2.1。 直感的に正規化とは何ですか? ■2番目のテーブルとそれに対応する散布図:

学生 重さ 身長
Dotty 0.562 0.429
ハムザ -0.438 -0.571
デボンテ -0.105 0.100
アレックス -0.438 -0.344
リース 0.419 0.386

前の場合と同様に、データに適合する線形モデルを見つけたいと思います。 この2番目のケースでは、原点を通過する線、または原点に非常に近い線がの役割を果たしているようです。 前の場合と同様に、線形モデルのパラメーターとを0に初期化します。

ただし、今回は、切片がすでに正しい位置にあるか、少なくともそれに非常に近いようです。 これは、線の傾きを大きくする必要があることを意味しますが、切片にあまり触れる必要はありません。

今回はトレーニングプロセスが大幅に高速化され、収束に達する前にパラメータ空間での移動が少なくて済みました。

ここで、これらの例で使用した2つのテーブルは相互に関連しています。 実際、2番目のテーブルを前のテーブルの正規化バージョンと呼びます。 これらの2つのデータセットが関連付けられるプロセスは、その後、正規化と呼ばれます。

2.4. では、なぜ正規化するのでしょうか。

上記で調査した例は、機械学習の2つの典型的なケースを示しています。 1つ目は、環境からの生の測定値で構成されるテーブルに対応し、前処理は行われませんでした。 この状況では、通常、機械学習モデルのトレーニングプロセスが長くなります。

2番目のケースは、前処理されたデータセットに対応します。このデータセットでは、特定の範囲または間隔に収まるように、または特定の形状を持つように、フィーチャがすでに操作されています。 これにより、通常、モデルのトレーニング時間が速くなります

それを回避する特別な理由がない場合は、機械学習モデルをトレーニングする前にデータセットを正規化することをお勧めします。 これにより、最良の場合、トレーニング時間が大幅に改善されます。 最悪の場合、機械学習パイプラインの操作のリストにいくつかの減算と除算を追加しただけです。

3. 混乱を避ける方法

3.1. 正規化は正常ではありません

ここで、正規化の概念を初めて研究するときによくあるいくつかの間違いについて説明する必要があります。 1つ目は、分布の正規化を正規分布と混同するリスクです。 正規分布は、正規化の結果であるとは限りませんが、正規化の結果である可能性があります。その結果、2つの概念を分離しておく必要があります。

正規化は、指定された一連のルールに従って、ディストリビューションの機能に新しい値を割り当てるプロセスまたは手順と考えることができます。 代わりに、正規分布を特定の形状の分布、典型的なガウスベルと考えることができます。

3.2. 正規化と標準化

また、正規化という言葉も明確ではないことを覚えておく必要があります。 場合によっては、この用語は確率分布を別の分布にマッピングするプロセスを表します。 また、特定の間隔への変数のスケーリングについて説明する場合もあります。

したがって、統計や機械学習に関する記事を研究するときは、正規化という単語で著者が何を意味するのかを正確に理解していることを確認することが重要です。

正規化と重複することがあるもう1つの頻繁に遭遇する単語は、標準化です。 ただし、後者は、特に原点を中心とするガウス分布に分布をマッピングするプロセスを指し、前者と混同しないでください。

4. 正規化の方法

4.1. 単位間隔へ

これで、テーブル内の機能を正規化するための実際の方法に近づくことができます。 ここでは、新しい生のデータセットの正規化手法の基本的な武器を構成する3つを紹介します。

1つ目は、分布の単位間隔へのマッピングに対応します。 単位区間はであるため、分布の最小値をゼロにマップし、最大値を1にマップするか、可能な限り1に近づける必要があります。

これらの要件を分解して、変数で使用するマップを呼び出しましょう。 の場合、これはの分析式に式が含まれている必要があることを意味します。 の終域がに対応する場合、その範囲は1です。 したがって、の範囲がの場合、の分析式には。による除算が含まれている必要があります。

したがって、単位間隔に正規化するための完全な式は次のとおりです。

これは、上記の例として使用した重みと高さの分布を単位間隔に正規化する方法を示すグラフです。

このタイプの正規化を適用する場合、元の分布の範囲で除算するときに、この範囲がゼロより大きいことを確認するように注意する必要があります。

4.2. 特徴スケーリングによる平均正規化

ただし、各観測値とその分布の平均との関係に関する情報を強調することに関心がある場合があります。 これを行うには、最初に平均を減算して分布を左にシフトします。

これにより、より低い値はすべて負になり、それより高い値はすべて正になります。 このタイプの正規化には、スケーリングも頻繁に伴います。 スケーリングは、前のケースで見たものと同様に、元の分布の範囲による除算に対応します。

これは、上記のセクションに示した表に採用した特定の正規化方法です。

4.3. 標準偏差による正規化

最後に、標準偏差を利用して、分布を正規化することもできます。 これは、元の分布が正常である場合に特に役立ちます。これは、結果の分布の平均が0、標準偏差が1になるためです。

これは、平均と標準偏差で正規化された、使用した2変量分布の例です。

4.4. どちらを使用しますか?

使用する正規化のタイプの決定は、機械学習で一般的であるように、実行しているタスクに依存します。 新しいデータセットで作業しているときに、いくつかの代替の正規化手法をテストし、どれがモデルの精度の向上につながるかを確認するのが適切です。

したがって、特定のタスクに対する特定の正規化手法の選択はヒューリスティックに行われるため、いくつかの手法を試して、どれが最も効果的かを判断する必要があります

5. 結論

この記事では、テーブルまたはデータセットの機能を正規化する方法を学習しました。

最初に、正規化とは何か、そしてそれがどのように機能するかを直感的な観点から学びました。 次に、被写体に初めてアプローチするときによくある間違いを調べました。

最後に、正規化の主な手法とそれに関連する式について学習しました。