1. 序章

このチュートリアルでは、人工ニューラルネットワークの重み初期化手法と、それらが重要である理由を学習します。

初期化は、ネットワークトレーニングプロセスによって達成される最適化の速度と品質に大きな影響を与えます。

2. 基本的な表記法

説明を説明するために、次の図に示すような、従来の完全に相互接続されたフィードフォワードネットワークを参照します。

ネットワークの各ユニットは、前のレベルのユニットの出力の加重和の非線形変換(活性化関数)を実行して、独自の出力を生成します。

   

バイアスは、出力が1で重みが等しい追加の単位と見なされ、y切片の機能があります。これがないと、ネットワークによって生成されたモデルは、問題の空間の原点から強制的に通過します。 。 バイアスは柔軟性を追加し、この条件が満たされないデータセットのモデリングを可能にします。

3. 対称性を破る

ニューラルネットワークの重みを初期化するには、基本的に2つの極端な選択肢があります。ネットワーク内のすべての重みに対して単一の値を選択するか、特定の範囲内でランダムに生成します。

ベストプラクティスでは、初期バイアスがゼロのランダムセットを使用することをお勧めします。 その理由は、「対称性を破る」必要性、つまり、各ニューロンに異なる計算を実行させる必要性にあります。 対称的な状態では、トレーニングは厳しく罰せられるか、不可能になることさえあります

対称性を破ることには、問題を検討する規模に応じて、2つの異なる側面があります。単一のネットワークの接続の観点から、または異なるネットワークの観点からです。

3.1. ネットワークのユニット内で対称性を破る

ネットのすべてのユニットが同じ初期パラメーターを持っている場合、決定論的コストとモデルに適用される決定論的学習アルゴリズムは、これらのユニットの両方を同じ方法で常に更新します。 理由を見てみましょう。

非線形活性化関数に関する記事では、例の提示に基づいて重みを更新する手順を提供するデルタルール(最急降下法)に基づく古典的な学習メカニズムを研究しました。

簡単にするために、測定データのデータセットのレコードを使用して、予測の良さの尺度として、線形活性化関数とネットワーク出力、、およびターゲット間の二乗誤差を使用する単一層のネットワークを想定します。

   

デルタルールは、重みを更新するために次の式を提供します。

   

学習率はどこですか。

ネットワーク内のすべての重みを同じ値で初期化するとします。 次に、活性化関数に選択された関数形式に関係なく、違いはすべてのユニットで同じになり、新しい重みのセットはすべて同じ数値になります

この「対称的な状況」は制約と考えることができます。 練習はそれが有害であり、最適なトレーニングを可能にしないことを示しています。

3.2. 異なるネットワークで対称性を破る

問題に最適なニューラルネットワークを特定するには、エラーが最小になるネットワークを特定するために、さまざまな構造とパラメーター化を試してテストキャンペーンを行う必要があります。 手順は、たとえば、さまざまなソリューションを提案し、それらを競合させる遺伝的アルゴリズムを使用して自動化できます。

代わりに、ネットワークの同じ構造と同じパラメーターと重みを使用して、さまざまな試行を実行するとします。 この場合、すべてのネットワークは、問題のエラー空間で同じ開始点を持ちます。

前のセクションで見たように、多くのトレーニングアルゴリズムは、重みの変化に伴う誤差勾配の変化を研究します。 同じポイントから開始するということは、勾配の方向が異なる試行間で常に同じまたは非常に類似し、重みが同じ方法で更新されることを意味します

これは、対称的な状況のもう1つの側面です。 さまざまな重みを選択すると、さまざまな方法で空間を探索でき、最適なソリューションを見つける可能性が高まります。

4. ランダムな初期化

前のセクションから、重みをランダムに初期化する必要があることを理解しましたが、どの間隔内ですか? 答えは、ニューラルネットワークが使用する活性化関数に大きく依存します。

例として考えてみましょう:

引数の極端な値に対しては、曲線の解像度が低くなります。 の値が大きすぎるか小さすぎる場合の変動は、(勾配消失問題)の小さな変動につながります。

この事実は、重みの初期化範囲の基準を提供します。これは、中間範囲に配置する必要があります。 一部の作者は推奨し、他の作者は。 ロジスティック活性化関数またはを使用する場合、ほとんどの用途に範囲が適切です。

5. 高度なランダム初期化手法

前のセクションで示したランダムな初期化では、生成された重みは、選択された範囲内で、同じ確率であると見なされます。 これは、一様分布によるランダム生成に相当します。

ガウス分布など、他の確率の法則を使用できます。 この最後のケースでは、重みは間隔内で生成されませんが、通常は特定の分散で分布されます。

以下に示す手法は、これらの変動の限界の推定値を示します。一様分布の区間の拡張、、およびガウス分布の標準偏差、。

5.1. Xavier-Bengio初期化

Xavier-Bengio初期化は、Xavier-Joshua初期化またはGlorot初期化とも呼ばれ、ロジスティック活性化関数と双曲線正接に使用できます。 これは、線形活性化関数の仮定を考慮して、これらの著者によって導き出されました。

Xavierの初期化方法のロジックは、勾配消失問題やその他の収差を回避するために、各レイヤーの入力と出力の分散を等しく設定することです

一様分布(interval)に従った重みの変動区間と、平均がゼロの正規分布の場合の標準偏差を呼び出します。

   

ロジスティック関数については、クォン・ヨンマン、クォン・ヨンウ、チョン・ドンクン、リム・ミョンジェが次のように表現します。

   

ここで、は重み行列であり、は特定のネットワーク層の入力および出力の重み接続の数であり、技術文献でも呼ばれています。

私たちのために:

   

およびパラメーターは、特定の確率分布に適用される尺度パラメーターとして機能することに注意してください。

ただし、技術文献では他の表現がより一般的です。 特に、正規分布の場合:

   

によって与えられるバリアントで:

   

5.2. 彼の初期化

Kaiming初期化とも呼ばれます。 この方法は、2005年に発行された Kaiming Heetal。による有名な論文にちなんで名付けられました。 重みに異なるスケーリング係数を使用することを除いて、Xavierの初期化とほぼ同じです。

彼等。 ReLUの非線形性を注意深くモデル化することにより、初期化方法を導き出しました。これにより、非常に深いモデル(> 30層)の収束が困難になります。 次に、これらの活性化関数に関連付けられます

クォン・ヨンマン、クォン・ヨンウ、チョン・ドンクン、リム・ミョンジェは次のように表現しています。

   

ここでも、正規分布に適した次の式を使用するのが一般的です。

   

この手法には確かな理論的正当性があります。 適切な初期化方法では、入力信号の大きさを指数関数的に縮小または拡大することを回避する必要があることを考えると(勾配消失問題)、Heetal。 このタイプの収差を回避するために、次の条件で作業に到着しました。

   

これはテキストの表現につながります。

次の式で与えられる、より一般的な式を取得することはまだ可能です。

   

ここで、は現在の層の後に使用される整流器の負の勾配です。 デフォルトではReLUの場合、テキスト式に戻ります。

6. 他の形式の初期化

他の多くの方法が提案されています。 科学的なパッケージは、これらの技術の多くを利用可能にします。 たとえば、Kerasには次の可能性があります。

  • ゼロ:0への初期化
  • 1:1への初期化
  • 定数:定数値への初期化
  • RandomNormal:正規分布による初期化
  • RandomUniform:一様分布による初期化
  • TruncatedNormal:切断正規分布による初期化
  • VarianceScaling:スケールをウェイトの形状に適応させることができる初期化
  • 直交:ランダムな直交行列を生成する初期化
  • 単位行列:単位行列を生成する初期化
  • lecun_uniform:LeCunユニフォーム初期化子
  • glorot_normal:Xavier通常の初期化子
  • glorot_uniform:Xavierユニフォーム初期化子
  • he_normal:通常の初期化子
  • lecun_normal:LeCun通常の初期化子
  • he_uniform:均一分散スケーリング初期化子

7. 結論

この記事では、ニューラルネットワーク内のいくつかの重み初期化手法の概要を説明しました。 どうやら、二次的なトピックは実際に結果の品質とトレーニングプロセスの収束の速度に影響を与えます。

これらの手法はすべて、確かな理論的正当性を持っており、勾配消失問題など、高度に研究された技術的問題を軽減または解決することを目的としています。