はじめに

このチュートリアルでは、ニューラルネットワーク内の活性化関数の役割を分析します。 本当に、彼らは歴史的に複雑な道をたどってきました。 そこで、それらの認識論的、技術的、および数学的側面が、非線形活性化関数に向かって収束するように導いた方法を調べます。

線形活性化関数から始めて、それらの制限を分析します。 最後に、が非線形問題に線形活性化関数を使用することが不十分である理由を示すいくつかの例を示します。

2. フィードフォワードニューラルネットワークの構造

完全に相互接続されたフィードフォワードニューラルネットワークに焦点を当てて分析します。構造は次のように表されます。

これらのタイプのネットワークには再帰的な接続がなく、各接続は1つのレイヤーのユニットを次のレイヤーのすべてのユニットに接続します。

これらは、監視対象ニューラルネットワーク の例であり、例(データセット)の提示を通じて学習し、ネットワークの出力を相対ターゲットの測定値と比較します。

伝播は左から右に発生します。 ベクトルで入力ユニットのセットを示し、出力ユニットのセットで示します。 入力と出力を接続する未知の関係は、ユニット内で発生する数学的変換によってモデル化されます。

ディープネットワークは、複数のレイヤーを含むネットワークです。

2.1. 活性化関数

次に、ネットワークのすべてのユニットの構造を示します。

各接続は、重みの値を介して相対入力の値を増幅または禁止できます。 各ユニットの接続のセットは、加重和として集計されます。

   

情報は主に重みの値にあります。 トレーニングプロセスの主な目的は、重みの最適値を見つけることです。

バイアスは、出力が1で重みが1の追加ユニットと見なされます。 -intercept(オフセット)の機能があります。

バイアスがない場合、ネットワークによって生成されたモデルは、問題の空間の原点、つまり点から強制的に通過します。 バイアスは柔軟性を追加し、この条件が満たされないデータセットのモデリングを可能にします。

合計は活性化関数と呼ばれる関数に従って変換されます。 ネットワーク上のすべてのユニットが同じであるのは一般的です。 ただし、異なる場合があります。 が非線形の場合、神経回路はデータに存在する非線形関係をモデル化できます。

ニューラルネットワークの最適な紹介は、BenKroseとPatrickvanderSmagのすでに古典的な作品です。 より技術的でより深い扱いは、Schmidhuberの論文とBishopの本です。

知識とモデル

人工ニューラルネットワークで非線形活性化関数を使用する主な理由は技術的です。 ただし、認識論的な理由もあります。

ある意味で、機械学習の分野で使用されるアルゴリズムは、不可能の結果です。 これは、特定のクラスの問題を従来の科学的アプローチで処理することを妨げる理解と知識の欠如によるものです。 この問題は、ニューラルネットワークなどのブラックボックスモデルで特に顕著です。

この事実は、運用パラダイムの変化と、これらの問題を新しい視点から見る必要性につながります。 現象の深い理解の放棄を意味する方法で予測モデルの構築としてそれを表現することができます。

3.1。モデルの開発

過去3世紀の間、そしてごく最近まで、経験科学の知識は主にモデルの構築を通じて進歩してきました。 一般に統計や数学などの非経験的科学には、さまざまな操作方法があります。

受け入れられている多くの科学モデルや理論は、私たちが測定したデータだけでなく、世界の定性的な観察の結果でもあることを理解することが重要です。

一般相対性理論や量子力学など、非常に複雑な物理理論について考えてみましょう。 今日、私たちはそれらを物理的な世界の有効な表現と見なしています。 しかし、現在の定式化に至るまでの道のりは非常に長く複雑です。

重要なのは、定性的な知識と現象についての推論の可能性により、実験を考案することができたということです。 これらの実験により、さまざまなオプションを比較し、モデルを調整して、現在の状態にすることができました。

このプロセスにより、物理現象が依存するすべての変数とパラメーターを特定できるため、これらの理論の予測は非常に正確です。

この問題は、測定データを十分に説明できる2つの理論から選択する場合に特に明白です。 この場合、予測能力に基づいて、2つの間の最終的な選択を行うことはできません。 この場合、それらは一般性、単純性、優雅さなどの概念を取り入れます。

オッカムの剃刀は、科学の指針として何世紀にもわたって使用されており、この種の考慮事項の重要性を表しています。

3.2。新しいパラダイム

問題は、伝統的な科学の発展において、特定の選択は真の選択ではないということです。 それらの線形または非線形構造は、前述したように、測定データのみに依存しない理論開発プロセスの結果です。

現象が複雑な場合、通常は非線形モデルに目を向けます。 ただし、線形モデルによって支配される自然法則の例はたくさんあります。

たとえば、フックの法則 –は、springの作用を受ける質量の力と変位を結び付け、実際の物理現象に関する正確な予測を可能にする線形モデルの例です。

ここ数十年で、増え続ける計算機能のおかげで、新しいニーズが生まれました。 デジタルテクノロジーにより、膨大な量のデータを収集することが可能になりました。これらのデータは、予測を行うために何らかの方法で相互に関連付ける必要があります。

このような状況では、物理モデルについて説明した定性的なコンポーネントが欠落していることがよくあります。 世界についての推論ははるかに困難であるか不可能でさえあり、モデルの識別の道で私たちを一般的に助けることはできません。

その結果、モデルが選択されたとしても、得られた結果が最良の解決策に近いか遠いかを知ることができないことがよくあります。 これにより、新しいパラダイムから、新しい視点からこれらの問題に取り組む必要があります。

これらの場合、モデルの構造は選択になり、ほとんど任意であり、不完全な情報で操作する必要があります

3.3。

私たちがインターネットをサーフィンするときに多くのオンラインサービスが私たちに提供するパーソナライズされた広告を検討してください。 それらの正確さは、広告主がこの方法で製品を宣伝することに興味を持つために不可欠です。

表面的には、広告は年齢と過去の購入に依存するはずだと思われるかもしれません。 しかし、どのように?

たとえば、私たちの好みは時間とともに変化するので、購入の最新性もおそらく重要です。 おそらく、見込み客の地理的領域を追加する必要があります。 他に必要なパラメータはありますか?

3.4。選択の恣意性

これらの質問に少なくとも部分的に答えることは可能です。

ただし、問題が依存するすべてのパラメーターを特定したという確実性すらないため、それを解決するために構築されたモデルでは、従来の科学モデルで説明した精度を実現できないことは明らかです。

ニューラルネットワークやその他のブラックボックスアルゴリズムを使用すると、古典的な意味での分析に適さない未知の問題の測定データ間の関係を構築できます。 これらの手順の良さは、良いか悪いかにかかわらず、有限の時間で結果を得ることができるという事実から成ります。 この議論は、人工ニューラルネットワークの基礎となるモデルの構造が、大部分、任意の選択であることに焦点を当てています。

これらのアルゴリズムで処理される問題の本質的な複雑さに関する知識が不足していることは、最も柔軟なモデルの選択を示唆しています。 目標は、私たちが良い結果を得る可能性が最も高い状況にあることです。 これらの条件は、非線形モデルによって事前に提供されます。

線形および非線形モデル

数学関数はさまざまな方法で分類できますが、その1つは、関数を線形と非線形に分割することです。

A 一次関数 次の一般的な条件を満たすものです。

   

したがって、線形モデルは、線形関数によって制御される手順です。 それ以外の場合、それらは非線形モデルと呼ばれます。

区別は重要です。 非常に大まかな方法で、非線形モデルよりも単純な線形モデルを考えることができます。

場合によっては、この区別により、独立変数とパラメーターが変化するときにモデルがどのように進化するかが直感的にわかります。これは、非線形モデルでははるかに複雑です。 これが、線形モデルと方程式が歴史的に最初に研究されてきた理由です。

今日の計算上手頃な問題の複雑さにより、非線形アプローチを使用する必要があります。 ただし、非常に高度な線形手順の例があります。 例として、線形方程式を使用する定常時系列の予測に使用される ARIMA 自己回帰和分移動平均)モデルがあります。

これまで、モデルの線形性は、モデルが使用する関数の線形性によって与えられると暗黙のうちに考えてきました。 ただし、線形統計モデルは線形関数と同じではないことを常に考慮する必要があります。

非線形関数は線形モデルにつながる可能性があります。 これは、線形性が予測変数ではなくモデルパラメーターによって決定される場合に発生する可能性があります。 非線形活性化関数を使用した結果として、人工ニューラルネットワークの非線形特性を検討します。

一般に、非線形モデルはより柔軟性があり、より複雑な現象をモデル化できると言えます。 しかし、それらはまた、より多くの自由度を持ち、量の間のより複雑な関係を確立します。 そのため、キャリブレーションとテストがより困難になります。

4.1。線形モデルを直感的に検討する方法

線形モデルを構築して、単一の独立変数に依存する問題について予測を行うとします。

従属変数(予測しようとしているもの)と独立変数の一連の測定値があると想像してみましょう。 従属変数をターゲットと呼び、独立変数を入力と呼びます。 次に、これらのデータを2次元グラフで描画できます。

線形モデルは、測定データを最もよく説明する最適な直線の検索で構成されます。 観測値を含むグラフ上のこの線の配置により、モデルの品質を視覚的に把握できます。

このようなモデルの例は、線形最小二乗回帰です。 このモデルの目標は、観測に関する二乗の偏差を最小化する直線にデータセットを適合させることです。

2変数問題のデータ系列を表すには、3次元グラフが必要です。 この場合、線形モデルは、観測を最もよく説明する平面の方程式で構成されます。

一般に、問題のサイズが大きくなると、線形モデルの構築は、観測に最もよく適応し、最も正確な予測を行うことができる超平面の検索として形式化されます。

問題をモデル化するために曲線を描く必要がある場合、非線形の問題に直面します。

XOR 問題:「単純-複雑」な例

具体的な例を見てみましょう。 モデルを構築するデータセットがあるとします。

前に説明したように、モデルの構造はニューラルネットワークでは任意です。 したがって、複雑化を望まないため、線形モデルを使用することにしました。 この姿勢は、線形モデルと非線形モデルの両方で許容可能な結果が得られることを前提としています。

ただし、この主張は誤りです。 例を挙げて説明します。

XOR演算子は、多くのプログラミング言語の基本的なビット演算子の一部を形成します。 trueまたはfalse– の2つの可能な値のみを持つことができ、2つの可能な値を持つことができる2つの引数に依存します。

これは、2つの命題または独立変数の真偽に依存する値を持つ2変数の数学関数と見なすことができます。

いわゆる真理値表は問題を説明します

x
y
XOR
0
0
0
0
1
1
1
0
1
1
1
0
1
0
0
1
(a)
(b)

サブテーブル(b)は、真理値表をデカルト表現として配置する方法です。

自然言語でも使用される論理和とは異なり、2つの引数が真の場合、XORは偽になります。 これを個別の例と見なし、関数の出力が2つの可能なカテゴリに属する可能性がある分類問題として分析できます。

5.1. 線形モデルはXORを解くことができません

線形法でXOR問題を解くということは、2つのカテゴリを完全に分離する直線をサブテーブル(b)に描くことができることを意味します。

しかし、そのような直線は存在しません。 ニューラルネットワークのコンテキストでは、単一の線形ニューロンは、明確に定義された単純な問題であるXOR問題を分離できません。 この結果は、1969年にMinskyとPapertによって正式に実証されました。

2行使用すると、問題は分離可能になります。 ニューラルネットワークでは、複数のニューロンがあり、ネットワークによって2つの決定境界を取得できることを意味します。

次のセクションでは、このようなアプローチを一般的な非線形問題に一般化できないことがわかります。

6. 線形活性化関数を備えた多層ネットワーク

ニューロンを追加すると、非線形XOR問題を分離できます。 この操作により、「決定境界」と呼ばれるものの数が増え、したがって、アルゴリズムの解決能力が高まり、さまざまな可能性を分離することができます。

この手順は、原則として、あらゆる問題に拡張できます。 これは、問題の線形分離可能性につながる一連の最適条件を特定できることを意味します。

このアプローチを一般化して、各レイヤーのレイヤーとユニットの数を増やし、より多くの決定境界を取得することを考えることができます。ただし、非常に複雑な多次元非線形問題の場合、このアプローチは実用的ではありません。

XORは非線形問題ですが、線形化することができます。 これは、ドメインをサブドメインに分割することで条件を追加できることを意味します。サブドメイン内では、それぞれの動作が線形です。 数学的には、各サブドメインで、問題を支配する仮想の数学関数が、他のサブドメインとは異なる一定の導関数を持っていることを意味します。

ただし、線形活性化関数のみを備えた多層ネットワークは、このタスクには役立ちません。

6.1. 線形活性化関数を備えた多層ニューラルネットワーク

、、、およびの3つの層を持つネットワークを想定します。 . 各レイヤーの出力は次のレイヤーの入力であり、ネットワークによって表される全体的な機能は次のとおりです。

   

ここで、各合計は各レイヤーのすべてのユニットに拡張され、サブインデックス0の重みはバイアスを示します。 いくつかの計算では、この式は次のように要約されます。

   

これは、単一層のネットワークに対応します。ここで、

   

   

一次関数の組み合わせは依然として一次関数であり、データに存在する関係が本質的に非線形である場合、そのような構造は悪い結果につながる可能性があります。

このような1層ネットワークのユニット数は、問題のサイズに応じて指数関数的に増加し、すべての条件境界を識別するのに十分な量のデータがない状況に到達できることを示すこともできます。

7. 結論

このチュートリアルでは、線形問題と非線形問題の違いの概要と、前者が複雑な非線形問題の処理にどのように不十分であるかについて説明しました。

問題への精神的なアプローチは不可欠です。 このため、方法論の観点からも簡単に質問に対処しました。 人工ニューラルネットワークの基礎となるモデルの特性は、部分的には任意の選択ですが、一般に、線形モデルは適切な選択ではありません。

これらの考慮事項はすべて、非線形活性化関数に収束し、非線形多層ネットワークにつながります。