1. 序章

このチュートリアルでは、情報ボトルネックの原則(IB)について学習します。 この原則は、定性的な理解を可能にし、マルチレベルニューラルネットワーク(DNN)が内部でどのように機能するかについての定量的な証拠を提供します。 その結果、DNNのトレーニングの指針として使用できる制限が明確になります。

IBは、さらに定性的な性質について考えることができる別の原則、つまり最小相互情報量(MinMI)の原則に直接関連しています。

2. MinMIの原則

ニューラルネットワークに基づく予測システムの基本的な問題は、データセットの入力()と出力()の間の最適なマッピングを実現する未知の関数の識別です。 トレーニングプロセスは、この最適値に到達できるようにするニューラルネットワークの一連の内部パラメータの識別で構成されます。 次に、ネットワークの各中間層または非表示層を呼び出します。

ネットワークの隠れたレベルで何が起こり、なぜこのプロセスがうまく機能するのかはほとんどわかっていません。 これが、ブラックボックスモデルと呼ばれる理由です。

MinMI原則またはMinimumInformationPrincipleは、ニューラルコーディングのコンテキストで適用されています。 これは、入力と出力の間の最適な相互情報量の識別に関連する基本的な関心量を考慮します。これは、離散ケースと連続ケースに対してそれぞれ次のように定義できます。

   

   

ここで、は確率変数、は同時確率、は周辺確率です。 相互情報量は常にポジティブです。

は、2つの変数間の相互依存性の尺度です。 より具体的には、他の確率変数を観察することにより、1つの確率変数について取得する情報の量を定量化します。

観察結果と一致し、問題と互換性のあるDNNのセットを想定します。 それぞれは、トレーニング手順の対象となる一連の内部パラメータによって特徴付けられます。 MinMIは、相互情報量が最小の構造によって最適な構造が与えられることを確立します

2.1. MinMIの原則。 なんで?

このセクションのタイトルの質問は正当化されます。 一見すると、はとの間の依存関係の尺度であるため、相互情報量を最小化するのではなく、最大化することを期待できます。

ただし、そうではありません。 問題と互換性を持って構築できるすべての可能なDNNの中で、ほとんどの構造は、データの実際の関係に対する追加の超構造を含む入力と出力の間のマップを明示します。 ノイズや共線性などの影響は、最適化を達成する上での障害です。

この事実は、データセットの次元を参照するとさらに明確になります。 通常、入力の次元は高く、出力の次元は低くなります。 これは、一般に、エントロピーのほとんどがについてあまり有益ではないことを意味します。 の関連する機能は高度に分散されており、抽出が困難です。

これらの異常は、(望ましくはないが)結合する情報の形式であり、の値を増加させるため、寄与します。 相互情報量の最小化により、ニューラルネットワークが、効率的な予測システム、つまりデータに存在する真の関係を構築するために、関連情報のみを含むマッピングの識別に近づきます。

2.2. 圧縮

DNNや他の同様の予測システムの効率を説明するこれらの考慮事項を実践する1つの方法は、ネットワークを圧縮を実行する必要がある状態にすることです。

非形式言語を使用して、DNNの構造が、隠れたレベルで、どういうわけか「ニューロンが不足している」と仮定します。 このような状況では、一般に、データに存在するすべての情報を1つの隠れたレベルから次のレベルに送信することはできません。 トレーニングプロセスにより、DNNは妥協点を探すようになります。これは、元の情報の圧縮として表されます

圧縮は情報の損失を意味しますが、制御パラメーターは一般に、トレーニングプロセス中に継続的な圧力をかける、測定データに対する予測の偏差の尺度であるため、「制御された」損失です。 最終的な結果は、の値の減少です。この値は、圧縮前よりもデータに存在する真の関係に近い関係を含み、多くの上部構造が削除された構造によって与えられる値です。  すべての非表示レイヤーでこのプロセスを繰り返すと、プロセス全体がさらに調整されます。

この説明では、もちろん、との間に何らかの関係があると暗黙的に想定されています。 言い換えれば、私たちはそれを知っています。 とが独立している場合、次のようになります。

   

このような状況では、関係を見つけることはできず、予測システムを構築することはできません。

圧縮と最小化の概念は、私たちを直接IBの原則に導きます。

3. IBの原則

3.1. データ処理の不平等とマルコフ連鎖

データ処理の不平等(DPI)は、データの処理によってエントロピーを増加させることはできないという情報理論の概念です。 データセットと私たちが検討している予測システムの観点から、それは「データの後処理は情報を増やすことができない」と翻訳することができます。

一連の確率によってシンボルを選択するプロセスがある場合、確率過程を扱います。 確率過程のシンボルの選択が以前に選択されたシンボルまたはイベントに依存する場合、マルコフプロセスがあります。

3つの確率変数がマルコフ連鎖、を形成する場合、の条件付き確率はにのみ依存し、条件付きで独立します。 これらの条件下では、についてを含む情報を増やすプロセスはなく、DPIは次のように形式化できます。

   

との間の残差情報、つまり、によってキャプチャされていない関連情報で表す場合、前の式は、の等式を達成します。つまり、とが同じ量の情報を含んでいることが確認された場合です。

3.2. の最小十分統計量

入力の圧縮により、関連する機能をキャプチャし、の予測の目的に関係のない機能を排除できます。 MinMIの原則は、このプロセスがの減少につながると述べています。 この量の最小値により、相互情報量をキャプチャする、の最も単純なマッピングを識別できます。これをと呼びます。 に関する最小の十分統計量です

DPIを使用すると、次の理由から、MinMIの原則の理由を定性的に理解できます。

   

出力予測をで表すと、DPIは別の重要な関係も提供します。

   

十分統計量である場合に限り、平等である。

識別と予測のプロセスをマルコフ連鎖と見なすことができます。

   

このアプローチには問題があります。 一般的な分布の場合、正確な最小十分統計量が存在しない可能性があり、その結果、マルコフ連鎖が不正確になります。 ただし、別の方法で識別することは可能です。

3.3. 最小限の十分統計量の最小条件

マルコフ連鎖について考えてみましょう。

   

の検索は、の最小化と見なすことができます。 入力から関連情報を削除することでこの量を減らすことができるため、この基準だけでは十分ではありません。 別の条件が必要です。

一方、の識別が一般に圧縮プロセスとの最小化によって与えられる場合でも、十分統計量が可能な限り最も有益である、つまり最大でなければならないことも事実です。

これらの2つの条件により、次のラグランジアンを作成できます。

   

、は、表現の複雑さ、、および保存される関連情報の量のバランスをとる問題依存のパラメータです。 この関数には、変分法で見つけることができる最小値があります。 によってキャプチャされていない関連情報を考慮すると、同等の式を記述できます。

   

したがって、DNNの最適化に適用できる最小基準があります。

3.4. DNNのIB

前の説明では、可能な限りコンパクトなアーキテクチャの検索など、ニューラルネットワークのトレーニングで確立されたヒューリスティックの理解を深めることができます。 実際、IBの原則は、DNNが最も有益な特徴を抽出し、の最小の十分統計量を近似することによって学習することを教えています。

DNNでは、各レベルは前のレベルの出力のみに依存します。 したがって、マルコフ過程としてそれを研究することができます。

   

と 。

DPIによると、あるレベルを次のレベルに渡すとエントロピーを増やすことができないため、次のように書くことができます。

   

各レベルがその入力の十分統計量である場合、各パスで平等を達成します。

したがって、各レベルは、表現の複雑さを最小限に抑えながら、可能な限り多くの関連情報を伝達する必要があります。 つまり、各レベルは最小化しながら最大化する必要があります(ここでも、MinMIの原則です。 この最後の量は、単一のネットワーク層内と同等であることに注意してください)。

4. 結論

このチュートリアルでは、IBの原則の根底にある基本的な問題の概要を説明します。 これは、DNNの内部機能に関する大きな説明の可能性を秘めた形式ですが、同時に、トレーニングプロセス中に何が起こるかを定量化することもできます。

トピックの複雑さは完全な議論を可能にしません。 私たちが考慮していない問題の中には、形式主義から導き出すことができる一般化の限界に関連する方程式と、同化できる分岐点を特定することができるBI歪み曲線の分析があります。異なるネットワークトポロジ間の相転移。

これらの側面は、興味のある読者のためのさらなる研究の出発点になり得ます。