1. 概要

このチュートリアルでは、機械学習のクロスエントロピーの定義について学習します。

まず、情報理論におけるエントロピーの概念と、教師あり学習との関係について説明します。

次に、単変量分布のエントロピーの定義から2変量分布のクロスエントロピーを導出する方法を説明します。 これにより、一方が他方に対してどのように一般化するかをよく理解できます。

最後に、クロスエントロピーを損失関数として使用する方法と、モデルの最急降下法によってモデルのパラメーターを最適化する方法を説明します。

2. エントロピ

2.1. 教師あり学習におけるエントロピーとラベル

エントロピーのコンピュータサイエンスの定義に関する記事では、バイナリ変数の情報エントロピーが一連の記号の組み合わせエントロピーに関連しているという考えについて説明しました。 。

まず、ランダムに分散されたバイナリ変数として定義しましょう。 次に、エントロピーのシャノン測定値を、変数が想定できる2つのシンボル(0ビットと1ビット)の組み合わせエントロピーとして計算できます。 の式は次のとおりです。

教師あり機械学習分類の問題に取り組むとき、有限セットのラベルの中から1つのラベルに割り当てる関数を学習しようとします。 ]観測の特徴。 したがって、ラベルまたはクラスのセットは、モデルの出力によって想定される可能な値として扱うことができるいくつかの異なるシンボルで構成されます。 したがって、分類の予測モデルによって出力されたクラスラベルのエントロピーの測定値を計算できます。

2.2. 決定論的分類ではなく確率論的分類

ラベルの離散分布ではなく確率で作業できるようにするエントロピーの確率的定義に移行する方法は2つあります。 最初の方法は、クラスの相対的な発生頻度をそれらの発生の確率として解釈することです。 これは、クラスがクラスの分布で発生する回数を、分布の長さで割ったものと見なすことができることを意味します。

2つ目は、一部の分類モデルは本質的に確率的であり、単一点予測を出力せず、確率分布を出力するという考慮事項に関連しています。 これは、分類モデルの外層で使用される活性化関数と関係があります。 機械学習モデルの出力レイヤーの最も一般的な確率関数は次のとおりです。

これらの関数は、0から1までの値または値のセットを出力します。したがって、これは、観測値のクラス所属の確率分布として解釈できます。

2.3. ラベルのエントロピーと確率的分布

特にsoftmax関数は、特定の入力に対して最も可能性の高いラベルとして単一のクラスを出力するのではなく、セット全体の確率分布を返します。 この確率は、可能な各ラベルに割り当てられている個々の確率に対応します。

その後、それらを使用して、クラスラベルの分布のエントロピーとそれに関連する確率を計算できます。

2.4. 分類におけるエントロピーの実例

たとえば、ロジスティック回帰を使用して二項分類を行っていると想像してみてください。 ロジスティックモデルの出力は、0から1の間に含まれる値であり、通常、入力が最初のクラスに関連付けられている確率として解釈されます。 これは、2番目の可能なクラスが2項分類で対応する確率 tertium nondaturを持っていることを意味します。

最初に、ロジスティックモデルには、バイアス項がなく、単一の特徴を持つ入力があり、一意の入力のパラメーターが1に等しいと想定できます。 この意味で、モデルは。を使用したシグモイド関数に完全に対応します。

次に、2つの確率を2値確率変数の確率分布として解釈し、それに応じてエントロピー測度を計算できます。

当然のことながら、のエントロピーは、分類の出力が決定されていないときに最大になります。 これは、各クラスに割り当てられた確率が同じである場合に発生します。

2.5. 複数の確率分布の操作

ただし、複数の確率分布とそれぞれのモデルを使用することもできます。 これは、たとえば、上記で定義したようなロジスティック回帰の複数のモデルの出力を比較する場合です。

前のモデルを2番目のモデルと比較したいとします。 この比較を行う1つの方法は、相対的な2つの確率分布とそれらのエントロピーの間に存在する違いを調べることです。

2つのパラメーターがとであると想像すると、この関連するエントロピーを持つモデルが得られます。

2つのモデルのエントロピーがどのように対応していないかに注意してください。 これは、原則として、2つの異なる確率分布のエントロピーが異なることを意味します

2.6. 一部のエントロピーは他のエントロピーよりも等しい

最後に、2つのエントロピーと、パラメーターとを使用したロジスティックモデルに由来する3番目のエントロピーを比較すると、次のことがわかります。

分類器とに関連付けられた最初の2つの確率分布は、3番目の分類器のエントロピーよりも互いに類似したエントロピーを持っているように見えます。

これにより、確率モデル間、または確率モデルと既知の確率分布の間でさえ予測を比較する場合、それぞれのエントロピーの比較に無次元の測度を使用する必要があるという直感的なアイデアが得られます[X280X ]。

3. クロスエントロピー

3.1. クロスエントロピーの定義

これらの基礎に基づいて、単変量ランダム分布のエントロピーの概念を、二変量分布のクロスエントロピーの概念に拡張できます。 または、確率的用語を使用すると、確率分布のエントロピーから、2つの異なる確率分布のクロスエントロピーの測定値に拡張できます。

2つの確率分布のクロスエントロピーは、次の式を持っています。

3.2. モデル比較のためのクロスエントロピー

この式を適用して、前のセクションの2つのモデルとの出力を比較できます。

これは、これら2つの特定のモデルのクロスエントロピーのグラフです。

クロスエントロピーは一般に(必ずしもそうとは限りませんが)2つの確率分布のエントロピーよりも高いことに注意してください。 この現象について直感的に理解できるのは、クロスエントロピーを2つの分布のある種の総エントロピーとして想像することです。 ただし、より正確には、 2つの分布からのクロスエントロピーを、それらの分布のエントロピーから距離を置くために考慮することができます。2つの分布は互いに異なります

3.3. ペアの注文事項

用語を演算子に挿入する順序も重要であることに注意してください。 2つの機能とは一般的に異なります。 これは、たとえば、用語を交換しながら、2つのロジスティック回帰モデルのクロスエントロピーを比較するグラフです。

これは、観測された確率分布間のクロスエントロピーを計算するときに特に重要です。 たとえば、分類モデルの予測、およびターゲットクラスの分布。 その場合、真の確率分布は常に最初の項であり、モデルの予測は常に2番目のです。

4. クロスエントロピーによるモデルの最適化

4.1. 損失関数としてのクロスエントロピー

機械学習におけるクロスエントロピーの最も重要なアプリケーションは、損失関数としての使用にあります。 その文脈では、クロスエントロピーの最小化。 つまり、損失関数の最小化により、モデルのパラメーターの最適化が可能になります。 モデルの最適化には、通常、すべてのトレーニング観測とそれぞれの予測の間のクロスエントロピーの平均を使用します。

ロジスティック回帰モデルを予測するためのモデルとして使用してみましょう。 次に、損失関数としてのクロスエントロピーは次のとおりです。

4.2. クロスエントロピーのアルゴリズムによる最小化

次に、モデルの予測を構成するパラメーターを最適化することにより、損失関数を最小化できます。 これを行うための一般的なアルゴリズムの方法は、がまたがるパラメーター空間での最急降下法によるものです。

ロジスティックモデルの予測を計算する方法については、上記で説明しました。 具体的には、予測は入力とパラメーターの線形結合のロジスティック関数として計算されると述べました。

また、ロジスティック関数の導関数は次のとおりです。

これから、パラメータに関する勾配を次のように導き出すことができます。

そして最後に、損失関数の勾配を次のように計算できます。

これにより、最後に、最急降下法によってモデルを最適化できます。

5. 結論

この記事では、クロスエントロピーの定義について学習しました。 単変量確率分布のエントロピーの形式化から始めました。 次に、2変量確率分布とそれらの比較に一般化しました。

さらに、分類モデルの損失関数としてのクロスエントロピーの役割を分析しました。

これに関連して、パラメータ最適化のための最急降下法による最小化の問題についても研究しました。