ロジスティック回帰のコスト関数に対数表現があるのはなぜですか？

1. 概要

このチュートリアルでは、ロジスティック回帰モデルの誤差関数に対数式を使用する理由を調べます。

そのために、まず、一般的なアルゴリズム学習の問題について説明します。これにより、特定の関数が最急降下法で学習できることを保証するために必要な条件がわかります。

続いて、ロジスティック回帰のモデルの数学的定式化を定義します。これに関連して、このモデルの尤度関数を定義し、その特性を調べます。これにより、一般に、そのモデルのパラメーターを常に学習できることが保証されない理由を理解できます。

最後に、尤度関数の対数変化を調べます。そうすることで、パラメーターの学習可能性の観点から、尤度と対数尤度の違いを学習します。

このチュートリアルの最後に、関数の学習可能性の一般的な問題に関連して、ロジスティック回帰モデルのパラメーターを学習するために対数関数を使用する理由について、理論的に深く理解します。

2. 最急降下法によるパラメータの学習

2.1. パラメータ学習の問題

ロジスティック回帰とその関連誤差関数の特異性に入る前に、のアルゴリズム学習の主題にいくつかの単語を費やすことが重要です。一般的なモデルのパラメータ。実際、ロジスティックモデルの誤差関数として、単に平均二乗誤差ではなく、対数関数を選択する理由について簡単に説明します。

ただし、この説明では、機械学習モデルでエラー関数がに持つと予想される特性を理解する必要があります。

モデルのパラメーターを学習するには、さまざまな方法があります。これらの中で最も有名なのは最急降下法です。これは、連続的で微分可能な関数のパラメーターを学習するための一般化された方法です。最急降下法の最も一般的な用途は、ニューラルネットワークでの重みの学習です。これは、重みがそのネットワークのパラメータsuigenerisと見なすことができるためです。

最急降下法は、ロジスティック回帰モデルのパラメーターを学習する方法でもあります。この文脈で、このアルゴリズムを研究することができます。したがって、最急降下法を適用するための条件について学習することにより、このアルゴリズムを適用する関数に期待される特性も学習します。

2.2. 最急降下法とその要件

最急降下法は、微分可能関数の最小点を見つけるためのアルゴリズム的な方法であり、その関数の形状の知識を必要とせず、偏導関数の知識のみを必要とします。このアルゴリズムは任意の関数に適用でき、その要件を満たしていれば、収束を保証します。

これは、いくつかの条件を満たす関数の最小値が存在する場合、それを任意の精度で近似できることを意味します。これらの条件は次のとおりです。

継続的で微分可能です
凸型でもあります
そして最後に、その勾配はリプシッツ連続です。

関数がこれらの条件を満たす場合、次のような値を見つけることができます。ここで、はの値です。近似のレベルを示す値は、代わりに任意に選択された値です。

言い換えると、これは、目的関数とその勾配がリストされた条件を満たす場合、勾配降下法を通じて、最小値にできるだけ近い関数の点を常に見つけることができることを意味します。 したがって、ロジスティック回帰のコスト関数を選択する問題を、最急降下法を適用できるコスト関数を選択する問題に再定式化できます。

3. ロジスティック回帰

3.1. ロジスティック関数に関するレビュー

線形回帰とロジスティック回帰の違いに関する前回の記事では、ロジスティックモデルがフォームの一般化線形関数を開区間にマッピングする方法について説明しました。したがって、このモデルは、フォームの連続マッピングです。これらのマップの最も典型的なものはロジスティック関数であり、次のように記述できます。

ここで、一般化線形モデルはオイラーの数の指数になっています。この関数は、との場合、それを有名にした悪名高い形を取得します。

3.2. ロジスティック回帰と一般化線形モデル

ただし、一般化線形モデルにはパラメーターがあり、上記の2つとは異なります。その場合、一般的な形状がまだ存在していても、関数によって想定される値は大きく変化する可能性があります。ここでは、1次元の独立変数を持つさまざまなロジスティックモデルの例をいくつか見ることができます。

一般に、どの点についても、その点を通過する形式の無限のロジスティックモデルが存在することを確認できます。それらのそれぞれは、パラメータのペアの値の特定の組み合わせに対応します。

3.3. トレーニングデータに対するロジスティック回帰

つまり、データセットに存在する観測値から1つの観測値しか取得しない場合、最適なロジスティックモデルのパラメーターについて多くを推測することはできません。

ただし、観測数が増加し始めると、それらに最適なモデルのパラメーターを段階的に絞り込むことができます。これにより、多くの可能なモデルから1つのベストフィッターに移行できます。

これは、本質的に、ロジスティック回帰の背後にある考え方です。ただし、実際のデータセットでは、単一のモデルが独立変数と従属変数の特定のセットに完全に適合することはありません。これは2つの主な理由によるものです。

実際のデータセットの変数の値は、ランダムエラーの影響を受けます
ロジスティックモデルの出力はドメインに含まれる連続変数ですが、トレーニングに使用する従属変数はベルヌーイ分布です

この結果として、最適なモデルでさえゼロ以外の予測誤差があると予想されます。最適なロジスティックモデルのパラメーターを見つける問題は、ある種のエラーメトリックを最小化するモデルのパラメーターを見つける問題にシフトできます。考えられるさまざまなエラー関数に関して、それが何を意味するのかをすぐに説明します。

3.4. ロジスティック回帰の数学的定義

これで、ロジスティック回帰の主な特性をより形式化された方法で要約できます。これから、最初にロジスティックモデルのコスト関数の正式な定義を作成し、次にそれを最小化する方法を確認します。

ロジスティックモデルは、ベルヌーイ分布の従属変数と、のような独立変数で構成されるベクトルとの間の関係をモデル化するために使用する形式のマッピングです。

また、一般化線形モデルを参照する関数を想定しています。ここで、は前と同じベクトルであり、上の線形モデルのパラメーターを示します。この場合、として書き直すことができます。

どのように注意してください; つまり、の変数よりも1つ多いパラメータがあります。これは、線形モデルの切片または定数項を、指数がゼロの変数の係数として扱うことができるためです。または、同等に、同じ結果を課して取得することもできます。

3.5. パラメトリック形式のロジスティック回帰

これで、代数形式でとして記述し、ロジスティック関数として次のように表現できます。

その代数的同等物で置き換えることにより、次のことが得られます。

これは、パラメトリック形式のロジスティック回帰です。はベルヌーイ分布であるため、一般的な解釈は、与えられたとの確率関数と見なすことです。

0または1の2つの値しか想定できないため、として計算することもできます。与えられた観測値に対して、確率を次のように書き直すことができます。

最後に、分布のすべての観測値に乗算することにより、尤度関数をとして計算できます。

0と1の値のみを想定できることを考慮に入れると、式を次のように書き直すことができます。

4. ロジスティック回帰のコスト関数

4.1. 平均二乗誤差を使用しないのはなぜですか？

ここでの問題は、モデルの予測とターゲット値の間の誤差を最小化するパラメーターを推定することです。言い換えると、が与えられたパラメータのモデルの予測である場合、使用するエラーメトリックはどこにあるかが必要です。

ここで、このロジスティックモデルに、線形回帰モデルで一般的なのと同じ誤差関数を適用するとします。この関数は通常、モデルの予測とターゲット変数の値の間の平均二乗誤差（）で構成されます。私たちは次のように書くことができます：

4.2. 凸性の問題

線形モデルの場合、これも構成された予測関数の線形結合であるため、凸であることが保証されました。ロジスティック回帰の場合、スカラーと関数（ロジスティック関数）の線形結合であるため、凸であることが保証されていません。これも凸ではありません。

例として、これは、次の特定の場合の決定関数の一般的な形状です。

そしてこれは関連する凸面です：

決定関数は一般的に凸状ではなく、その定義域の特定のサブセットでのみであることがわかります。

4.3. 予測関数の対数

これは、平均二乗誤差をロジスティックモデルのエラーメトリックとして使用できないことを意味します。代わりに、予測関数の対数、とき、およびを考えてみましょう。これらの関数は、興味深いことに、決して凸状にならないことが保証されています。

ただし、水平軸上での垂直反射によってそれらを反転させると、2つの関数は常に凸状になります。

4.4. 誤差関数と最適化

これは、の形式のエラー関数を定義できることを意味します。この関数は、入力のすべての値に対して凸になります。尤度関数はモデルのパラメーターを学習するために使用するものであるため、その対数尤度は、誤差関数として使用するものです。

観測されたすべてのサンプルでこの関数を最小化するという観点から、最適化の問題を次のように書き直すことができます。

4.5. 凸性、最急降下法、および対数尤度

これで、この記事で行った推論を、私たちが行った理論的推論を表す一連の命題にまとめることができます。

誤差関数は、機械学習モデルのパラメーターを最適化するための関数です。
この最適化は、学習のためのアルゴリズム手法を通じて行われます。
ロジスティック回帰に最も一般的に使用される方法は、最急降下法です。
最急降下法には凸型のコスト関数が必要です
線形回帰モデルで一般的に使用される平均二乗誤差は、ロジスティック回帰では凸型ではありません
これは、ロジスティック関数が常に凸であるとは限らないためです。
ただし、尤度関数の対数は常に凸です。

したがって、ロジスティック回帰のコスト関数として対数尤度関数を使用することを選択します。実際、最急降下法を適用して、最適化の問題を解決することができます。

5. 結論

この記事では、ロジスティック回帰のコスト関数として対数尤度などの対数関数を使用することを好む理由を検討しました。

最初に、一般的な用語で、パラメーター最適化のコスト関数にどのような特性が期待されるかを調べました。次に、基本的な形で最尤関数がどのような特性を持っているかを確認しました。

最後に、その関数の対数バージョンの特性を調べました。 凸性が保証されているため、平均二乗誤差の代わりにそれを使用することが好ましいと主張しました。