1. 序章

このチュートリアルでは、一般的に使用される2つの機械学習指標、精度とAUCについて説明し、比較します。 まず、両方の指標を紹介して説明します。

その後、それらを比較し、どのような場合に使用するかを提案します。

2. 正確さ

機械学習とデータサイエンスでは、精度という用語はほとんどすべての分類タスクで避けられません。 これは、分類のためにモデルを評価するために使用される最も一般的な測定またはメトリックです。

精度を計算するには、モデルの予測を実際のクラスと比較するだけで済みます。 それから、精度を次のように計算します。

(1)  

この式によれば、モデルの予測がより正確であるほど、精度は高くなります。 また、精度の値は0(正しい予測がないことを意味します)から1(すべての予測が正しいことを意味します)になります。

それに加えて、精度をパーセンテージで表し、精度に100を掛けることができます。 クラスの予測に加えて、ほとんどの分類モデルは、その予測の確率も出力します。

精度の欠点の1つは、この確率を利用できないことです。 たとえば、あるモデルが誤って、確率または信頼度が低く、一部のサンプルを予測しているのに、別のモデルの信頼性がかなり高く、予測が不正確である可能性があります。

それを測定するために、AUCと呼ばれる別の一般的な手法を使用します。

3. AUC

AUCという名前は、「曲線下面積」の略です。 この場合の曲線は、受信者動作特性(ROC)曲線です。 これは、確率的フレームワークを使用してモデル予測を評価するために使用できる統計的尺度です。

簡単に説明すると、ROC曲線は、モデル予測のさまざまな確率しきい値に対する偽陽性率と真陽性率の関係を示しています。

3.1. 真陽性率と偽陽性率

思い出してください。真陽性率(TPR)は、真陽性(TP)に分類されたサンプルと陽性(P)サンプルの比率です。 たとえば、電子メールがスパムであるかどうかを予測することが目標である場合、スパムサンプルに陽性のラベルを付けることができます。

次に、TPRは、スパムメールのみに占める正しく予測されたスパムメールの割合です。

(2)  

同様に、FPRは、偽陽性(FP)に分類されたサンプルと陰性(N)サンプルの比率です。 たとえば、スパムメールで同じ例を使用すると、FPRは、スパム以外のメッセージ全体で誤って分類されたスパムメッセージの割合です。

(3)  

3.2. AUCの例

次に、下の画像を見ると、(0、0)から(1、1)の点に向かう線があることがわかります。 最初のポイント(0、0)はすべての予測が負であることを示し、2番目のポイント(1、1)はすべての予測が正であることを示します。

この行のAUCは0.5であり、通常はランダムな予測を示します。

スパム検出のモデルが、電子メールがスパムである確率を出力すると想像してみましょう。 通常、予測がスパムであるかどうかを区別するためのしきい値またはカットオフは0.5です。 したがって、確率が0.5を超える場合、電子メールはスパムであり、その逆も同様です。 このカットオフを使用する代わりに、0から1までの任意の値に調整できます。

たとえば、0.2、0.5、0.8のカットオフを取り、TPRとFPRを計算できます。 その後、それらの点をプロットし、ROCを表す1本の線で接続します。 このようにして、どのモデルがより意味のある確率スコアとより優れた分離可能性を持っているかを測定できます。

その論理に従うと、下の画像で、オレンジ色の曲線の下の面積(AUC)が0.84に等しいことがわかります。 それに加えて、いくつかの確率カットオフは、その曲線上に赤い点として表示されます。 赤い点の上の値は確率カットオフです:

完全なAUCスコアは1で、最悪のスコアは0です。 さらに、値が0のAUCは、モデルが結果を往復するか、すべてのサンプルに対して反対の予測を与えることを意味します。

4. AUCと精度

このセクションでは、精度よりもAUCを使用することの短所と長所について説明します。

4.1. 説明性と直感

精度は、日常生活においてさえ、非常に一般的に使用される測定基準です。 それとは反対に、AUCは、予測をより深く分析するために、確率の分類問題に関する場合にのみ使用されます。 そのため、技術者でない人でも正確さは理解でき、直感的です。 一方、AUCは、その背後にあるロジックを理解するために、高いレベルの集中力とある程度の時間を必要とします。

結論として、精度はAUCよりも理解しやすく直感的な指標です。

4.2. 不均衡なデータ

データセットが不均衡な機械学習の問題を解決する必要がある場合、これは常に課題です。 また、評価中にモデルにバイアスがかかっていないことを確認することも重要です。 たとえば、電子メールがスパムであるかどうかを予測するモデルを作成することが目標である場合、データセットのバランスが取れていない可能性が非常に高くなります。 これは、実際には、電子メールの大部分が非スパムであり、元のデータセットが同じであるためです。

したがって、データセットが90% nスパムメールと10% s pamで構成されている場合、精度は検証の最良の指標にはなりません。 たとえば、すべての電子メールが同じスパム率で非スパムであるとモデルが予測した場合、精度は90%になります。 そのため、通常、不均衡なデータの場合、精度ではなくF1スコアを使用することをお勧めします。

さらに、AUCスコアは、予測の確率を利用し、F1は利用しないため、さらに便利です。 それから、不均衡なデータセットに対する推奨事項は、精度よりもAUCを使用することです。

4.3. 確率

すでに述べたように、AUCメトリックはクラス予測の確率を利用します。 これに基づいて、モデルをより正確に評価および比較することができます。

たとえば、95%の精度を持つ2つの二項分類モデルAとBがあると仮定します。 モデルAは、正確に分類されたすべてのクラスを約60%の確率で予測しますが、モデルBは、正確に分類されたクラスの確率が90%を超えます。 どちらも同じ精度であることは明らかですが、モデルBはその予測にさらに確信を持っています。

そのため、将来のサンプルでは、モデルBの精度も高くなる可能性が高くなります。

さらに、確率とAUCを使用して、確率のカットオフを調整し、モデルをさらに強化することができます。 したがって、予測の確率を利用するため、AUCメトリックをお勧めします。

5. 結論

この記事では、AUCと精度と呼ばれる、分類の問題に通常使用される2つのメトリックを紹介して説明しました。 また、いくつかの例を示して、それらを比較しました。

最後に、AUCメトリックは予測の確率を使用し、精度がいくつかの単純な問題に役立つ可能性があるため、より便利であると結論付けます。