1. 序章

このチュートリアルでは、機械学習(ML)の精度と平均精度の概念について説明します。 どちらも分類のパフォーマンスメトリックですが、名前は似ていますが、違いは根本的なものです。

物事を単純にするために、2項分類に焦点を当てます。ここでは、1つは正、もう1つは負の2つのクラスしかありません。

2. 分類パフォーマンスメトリクス

ML分類子をテストする場合、精度スコア AUROC など、いくつかのメトリックに関心があります。 二項分類では、これらのメトリックは、2つのクラスを区別する分類器の能力を評価します。

メトリックを計算するために、4つの基本スコアを使用します。

表中、は真陽性の数、は偽陽性の数、は真陰性の数、は偽陰性の数を表します。

3. 精度

精度は、正しく予測されたポジティブと予測されたポジティブの比率です。 すなわち、 精度は、ポジティブとして分類するオブジェクトの数がポジティブクラスに属することを示します。

たとえば、分類子が150個のオブジェクトを正としてラベル付けし、TPが120であるとします。 次に、分類子の精度は次のとおりです。

   

この例から、精度の式は次のようになります。

(1)  

割り当てられたポジティブラベルが正しい確率として解釈できます。 これがメトリックの名前を説明しています。これは、(正の)予測がどれほど正確であるかを定量化します。

4. 平均精度

Precisionは、特定のML分類器を記述します。 対照的に、平均精度は分類器のファミリーを評価します。 違いを説明するために、最初にしきい値ベースのバイナリ分類子の概念を形式化しましょう。

4.1. しきい値ベースのバイナリ分類子

多くのバイナリ分類子をインジケーター関数として定義できます。

(2)  

ここで、は分類器がオブジェクトを分類する前にオブジェクトに対して計算するスコアです。これは、分類器が正としてラベル付けできる信頼度を示し、は決定しきい値です。 したがって、の値が高いほど、正の信頼度が高くなり、その逆も同様です。

たとえば、サポートベクターマシンでは、は超平面を分離するための符号付き距離であり、。 ロジスティック回帰モデルでは、正の確率を推定します。

したがって、式( 1 )を使用して計算するときの精度は、との関数です。

(3)  

4.2. 平均精度メトリック

を変化させることにより、同じ形式の分類器のファミリーを取得します。 それぞれの精度を計算してから平均を計算すると、平均精度(AP)が得られます。

(4)  

選択されたしきい値はどこにありますか。 そのように定義されたものは、しきい値の分布に関して期待される精度を推定します。 それらがとの間で均一に分布していると仮定すると、期待される精度の式が得られます。

(5)  

したがって、正確で偏りのない見積もりを取得するには、十分なしきい値を使用し、範囲を均等にカバーする必要があります。

5. 適合率-再現率空間の平均精度

上で定義した平均精度に問題があります。 まず、しきい値には、制限のない範囲(場合または両方)が異なる場合があります。

そのため、異なる範囲の分類器を視覚的に比較することは困難または不可能な場合があります。たとえば、サポートベクターマシンでは-スコア、したがってしきい値に制限がないため、カバーする必要があります。 -軸上の全体。 対照的に、スコアはロジスティック回帰に属します。 スケールの違いは、2つの精密曲線を簡単に比較できないことを意味します。

プロットを分析すると、どの分類器ファミリーがより適切に機能するかは明確ではありません。

次に、このバージョンのAPはリコールを考慮していません。

適合率-再現率(PR)の分野で両方の問題に対処できることがわかりました。では、再現率とは何か、なぜそれが重要なのかを簡単に修正しましょう。

5.1. 想起

精度とは対照的に、リコールスコアは、分類器が正として正しく識別した正のオブジェクトの数を示します。したがって、真の正の比率とデータ内の正のオブジェクトの総数として定義および計算します。 :

(6)  

2つのメトリックの違いは微妙ですが、重要です。 リコールは、すべてのポジティブオブジェクトにそのようにラベルを付ける分類器の能力を推定します。 Precisionは、ポジティブオブジェクトのみをポジティブとして識別する能力を推定します。

5.2. 加重平均精度

精度のみを考慮した場合、値の高いオブジェクトのみを正として分類することで、良いスコアを得ることができます。 その結果、過度に保守的な分類器が多くの肯定的なオブジェクトを識別できなくなります。 したがって、リコールが少ないため、実際には役に立ちません。

したがって、両方のスコアを考慮したメトリックが必要です。 適合率と再現率の両方を高くしたいので、それぞれに実現再現率ゲインを掛けることで、後者を平均適合率の式に組み込むことができます。

したがって、との場合、調整された平均精度は次のようになります。

(7)  

5.3. ジオメトリ

FormulaのAP( 7 )は、PR空間で優れた視覚的解釈を備えています。

-axisがリコールを表し、-axisが精度を表すとします。 次に、AP( 7 )は、PR空間の精度曲線の下の面積を推定します。

 

さらに、再現率と適合率はから値を取得するため、直接比較できるように、同じプロット上のさまざまな分類器の適合率曲線を視覚化できます。たとえば、上からのSVMおよびLRモデルですが、現在はPRスペースにあります。

 

x軸の範囲が同じであるため、違いを簡単に見つけることができます。

6. 注意の言葉

適合率と再現率は陰性オブジェクトを考慮しないため、偽陰性を無視できる場合は、適合率と平均適合率スコアを使用できます。

ただし、真のネガティブが付加価値をもたらす場合、それらを見逃してはなりません。 代わりに、両方のクラスを考慮してスコアを計算する必要があります。

7. 結論

この記事では、精度と平均精度について説明しました。 前者は特定の分類器を評価し、後者は分類器ファミリのパフォーマンスを説明します。