分類モデル評価の概要 - 開発者ドキュメント

1. 序章

機械学習では、分類とは観測のラベルを予測することを指します。 このチュートリアルでは、バイナリ分類問題とマルチクラス分類問題の両方について分類器の成功を測定する方法について説明します。最も広く使用されている分類測定のいくつかについて説明します。つまり、精度、適合率、再現率、F-1スコア、ROC曲線、およびAUCです。

また、最も混乱している2つのメトリックを比較します。適合率と再現率。

2. 二項分類

二項分類は分類問題のサブセットであり、可能なラベルは2つだけです。一般的に、はい/いいえの質問または結果が0-1の設定は、二項分類問題としてモデル化できます。たとえば、よく知られている問題は、電子メールがスパムであるかどうかを予測することです。

2つのクラスが与えられると、ポジティブサンプルとネガティブサンプルの観点から話すことができます。この場合、特定の電子メールはスパム（ポジティブ）またはスパムではない（ネガティブ）と言います。

特定のサンプル観測では、実際のクラスは正または負のいずれかです。同様に、予測クラスも正または負のいずれかです。上記のような混同行列を使用して、二項分類モデルの結果を視覚化できます。

観測の実際のクラスと予測されたクラスに関連する4つのカテゴリがあります。

True Positive（）：指定された観測値の実際の値と予測値の両方が正です。
False Positive（）：与えられた観測値は負ですが、予測値は正です。
True Negative（）：指定された観測値の実際の値と予測値の両方が負です。
False Negative（）：与えられた観測値は、実際には正であるにもかかわらず、負であると予測されます。

混同行列の対角線は、正しい予測を示します。明らかに、予測の大部分をここに配置する必要があります。

FPとFNは分類エラーです。 統計では、FPはタイプIエラーと呼ばれ、FNはタイプIIエラーと呼ばれます。場合によっては、タイプIIエラーは危険であり、許容できません。

たとえば、家の中で火災が発生したかどうかを分類器が予測している場合、タイプIエラーは誤警報です。

一方、タイプIIエラーは、家が全焼し、消防署が気付いていないことを意味します。

3. 二項分類法

次の図に示すような単純な二項分類の場合があるとします。実際の正と負のサンプルは、長方形の表面に分布しています。

ただし、分類子は、円内のサンプルを正としてマークし、残りを負としてマークします。

分類器はどのように機能しましたか？

多くのメトリックが提案され、分類器のパフォーマンスを評価するために使用されています。 問題と目標に応じて、観察および報告する関連メトリックを選択する必要があります。

このセクションでは、いくつかの一般的な分類指標が何を表し、さまざまな問題にどの指標を使用するかを理解しようとします。

3.1. 正確さ

最も単純で直接的な分類メトリックは精度です。 精度は、正しく分類された観測値の割合を測定します。式は次のとおりです。

混同行列の観点から考えると、「すべてのサンプルの対角線」と言うことがあります。 簡単に言えば、エラー率がないことを測定します。 90％の精度は、100個の観測値のうち90個のサンプルが正しく分類されることを意味します。

90％の精度は最初は非常に有望に聞こえますが、不均衡なデータセットで精度測定を使用すると誤解を招く可能性があります。

スパムメールの例をもう一度思い出してください。受信した100通の電子メールのうち90通がスパムであると考えてください。この場合、各電子メールにスパムのラベルを付けると、受信トレイが空の状態で90％の精度になります。私たちが見逃しているかもしれないすべての重要な電子メールについて考えてください。

同様に、不正検出の場合、不正なトランザクションはごく一部にすぎません。分類子がすべてのケースを不正ではないとマークした場合でも、ほぼ100％の精度が得られます。

3.2. 適合率と再現率

精度の代替手段は精度です。精度は、実際に正であるとマークされたインスタンスの割合です。言い換えれば、精度は「分類器の結果がどれほど有用であるか」を測定します。数学表記は次のとおりです。

別の言い方をすれば、90％の精度は、分類子が電子メールをスパムとしてマークする場合、実際には100回のうち90回のスパムであることを意味します。

TPを確認する別の方法は、リコールを使用することです。リコールは、ポジティブとしてマークされた真のポジティブインスタンスの割合です。これは、「結果がどの程度完全であるか」、つまり、真の陽性のどのパーセンテージが陽性として予測されるかを測定します。表現は次のとおりです。

つまり、90 % wのリコールは、分類子がすべてのスパム電子メールの90 % oに正しくラベルを付けることを意味します。したがって、10% aはスパムではないとマークされます。

従来の分類器にはしきい値があり、そのしきい値に対して、低い結果を負としてマークし、高い結果を正としてマークします。二項分類器の定義されたしきい値を変更すると、予測されるラベルが変更されます。したがって、一方のエラータイプの割合を減らすと、もう一方のエラータイプが増加します。その結果、適合率と再現率の間にはトレードオフがあります。

全体として、適合率と再現率はどちらも、特別な用語でエラーがないことを測定します。完全な精度はFPがない（タイプIエラーがない）ことと同等ですが、一方、完全なリコールはFNがない（タイプIIエラーがない）ことを意味します。場合によっては、問題の目的に応じて、考慮すべき関連するエラータイプを選択する必要があります。

3.3. F-1スコア

通常、再現率と適合率のバランスをとることは、1つのタイプのエラーを実際に低くすることよりも重要です。そのため、一般的に適合率と再現率の両方を考慮に入れています。この問題を特定するために、いくつかの分類方法が開発されています。

たとえば、 F-1スコアは、適合率と再現率の調和平均です。これは、タイプIとタイプIIのエラーを同等に重要視します。計算は次のとおりです。

データセットラベルが均等に分散されている場合、正確さは意味のある結果をもたらします。ただし、スパムメールの例のようにデータセットのバランスが崩れている場合は、F-1スコアを優先する必要があります。

覚えておくべきもう1つのポイントは次のとおりです。精度は、TPとTNをより重要視します。一方、F-1スコアはFNとFPを考慮します。

3.4. ROC曲線とAUC

分類性能を視覚化するためのよく知られた方法は、 ROC曲線（受信者動作特性曲線）です。プロットは、さまざまなしきい値に対する分類器の成功を示しています。

ROC曲線をプロットするには、真陽性率（）と偽陽性率（）を計算する必要があります。ここで、

このグラフが何を表すかをよりよく理解するために、最初に分類子のしきい値をに設定することを想像してください。これにより、すべての観測値が陽性としてラベル付けされます。したがって、しきい値を下げると、より多くのアイテムがポジティブとしてマークされると結論付けることができます。より多くの観測値がポジティブとして分類されると、より多くのTPとFPが得られます。

逆に、しきい値を設定すると、すべての観測値が負としてマークされます。次に、アルゴリズムはより多くの観測値をネガティブとしてラベル付けします。したがって、しきい値を増やすと、TPとFPの両方の数値が減少し、TPRとFPRが低下します。

しきい値が異なるごとに、TPレートとFPレートが異なります。結果をプロットすると、ROC曲線が得られます。しかし、ROC曲線は、分類器の成功を見つけるのにどのように役立ちますか？

この場合、AUCが役に立ちます。「曲線下面積」の略です。 簡単に言えば、AUCはROC曲線の下の領域です。 各しきい値をより適切に分類すると、領域が大きくなります。完全な分類はAUCにつながります1.0の。

逆に、分類器のパフォーマンスが悪いと、面積が減少します。 AUCは、機械学習の問題の分類子比較メトリックとしてよく使用されます。

4. マルチクラス分類

分類問題に使用できるラベルが3つ以上ある場合、それをマルチクラス分類と呼びます。マルチクラス分類器のパフォーマンスの測定は、バイナリの場合と非常によく似ています。

特定の分類器が上記の混同行列を生成するとします。全部で127のサンプルがあります。次に、分類器のパフォーマンスを見てみましょう。

精度は、対角線上にある正しく分類されたサンプルのパーセンテージであることを思い出してください。 精度を計算するには、正しく分類されたサンプルの数をサンプルの総数で割るだけです。

したがって、分類器はサンプルのほぼ半分を正しく分類しました。 5つのラベルがあることを考えると、ランダムな場合よりもはるかに優れています。

適合率と再現率の計算は、バイナリクラスの場合よりも少し注意が必要です。マルチクラス分類の分類器の全体的な精度や想起について話すことはできません。代わりに、適合率を計算し、クラスごとに個別に再現率を計算します。

クラスごとに、各要素をTP、TN、FP、またはFNのいずれかに分類できます。したがって、精度式を次のように書き直すことができます。

同様に、リコール式は次のように書き直すことができます。

これに対応して、他のクラスの適合率と再現率の値を計算できます。

5. 結論

このチュートリアルでは、問題のドメインとデータセットラベルの分布に応じて分類子を評価する方法を調査しました。次に、精度、適合率、再現率から始めて、最もよく知られているパフォーマンス測定のいくつかについて説明しました。

適合率と再現率は2つの重要な指標であり、それぞれが異なるタイプの統計誤差を最小限に抑えます。 F-1スコアは、分類器の成功を測定するためのもう1つの指標であり、タイプIとタイプIIの両方のエラーを考慮します。

分類子を比較するためのROC曲線とAUC測定について簡単に説明しました。結論を出す前に、バイナリ分類問題とマルチクラス分類問題のいくつかの違いと、基本メトリックをマルチクラスの場合に適応させる方法について説明しました。