1. 序章

この記事では、ロバスト統計の概要を説明します。ロバスト統計は、異常なデータやモデルからのわずかな偏差に耐える方法を提供する統計の領域です。 ロバスト性の主な尺度を定義し、中心傾向と統計的分散の最も一般的な推定量を示します。

2. ロバスト統計とは何ですか?

ロバスト統計は、想定される統計モデルからのわずかな逸脱に対して回復力のある推定量を見つける問題に対処します。 ロバスト統計の基礎は1960年代に発生し、ジョン・テューキー(1960)、ピーター・フーバー(1964)、フランク・ハンペル(1971)の基本的な作品がありました。

従来の推定方法は、現実の世界では満たされないことが多いモデルの仮定に依存しています。 たとえば、データ分析では、エラーが正規分布に従う、または中心極限定理が推定値が正規分布することを維持するために保持されると想定されることがよくあります。 実際には、統計モデルは観測値の大部分を記述しますが、一部の観測値は異なるパターンに従うか、まったくパターンがありません。 このような異常なデータは、外れ値と呼ばれます。

データに外れ値がほとんどない場合、従来の推定量のパフォーマンスは低下します。 データの中心と分散の古典的な推定量であるサンプル平均とサンプル標準偏差は、それぞれ外れ値に非常に敏感です。 一連の観測値が与えられると、サンプルの平均とサンプルの標準偏差は次のように定義されます。

   

例として、単一の外れ値(太字でマークされている)を含む次の6つの測定値のセットを考えてみましょう。

   

上記のデータのサンプル平均とサンプル標準偏差の値は、それぞれとです。 結果として得られるサンプル平均の値は、大部分の観測値から非常に離れているため、データの中心の適切な推定値を表していないことは明らかです。 同様に、標準偏差の結果の値は、観測値の大部分の分散と比較して非常に大きくなります。 外れ値29.1を削除すると、サンプルの平均とサンプルの標準偏差がとに変更されます。 現在、これらの値は、データの中心と分散の適切な推定値を提供します。 したがって、単一の外れ値は、サンプルの平均とサンプルの標準偏差を完全に混乱させます。

3. 堅牢性の測定

推定量のロバスト性を評価する方法は?ロバスト性のいくつかの尺度が文献で提案されました。 最も関連性の高いものは、ブレークダウンポイント、 感度曲線、および影響関数です。

3.1. ブレークダウンポイント

推定量の内訳ポイントは、データセット内の任意の大規模な観測値(外れ値)の最小部分として定義され、任意の大規模な推定を引き起こします。したがって、推定量の内訳です。

サンプルの平均を考えてみましょう。 一連の観測値が与えられた場合、サンプル内の1つの観測値のみが非常に大きな値に置き換えられると、サンプルの平均は「爆発」します。 したがって、サンプル平均の内訳点は単純にです。 極限では、標本平均の内訳点はであり、これは最悪の場合です。

推定量のブレークダウンポイントが高いほど、ロバスト性が高くなります。

3.2. 感度曲線

感度曲線は、推定量に対する単一の外れ値の影響を測定します。アイデアは、特定のサンプルの推定値と、観測値がサンプルに追加されたときの推定値との差を計算することです。 結果として生じる差は、汚染の割合によって正規化されます。 したがって、特定の推定量について、感度曲線は次のように定義されます。

   

感度曲線が有界関数である場合、推定量はロバストであると見なされます。

サンプル平均については、次のようになります。

   

これは、外れ値として増加する無制限の関数であり、サンプル平均がロバストではないことを証明します。

感度曲線はサンプル値に強く依存することに注意してください。

3.3. インフルエンス機能

影響関数は、感度曲線の漸近バージョンです。有限の観測値のセットには依存しませんが、推定量が計算される特定の分布に依存します。 影響関数は、汚染が確率分布に追加されたときに推定値がどのように変化するかを測定します。 「汚染された」分布は次のように書くことができます。

   

ここで、はディラック測度を示し、ポイントで1、他の場所で0を与えます。 したがって、影響関数は次のように定義されます。

   

標準ガウス分布に関連付けられた平均の影響関数は次のとおりです。

   

したがって、汚染値が大きい場合、影響関数はで制限されないため、平均推定量に大きな影響を及ぼします。 これもまた、平均がロバストではないことを証明しています。

4. 中心傾向のロバストな推定量

統計では、中心傾向は、ある中心値の周りにクラスター化する定量的データの動作を表します。 中心傾向の古典的な尺度は平均ですが、堅牢ではありません。 中心傾向の最も関連性のあるロバストな推定量は、中央値とトリム平均です。

4.1. 中央値

中央値は、最小から最大にソートされた観測値のリストの中央位置を占める「中央値」を表します。

順序付けられた値のセットが与えられると、中央値は次のように定義されます。

   

中央値の内訳点は0.5です。これは、中央値が推定値の「爆発」を引き起こすことなく、最大50% ofの外れ値に抵抗できることを意味します。

4.2. トリム平均

トリム平均は、最小および最大の観測値を無視して計算された単純な算術平均です。

   

どこと。 トリム平均の内訳点はです。

5. 分散のロバストな推定量

統計的分散は、データセット内の観測値の変動性を表します。 標準偏差は統計的分散の古典的な尺度ですが、単一の外れ値によって任意に大きくすることができるため、堅牢ではありません。 分散の最も一般的なロバストな推定量は、中央絶対偏差と四分位範囲です。

5.1. 中央絶対偏差

中央絶対偏差(MAD)は、サンプルの中央値からのすべての絶対偏差の中央値です。

   

ランダムなガウス変数のセットのMADは、標準偏差と一致しません。 MADを正規分布の標準偏差の一致推定量にするには、補正係数1.482を掛ける必要があります。

   

この修正された推定量は、正規化された中央絶対偏差(MADN)と呼ばれます。

MADの内訳値は50%です。

5.2. 四分位範囲

四分位範囲(IQR)は、データの75番目と25番目のパーセンタイルの差として定義されます。

   

ランダムなガウス変数のセットのIQRは、標準偏差と一致しません。 正規化された四分位範囲(IQRN)は、正規分布の標準偏差の修正された推定量です。 IQRNは次のように計算されます。

   

IQRの内訳値は25%です。

6. 結論

この記事では、ロバスト統計の主な概念を確認しました。 ロバスト性の主な尺度を定義し、中心傾向と統計的分散の最も一般的な推定量を示しました。