1. 序章

このチュートリアルでは、ランダムフォレストのパフォーマンスに対する樹木の深さと数の影響を推定する方法を示します。

2. 問題文

ランダムフォレストは、デシジョンツリーアンサンブルです。。 それらを個別にトレーニングし、平均予測または多数決をフォレストの予測として出力します。

ただし、ツリーをトレーニングする前に、学習に影響を与えるハイパーパラメータを設定する必要があります。 特に、木の数()と最大の深さ()を決定する必要があります。

この記事では、設定ではなく、森林のパフォーマンスへの影響を推定します。影響がどれほど強いか、相互作用するかどうか、どのような種類かを調べることに関心があります。彼らがパフォーマンススコアと持っている関係。 とで直線的に変化しますか、それとも依存関係はより複雑ですか? どのハイパーパラメータがより重要ですか? 両方とも影響力がありますか、それとも一方は無関係ですか?

3. 効果推定方法

ランダムフォレストモデルのテストスコアとします。 たとえば、分類タスクのテストセットでフォレストの精度またはAUROCを使用できます。 回帰問題では、平均二乗誤差を使用できます。 

フォレストの影響とフォレストへの影響を推定するには、ハイパーパラメーターの変更によってテストスコアが変化するかどうかを確認する必要があります。 そこで、さまざまな値で評価し、実験結果に基づいてその効果を推測します。 しかし、これは疑問を投げかけます:統計の効果は何ですか?

3.1. 効果とその先について

応答変数の値に対する因子の影響の一般的に受け入れられている定義はありません。 どちらを使用するかは、「効果」を説明する最も自然な方法と、それを経験的に測定する能力によって異なります。

たとえば、1つは「低」()、もう1つは「高」()の2つのレベルの係数で応答を記録するとします。 の効果は、の平均値が低い値から高い値に増加するにつれて変化するものとして定義できます。 あるいは、平均の代わりに中央値を使用するか、の分布から引き出すランダムな値がランダムに選択された値よりも高い確率として効果を定義することができます。

この記事では、変化するときの平均値の違いについて説明します。その理由は、これが実際の最も一般的なアプローチであり、同じように定義された実験計画法の理論であるためです。効果は十分に確立されています。

3.2. 全体像:迷惑要因

テストスコアの変動は、とだけが原因ではありません。データをトレーニングセットとテストセットに分割すると、パフォーマンスにも影響します。 さらに、森林モデルをトレーニングするプロセスは、それ自体が確率論的です。 したがって、同じデータを複数回使用してフォレストをトレーニングすることで、さまざまな結果を得ることができます。

つまり、ハイパーパラメータやその影響を判断するだけでなく、他の変動の原因を考慮し、他の要因のさまざまなレベルで評価する必要があります。 それらは妨害要因と呼ばれ、私たちが認める変動性の原因を表していますが、その値は私たちの実験で制御および分析する予定はありません。いくつかの可能な候補をリストしましょう。

  • –ランダムシード。
  • –トレーニングに使用するデータの量を示す数値。
  • 分割の品質を測定する関数(たとえば、エントロピーまたはGini不純物)。
  • リーフ内のオブジェクトの最小数など。

物事を単純にするために、すべてを考慮することはしません。 迷惑要因としてのみを使用します。

したがって、見積もり手順は次のようになります。

3.3. 妨害要因の設定

パフォーマンスへの影響をおよびの影響と区別できるように、妨害要因を設定する必要があります。 そのために、迷惑値のペアの同じブロックの各組み合わせを評価します。 次に、 Graeco-LatinSquareを使用してこれらのペアを構築できます。 したがって、シードがあり、同じ数のトレインセットサイズ:の場合、すべてのペアが異なり、各値が各列と各行に1回だけ表示されるように、それらをマトリックスに配置します。

の場合、次のような正方形があります。

   

実験計画法理論の言語では、をブロックすると言います。

さらに、樹木の深さと数の影響を妨害要因の値の特定の範囲に偏らせない方法で、妨害値をランダムに選択する必要があります。 そのために、()と(たとえば)の範囲を等間隔に分割することができます。 次に、各間隔からランダムに値を選択します。

3.4. 妨害値はいくつですか?

選択した値をブロックに配置する方法を説明しました。 ただし、最初に、使用する値の数を決定する必要があります。

分析の統計的検出力はそれに依存するため、その選択は任意ではありません。任意の選択および選択されたレベルの平均の周りの最大許容信頼区間(CI)幅()を定義できます(通常、、、、または)。 次に、幅をしきい値未満に保つ最小値に設定します。

幅を計算するには、の標準偏差が必要です。 If(精度などの正規化されたスコアを使用する場合)は、最大で。 したがって、次のような最小のものを見つけます。

   

ここで、は標準正規分布の適切な臨界値です。 この方法で計算されたの値は、実際には確かにであるため、必要な値の数を過大評価します。 またはなどの他の選択を正当化できる場合は、この方法を適用することもできます。 そのようなものを見つけるために、私たちは理論と以前の研究の結果に依存しています。 ただし、それらが利用できない場合は、推定するための予備実験を行う必要があります。 次に、推定値を使用してを見つけます。

3.5. の設定 と 値

このステップの多くは、私たちの仮定と答えたい質問の範囲に依存します。実際には、:と:の値を定義します。

およびの特定の選択に対するの動作のみに関心がある場合は、それらをおよび()として使用します。 その場合、結論はそれらの値のみに制限され、との他の選択への外挿を正当化することはできません。

一方、対応する範囲のいずれかに推論を一般化したい場合は、とをランダムに選択し、因子を確率変数として扱う必要があります。

3.6. 主な効果と単純な効果

選択する値の数は、検出する依存型とモデリングで行う仮定によって異なります。 その間、メインエフェクトとシンプルエフェクトを区別します。

因子の主な効果は、他の因子の値に関係なく、因子を変化させたときに応答がどのように変化するかを示します。 たとえば、の平均を計算することにより、の主な効果を推定します。 の依存関係がせいぜい2次であると合理的に確信している場合、必要なのは3つの値だけです。 一般に、次数の依存関係をキャプチャするには値が必要です。

単純な効果は、ある因子を変更すると、別の因子の特定の値、または2つ以上の他の因子の値の組み合わせにどのように影響するかを示します。したがって、のすべての値の単純な効果が同じである場合、私たちはそれを結論付け、相互作用しません。

これらの期待と仮定は、の特定の数学的モデルに変換されます。

3.7. モデルによる効果の形式化

たとえば、との効果が線形であり、2つの因子が相互作用する可能性があると仮定します。 モデルは次のようになります:

(1)  

ここで、は最大の深さの木を持つランダムフォレストのテストスコアをモデル化する確率変数であり、はとで説明されていないの変動性を表すゼロ平均正規変数です。  通常、変数は同じように分布していると想定しますが、複雑なモデルを使用することもできます。 係数は効果を示します。 それらのいずれかがゼロに近い場合(仮説検定またはCIの検査を使用して確認できます)、対応する効果は存在しないと結論付けることができます。

視覚的には、(と)の2つの選択肢の平均がほぼ同じであり、それらの信頼区間が重なっていることを意味します。 の場合、で評価されたの平均値を結ぶ線は、とでの平均を結ぶ線と平行であると予想されます。

3.8. 通常、低次の効果で十分です

超線形の依存関係と効果を調べたい場合は、との値を使用します。 ただし、との組み合わせごとにフォレストをトレーニングおよびテストするため、すぐに問題が発生します。 データセットのサイズによっては、かなりの時間がかかる場合があります。

この問題に対処するために、それほど野心的な実験計画を採用することはできません。 必要となる13次の関係をテストすることを目的とする代わりに、下限を決定することができます。 多くの場合、線形および2次モデルは、科学者が調査する実際のプロセスのかなり正確な近似です。 私たちの場合、の係数、およびすべての高次項はゼロまたはゼロに非常に近いため、それらの影響は無視できると言えます。

したがって、最終モデルは次のようになります。

(2)  

3.9. 結果

したがって、を使用すると、との3つの値が得られます。 それらを(低)、(中)、(高)としてコーディングしましょう。 結果は次の形式の表になります。

   

ここで、はとの組み合わせを表し、下付きのsは記録されたテストスコアです。 したがって、とのすべての組み合わせにわたって妨害ペアの各ブロックを複製し、フォレストをトレーニングし、そのテストスコアを評価し、その結果を使用してプロットを作成し、モデルの係数を推定します( 2 )。

4. 注意の言葉

仮定が成り立たない場合、無効な結論を導き出す可能性があります。たとえば、モデルを線形主効果に限定すると、との間の2次関係が強い場合でも、効果はないと結論付けることができます。

 

さらに、効果を定義する方法は、アルゴリズムの統計分析では未解決の問題です。 平均の差を効果として使用すると、平均値がの分布を表すという暗黙の仮定が作成されます。 これは、すべてのランダムフォレストとデータセットに当てはまるとは限りません。

単一平均の周りの信頼区間幅に基づいて決定することを提案しました。 ただし、平均の差の周りの信頼区間がより適切だった可能性があります。

最終モデルでは、固定効果があります。 つまり、テストされた値以外の値の範囲に結論を一般化するべきではないということです。 そうしたい場合は、ランダム効果モデルを使用する必要があります。 それらは効果を確率変数として扱い、見えない値への外挿を可能にします。

帰無仮説有意性検定(NHST)を実施することは一般的な方法ですが、統計的有意性については意図的に言及しませんでした。 ますます多くの文献がNHSTフレームワークを批判しています。 主な問題は、NHST法の微妙な点が誤解されやすく、大多数の開業医を混乱させることです。 これは、NHSTを使用すべきではないという意味ではありませんが、注意して、何をしているのかを知っておく必要があります。

ついに、 森林のフィッティングには時間がかかる可能性があるため、より単純なモデルを使用しても、効果を推定することは不可能である可能性があることに注意してください。 その場合、トレーニングセットのサイズを小さくする必要があります。

5. 効果を推定する方法:簡単な要約

およびの効果を推定するための手順の簡単なリストを次に示します。

  1. まず、との値を選択して評価する必要があります。
    • 関係が線形であると仮定すると、両方のパラメーター(および、、および)に必要な値は2つだけです。
    • 順序の依存関係を検出するには、値が必要です。
    • 高次の影響は通常無視できるため、設定または設定するだけで十分です。
  2. 次に、ブロックする迷惑要因の値を選択します。
    • 各迷惑要因()に同じ数の値を使用します。
    • を見つけるために、平均の周りのCIの幅を最小化します。
  3. 迷惑要因の値をブロックに配置し、最大の深さと木の数のすべてのペアに複製します。 このようにして、実験計画を取得します。
  4. デザインの値の組み合わせごとにランダムフォレストをトレーニングし、テストセットにスコアを記録します。
  5. ここで、各深さの平均スコアとデザイン内の樹木の数をプロットします。 また、信頼区間を視覚化します。
  6. すべての信頼区間が重なる場合、対応する効果は無効になります。
  7. 間隔が重ならない場合、線の形状は依存のタイプを示します:null、線形、2次、3次、またはより高次。
  8. 回帰モデルを結果(プロットと仮定に基づく項を含む)に適合させます。
  9. 係数の絶対値は、対応する効果量を表します。
    • それらの重要性をテストすることはできますが、重要性テストには欠陥があることに注意してください。

必要に応じていくつかの手順を変更できますが、ランダムフォレストのパフォーマンスへの影響を推定する手順は、多かれ少なかれ上記のようになります。

6. 結論

この記事では、樹木の深さと数がランダムフォレストのパフォーマンスにどのように影響するかを推定する方法を示しました。平均の違いによってハイパーパラメーターの効果を定義しましたが、より適切な効果がある可能性があります定義;;