1. 序章

このチュートリアルでは、デシジョンツリーランダムフォレストの違いを示します。

2. デシジョンツリー

デシジョンツリーは、オブジェクトの特徴をチェックしてその離散ラベルまたは連続ラベルを出力するためのガイドとなるツリー型のモデルです。 たとえば、気象条件に基づいて1日が外で遊ぶのに適しているかどうかを予測するツリーを次に示します。

内部ノードはチェックする機能を教えてくれ、葉はツリーの予測を明らかにします。 彼らはどのように予測を生成しますか? 各リーフには、トレーニングデータセットのサブセットが含まれています。 そのすべてのインスタンスは、ルートからリーフへのパスのすべてのチェックに合格します。 新しいオブジェクトの結果を予測するときは、インスタンスと同じリーフで終わるトレーニングデータの結合ラベルをオブジェクトに割り当てます。 分類問題では、関連するサブセットの多数決クラスです。 同様に、回帰の平均値です。

2.1. 決定木の過剰適合と不安定性

デシジョンツリーには2つの問題があります。 まず、データを過剰適合させる傾向があります。 内部ノードごとに精度が向上するため、トレーニングではツリーを最大限に成長させてパフォーマンスメトリックを向上させる傾向があります。 ただし、ノイズのモデリングが開始されるため、ツリーの一般化機能と見えないデータの有用性が低下します。

事前に木の深さを制限することはできますが、それでも不安定性の問題があります。 つまり、いくつかのインスタンスを除外するなど、トレーニングデータにわずかな変更を加えただけでも、完全に異なるツリーになる可能性があります。 それは私たちにどの木を信頼するかという問題を残します。

3. ランダムフォレスト

ランダムフォレストは両方の問題に対処します。 アイデアは、フォレスト内の各ツリーのトレーニングデータと機能の異なるサブセットを使用して複数のツリーを構築することです。 次に、多数決または平均値を出力して、予測を集計します。

理論的根拠は、モデルのアンサンブルは単一のツリーよりも正確である可能性が高いということです。 したがって、ツリーがそのサブセットをオーバーフィットしたとしても、フォレスト内の他のツリーがそれを補うことを期待します。 そのため、ツリーごとに異なるサブセットを使用して、ツリーにさまざまな角度から問題にアプローチするように強制します。

3.1. 例

データがあるとしましょう:

   

1日が外で遊ぶのに適しているかどうかを予測したいと思います。 これは、3本の木がある森の例です。

日を分類するには:

   

すべての木の予測を計算し、多数決を出力します。 1番目と3番目のツリーはを予測し、2番目のツリーはを予測します。 したがって、全体的な予測はです。

個々の予測を組み合わせる場合、最も簡単なのは、多数決または平均値を使用することです。 ただし、予測とツリーの推定精度スコアを比較検討して、より正確なツリーがより大きな影響を与えるようにすることもできます。

3.2. 複数の決定木のトレーニング

フォレストは決定木の2つの問題に対処しますが、複雑さの問題があります。 木の森を訓練することは、単一の木を構築するよりも時間がかかります。 ただし、すべてのツリーを個別にフィットさせるため、同時に構築できます。 これにより、トレーニングプロセスは高速化されますが、並列コンピューティングに適したインフラストラクチャが必要になります。

それでも、森を作ることは、もっと時間を費やすだけの問題ではありません。 ツリーに必要なハイパーパラメータに加えて、フォレスト内のツリーの数を考慮する必要があります。 結果として、 中にチェックするハイパーパラメータの組み合わせの数 相互検証 成長する.

3.3. 解釈可能性の問題

森は木よりも正確なモデルのように見えますが、木には決定的な利点があります。 単一の木は解釈可能ですが、森は解釈できません。 人間は、機械学習の専門家であろうと素人であろうと、木を視覚化して理解することができます。 森林の場合はそうではありません。 それらには多くのツリーが含まれているため、それらがどのように集計された予測を出力するかを説明することは、不可能ではないにしても、非常に困難です。

解釈可能性への要求が高まるにつれ、デシジョンツリーなどの精度は低くても理解しやすいモデルが実際のアプリケーションに存在し続けます。 さらに、規制により、エンドユーザーが理解できない決定を行うモデルが禁止されているため、これらが唯一の選択肢となる場合があります。

4. 結論

この記事では、決定木とランダムフォレストの違いについて説明しました。 デシジョンツリーは過剰適合する傾向があります。 さらに、トレーニングデータの変更がごくわずかであっても、その構造は大幅に変わる可能性があります。 ランダムフォレストには複数のツリーが含まれているため、1つがデータに適合していても、他のフォレストには当てはまらない可能性があります。 したがって、アンサンブルは単一のツリーよりも正確であると予想されるため、正しい予測が得られる可能性が高くなります。 ただし、森林は木が持つ解釈可能性を失います。