1. 序章

このチュートリアルでは、ナイーブベイズ(NB)とサポートベクターマシン(SVM)のメソッドを分析します。 テキスト分類のためのこれらの方法の長所と短所を対比します。 理論的および実践的な観点からそれらを比較します。 次に、どちらを使用するのがよいかを提案します。 チュートリアルでは、トレーニングと活用のためのテキストの数、分類するテキストの長さ、検討するカテゴリの数、前処理プロセスなどの側面を検討します。

2. ナイーブベイズ(NB)分類器

ナイーブベイズ(NB)を使用すると、ベイズの定理に基づいて単純な分類器を構築できます。 したがって、すべての機能値が他の機能の値から独立していると想定します。 NBモデルは、データのクラス条件付き限界密度を推定しながら、高レベルの精度を達成できます。

独立性の仮定のため、NBは機能間のすべての可能な相関関係を学習する必要はありません。 Nが特徴の数である場合、一般的なアルゴリズムでは2Nの可能な特徴の相互作用を分析する必要がありますが、NBではN個のデータポイントの順序のみが必要です。 したがって、NB分類器は、クラスの独立性を前提としているため、小さなトレーニングデータセットから簡単に学習できます。 同時に、NBは次元の呪いの影響を受けません。

ナイーブベイズ分類器実行時の複雑さはO(NK)です。ここで、Nは特徴の数、Kはラベルクラスの数です。

3. サポートベクターマシン(SVM)

サポートベクターマシン(SVM)は非常に人気のあるモデルです。 SVMはデータの幾何学的解釈を適用します。 デフォルトでは、これは二項分類器です。 2つのカテゴリ間の距離を最大化するために、空間内のデータポイントをマッピングします。 SVMの場合、データポイントはN次元のベクトルであり、メソッドはそれらを分離するためにN-1次元の超平面を探します。 これは線形分類器と呼ばれます。 多くの超平面がこの条件を満たすことができます。 したがって、最良の超平面は、2つのカテゴリ間に最大のマージンまたは距離を与えるものです。 したがって、これは最大マージン超平面と呼ばれます。青と緑の2つのカテゴリに対応する点のセットを見ることができます。 赤い線は、ポイントの両方のグループを分離する最大マージンの超平面を示しています。 破線上のこれらの点は、サポートベクターと呼ばれます。 セットが元の空間で線形分離可能ではないことがよくあります。 したがって、元の空間は、分離が得られる高次元の空間にマッピングされます。 SVMは、いわゆるカーネルトリックを使用して、非線形分類を効率的に実行できます。 カーネルトリックは、特定のカーネル関数を使用することで構成されます。これにより、元の空間から高次元空間へのマッピングが簡素化されます。

4. 両方の方法をどのように比較しますか?

ナイーブベイズ(NB)は非常に高速な方法です。 これは、実装と評価が簡単な条件付き確率に依存します。 したがって、反復プロセスは必要ありません。 NBは、二項分類と多項分類をサポートします。 NBは、機能がそれらの間で独立していると想定していますが、この想定が常に当てはまるとは限りません。 とはいえ、ツイートのような短いテキストに適用すると、NBは良い結果をもたらします。 一部のデータセットでは、NBは特徴選択を使用して他の分類器を無効にする場合があります。

SVMは、非線形分類タスクに対処するためにより強力です。 SVMは、テキストに対応するような高次元空間でよく一般化されます。 サンプルよりも多くの寸法で効果的です。 クラスが十分に分離されている場合にうまく機能します。 SVMは、その概念のバイナリモデルですが、複数のクラスの分類に適用でき、非常に良い結果が得られます大規模なデータセットのSVMのトレーニングコストはハンディキャップです。 SVMは、大規模なデータセットのトレーニングに長い時間がかかります。 簡単ではなく、時間がかかるハイパーパラメータの調整が必要です。 SVMは理論的にはより魅力的です。

NBとSVMはどちらも、それぞれのカーネル関数の選択を可能にし、パラメーターの最適化に敏感です。 スパム分類におけるSVMとNBの精度の比較は、基本的なNBアルゴリズムが最良の予測結果(97.8%)を提供することを示しました。 同時に、SVMおよびNBアルゴリズムは、必要に応じて90% usingパラメーター調整をはるかに超える精度を取得しました。

5. 結論

このチュートリアルでは、テキスト分類に適用されるナイーブベイズ(NB)およびサポートベクターマシン(SVM)分類器の長所と短所を分析します。 特定のデータセットに最適な分類方法についての単一の答えはありません。 結果は、採用された方法論、選択された機能とハイパーパラメーター、および使用されたデータセットに大きく依存します。 場合によっては、選択したパラメーターを使用すると、NBのパフォーマンスがSVMよりも優れていることがわかります。 ただし、SVMは、別のパラメーターを選択すると、NBよりもパフォーマンスが向上する可能性があります。