1. 序章

このチュートリアルでは、機能の選択とテキスト分類の機能削減の主な方法について説明します。

2. 次元の呪いと選択の祝福

すべての機械学習は、次元の呪いという呪いの影響を受けます。 今日、歴史上初めて、新しい情報の記録にはゼロに近いコストがかかります。 その結果、テキストに関連するかどうかに関係なく、現実の世界に由来するデータセットは、私たちが有益であると見なすものよりもはるかに多くの機能を含む傾向があります

このため、データセット内の特徴の数を減らし、最も重要なもののみを選択したいと思います。 これはテキストにとって特に重要です。一般的なテキストコーパスには数千の固有の単語が含まれる可能性がありますが、特定のテキストに含まれるのはごくわずかです。

したがって、分類精度の最大の向上につながるテキストからの特徴のみを選択し、他の特徴は無視したいと思います。 3つの簡単な手法が役立ちます。カイ2乗検定、情報の取得、およびユニグラムの代わりにnグラムを使用します。

3. カイ二乗分布

カイ二乗検定は、分類タスクで特徴を選択するための基本的な手法の1つです。 使用する仮定はごくわずかです:このため、覚えて実装するのは簡単です。

分類タスクを実行していると仮定しましょう。 次に、独立したクラスに分類したいという観察結果があります。 各観測値は1つのクラスにのみ属しているため、ここではマルチクラス分類はありません。

各クラスに属する観測値の数を呼び出しましょう

   

これで、特定の観測値が利用可能なの-番目のクラスに属する確率を計算できます。 これを行うには、特定のクラスの観測数を観測の総数で除算します。 このようにして、クラスごとに。

各クラスのすべての観測値の合計は、になる必要があります。 したがって、次の式を書くこともできます。

   

なぜなら、一般的な観測値の場合、各クラスに分類される可能性を表す確率分布をとして扱うことができるからです。 したがって、がクラスに属する確率である場合、-番目のクラスに関連付けられている観測値の予想数を呼び出すことができます。

4. カイ二乗検定

これまでに開発した構造では、各クラスの値が同じであるため、両方を使用するのは冗長に思えるかもしれません。 ただし、観測数が十分に多い場合は、母集団が次のルールを満たしていると見なすことができます。

   

方程式の右辺は、確率分布が再び現れるように除算と乗算を示しています。 この方法で推論することの利点は、予測されたカウントを使用でき、測定された観測値は右側に表示されないため、使用できないことです。

次に、実世界の分布を、無限大に近づく抽象的な分布と比較し、2つの間のピアソンの値を計算できます。 これは確かにピアソンのカイ二乗検定の定義です。

5. 情報獲得

データセット内の特徴を選択する別の方法では、エントロピーの観点から考える必要があります。 「特徴の1つが想定する値を知っていれば、分布のエントロピーはどれだけ減少するでしょうか?」と自問することができます。

これは、2つのエントロピーの差として得られる情報を計算できることを示唆しています。 1つは分布のエントロピーであり、もう1つは、その値の1つが既知であるという条件下での同じ分布のエントロピーです。

確率変数のエントロピーを呼びましょう。 によって仮定された値が与えられた場合の条件付きエントロピーも呼び出しましょう。 次に、情報ゲインを次のように定義できます。

   

確率変数のエントロピー条件付きエントロピーの計算について復習が必要な場合は、このWebサイトの他の記事を参照できます。情報ゲインは、これら2つ

6. Nグラムとその頻度

私たちが議論する最後の方法は、知的にも計算的にも最も単純です。 テキストを操作する場合、そこに含まれる単語の度数分布を作成できます。 これらはこれらのテキストのユニグラムを構成し、テキスト分類の標準機能です。

ただし、一部のテキストには、個別に分析するのではなく、ペアで分析した場合により意味のある単語が含まれている場合があります。 連続する単語のペアはバイグラムの名前を取り、テキストを分類するための機能として使用できます。 一般に、単語を含むn-gramは、メモリ消費量の増加を犠牲にして、単独で使用される個々の単語よりも有益である必要があります

7. 結論

この記事では、テキスト分類の特徴選択と削減の最も一般的な手法を研究しました。