1. 序章

このチュートリアルでは、トピックモデリングとして知られる最も困難な自然言語処理領域の1つについて説明します。 トピックモデリングを使用して、テキストからさまざまなトピックを認識して抽出することができます。 大量のテキストデータからの情報を簡単に理解するのに役立ちます。 紹介後、LDAやコヒーレンススコアなどの関連する概念をさらに深く理解します。 全体のアクセントは、これらの測定値とそれらの値を解釈する方法に精通することに向けられます。

2. トピックモデリング

トピックモデリングは、ドキュメントに存在するトピックを決定するための機械学習および自然言語処理技術です。特定のトピックに属する単語またはフレーズの確率を決定し、それらの類似性に基づいてドキュメントをクラスター化することができます。近さ。 これは、ドキュメント内の単語やフレーズの頻度を分析することによって行われます。  トピックモデリングの一部のアプリケーションには、テキスト要約、レコメンダーシステム、スパムフィルターなども含まれます。[X01X]

具体的には、トピックモデルを抽出するための現在の方法には、潜在的ディリクレ割り当て(LDA)、潜在的意味解析(LSA)、確率的潜在的意味解析(PLSA)、および非負行列因子分解(NMF)が含まれます。 潜在的ディリクレ割り当て(LDA)からのコヒーレンススコアに焦点を当てます。

3. 潜在的ディリクレ配分(LDA)

潜在的ディリクレ割り当ては、教師なしの機械学習、クラスタリング手法であり、テキスト分析に一般的に使用されています。 これは、単語がトピックとして表され、ドキュメントがこれらの単語トピックのコレクションとして表されるトピックモデリングの一種です。

要約すると、このメソッドは、いくつかのステップを通じてドキュメント内のトピックを認識します。

  1. トピックのサンプリング–トピックのスペースでドキュメントのディリクレ分布を初期化し、ドキュメント上のトピックの多項分布からトピックを選択します。
  2. 単語のサンプリングとドキュメントの作成–単語のスペース内のトピックのディリクレ分布を初期化し、トピック全体の単語の多項分布から、以前にサンプリングされたトピックごとに単語を選択します。
  3. 同じドキュメントを作成する可能性を最大化します。

その後、上記のアルゴリズムは数学的に次のように定義されます。

(1)  

ここで、ディリクレ分布を定義し、多項分布を定義します。は、すべてのドキュメントのすべての単語のトピックを含むベクトルであり、すべてのドキュメントのすべての単語、ドキュメントの数、トピックの数、および単語の数を含むベクトルです。

ギブスサンプリングを使用して、トレーニングまたは確率の最大化のプロセス全体を実行できます。一般的な考え方は、各ドキュメントと各単語を可能な限り単色にすることです。 基本的には、各ドキュメントにできるだけ少ない記事を含め、各単語ができるだけ少ないトピックに属するようにすることを意味します。

4. コヒーレンススコア

トピックモデリングのコヒーレンススコアを使用して、トピックが人間にとってどれほど解釈可能かを測定できます。 この場合、トピックは、その特定のトピックに属する可能性が最も高い上位N語として表されます。 簡単に言うと、コヒーレンススコアは、これらの単語が互いにどれだけ類似しているかを測定します。

4.1. CVコヒーレンススコア

最も人気のあるコヒーレンスメトリックの1つは、CVと呼ばれます。 共起を使用して単語のコンテンツベクトルを作成し、その後、正規化された自己相互情報量(NPMI)と余弦類似度を使用してスコアを計算します。 このメトリックは、Gensimトピックコヒーレンスパイプラインモジュールのデフォルトメトリックであるため人気がありますが、いくつかの問題があります。 このメトリックの作成者でさえ、それを使用することを推奨していません。

そのため、CVコヒーレンスメトリックの使用はお勧めしません。

4.2. UMassコヒーレンススコア

CVスコアを使用する代わりに、UMassコヒーレンススコアを使用することをお勧めします。 2つの単語の頻度を計算し、コーパスに一緒に表示され、次のように定義されます。

(2)  

ここで、は単語とドキュメントに一緒に出現する回数を示し、単語が単独で出現する回数を示します。 数値が大きいほど、コヒーレンススコアは高くなります。 また、このメジャーは対称ではありません。つまり、に等しくありません。 トピックのグローバルコヒーレンスは、トピックを説明する上位の単語の平均ペアワイズコヒーレンススコアとして計算されます。

4.3. UCIコヒーレンススコア

T 彼のコヒーレンススコアは、スライディングウィンドウと、出現ごとに上位の単語を使用するすべての単語ペアのポイントごとの相互情報量に基づいています。 ドキュメントに2つの単語が表示される頻度を計算する代わりに、スライディングウィンドウを使用して単語の共起を計算します。 これは、スライディングウィンドウのサイズが10の場合、特定の1つの単語に対して、単語の前後に10個の単語しか観察されないことを意味します。

したがって、両方の単語とがドキュメントに表示されていても、それらが1つのスライディングウィンドウに一緒に表示されていない場合、それらが一緒に表示されたとは見なされません。 同様に、UMassスコアについては、単語間のUCIコヒーレンスを次のように定義します。

(3)  

ここで、はスライディングウィンドウに単語が表示される確率であり、はスライディングウィンドウに単語が一緒に表示される確率です。 元の論文では、これらの確率は、10語のスライディングウィンドウを使用して、200万を超える英語版ウィキペディアの記事のコーパス全体から推定されました。 UMassコヒーレンスの場合と同じ方法で、トピックのグローバルコヒーレンスを計算します。

4.4. Word2vecコヒーレンススコア

賢明なアイデアの1つは、コヒーレンススコアにword2vecモデルを利用することです。 これにより、スコア内の単語のセマンティックが導入されます。 基本的に、次の2つの基準に基づいてコヒーレンスを測定します。

  • トピック内の類似性–同じトピック内の単語の類似性。
  • トピック間の類似性–さまざまなトピックにわたる単語の類似性。

アイデアはとてもシンプルです。 トピック内を最大化し、トピック間の類似性を最小化する必要があります。 また、類似性とは、word2vec埋め込みによって表される単語間のコサイン類似性を意味します。

続いて、トピックごとのトピック内類似性を、そのトピックの上位単語のすべての可能なペア間の平均類似性として計算します。 したがって、2つのトピック間のトピック間の類似性を、これらのトピックの上位の単語間の平均類似性として計算します。

最後に、2つのトピック間のword2vecコヒーレンススコア、、が次のように計算されます。

(4)  

4.5. 最高のコヒーレンススコアの選択

コヒーレンススコアが良いか悪いかを判断する方法は1つではありません。 スコアとその値は、計算元のデータによって異なります。 たとえば、あるケースでは、スコア0.5で十分かもしれませんが、別のケースでは受け入れられません。 唯一のルールは、このスコアを最大化することです。

通常、コヒーレンススコアはトピック数の増加とともに増加します。 この増加は、トピックの数が増えるにつれて小さくなります。 トピックの数とコヒーレンススコアの間のトレードオフは、いわゆるエルボーテクニックを使用して実現できます。 この方法は、トピック数の関数としてコヒーレンススコアをプロットすることを意味します。 曲線のエルボを使用して、トピックの数を選択します。

この方法の背後にある考え方は、コヒーレンススコアの減少する増加がトピック数の追加の増加の価値がなくなるポイントを選択したいということです。 でのエルボカットオフの例を以下に示します。

また、コヒーレンススコアは、、、、などのLDAハイパーパラメータに依存します。 そのため、あらゆる機械学習ハイパーパラメータ調整手法を使用できます。 結局のところ、教師なし機械学習システムの検証は常にトリッキーな作業であるため、結果を手動で検証することが重要です。

5. 結論

この記事では、トピックモデリングの概念の背後にある直感を紹介しました。 また、この課題を解決するための最も一般的な方法の1つであるLDAアルゴリズムについて詳しく説明しました。 最後に、コヒーレンススコアの意味と、このスコアがいつ良いか悪いかを知る方法を決定するという問題を解決します。

一般に、トピックモデリングタスクは、自然言語処理で最も困難なタスクの1つです。 この概念に関する多くの研究があり、インターネット上のテキストデータの量が増加しているためにのみ関心が高まります。