感情分析のためのトレーニングデータ
1. 概要
このチュートリアルでは、自然言語処理における感情分析の問題を研究します。
また、モデルのプロトタイプを開発するために使用できるいくつかのトレーニングデータセットを特定します。
このチュートリアルの最後に、感情分析用の一般的なデータセットの場所と、それらを単純な自然言語処理に使用する方法について説明します。
2. 感情分析
2.1. 感情分析、簡単に
人間の発話における感情分析の問題は、自然言語処理、認知科学、感情心理学、計算言語学の研究の主題です。 ]、およびコミュニケーション研究。 それらのそれぞれは、現象の理解、言語と人間の感情との関係に独自の視点を追加します。これは、神秘的であると同時に頻繁に発生します。
テキストでの感情検出に関する記事では、言語と感情の間に独自のマッピングが存在するかどうかがどのように不明確であるかについて説明しました。 そうでない場合は、疑われるように、言語による感情の識別と処理の問題をアルゴリズム的に解決することはできません。 つまり、機械学習をうまく適用できないということです。
ただし、機械学習は、実際に多くの一般的に使用されるアプリケーションで感情分析を実行します。 これらの例としては、ユーザーコメントでのネガティブフィードバックの識別、候補者の政治的サポートの変動の検出、株式市場価格の予測などがあります。ソーシャルメディアデータの基礎。
したがって、感情分析の問題を一般的に解決できないと理論的に確信しているときに、実際に機械学習を使用することはどのように可能でしょうか。
2.2. 狭いタスクと一般的なタスク
人工知能の理論は、狭いタスクと一般的なタスクのソリューションを区別します。 一般的な認知問題の解決策はまだ達成されていませんですが、狭いタスクの場合、機械学習は非常にうまく機能する傾向があります。
同様に、感情で作業する場合、一般的なタスクと狭いタスクを区別できます。 現在の理論的理解は、感情の特定は一般的に解決できないことを示唆しています。 ただし、狭く定義されたタスクのソリューションは、依然として非常に正確に取得できます。
また、人間の精神を調節する感情のオントロジーに関して一般的に合意がないことについても説明しました。 この結果として、テキスト内の感情の識別に使用するオントロジーについての合意もあり得ません。 ただし、特定のオントロジーが問題に適用されると任意に推測する場合は、機械学習を使用してその問題を解決できます。
典型的なオントロジーは、ポジティブな感情とネガティブな感情の2つのクラスで構成されます。 次に、分析の単位は、テキスト、単語、または文のいずれであっても、これらのクラスの1つに一義的に割り当てられます。
ただし、「ポジティブ」と「ネガティブ」の意味の定義は、作成者によって大きく異なる場合があります。 このことから、感情分析にはいくつかの方法論が存在し、それぞれが特定のコンテキストでの感情の狭い定義から生じていると結論付けます。 フレームに特定の問題を与える定義が優れているほど、機械学習への適用も向上します。
2.3. すべてのデータセットが同じように生まれるわけではありません
これは、すべてのトレーニングデータセットが等しいわけではないことも意味します。 特定の方法論のアプリケーションで開発されたデータセットは、別のコンテキストに適用するとうまく機能しません。 これは、問題に適用される特定の理論的仮定に従うデータセットの選択が非常に重要であることを意味します。
このため、ここでは、感情分析用の最も一般的なデータセットと、それらが最初に開発された状況について説明します。 また、それぞれが私たちにどのような可能性を開くかを理解するために、科学文献でのそれらの使用例を研究します。
3. 教師あり学習用のデータセット
感情検出に関する紹介記事では、基本モデルの開発に使用できる感情検出用の公開データセットをいくつかリストしました。 ここでは、それぞれに関連する機能と科学的な使用法のより完全な説明を含む、異なるセットをリストします。
まず、感情分析における教師あり学習の最も一般的なデータセットを一覧表示します。 これらはすべて、事前に定義された類型に従ってテキストを分類する機械学習モデルの開発に特に適しています。
3.1. MPQAオピニオンコーパス
MPQA Opinion Corpus は、英語圏の報道機関で発行されたニュース項目に対応する70の注釈付きドキュメントで構成されています。 次のタグまたはラベルで構成される特定の注釈スキームを使用します。
- 著者の感情の受信者であるエンティティを参照するエージェントラベル
- エージェントとしてラベル付けされたエンティティの1つに対する間接的な判断を含むテキストの要素をマークする表現的主観タグ
- 特定のエンティティに関連する感情の直接的な表現を指す直接主観的なタグ
- 感情に関する中立的な発言を示す客観的スピーチイベントタグ
- 表現されたステートメントに関する感情の二極化を含む態度の値
表現力と直接主観性の2つのタグには、それらが参照する特定の文に割り当てられた極性の測定値も含まれています。 このデータセットは、特定のエンティティに関する感情の明示的表現と暗黙的表現の両方を学習するトレーニングモデルに特に適しています。 また、感情分析のための深層学習モデルのトレーニング、より一般的には意見マイニングの実施にも使用されています。
3.2. センチメント140
データセットSentiment140 には、さまざまな英語を話すユーザーからの印象的な1,600,000のツイートが含まれており、感情を分類するためのモデルの開発に適しています。 もちろん、この名前は、元のTwitterメッセージの文字制限を定義することに由来しています。
このデータセットは、自動的にタグ付けされたメッセージで構成され、それぞれに絵文字またはが含まれているかどうかに応じて、「ポジティブ」または「ネガティブ」とマークされます。 タグ付けへのこの自動アプローチは、一般的に使用されていますが、特に皮肉に対する盲目に関して、既知の制限が特徴です。
データセットの機能は次のとおりです。
- 極性、負から正へ
- ツイートのIDと日付。時系列分析を行う場合に便利です。
- 著者のツイッターハンドル
- そしてもちろん、ツイートのテキスト自体
センチメント140は、最大エントロピーモデル、特にのトレーニングに役立ちます。 さらに、科学文献もナイーブベイズモデルでの使用法を示しています。 さらに、サポートベクターマシンを使用してモデル化された、パンデミックに対する人口の態度を分析することも役立ちます。
3.3. 紙のレビュー
Paper Reviews データセットには、コンピュータサイエンスに関する国際会議に提出された論文に関するスペイン語と英語の405件のレビューが含まれています。 科学出版では論文ごとに少なくとも2人の査読者を使用するのが一般的であるため、彼らが参照する論文の数は半分より少し多いです。 データセット自体はJSON形式であり、次の機能が含まれています。
- レビューが参照する論文のIDと日付
- レビューアによる論文の受理または拒否の決定
- レビュー担当者から会議議事録の編集者、および論文の著者に送信されたレビュー自体のテキスト
- 編集者は受け取るが、論文の著者は受け取らない、コメントと呼ばれる2番目のテキスト
- オリエンテーション。これは、データセットの作成者が個々のレビューに割り当てた感情スコアです。
- 評価、これは特定の論文のスコアまたは判断です
- そして最後に、信頼度。これは、レビュー担当者が評価スコアを記事に割り当てる際の確実性の尺度を示します。
Paper Reviewsデータセットは、群最適化を含むハイブリッドモデルのトレーニングの使用法を見つけます。 評価スコアの序数が数値であるため、一般的な分類および回帰タスクにも適しています。 また、ピアレビュープロセスで感情、客観性、スコアの関係を研究することも有用であり、まだ十分に活用されていないはずです。
科学における一般的な信念の1つは、査読プロセスは一般的に公正かつ公平であるというものです。 ただし、この信念は、特に性別、制度的名声などの既知の人間の認知バイアスに関して、そして最も重要なのは自然言語処理において疑わしいものです。 、言語。 したがって、このデータセットは、人間の偏見と科学的発見の公開におけるその役割を分析するのに特に適しています。
3.4. 大規模な映画レビューデータセット
この場合は映画に関するレビューを含むもう1つの人気のあるデータセットは、 Large Movie ReviewDatasetです。 データセットには、トレーニングとテストに分割された50,000件のレビューが含まれており、すべてに高度に極性化されたテキストが含まれています。 これは特に二項分類に適しており、次の2つの機能のみで構成されています。
- レビューのテキスト
- そして、「正」または「負」のいずれかの偏光値
このデータセットは、ハイブリッド教師なし学習モデルのトレーニングで使用されています。 ただし、サポートベクター分類器、単純ベイズ分類器、および共同、ニューラルネットワークおよびk最近傍法。 このデータセットを分類するためのモデルを含むノートブックの大規模なコレクションは、Kaggleで利用できます。
3.5. 感動的なスタンフォードセンチメントツリーバンク
Stanford Sentiment Treebank は、論文 Deeply Moving:Deep Learning for SentimentAnalysisで使用されているテキストのコーパスです。 データセットは、映画レビューを専門とするWebサイトRottenTomatoesから抽出された10,605のテキストで構成されています。 次の機能で構成されています。
- 元の未処理の形式のテキスト自体
- テキストに含まれるフレーズ、およびそれらのそれぞれの一意のID
- そして最後に、データセット内のテキストを解析するツリーの構造
Stanford Sentiment Treebankは、サポートベクター分類器および深層学習モデルのトレーニングで使用法を見つけます。 また、 Arabic Sentiment Treebank の作成により、他の言語用の同様のデータセットの開発にも影響を与えました。
3.6. マルチドメイン感情データセット
マルチドメイン分析用のこのデータセットは、当初ペンシルベニア大学によって、ウェブサイトから削り取られたAmazon製品に基づいて開発されました。 製品は、電子機器、本、台所用品、DVDの4つのカテゴリに属しています。 各レビューは、「正」または「負」の分極スコアを持っており、それぞれ、最大5つのうち3つ以上または3つ未満の星に対応します。
レビューの未処理バージョンと前処理バージョンの両方が利用可能です。 後者は、すでにトークン化されてuniまたはbi-gramsになります。 前処理されたバージョンの機能は次のとおりです。
- トークン自体
- トークンごとに、発生回数
- 偏光値を含むラベル
ポジティブレビューとネガティブレビューの2つのクラスには、それぞれ1000の要素があります。 ラベルなしデータも存在し、DVDの場合は3685件のレビュー、台所用品の場合は5945件のレビューがあります。 ラベルのないデータを使用すると、さまざまなモデルの予測を以前に表示されなかったデータと比較するのに役立つ場合があります。
データセットは、感情分析に関する文献で十分に使用されていることがわかりました。 これらの中で、共同感情トピックモデルは、レビューの感情的な意味を予測する要因を学習するのに役立つことが証明されました。 単純ベイズモデルと逐次最小最適化も、このデータセットからのテキストの分類を正常に実行しました。
3.7. 長所と短所
長所と短所のデータセットは、文レベルでの意見マイニングのタスクに関連しています。 肯定的および否定的な判断を示す約23,000の文が含まれており、比較文データセットに関連して使用されることを目的としています。 データセットは、次の2つの用途に適しています。
- 語彙目録または検索辞書として、新しいテキストの同一の文の極性を判別する
- このデータセットに含まれているものとの類似性に基づいて新しい文に極性を割り当てる
このデータセットを活用する科学文献の論文は、モデル開発と、英語以外の言語への自動極性分類の拡張という2つのカテゴリに分類されます。
最初のカテゴリに関しては、このデータセットの使用は自動音声処理に効果的でした。 このタスクに関連して、データセットは極性の分類ラベルを提供し、オーディオ処理のモデルはを使用してユーザーの音声の感情を決定できます。 関連するデータセットのComparativeSentencesでも、YouTube動画への感情の帰属に同様の使用法が見つかりました。
2番目のカテゴリに関しては、データセットはノルウェー語の二極化された文のコーパスだけでなく、深い感情分析のための多言語コーパスの作成に影響を与えました。 多言語感情分析は言語依存であるため、悪名高いほど困難です。このデータセットを他の言語と一緒に使用すると、この問題に対処するのに役立ちます。
3.8. 意見意見データセット
Opinosis Opinion Dataset は、トピックごとにグループ化された製品およびサービスのユーザーレビューで構成されるリソースです。 これには、Amazon、Tripadvisor、およびEdmundsのWebサイトで販売されている製品に関連する51の異なるトピックが含まれています。 トピックごとに、主に電子機器、ホテル、または自動車に関連する約100の異なる文があります。
すべての文はトークンに分割され、その後、品詞タグで補強されます。 データセットには偏光ラベルがないため、テキストの要約に特に役立ちます。 ただし、感情のレキシコンと組み合わせてを使用すると、以前のすべてのデータセットの場合と同様に、監視された感情分析を実行することもできます。
Opinosis Opinion Datasetの利点は、品詞タグにあります。 研究によると、形容詞と副詞を使用するモデルは、形容詞のみを使用するモデルよりも優れており、2つのグループを区別するために品詞タグが必要です。 したがって、このデータセットを使用すると、品詞タグとレキシカを実装する感情分析用のモデルを構築できます。
3.9. TwitterUSエアライン
Twitterから発信されたもう1つのデータセットは、 Twitter US Airlines Dataset です。これは、アメリカの航空会社によるサービス品質に関するテーマ別メッセージで構成されています。 データセットには次の機能が含まれています。
- 各メッセージの一意のID
- ボランティアの貢献者によって割り当てられた極性スコア
- 極性が負の場合、人間のタガーが理由を特定する自然言語の文
- 分極スコアを割り当てる際の人間のタガーによる自己評価された信頼
- メッセージの分布や影響を調査するのに役立つリツイートの数
- そしてもちろん、メッセージに関係する特定の航空会社の名前
科学文献では、データセットは分類タスク一般に使用されます。 しかし、より具体的には、サポートベクターマシンとAdaBoost 、および複数のアルゴリズムからの予測を組み合わせたアンサンブルアプローチの場合。
興味深いことに、このデータセットに示されている一部の米国の航空会社は、Twitterでの否定的な顧客フィードバックに驚くほど迅速に反応します。 これは、彼ら自身がユーザーのつぶやきの負の極性を検出するためのシステムを採用したのではないかと私たちに信じさせるかもしれません。
4. 教師なし感情分析のデータセット
4.1. 教師なし感情分析
最後の注意点は、感情分析への教師なし学習の適用に関するものです。 感情値をテキストに割り当てたい場合、実際には、ラベルを順序付けされていないカテゴリ変数または数値変数としてそれぞれ扱うかどうかに応じて、分類タスクまたは回帰タスクのいずれかを実行していることがわかります。 ただし、文献では、教師なし感情分析の方法についても説明されていますが、半教師ありと言った方がよいでしょう。
そのような方法の1つは次のとおりです。 まず、データセットに存在する2つの単語を選択し、それらに反律法的な極性スコアを割り当てます。 上記のリンク先の論文で選択した単語を使用すると、このプロセスを割り当てととして表現できます。 このプロセスは、ランダムジェネレーターのシードプロセスに類似しているため、「シード」という名前が付けられています。
次に、いくつかの測定値を使用して、データセット内の他のすべての単語に割り当てられた極性値を決定できます。 一般的な尺度は相互情報量ですが、いくつかのバリエーションも使用されます。 ただし、非シードトークンに割り当てられた極性スコアは、シードに使用するトークンに応じて大幅に変化するため、この方法の信頼性に疑問が生じます。
4.2. データセットとしてのLexica
この方法論の説明から、「優れた」や「悪い」など、人間のタガーが二極化したとラベル付けした単語を含むテキストコーパスが教師なし感情分析に適していることは当然のことです。 これは、原則として、教師なし感情分析用に準備されたデータセットが教師なし分析にも同様に適切であることを意味します。
ただし、教師なし感情分析には、レキシコンベースの方法という名前の別の方法があります。 この方法は、「ポジティブ」や「ネガティブ」という単語自体など、一部の単語には本質的にポジティブまたはネガティブな意味があるという考えに基づいています。 これが当てはまる場合は、単語トークンと極性スコアの間の関連付けを含む辞書を作成することができます。
このタイプのレキシカはオンラインで公開されています。 その1つがVERYNEG VERY POSレキシコンで、各単語の品詞タグも含まれています。 もう1つのレキシコンはSO-CALで、これにもには、二極化された単語の重みと否定が含まれます。
最後に、データセットからレキシコンを開発するための自動メソッドもあります。 使用している言語ですぐに利用できるデータセットがない場合、または利用可能なデータセットの信頼性について確信が持てない場合は、この方法を参照できます。
5. 結論
この記事では、感情分析の方法論の基本を学びました。
また、監視された感情分析のための公開データセットをリストしました。
それらのそれぞれについて、それらが持つ機能と科学文献の既知の使用例について説明しました。
最後に、教師なし感情分析の基本について説明し、それを処理するのに役立つデータセットとレキシカを特定しました。