1. 概要

このチュートリアルでは、書かれたテキストでの感情の検出の問題を研究します。 そうすることで、自然言語処理での感情分析の理論的基礎に精通します。

さらに、感情検出用のモデルをトレーニングできる、公開されているデータセットの場所を示します。

この記事の終わりに、感情分析が機能する場合と機能しない場合について、理論的にしっかりと理解します。 また、コンテンツ分析およびテキスト内の感情検出のための機械学習モデルでのプレイを開始するために必要なデータセットを取得する場所もわかります。

2. 感情と言語

2.1. 感情の外的および内的次元

人間には感情があり、それは彼らの精神状態と行動パターンに対応しています。 人間が感じる感情には、内的次元と外的次元の2つの次元があります

感情の内的または主観的な要素は、個人がすぐに知覚するものです。 個人はこのコンポーネントを他の人と共有することはできません。したがって、その個人の直接の経験の範囲内にとどまります。

それは人の心理的状態に対応するだけでなく、脳の感情特異的神経回路の活性化にも対応します。 この内部ディメンションは、コンテンツ分析の方法論では観察できず、すべての目的でブラックボックスです

しかし、感情には外部的または共有的な側面もあります。 個人が感情を感じると、自発的かどうかにかかわらず、この外部コンポーネントを他の環境と共有します。 この共有は、顔の表情の形をとる信号を発することによって行われます。 ジェスチャー; 態度; この記事の焦点である口頭の合図。

2.2. 個人間の感情と協力

その環境の中で、個人を取り巻く他の人間は、個人の感情に関連する信号を受け取り、それらを解釈します。 これらの信号は、それらを知覚する個人の類似した感情的状態を活性化し、コミュニティでの信号の複製を可能にします。

これにより、分散型および分散型の方法で、個人間の感情的反応の調整と共同の感情的行動の実施が可能になります。

私たちがこの惑星に着陸したばかりで、人間について何も知らなかったとしても、感情について何かを学ぶことができます。 グループの行動パターンのいくつかのクラスターが実行される直前に、いくつかのクラスの信号が人間のグループに拡散する傾向があることを検出しました。 ただし、現象の内部的な次元ではなく、外部的な次元のみを知覚するため、特定の感情的な信号に関連する主観的な経験が何であるかを必ずしも知ることはできません。

このアプローチは、感情の外部的またはコミュニケーション的側面にのみ焦点を当てたものであり、自然言語処理に関係するものです。 機械学習では、実際には、感情の共有または外部の次元のみを観察できます。 そうすることで、私たちは感情の内的または私的な側面について何かを推測しようとしますが、それは決して観察されません。

2.3. 感情と言語

人間は、感情に関連する信号が非常に多様化する傾向があるという点で、他の哺乳類とは異なります。 ほとんどの哺乳類は騒音を発し、姿勢を変えることができますが、人間は、より複雑な感情的反応の表現を可能にする非常に明確な言語信号を作成することもできます

問題は、ブラックボックスまたは感情の内部要素を研究するために、これらの明確な応答をどのように使用できるかということです。 つまり、主観的な感情状態です。 これを行うには、感情的な信号による感情の研究を正当化する追加の仮説が必要です。

2.4. 感情と言語のマッピング

したがって、根底にある仮説は、ある種の固有のマッピングが存在し、機械学習によってそれについて学ぶことができるというものです。

自然言語処理では、個人に関連する一連の感情的な行動全体を観察するわけではありません。 代わりに、小さな行動サブセットである言語信号のみを選択し、それらが個人の全体的な感情的行動をうまく表現していると想像します

言い換えれば、合成関数の存在を意味するマッピングがあると想像します。 この関数が存在する場合は、機械学習によってそれを学習できます。

2.5. この機能は存在しますか?

この関数は存在しません。 それでも、そうなると想定するのは良い考えです。 個人の内面の感情的状態は、彼らの唯一の言語行動を分析することによって研究できるという考えを拒否することに賛成する多くの議論があります。 ここでは、主な理由について説明します。

他の霊長類の感情的な信号の複雑さは、特に口頭の信号がほとんどないため、人間のそれよりも大幅に低くなっています。 同時に、小グループでの彼らの感情的行動の複雑さは、小グループのそれに匹敵するようです。 これは、言語と感情が互いに完全に対応していないことを示唆しています。

言語を感情にマッピングする可能性には、合意された感情のオントロジーが必要です。 この合意は存在せず、異なる学者は、どの主要な感情または基本的な感情が存在するかについて異なる理解を持っています。 これにより、言葉による信号と感情の関連付けがあいまいになります。

自然言語処理による言語の分析は、単語と文の構文解析に限定されます。 人間のように言語を理解するために必要なセマンティック分析は、機械学習ではまだ解決できません。

これらの理由から、上記の合成関数が存在したとしても、機械学習がそれで機能するという考えを拒否するのには十分な理由があります。 その時私たちは迷子になりますか、そして私たちはコンピューターの方法を通して感情を扱うという考えを捨てる必要がありますか?

3. テキスト分類と感情分析

3.1. 動作が予測可能な場合、機械学習を適用できます

人間の感情的な反応のほとんどは単純で定型的です。 これは、与えられた感情状態に応じて人間がどのような信号を生成するかを知ることができれば、同じ感情状態が経験される将来の状況でこの同じ信号が使用される可能性が高いことを意味します。 これは、言葉、つまり言葉の合図が、頻繁にまたは急速にその意味を変えないためです。

自然言語が一般的に何十年も変わらない理由は、それらが構文的価値と単語の意味的意味との間の関係をうまくマッピングするためです。 言葉はその意味を変えるかもしれませんが、個人の内部状態をマッピングする能力が短期的に変化しないほどゆっくりと変化します。

さらに、人間には「外出中」の単語に意味を再割り当てする能力がありますが、一般的にはそうすることはあまりありません。 ある文脈で特定の感情に関連して単語が使用される場合、その単語は通常、他の文脈では同じ感情に関連付けられます。 この例は次のとおりです。

  • マークはジェーンに会えてうれしい
  • 「休日に行って幸せです!」とロバートは書いています
  • 「チョコレートは私を幸せにします」とメアリーは言います

これらの例では、単語と感情の間に全単射の対応があります。

3.2. 動作が予測できない場合、機械学習を適用することはできません

これらの3つの文では、文脈が大きく異なっていても、「幸せ」という言葉は同じ感情的な状態を指していると一般的に想定できます。 ただし、このアイデアに対する例も存在します。

  • 「私はとても悲しいです」とジョンは泣きながら言いました
  • 「あなたはとても悲しいです」とエドワードは皮肉を込めてコメントしました
  • 「悲しいことはありません」とエリザベスは断固として答えました

これらの3つの文では、「悲しい」という言葉は同じ独特の言葉の合図であり、話者が感じる3つの異なる感情に関連付けられています。 この場合、言葉と感情の間に独特の対応は存在しないことがすぐにわかります。 そのような対応が存在しない場合、機械学習は明らかにそれを学習できません。

自然言語はオープンシステムです。つまり、特定の言語で可能な要素(文など)を優先的に列挙することはできません。 それどころか、適切に連鎖させることで、無制限の数の文を作成することが可能であることを私たちは知っています。

これは、還元主義的アプローチでは、言葉と感情の間にどのような関係が存在するかを判断するという問題を解決できないことを意味します。 それはまた、彼らと協力するために、私たちが実際にせいぜい曖昧である、または単純にそして明らかに間違っていると私たちが知っている言葉と感情の間にある種の対応があると仮定することを意味します。

3.3. どのような仮説の下で感情分析を実行できますか

これで、上記で列挙した条件と予備的な仮説を要約できます。 テキスト内の感情の検出を実行する前に、システムが尊重しなければならないいくつかの仮定があります。

最初の仮定は、単語または文と感情の関係をマッピングする関数があるということです。 また、この関数は全射または全単射であると想像します。

単語とその意味は時間の経過とともに変化しないと思います。 これにより、単語と文、およびそれらに関連する感情を長期間にわたって比較できます。

最後に、どのクラスの感情が存在するかについて一般的な合意があることを想像し、すべての人間が特定の単語に関連付ける感情ラベルに同意すると想定します。

3.4. これらの仮定はどのような現実の状況で有効ですか

科学者は、これらの仮定が誤りであると信じているか、疑っています。 ただし、いくつかのヒューリスティックとトリック、およびいくつかの特別な状況では、それらを保存して感情分析を行うことができます。

感情は典型的には単純であり、感情を表現する方法は限られているという仮定を課すことができます。 これは、たとえば、テキスト内の感情が非常に単純であると想定する場合です。 「ポジティブ」や「ネガティブ」などですが、それよりもそれほど複雑ではありません。

言語は変わらず、言葉の意味も変わらないと推測できます。 これは、比較的短期間に収集されたコーパスを研究する場合に当てはまります。 たとえば、非常に均質な人口の場合、10年か2年です。

ランダムな個人は、一般的に、特定の文または単語に関連付けられた感情的なラベルに同意すると想定できます。 これは最も問題のある仮定です。 感情検出器は、テキスト内の感情にタグを付けるための個人固有の基準を学習すると考えられていますが、ある人間のタガーから次のタグ付け者にうまく一般化することはできません。

これらすべてを想定すれば、テキスト内の感情を検出するためのシステムを構築できます。 これを行う方法は、ラベル付けされたコーパスまたはその一部に対してテキスト分類を実行することです。 そうすることで、機械学習アルゴリズムをトレーニングして、ドキュメントとラベル、または単語とタグの間の関連付けを学習できます。

4. 感情検出用の公開データセット

4.1. 感情分析用のデータセット

感情を検出するためのシステムの開発は、ラベル付けされたデータセットの識別から始まります。 このデータセットは、システムに採用することを決定した特定の一連の仮定を尊重する必要があります。 ここで最も一般的なものを見て、それらを使用できるタスクを特定しましょう。

  1. Amazon Reviews for Sentiment Analysis は、商品のレビューのテキストとそれに関連するユーザー評価との関連を学習するための専用データセットです。 これを使用して、ユーザーベースが製品全体で均一であると見なすことができるモデルをトレーニングできます。
  2. Sentiment Lexicon は、複数の言語で負または正の値が関連付けられている単語の識別専用のリソースです。 このデータセットを使用して、混合言語のテキストの極性を検出するためのルールを作成したり、感情の多言語検出器を開発したりできます。 統計的分類メソッドよりもルールベースのメソッドに適しています
  3. Preotiuc-Pietroらによるに関連付けられた感情価と覚醒のデータセット。 Facebookの投稿の感情の極性と強さに関連するラベルが含まれています。 このデータセットは、テキストに関連する最も強い感情的な反応を特定するためのモデルが必要な場合に使用できます。 正または負の値だけでなく
  4. Twitter感情分析は、短いTwitterメッセージ内の差別的とされるテキストの識別に特化したツイートのコーパスです。 このデータセットは、感情的なラベルに関する一般的な合意に関する3番目の理論的仮定を尊重していません。 慎重に扱う必要があります
  5. SemEval 2007 に関連付けられたデータセットは、感情分析の一般的なリソースです。 ニュース項目とそれに関連する感情的なクラスと価値観が含まれています。 使用される感情のオントロジーは、マルチクラス分類タスクの実行を可能にするために十分に変化します

4.2. 感情に関する注釈付きコーパスを他の情報で補完する

ここに示されているデータセットはいずれも、感情分析のトピックの最初の紹介に等しく適しています。 ただし、感情検出のための機械学習システムの実際の実装には、より複雑なアプローチが必要になります。 実際、感情の特定が重要となる最終性を考慮する必要があります。

テキスト内の感情を特定したいということはめったにありません。 むしろ、私たちは通常、ユーザーの好みについて学び、感情的な反応に基づいて行動を予測したいと考えています。

この後者のタスクは、テキスト内の感情的な価値の識別に部分的にのみ依存しています。 これは、感情分析が、ユーザーの好みや行動をモデル化する大規模なシステムのごく一部であることが多いことを意味します。 したがって、構築する場合は、感情分析を他の機械学習手法で補完する必要があります。

ただし、感情分析自体も重要な機能を果たします。 感情検出の実際のシステムを使用して、類似した感情値を持つテキストのクラスターを識別し、人間のアナリストにそれらから実用的な洞察を抽出するように依頼できます。 これは、ユーザーエクスペリエンスの観点から製品への否定的なフィードバックの理由を理解したい場合に役立ちます。

5. 結論

この記事では、テキストにおける感情検出の問題の理論的基礎を研究しました。 私たちは最初に、人間の感情とコミュニケーションの関係を見てきました。 次に言葉が個人の感情的な反応の一部にすぎないことを学びました

また、言語の分析を通じて主観的な感情体験を部分的にしか研究できないことについても説明しました。 そうすることで、テキスト内の感情の分析が可能な条件も特定しました。 これらの条件には、単語または文と感情の間の全射機能の仮定、言語の不変性、および単語と文に関連付けられた感情ラベルの個人間の共有が含まれます。

最後に、テキストの分類、特に感情の識別のために公開されているデータセットを列挙しました。 これらのデータセットはすべての人がアクセスでき、感情分析のための基本モデルをトレーニングすることができます。