1. 概要

このチュートリアルでは、「もしかして」というアルゴリズムの機能を学習します。 グーグルによって。 まず、Google検索を実行するときにユーザーに表示される内容に注目します。 次に、バックエンドで機能するアルゴリズムの背後にある理論を研究します。

ちなみに、自然言語処理タスクのデータにラベルを付けるためにユーザーの行動を利用する方法も学習します。

このチュートリアルの最後に、ユーザーが誤ってスペルを間違えたクエリ検索を検索エンジンが推測する方法を説明します。

2. 私たちはあなたが何を意味するかを知っています

2.1. ユーザーは何を見ていますか?

Googleが検索語の入力ミスをしたユーザーが目的のクエリを推測するために使用するアルゴリズムは、非常にうまく機能します。 ユーザーがGoogleで単語を検索したが、誤ってスペルを間違えたとします。

その場合、検索ではユーザーが入力した文字通りのクエリは表示されません。 代わりに、ユーザーの意図したテキストに対応する可能性が高いクエリを使用します。

これは、すべての検索用語に対して体系的に機能します。 入力ミスが重大でない場合、検索は最も可能性の高い望ましい結果を自動的に返します。 また、ユーザー入力の文字通りの内容も無視します。 スペルミスがやや深刻な場合は、代わりに赤い警告と可能な修正の提案が表示されます

ただし、文字通りの検索を実行してから、対応する結果を返します。

2.2. 予備的なブラックボックス分析

最初は、この機能のバックエンドアルゴリズムをブラックボックスシステムとして扱い、入力とアルゴリズムの出力の間の関係の統計的検定によってその内部動作を調べることができます。 十分な検索用語といくつかの現実的なタイプミスを使用して上記の実験を繰り返すと、アルゴリズムが入力を他のすべての可能な検索用語と比較し、間違いを特定しているように感じます。

間違いが軽微な場合は無視し、最も可能性の高い用語に対応する結果を返します。 間違いが大きい場合は、ユーザーが望んでいると見なし、結果を文字通りのクエリに提供します。 ただし、そのような場合は、ユーザーが望んでいた可能性が最も高い代替検索用語へのリンクが提案されます。

したがって、 検索エンジンには、ある種の確率的システムがあります。 それは、その事実の入力を前提として、ユーザーが望んでいた最も可能性の高い検索の識別を可能にします 。 実際のアルゴリズムは、後で説明するように、上記のように正確に機能するわけではありませんが、これは、アルゴリズムがどのように機能するかを学ぶための良い出発点です。

3. 集計行動を使用した個人の意図の予測

3.1. 問題の大きさ

アルゴリズムが説明したとおりに機能する場合は、スペルミスの可能性があるすべての入力について、意図されたクエリである可能性が高い用語のリストを含む大きなテーブルが必要になります。 これは、一般的にスペルミスのある単語をすべて含める必要があるため、非常に大きなテーブルになる可能性があります。

このタイプのテーブルが、いくつかの自動化された方法の助けなしにプログラマーによって開発される可能性は低いです。 このテーブルは、実際には非常に急速にサイズが大きくなります。 英語辞書だけでに50万語あると考えると、それらすべてとそのバリエーションすべてを手作業でコーディングすることは、自動化なしでは実現不可能です。

3.2. ユーザー使用法の使用

ただし、特定の検索用語に関連する一般的な間違いについて、ラベル付けのタスクをユーザー自身にアウトソーシングすることはできます。 水晶玉があると想像してみてください。これは、ユーザーが検索クエリを指定して、検索しているコンテンツを見つけたかどうか、または見つけていないかどうかを示します。

ユーザーが探していた情報が見つからなかった場合は、クリスタルボールに監視を続けるように依頼できます。 次に、ユーザーが最終的にターゲットを見つけたら、スクライングデバイスにそのユーザーによる一連のクエリを提供するように依頼します

幸い、そのようなシステムを1つ構築できます。そのためには、ユーザーが最初に検索語を誤って入力したかどうかを理解する方法が必要です。 また、間違いに気付いた後、クエリを変更し、ターゲットコンテンツの検索に成功しました。

これには、情報検索のプロセスに関連して、ユーザーの行動のモデルが必要です。 これはユーザーのモデルであり、検索エンジンの検索プロセスではありません

このモデルは、サービスのユーザビリティテストを実施しながら開発できます。 その際、終了条件を特定する方法を学びます。 そして、それとともに、情報検索プロセスの成功または失敗も。

3.3. ユーザーの成功と失敗の特定

これは、検索エンジンのユーザーによる情報検索のプロセスの可能なモデルです。

  • 最初に、ユーザーは最初のクエリを使用してプラットフォーム上のコンテンツを検索します
  • 次に、探しているものが見つかった場合、コンテンツの一部を選択して、システムの使用を停止します。
  • それ以外の場合は、検索クエリを変更してから、検索手順を繰り返します。

プロセスが終了したと仮定します。 ユーザーがいくつかのリンクをクリックして検索システムの使用を停止すると、終了します。 これが発生すると、ユーザーが使用した一連の検索クエリを分析します。

ブラウザベースの検索サービスでこれらのクエリを追跡する方法は、Cookiesを使用することです。

3.4. あなたは本当にそれを意味しませんでした

最後に、目的の結果に収束する検索クエリのシーケンスを、サービスのすべてのユーザーによって生成されたすべてのシーケンスと比較できます。 これにより、すべてのユーザーによる集約検索プロセスのモデルを構築できます。

その後、最初のクエリが新しいユーザーによって入力されるたびに、このクエリが明確な最終クエリにつながることがわかっているかどうかを判断できます。 もしそうなら、アルゴリズム「あなたは意味しましたか?」 最も一般的な検索シーケンスの最後の要素を提案できます。

同じキーワードシーケンスを入力して同じターゲットコンテンツに進むユーザーが多いほど、最初の連続入力が最後のを意味する可能性が高くなります。

4. 結論

この記事では、「どういう意味ですか?」について学びました。 Googleのアルゴリズムは機能します。