序章

Sphinxは、全文検索を可能にするオープンソースの検索エンジンです。 大きなデータを非常に効率的に検索することで最もよく知られています。 インデックスを作成するデータは、通常、SQLデータベース、プレーンテキストファイル、HTMLファイル、メールボックスなど、さまざまなソースから取得できます。

Sphinxの主な機能は次のとおりです。

  • 高いインデックス作成と検索のパフォーマンス
  • 高度なインデックス作成およびクエリツール
  • 高度な結果セットの後処理
  • 最大数十億のドキュメント、テラバイトのデータ、および1秒あたり数千のクエリまでの実証済みのスケーラビリティ
  • SQLおよびXMLデータソース、およびSphinxQL、SphinxAPI、またはSphinxSE検索インターフェイスとの簡単な統合
  • 分散検索による簡単なスケーリング

このチュートリアルでは、配布パッケージに含まれているサンプルSQLファイルを使用してMySQLサーバーでSphinxをセットアップします。 プロジェクトでSphinxを使用する方法の基本的な考え方がわかります。

前提条件

このガイドを開始する前に、次のものが必要です。

ステップ1—Sphinxをインストールする

執筆時点で、最新のSphinxバージョンは2.2.11です。 最新バージョンは、SphinxのWebサイトで見つけることができます。

Sphinxをインストールする前に、まずその依存関係をインストールする必要があります。

  1. sudo yum install -y postgresql-libs unixODBC

tmpディレクトリに移動して、Sphinxのファイルを邪魔にならない場所にダウンロードします。

  1. cd /tmp

wgetを使用して最新のSphinxバージョンをダウンロードします。

  1. wget http://sphinxsearch.com/files/sphinx-2.2.11-1.rhel7.x86_64.rpm

最後に、yumを使用してインストールします。

  1. sudo yum install -y sphinx-2.2.11-1.rhel7.x86_64.rpm

これで、サーバーにSphinxが正常にインストールされました。 Sphinxデーモンを起動する前に、それを構成しましょう。

ステップ2–テストデータベースの作成

ここでは、パッケージに付属のSQLファイルのサンプルデータを使用してデータベースを設定します。 これにより、Sphinx検索が後で機能していることをテストできます。

サンプルSQLファイルをデータベースにインポートしてみましょう。 まず、MySQLサーバーシェルにログインします。

  1. mysql -u root -p

求められたら、MySQLrootユーザーのパスワードを入力します。 プロンプトがMariaDB>に変わります。

ダミーデータベースを作成します。 ここでは、 test と呼んでいますが、任意の名前を付けることができます。

  1. CREATE DATABASE test;

サンプルSQLファイルをインポートします。

  1. SOURCE /usr/share/doc/sphinx-2.2.11/example.sql;

次に、MySQLシェルを終了します。

  1. quit

これで、サンプルデータで満たされたデータベースができました。 次に、Sphinxの構成をカスタマイズします。

ステップ3–Sphinxの構成

Sphinxの構成は、/etc/sphinxsphinx.confというファイルに含まれている必要があります。 構成は、 index searchd 、およびsourceの3つのメインブロックで構成されています。

最小限の構成がすでに提供されていますが、後でカスタマイズできるように、各セクションで使用および説明するための新しい構成ファイルの例を提供します。

まず、既存のsphinx.confファイルを移動します。

  1. sudo mv /etc/sphinx/sphinx.conf /etc/sphinx/sphinx.conf2

viまたはお気に入りのテキストエディタを使用して新しいsphinx.confファイルを作成します。

  1. sudo vi /etc/sphinx/sphinx.conf

index searchd 、およびsourceブロックのそれぞれについて以下に説明します。 次に、この手順の最後に、sphinx.conf全体が含まれているため、ファイルにコピーして貼り付けることができます。

source ブロックには、MySQLサーバーへのソースのタイプ、ユーザー名、およびパスワードが含まれています。 sql_queryの最初の列は一意のIDである必要があります。 SQLクエリはすべてのインデックスで実行され、データをSphinxインデックスファイルにダンプします。 以下は、各フィールドとソースブロック自体の説明です。

  • type:インデックスを作成するデータソースのタイプ。 この例では、これはmysqlです。 サポートされているその他のタイプには、pgsql、mssql、xmlpipe2、odbcなどがあります。
  • sql_host:MySQLホストのホスト名。 この例では、これはlocalhostです。 これは、ドメインまたはIPアドレスにすることができます。
  • sql_user:MySQLログインのユーザー名。 この例では、これはrootです。
  • sql_pass:MySQLユーザーのパスワード。 この例では、これはルートMySQLユーザーのパスワードです。
  • sql_db:データを保存するデータベースの名前。 この例では、これはtestです。
  • sql_query:データベースからインデックスにデータをダンプするクエリ。

これはソースブロックです:

sphinx.confのソースブロック
source src1
{
  type			= mysql

  #SQL settings (for ‘mysql’ and ‘pgsql’ types)
  
  sql_host		= localhost
  sql_user		= root
  sql_pass		= password
  sql_db	    = test
  sql_port		= 3306 # optional, default is 3306

  sql_query		= \
  SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
  FROM documents

  sql_attr_uint			= group_id
  sql_attr_timestamp	= date_added
}

index コンポーネントには、データを格納するためのソースとパスが含まれています。 の

  • source:ソースブロックの名前。 この例では、これはsrc1です。
  • path:インデックスを保存するためのパス。
sphinx.confのインデックスブロック
index test1
{
  source		= src1
  path			= /var/lib/sphinx/test1
  docinfo		= extern
}

searchd コンポーネントには、Sphinxデーモンを実行するためのポートとその他の変数が含まれています。

  • listen:Sphinxデーモンが実行されるポートとそれに続くプロトコル。 この例では、これは 9306:mysql41です。 既知のプロトコルは、:sphinx (SphinxAPI)および:mysql41 (SphinxQL)です。
  • query_log:クエリログを保存するためのパス。
  • pid_file:SphinxデーモンのPIDファイルへのパス。
  • seamless_rotate:大量のデータを含むインデックスをプリキャッシュするためにローテーションしているときに、検索されたストールを防止します。
  • preopen_indexes:起動時にすべてのインデックスを強制的にプリオープンするかどうか。
  • unlink_old:ローテーションが成功したときに古いインデックスコピーを削除するかどうか。
sphinx.confのブロックを検索しました
searchd
{
  listen			= 9312:sphinx		#SphinxAPI port
  listen			= 9306:mysql41		#SphinxQL port
  log				= /var/log/sphinx/searchd.log
  query_log			= /var/log/sphinx/query.log
  read_timeout		= 5
  max_children		= 30
  pid_file			= /var/run/sphinx/searchd.pid
  seamless_rotate	= 1
  preopen_indexes	= 1
  unlink_old		= 1
  binlog_path		= /var/lib/sphinx/
}

コピーして貼り付ける完全な構成は次のとおりです。 以下で変更する必要がある唯一の変数は、強調表示されているソースブロックのsql_pass変数です。

完全なsphinx.confファイル
source src1
{
  type			= mysql

  sql_host		= localhost
  sql_user		= root
  sql_pass		= your_root_mysql_password
  sql_db		= test
  sql_port		= 3306

  sql_query		= \
  SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
  FROM documents

  sql_attr_uint			= group_id
  sql_attr_timestamp	= date_added
}
index test1
{
  source			= src1
  path				= /var/lib/sphinx/test1
  docinfo			= extern
}
searchd
{
  listen			= 9306:mysql41
  log				= /var/log/sphinx/searchd.log
  query_log			= /var/log/sphinx/query.log
  read_timeout		= 5
  max_children		= 30
  pid_file			= /var/run/sphinx/searchd.pid
  seamless_rotate	= 1
  preopen_indexes	= 1
  unlink_old		= 1
  binlog_path		= /var/lib/sphinx/
}

その他の構成を調べるには、 /usr/share/doc/sphinx-2.2.11/sphinx.conf.distファイルを参照してください。このファイルには、すべての変数が詳細に説明されています。

ステップ4—インデックスの管理

このステップでは、Sphinxインデックスにデータを追加し、cronを使用してインデックスが最新の状態に保たれていることを確認します。

まず、前に作成した構成を使用して、インデックスにデータを追加します。

  1. sudo indexer --all

次のようなものが得られるはずです。

Output
Sphinx 2.2.11-id64-release (95ae9a6) Copyright (c) 2001-2016, Andrew Aksyonoff Copyright (c) 2008-2016, Sphinx Technologies Inc (http://sphinxsearch.com) using config file '/etc/sphinx/sphinx.conf'... indexing index 'test1'... collected 4 docs, 0.0 MB sorted 0.0 Mhits, 100.0% done total 4 docs, 193 bytes total 0.006 sec, 29765 bytes/sec, 616.90 docs/sec total 4 reads, 0.000 sec, 0.1 kb/call avg, 0.0 msec/call avg total 12 writes, 0.000 sec, 0.1 kb/call avg, 0.0 msec/call avg

実稼働環境では、インデックスを最新の状態に保つ必要があります。 そのために、Cronジョブを作成しましょう。 まず、crontabを開きます。

  1. crontab -e

次のCronジョブは1時間ごとに実行され、前に作成した構成ファイルを使用して新しいデータをインデックスに追加します。 ファイルの最後にコピーして貼り付け、ファイルを保存して閉じます。

crontab
@hourly /usr/bin/indexer --rotate --config /etc/sphinx/sphinx.conf --all

Sphinxが完全にセットアップおよび構成されたので、サービスを開始して試すことができます。

ステップ5—Sphinxを起動する

systemctlを使用して、Sphinxデーモンを起動します。

  1. sudo systemctl start searchd

Sphinxデーモンが正しく実行されているかどうかを確認するには、次のコマンドを実行します。

  1. sudo systemctl status searchd

次のようなものが得られるはずです。

Output
● searchd.service - SphinxSearch Search Engine Loaded: loaded (/usr/lib/systemd/system/searchd.service; disabled; vendor preset: disabled) Active: active (running) since Fri 2016-08-19 17:48:39 UTC; 5s ago . . .

Sphinxは完全にカスタマイズされて実行されているため、次に正しく機能することを確認します。

ステップ6—検索機能のテスト

すべての設定が完了したので、検索機能をテストしてみましょう。 MySQLインターフェースを使用してSphinxQLに接続します。 プロンプトがMySQL>に変わります。

  1. mysql -h0 -P9306

文を検索してみましょう。

  1. SELECT * FROM test1 WHERE MATCH('test document'); SHOW META;

次のようなものが得られるはずです。

Output
+------+----------+------------+ | id | group_id | date_added | +------+----------+------------+ | 1 | 1 | 1465979047 | | 2 | 1 | 1465979047 | +------+----------+------------+ 2 rows in set (0.00 sec) +---------------+----------+ | Variable_name | Value | +---------------+----------+ | total | 2 | | total_found | 2 | | time | 0.000 | | keyword[0] | test | | docs[0] | 3 | | hits[0] | 5 | | keyword[1] | document | | docs[1] | 2 | | hits[1] | 2 | +---------------+----------+ 9 rows in set (0.00 sec)

上記の結果では、Sphinxがテストセンテンスのtest1インデックスから2つの一致を検出したことがわかります。 SHOW META;コマンドは、文のキーワードごとのヒット数も表示します。

いくつかのキーワードを検索してみましょう。

  1. CALL KEYWORDS ('test one three', 'test1', 1);

次のようなものが得られるはずです。

Output
+------+-----------+------------+------+------+ | qpos | tokenized | normalized | docs | hits | +------+-----------+------------+------+------+ | 1 | test | test | 3 | 5 | | 2 | one | one | 1 | 2 | | 3 | three | three | 0 | 0 | +------+-----------+------------+------+------+ 3 rows in set (0.00 sec)

上記の結果では、 test1 インデックスで、Sphinxが次のことを検出したことがわかります。

  • キーワード「test」の3つのドキュメントで5つの一致
  • キーワード「one」の1つのドキュメントで2つの一致
  • キーワード「3」の0ドキュメントで0一致

Sphinxをテストしたので、必要に応じてDROP DATABASE test;を使用してテストデータベースを削除できます。

完了したら、MySQLシェルを終了します。

  1. quit

結論

このチュートリアルでは、Sphinxをインストールし、SphinxQLとMySQLを使用して簡単な検索を行う方法を示しました。

PHP、Perl、Python、Ruby、Java用の公式のネイティブSphinxAPI実装もあります。 Nodejsを使用している場合は、SphinxAPIパッケージを使用することもできます。

Sphinxを使用すると、サイトにカスタム検索を簡単に追加できます。 Sphinxの使用の詳細については、プロジェクトのWebサイトにアクセスしてください。