Ubuntu16.04でCassandraとElasticSearchを使用してTitanグラフデータベースを設定する方法
序章
Titan は、高度にスケーラブルなオープンソースのグラフデータベースです。 グラフデータベースは、すべてのデータがノードおよびエッジとして格納される一種のNoSQLデータベースです。 グラフデータベースは、ソーシャルネットワーキングサイトのように、データ間の関係がアプリケーションの機能の重要な部分である、高度に接続されたデータを使用するアプリケーションに適しています。 Titanは、複数のマシンに分散されている大量のデータの保存とクエリに使用されます。 Apache Cassandra、HBase、BerkeleyDBなどの利用可能なさまざまなストレージバックエンドのいずれかを使用するように構成できます。 これにより、データストアを変更する必要がある場合に、将来的にベンダーロックインを回避しやすくなります。
このチュートリアルでは、Titan1.0をインストールします。 次に、CassandraとElasticSearchを使用するようにTitanを構成します。どちらも、Titanにバンドルされています。 Cassandraは、基になるデータを保持するデータストアとして機能しますが、フリーテキスト検索エンジンであるElasticSearchを使用して、データベースで高度な検索操作を実行できます。 また、Gremlinを使用して、データベースからデータを作成およびクエリします。
前提条件
このチュートリアルを完了するには、次のものが必要です。
- root以外のユーザーとファイアウォールを備えた2GB以上のRAMを備えた1台のUbuntu16.04サーバー。 これを設定するには、 Ubuntu16.04を使用したサーバーの初期設定に従います。
- Oracle JDK 8がインストールされました。これは、このJavaインストール記事の「OracleJDKのインストール」セクションに従って実行できます。
ステップ1— Titanのダウンロード、解凍、起動
Titanデータベースをダウンロードするには、ダウンロードページにアクセスしてください。 ダウンロード可能な2つのTitanディストリビューションが表示されます。 このチュートリアルでは、Titan1.0.0とHadoop1が必要です。 これは安定したリリースです。 を使用してサーバーにダウンロードします wget
:
- wget http://s3.thinkaurelius.com/downloads/titan/titan-1.0.0-hadoop1.zip
ダウンロードが完了したら、zipファイルを解凍します。 ファイルを解凍するプログラムはデフォルトではインストールされていません。 最初にインストールします。
- sudo apt-get install unzip
次に、Titanを解凍します。
- unzip titan-1.0.0-hadoop1.zip
これにより、という名前のディレクトリが作成されます titan-1.0.0-hadoop
.
すべてが機能することを確認するためにTitanを起動しましょう。 に変更します titan-1.0.0-hadoop
ディレクトリを作成し、シェルスクリプトを呼び出してTitanを起動します。
- cd titan-1.0.0-hadoop1
- ./bin/titan.sh start
次のような出力が表示されます。
OutputForking Cassandra...
Running `nodetool statusthrift`... OK (returned exit status 0 and printed string "running").
Forking Elasticsearch...
Connecting to Elasticsearch (127.0.0.1:9300)...... OK (connected to 127.0.0.1:9300).
Forking Gremlin-Server...
Connecting to Gremlin-Server (127.0.0.1:8182)...... OK (connected to 127.0.0.1:8182).
Run gremlin.sh to connect.
Titanは、他の多くのツールに依存しています。 そのため、Titanが起動されるたびに、Cassandra、ElasticSearch、Gremlin-Serverも一緒に起動されます。
次のコマンドを実行すると、Titanのステータスを確認できます。
- ./bin/titan.sh status
次の出力が表示されます。
OutputGremlin-Server (org.apache.tinkerpop.gremlin.server.GremlinServer) is running with pid 7490
Cassandra (org.apache.cassandra.service.CassandraDaemon) is running with pid 7077
Elasticsearch (org.elasticsearch.bootstrap.Elasticsearch) is running with pid 7358
次のステップでは、グラフをクエリする方法を確認します。
ステップ2—グレムリンを使用してグラフをクエリする
Gremlin は、 Graph Traversal Language であり、グラフデータベースのクエリ、分析、および操作に使用されます。 Titanのセットアップと開始が完了したので、Gremlinを使用して、Titanからノードとエッジを作成およびクエリします。
グレムリンを使用するには、次のコマンドを発行してグレムリンコンソールを開きます。
- ./bin/gremlin.sh
次のような応答が表示されます。
Output \,,,/
(o o)
-----oOOo-(3)-oOOo-----
plugin activated: tinkerpop.server
plugin activated: tinkerpop.hadoop
plugin activated: tinkerpop.utilities
plugin activated: aurelius.titan
plugin activated: tinkerpop.tinkergraph
gremlin>
Gremlin Consoleは、TitanおよびGremlin固有の機能をサポートするためにいくつかのプラグインをロードします。
まず、グラフオブジェクトをインスタンス化します。 このオブジェクトは、現在作業中のグラフを表します。 頂点の追加、ラベルの作成、トランザクションの処理など、グラフの管理に役立つメソッドがいくつかあります。 次のコマンドを実行して、グラフオブジェクトをインスタンス化します。
- graph = TitanFactory.open('conf/titan-cassandra-es.properties')
次の出力が表示されます。
Output==>standardtitangraph[cassandrathrift:[127.0.0.1]]
出力は、によって返されるオブジェクトのタイプを指定します TitanFactory.open()
メソッド、これは standardtitangraph
. また、グラフが使用するストレージバックエンドも示します(cassandrathrift
)、およびローカルホストを介して接続されていること(127.0.0.1
).
The open()
メソッドは、指定されたプロパティファイルにある構成オプションを使用して、新しいTitanグラフを作成するか、既存のグラフを開きます。 構成ファイルには、使用するストレージバックエンド、キャッシュバックエンド、その他のいくつかのオプションなどの高レベルの構成オプションが含まれています。 カスタム構成ファイルを作成して、ステップ3で行うデフォルトの代わりに使用できます。
コマンドが実行されると、グラフオブジェクトがインスタンス化され、 graph
変数。 グラフオブジェクトで使用可能なすべてのプロパティとメソッドを確認するには、次のように入力します。 graph.
、続いて TAB
鍵:
gremlin> graph.
addVertex( assignID( buildTransaction() close()
closeTransaction( commit( compute( compute()
configuration() containsEdgeLabel( containsPropertyKey( containsRelationType(
containsVertexLabel( edgeMultiQuery( edgeQuery( edges(
features() getEdgeLabel( getOrCreateEdgeLabel( getOrCreatePropertyKey(
...
...
グラフデータベースでは、リレーショナルデータベースのように結合とインデックスを使用してレコードを取得するのではなく、主にトラバースによってデータをクエリします。 グラフをトラバースするには、からのグラフトラバーサルソースが必要です。 graph
参照変数。 次のコマンドはこれを実現します。
- g = graph.traversal()
これでトラバーサルを実行します g
変数。 その変数を使用して、いくつかの頂点を作成しましょう。 頂点はSQLの行のようなものです。 各頂点には頂点タイプまたは label
およびそれに関連するプロパティ。SQLのフィールドに類似しています。 次のコマンドを実行します。
- sammy = g.addV(label, 'fish', 'name', 'Sammy', 'residence', 'The Deep Blue Sea').next()
- company = g.addV(label, 'company', 'name', 'DigitalOcean', 'website', 'www.digitalocean.com').next()
この例では、ラベル付きの2つの頂点を作成しました fish
と company
それぞれ。 また、2つのプロパティを定義しました。 name
と residence
最初の頂点の場合、および name
と website
2番目の頂点。 変数を使用してこれらの頂点にアクセスしましょう sammy
と company
.
たとえば、最初の頂点のすべてのプロパティを一覧表示するには、次のコマンドを実行します。
- g.V(sammy).properties()
出力は次のようになります。
Output==>vp[name->Sammy]
==>vp[residence->The Deep Blue Sea]
頂点に新しいプロパティを追加することもできます。 色を追加しましょう:
- g.V(sammy).property('color', 'blue')
次に、これら2つの頂点間の関係を定義しましょう。 これは、を作成することによって達成されます edge
それらの間の。
- company.addEdge('hasMascot', sammy, 'status', 'high')
これにより、間にエッジが作成されます sammy
と company
ラベル付き hasMascot
、およびという名前のプロパティ status
値で high
.
それでは、会社のマスコットを入手しましょう。
- g.V(company).out('hasMascot')
これにより、から出て行く頂点が返されます。 company
頂点、およびそれらの間のエッジは次のようにラベル付けされます hasMascot
. 逆に、マスコットに関連する会社を取得することもできます sammy
このような:
- g.V(sammy).in('hasMascot')
これらは、始めるためのいくつかの基本的なGremlinコマンドです。 詳細については、説明的なApacheTinkerpop3ドキュメントをご覧ください。
を押してGremlinコンソールを終了します CTRL+C
.
次に、Titanのカスタム構成オプションをいくつか追加しましょう。
ステップ3—Titanの構成
Titanのすべてのカスタム構成オプションを定義するために使用できる新しい構成ファイルを作成しましょう。
Titanにはプラグ可能なストレージレイヤーがあります。 Titanは、データストレージ自体を処理する代わりに、別のデータベースを使用してデータストレージを処理します。 Titanは現在、ストレージデータベースにCassandra、HBase、BerkeleyDBの3つのオプションを提供しています。 このチュートリアルでは、Cassandraをストレージエンジンとして使用します。これは、拡張性が高く、可用性が高いためです。
まず、構成ファイルを作成します。
- nano conf/gremlin-server/custom-titan-config.properties
これらの行を追加して、ストレージバックエンドとは何か、およびそれが使用可能な場所を定義します。 ストレージバックエンドはに設定されています cassandrathrift
これは、Cassandraのthriftインターフェースを使用したストレージにCassandraを使用していることを示しています。
storage.backend=cassandrathrift
storage.hostname=localhost
次に、これらの3行を追加して、使用する検索バックエンドを定義します。 使用します elasticsearch
検索バックエンドとして。
...
index.search.backend=elasticsearch
index.search.hostname=localhost
index.search.elasticsearch.client-only=true
3行目は、ElasticSearchがデータを保存しないシンクライアントであることを示しています。 に設定する false
データを保存する可能性のある通常のElasticSearchクラスターノードを作成しますが、現在は必要ありません。
最後に、この行を追加して、GremlinServerに提供するグラフのタイプを通知します。
...
gremlin.graph=com.thinkaurelius.titan.core.TitanFactory
で利用可能な設定ファイルの例がいくつかあります conf
参照用に調べることができるディレクトリ。
ファイルを保存して、エディターを終了します。
この新しい構成ファイルをGremlinサーバーに追加する必要があります。 GremlinServerの構成ファイルを開きます。
- nano conf/gremlin-server/gremlin-server.yaml
に移動します graphs
セクションとこの行を見つけます:
..
graph: conf/gremlin-server/titan-berkeleyje-server.properties}
..
これに置き換えます:
..
graph: conf/gremlin-server/custom-titan-config.properties}
..
ファイルを保存して終了します。
次に、Titanを停止して再起動し、Titanを再起動します。
- ./bin/titan.sh stop
- ./bin/titan.sh start
カスタム構成ができたので、サービスとして実行するようにTitanを構成しましょう。
ステップ4—SystemdでTitanを管理する
サーバーが起動するたびにTitanが自動的に起動することを確認する必要があります。 サーバーが誤って再起動された場合、または何らかの理由で再起動する必要があった場合は、Titanも起動する必要があります。
これを構成するには、Titan用のSystemdユニットファイルを作成して管理できるようにします。
まず、アプリケーション用のファイルを /etc/systemd/system
ディレクトリと .service
拡大:
- sudo nano /etc/systemd/system/titan.service
ユニットファイルはセクションで構成されています。 The [Unit]
セクションでは、サービスの説明やサービスの開始時期など、サービスのメタデータと依存関係を指定します。
この構成をファイルに追加します。
[Unit]
Description=The Titan database
After=network.target
ネットワークターゲットに到達した後にサービスを開始するように指定します。 つまり、このサービスは、ネットワークサービスの準備ができてから開始します。
後に [Unit]
セクションでは、 [Service]
サービスの開始方法を指定するセクション。 これを構成ファイルに追加します。
[Service]
User=sammy
Group=www-data
Type=forking
Environment="PATH=/home/sammy/titan-1.0.0-hadoop1/bin:/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin"
WorkingDirectory=/home/sammy/titan-1.0.0-hadoop1/
ExecStart=/home/sammy/titan-1.0.0-hadoop1/bin/titan.sh start
ExecStop=/home/sammy/titan-1.0.0-hadoop1/bin/titan.sh stop
まず、サービスを実行するユーザーとグループを定義します。 次に、サービスの種類を定義します。 タイプは simple
デフォルトでは。 Titanの起動に使用している起動スクリプトは他の子プログラムを起動するため、サービスタイプを次のように指定します。 forking
.
次に、 PATH
環境変数、Titanの作業ディレクトリ、およびTitanを起動するために実行するコマンド。 Titanを起動するコマンドを ExecStart
変数。
The ExecStop
変数は、サービスを停止する方法を定義します。
最後に、 [Install]
次のようなセクション:
[Install]
WantedBy=multi-user.target
The Install
セクションでは、サービスを有効または無効にできます。 The WantedBy
ディレクティブは、というディレクトリを作成します multi-user.target
中 /etc/systemd/system
ディレクトリ。 Systemdは、このユニットファイルのシンボリックリンクをそこに作成します。 このサービスを無効にすると、このファイルがディレクトリから削除されます。
ファイルを保存し、エディターを閉じて、新しいサービスを開始します。
- sudo systemctl start titan
次に、このサービスを有効にして、サーバーが起動するたびにTitanが起動するようにします。
- sudo systemctl enable titan
次のコマンドを使用して、Titanのステータスを確認できます。
- sudo systemctl status titan
ユニットファイルの詳細については、チュートリアルSystemdユニットとユニットファイルについてをお読みください。
結論
これで、基本的なTitanセットアップがサーバーにインストールされました。 Titanのアーキテクチャを詳しく知りたい場合は、遠慮なく公式ドキュメントをチェックしてください。
Titanをセットアップしたので、公式ドキュメントを参照して、Tinkerpop3とGremlinについて詳しく知る必要があります。