YaCyを代替検索エンジンまたはサイト検索ツールとして構成する方法
序章
多くの人々は当然のことながら、個人情報とプライバシーが大企業の自由にあることを懸念しています。 ユーザーがデータの所有権を取り戻すことを目的とするさまざまなプロジェクトがありますが、ユーザーがビジネス管理された製品から解放するのが困難な通常のコンピューティングの領域がまだいくつかあります。
検索エンジンは、プライバシーを重視する多くの人々が不満を言う分野の1つです。 YaCy は、意図しない目的でデータを使用する検索エンジンプロバイダーの問題を修正することを目的としたプロジェクトです。 YaCyはピアツーピア検索エンジンです。つまり、情報が保存される一元化された権限やサーバーはありません。 これは、YaCyインスタンスを実行している人々のネットワークに接続し、Webをクロールして、サイトの分散インデックスを作成することで機能します。
このガイドでは、Ubuntu12.04VPSインスタンスでYaCyを使い始める方法について説明します。 次に、これを使用して、検索ピアのグローバルネットワークに貢献したり、独自のページやプロジェクトの検索インデックスを作成したりできます。
コンポーネントをダウンロードする
YaCyには、パッケージ外の依存関係はほとんどありません。 最新のLinuxディストリビューションで必要なのは、オープンJava開発キットバージョン6だけです。
これは、次のように入力することで、デフォルトのUbuntuリポジトリから取得できます。
sudo apt-get update
sudo apt-get install openjdk-6-jdk
これには、必要なすべてのコンポーネントをダウンロードするのに時間がかかります。
それが完了すると、プロジェクトのWebサイトから最新バージョンのYaCyを入手できます。 右側で、GNU / Linuxのリンクを右クリックまたはcontrolクリックし、コピーリンクの場所を選択します。
VPSに戻り、ユーザーのホームディレクトリに移動し、wgetを使用してプログラムをダウンロードします。
cd ~
wget http://yacy.net/release/yacy_v1.68_20140209_9000.tar.gz
これがダウンロードを完了したら、ファイルを独自のディレクトリに抽出できます。
tar xzvf yacy*
これで、独自の検索エンジンを実行するために必要なすべてのコンポーネントができました。
YaCy検索エンジンを起動します
YaCy検索エンジンの利用を開始する準備がほぼ整いました。 始める前に、1つのパラメーターを調整する必要があります。
YaCyディレクトリに移動します。 ここから、必要な変更を加えてからサービスを開始できます。
cd ~/yacy
インターフェイス全体を探索できるように、管理者のユーザー名とパスワードの組み合わせをファイルに追加する必要があります。 テキストエディタで、YaCyのデフォルトの初期化ファイルを開きます。
nano defaults/yacy.init
これは非常に長い構成ファイルであり、十分にコメントされています。 私たちが探しているパラメータはと呼ばれます adminAccount
.
を検索します adminAccount
パラメータ。 現在設定されていないことがわかります。
adminAccount=
adminAccountBase64MD5=
adminAccountUserName=admin
管理者アカウントとパスワードを次の形式で設定する必要があります。
adminAccount = admin: your_password adminAccountBase64MD5 = adminAccountUserName = admin
これにより、サービスを開始すると、Webインターフェイスの管理セクションにサインインできるようになります。
ファイルを保存して閉じます。
準備ができたら、次のように入力してサービスを開始します。
./startYACY.sh
これにより、YaCy検索エンジンが起動します。
YaCyWebインターフェイスにアクセスする
これで、Webブラウザでこのページに移動して検索エンジンにアクセスできます。
http:// server_ip :8090
YaCyのメイン検索ページが表示されます。
ご覧のとおり、これはかなり従来型の検索エンジンページです。 必要に応じて、追加の構成なしで、提供されている検索バーを使用して検索できます。
ただし、管理インターフェイスについては、柔軟性が大幅に向上するため、調査します。 ページの左上隅にある[管理]リンクをクリックします。
基本設定ページが表示されます。
これにより、すぐに設定できる一般的なオプションについて説明します。
まず、言語の好みについて尋ねます。 リストされている他の言語のいずれかが使用に適している場合は、これを変更してください。
2番目の質問は、このYaCyインスタンスをどのように使用するかを決定します。 デフォルトの構成では、コンピューターを使用して、Webをクロールしてインデックスを作成するグローバル検索ネットワークに参加します。 これは、ピアベースの検索が従来の検索エンジンに取って代わる方法です。
これにより、ピアに参加して優れた検索リソースを提供できるようになり、他のユーザーがすでに開始した作業を活用できるようになります。
YaCyを従来の検索エンジンとして使用したくない場合は、代わりに2番目のオプションを選択して単一サイトの検索ポータルを作成するか、3番目のオプションを選択してローカルネットワークのインデックスを作成するかを選択できます。
今のところ、最初のオプションを選択します。
3番目の設定は、このコンピューターに一意のピア名を作成することです。 YaCyを実行しているサーバーが複数ある場合、それらと排他的にピアリングする場合、これはますます重要になります。 いずれにせよ、ここで一意の名前を選択してください。
4番目のセクションでは、検索エンジンが従来のルーターの背後にないVPSにインストールされているため、「YaCy用にルーターを構成する」の選択を解除します。
終了したら、「構成の設定」をクリックします。
グローバルインデックスに貢献するためにサイトをクロールする
YaCyピアに保持されているインデックスを使用して検索できるようになりました。 システムに参加する人が増えるほど、検索結果はますます正確になります。
YaCyのインスタンスでサイトをクロールして、他のピアがクロールしたページを見つけられるようにすることで貢献できます。
このプロセスを開始するには、左側の「インデックス作成」セクションの下にある「クローラー/ハーベスター」リンクをクリックします。
何かを検索しようとしても、探している結果が得られなかった場合は、インスタンスを使用してサイトのページのインデックス作成を開始することを検討してください。 それはあなた自身とあなたの仲間のためにあなたの検索をより正確にするでしょう。
「開始URL」セクションにインデックスを作成するURLを入力します。
これにより、YaCyが問題のURLで見つけたリンクのリストが表示されます。 入力した元のURLを選択するか、入力したページのリンクリストを使用するかを選択できます。
さらに、ドメイン内のリンクにインデックスを付けるか、特定のURLのサブパスであるリンクのみにインデックスを付けるかを選択できます。
違いは、入力した場合 http://example.com/about
、最初のオプションはインデックスを作成します http://example.com/sites
、2番目のオプションは、入力されたパスの下にあるページのみにインデックスを付けます(http://example.com/about/me
).
クロールがインデックスを作成するドキュメントの数を制限できます。 選択したサイトのクロールを開始するには、終了したら[新しいクロールを開始]をクリックします。
左側の「作成モニター」リンクをクリックして、インデックス作成の進行状況を確認します。 次のように表示されます。
サーバーは、チェーンされたリンクがなくなるか、設定した制限に達するまで、1秒あたり2リクエストの速度で指定されたURLをクロールします。
次に、クロールに関連するページを検索すると、インデックスを作成した結果が結果に寄与するはずです。
WebサイトにYaCyを使用する
YaCyを使用できることの1つは、Webサイトに検索機能を提供することです。 ドメインに限定された検索エンジンとして動作するようにサイトインデックスを構成できます。
まず、左側の「ピアコントロール」セクションで「管理コンソール」を選択します。 管理コンソールで、「基本構成」ページに戻ります。
今回は、2番目の質問として、「自分のWebページのポータルを検索」を選択します。
下部にある「設定の設定」をクリックします。
次に、ドメインをクロールして、検索ツールで利用できるコンテンツを生成する必要があります。 もう一度、左側の「インデックス作成」セクションの下にある「クローラー/ハーベスター」リンクをクリックします。
「開始URL」フィールドにURLを入力します。 オプションを選択したら、[新しいクロールを開始]をクリックします。
次に、左側の[検索デザイン]セクションの下にある[外部サイトへの検索統合]リンクをクリックします。
YaCy検索を構成する方法は2つあります。 2番目の「選択したYaCyピアを介したリモートアクセス」を使用します。
YaCyが、サイトのWebページに埋め込む必要のあるコードを自動的に生成することがわかります。
サイトでは、このコードを含むページを作成する必要があります。 YaCyがインストールされているサーバーの構成に一致するように、IPアドレスとポートを調整する必要がある場合があります。
私のサイトでは、 search.html
サーバーのドキュメントルートのページ。 簡単なhtmlページを作成し、YaCyによって生成されたコードを含めました。
テスト 検索ページ
どうぞ…
次に、ファイルを保存して、次の場所に移動し、Webブラウザからファイルにアクセスできます。
http:// your_web_domain /search.html
私のページは次のようになります。
用語を入力すると、クエリに関連するドメイン内のページが表示されます。
結論
YaCyはさまざまな方法で使用できます。 企業が管理する検索エンジンの実行可能な代替手段を作成するためにグローバルインデックスに貢献したい場合は、サイトを簡単にクロールして、サーバーを他のユーザーのピアにすることができます。
サイトに優れた検索エンジンが必要な場合は、YaCyもそのオプションを提供します。 YaCyは非常に柔軟性があり、プライバシーの問題に対する興味深いソリューションです。