SSブログ

検索エンジン "YaCy" は実用性充分です。 [P2P検索エンジン YaCy]

P2P通信技術を用いた分散型ウェブ検索エンジンの " YaCy " (ヤスィー)を私は毎日利用しております。
開発者の方々の努力のお陰で日々改良が続き、2015年10月15日現在のYaCy ヴァージョンは、 " 1.83/9392 " となっております。

検索の速度も非常に高速になり、一瞬で数万から数十万個の検索結果が得られます。
日本語の検索結果はほとんどが私のPC内のデータベース頼りですので、使い始めてから暫くの間は充分ではないかもしれませんが、日本語の利用者が幾人か増えてくれれば圧倒的に改善する筈です。
結果のランキングの精度はGoogleよりも少し劣りますが、常用できる水準です。

現在、私のUbuntu PCには索引が作られたドキュメントが23,100,000を超える数ございます。
そして逆引き索引(RWI / Reverse Word Index)の索引数は約29,180,000 ワードにもなっております。
これはかなり大きな数だと思います。
どうぞ皆様、この索引の共有に御協力下さい。


YaCy ユーザーは " DHT " (Distributed Hash Table / 分散ハッシュ テーブル)を受け取る設定にしておくと、他のユーザーが作成したウェブの索引を少しづつ自動的に自分の端末のデータベースに統合してくれます。
すると他のユーザーがオフラインになった時にもその人の分の索引が利用できる訳です。
尚、自分の端末では検索されず、他の端末から検索の要求がある索引データはその端末へ送信されて自分の端末からは削除される事もあるようです。

設定の仕方は次の通りです。
YaCy_SS_(2015_10_15)_1_Edited_1 P2P ウェブ検索エンジン "YaCy" の管理画面のスクリーンショット画像。
https://c2.staticflickr.com/6/5690/22190970465_4806c5f165_o.png
管理画面の左のコラムの " First Steps " の " Use Case & Accounts " を選択して、 " Network Configuration " を選択し、 " Distributed Computing Network for Domain " の項目のラジオ ボタンで " Peer-to-Peer Mode " を選択します。

そして " Index Distribution " と " Index Receive " のチェック ボックスにチェック マークを入れます。

そして " SAVE " ボタンを押します。

以上で設定は完了です。



私は更にウェブグラフに基づいた索引を利用する設定にしております。
これの設定の仕方は次の通りです。

管理画面の左のコラムの " Administration " の " Index Administration " を選択して、 " Index Sources & Targets " を選択し、 " Web Structure Index " の項目の " use webgraph search index (rich information in second Solr core) " のチェック ボックスにチェック マークを入れます。

これでウェブグラフに基づく情報が利用出来ます。


私は他にも、検索結果のランキングの重み付けを変えて精度を上げる為に、管理画面の左のコラムの " Search Portal Integration " の " Ranking and Heuristics " を選択して、 " Solr Ranking Configuration " の " Solr Boosts " の値や " RWI Ranking Configuration " の " Pre-Ranking " の値を調整してあります。

"YaCy" の公式ウェブサイトのURL:
http://yacy.net/en/index.html

尚、" YaCy " について、詳しくは次に示す私のブログ記事を読んでいただきたく思います。

[ブログ記事]

分散型検索エンジン YaCy の導入解説
http://crater.blog.so-net.ne.jp/2015-07-21

分散型検索エンジン YaCy のアップデート
http://crater.blog.so-net.ne.jp/2015-06-25

分散型検索エンジンYaCyについての解説動画
http://crater.blog.so-net.ne.jp/2015-03-22

Ubuntu PCでYaCy検索エンジンの為のポート開放の設定
http://crater.blog.so-net.ne.jp/2014-11-06

コメント(4)  トラックバック(0) 

コメント 4

お名前(必須)

YaCy を使い始めてみようと思い、これから設定していこうとしてるんですが、
以下の設定の意味がよく理解できないので教えていただければと思います。

Basic Configuration (基本的な構成) の Use Case (使用例) に3種類のオプションがありますが、
これらはそれぞれどういう挙動の違いがあるんですか?

* Community-based web search (コミュニティに基づくウェブ検索)
* Search portal for your own web pages (あなた自身のウェブ ページの為の検索ポータル)
* Intranet Indexing (イントラネットの索引付け)
by お名前(必須) (2016-12-25 18:31) 

Sutraus

こんばんは。
返事が遅れまして申し訳ございません。
YaCyに御興味を持って下さいまして、誠に有難うございます。
スノーデン ファイルが話題になった時は日本人も多く居たのですが、このところ日本人は少なくなっており、寂しく感じておりました。

Community-based web search:
これがYaCyのメインの使用方法で、世界中のYaCyピアとP2Pのネットワークで検索のデータベースを共有するものです。
これを選択して下さい。

Search portal for your own web pages:
これはユーザーが自分でウェブサイトを構築している場合、サイト内にYaCy検索エンジンを利用したインターネット検索サーヴィスのポータル ページを導入できる機能です。これはサーヴァーが高性能である必要があります。

Intranet Indexing:
これは、例えばユーザーが自前のネットワークを運営している場合にそのネットワーク内を検索するための機能です。

それと、YaCyは毎日少しずつ気長に利用するのが良いと思います。
初めは検索精度が良くありませんが、数週間くらい利用していると性能が上がって来ます。
検索を繰り返すほどデータが洗練されて行きます。

それでは、YaCyをどうぞよろしく!

by Sutraus (2016-12-26 01:42) 

Sutraus

YaCyについて他にも疑問な点などがございましたら、遠慮なく聞いて下さい。
by Sutraus (2016-12-26 01:44) 

お名前(必須)

なるほど、私は普通にインターネット検索エンジンとして使いたいので、Community-based web search で良いんですね。

回答ありがとうございました。また、疑問が沸いたら尋ねたいと思います。
by お名前(必須) (2016-12-26 21:28) 

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

※ブログオーナーが承認したコメントのみ表示されます。

トラックバック 0

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。