Namazu 日本語全文検索Namazu は日本語検索システムとして最も有名で定評の高いシステムです。完全なフリーウエアで vps v2 での利用ができます。高速性が求められる検索システムでは予め対象文書の索引(辞書)を作成しておくのが常識ですが、欧米文書の検索システムに比べると、日本語には文章中に明確な単語の区切りがないため索引(辞書)作成が困難です。また、JIS、SJIS、EUC 等の文字コードの問題もあります。Namazu はこうした問題点を Kakasi、ChaSen、nkf を使ってクリアしています。 インストールNamazu は以下を実行すればインストールできます。(バージョンは下記と異なることがあります)
設定と利用方法Namazu を vps v2 にインストールしたら、mknmz コマンドを使って索引(辞書)を作成できます。mknmzrc の名称のファイルで多くのオプションを指定できます。mknmz コマンドは mknmzrc の指定に従って索引(辞書)を作成します。mknmz コマンドの使い方に付いては、mknmz を参照ください。
索引(辞書)の作成が終わっていれば、コマンドプロンプトから namazu コマンドで検索ができます。もちろん、~/www/cgi-bin/ ディレクトリーに、namazu.cgi を設置することで Web 上での検索システムを提供することもできます。 詳細情報Namazu についての完璧な解説は全文検索システム Namazu を参照ください。Namazu 2.0 を初めて使う場合は Namazu 2.0 入門も参照ください。Namazu のマニュアルは、全文検索システム Namazu 説明書です。 KAKASIKAKASI は、漢字かなまじり文をひらがな文やローマ字文に変換することを目的として作成したプログラムと辞書の総称です。 茶筅 (ChaSen)茶筌は形態素解析システムという考え方で日本語を単語に分解します。 nkf - Network Kanji コード変換 Filternkf は日本語の文字コードを自動認識し、他の文字コードに変換する、文字コードコンバーターです。nkf のインストールは SSH で vps v2 にアクセスし su で root になり、以下のコマンドを実行します。
nkf の help 情報は、vps v2 で以下のコマンドを使って取得できます。
Kakasi、ChaSen、nkf は Perl Module にも、PHP extension にも存在します。
|