ljhvs @Wiki

Estraierインストール後

最終更新:

匿名ユーザー

- view
だれでも歓迎! 編集

転置インデックスの管理典型例


全文検索を利用可能にするには、先に転置インデックスを作っておく必要がある。例えば、`/home/mikio/public_html' にWebのコンテンツが置いてあり、同じ場所でCGIスクリプトが実行できるならば、以下の手順を行えばよい。

cd /home/mikio/public_html
estindex register casket
estindex relate casket

すると、`/home/mikio/public_html' 以下にあるHTMLとプレーンテキストとMIMEの全てのファイルがデータベースに登録される。転置インデックスは `casket' という名前のディレクトリとして作成される。

Webサイトに更新があった場合は、以下の手順を行えばよい。

cd /home/mikio/public_html
estindex purge casket
estindex register casket
estindex optimize casket
estindex relate casket

すると、Webサイトから削除された文書は転置インデックスからも削除され、新規の文書や更新された文書は転置インデックスにも反映される。

始めは転置インデックスの作成に関してはこれだけ知っていればよい。以下に示す用法は読み飛ばし、検索用ユーザインタフェースの項目に進んでかまわない。

テキストと属性の抽出
プレーンテキストを解析する際には、以下の手順が実行される。

文字コードを自動判定し、UTF-8に正規化する。
テキスト全体を登録文書のテキストとして抽出する。行頭の引用記号は削除し、折り返された行は連結する。
ファイルの最終更新時刻を登録文書の `date' 属性として抽出する。
登録文書の `type' 属性を `text/plain' にする。
判定した文字コード名を登録文書の `encoding' 属性として抽出する。
データのサイズを登録文書の `size' 属性として抽出する。
HTMLを解析する際には、以下の手順が実行される。

文字コードを自動判定し、UTF-8に正規化する。
`meta' 要素によって文字コードの指定がなされている場合、文字コードの正規化をやりなおす。
データをタグとテキストに分離する。
`body' 要素に含まれるテキストを登録文書のテキストとして抽出する。ただし、`script' および `style' 要素の内容は除外する。
`title' 要素に含まれるテキストを登録文書の `title' 属性として抽出する。この値は本文に挿入され、索引に反映される。
`meta' 要素の `name' 属性の値が `author' の場合、その `content' 属性の値を登録文書の `author' 属性として抽出する。
ファイルの最終更新時刻を登録文書の `date' 属性として抽出する。
登録文書の `type' 属性を `text/html' にする。
判定した文字コード名を登録文書の `encoding' 属性として抽出する。
データのサイズを登録文書の `size' 属性として抽出する。


典型例
ユーザに全文検索システムを公開するためには、CGIスクリプトとその設定ファイルを設置する。例えば、`/home/mikio/public_html' に転置インデックスが置いてあり、同じ場所でCGIスクリプトが実行できるならば、以下の手順を行えばよい。

cd /home/mikio/public_html
cp /usr/local/libexec/estsearch.cgi .
cp /usr/local/share/estraier/estsearch.conf .
cp /usr/local/share/estraier/estsearch.tmpl .
cp /usr/local/share/estraier/estsearch.top .

`estsearch.cgi' はユーザがアクセスすべきCGIスクリプトである。各種設定ファイルの内容は、テキストエディタで編集することができる。始めはそれらを変更する必要はない。とりあえず `estsearch.cgi' にWebからアクセスしてみてほしい。

タグ:

+ タグ編集
  • タグ:

このサイトはreCAPTCHAによって保護されており、Googleの プライバシーポリシー利用規約 が適用されます。

目安箱バナー