Hatena::Grouprubyist

yuisekiのいまさらruby厨日記

 | 

2010-08-10

solrのschema.xmlを適当に編集してみる

22:18 | はてなブックマーク - solrのschema.xmlを適当に編集してみる - yuisekiのいまさらruby厨日記

開くといきなり英語のコメントとかが300行くらい書かれていてぎょっとするが

ポイントとしては、

  • 冒頭に書かれている<types>ブロックはあまり関係ない。
    • ここで定義した型を<fields>の部分で指定して使う。場合によっては新しい型を自分で定義して、インデックスに追加する際の詳しい処理方法などを<analyzer>とか<tokenizer>、<filter>によって指示することができる。
  • 基本的に<fields>~</fields>ブロックを一度全部消して自分が検索したいフィールドにあわせて編集する。
  • <defaultSearchField>も適当に自分が新しく定義したフィールドのなかの一つに変えておく。

日本語全文検索を行う場合は、ちょっと複雑なことをしておく必要があるっぽい。

とにかくfieldsを編集してインデックスけして再起動すると、案外素直に動いてくれる。

debianにsolrをインストールする

21:52 | はてなブックマーク - debianにsolrをインストールする - yuisekiのいまさらruby厨日記

solrとは

Apache Solrは、OSSの全文検索のエンジンとして有名なApache Luceneをベースに、

HTTPでの入出力(サーバアプリケーション化)

管理Webアプリケーション

キャッシュ機構

などの機能拡張を行ったJavaのWebサーバアプリケーションです。

単純に言うと、LuceneHTTPラッパー+拡張機能ということになります。

Javaのサーブレットアプリケーションなので、Tomcatなどのアプリケーションサーバに配置することになります。

no title


debianだとjavaを一度もつかったことがなくても以下のコマンドで環境もふくめて一発でインストールできる

sudo aptitude install solr-tomcat5.5

javaすでに使ってたりtomcatでなんかやってたりした場合はどうなるのか知らない。

インストールするだけで勝手にtomcatが起動して

http://localhost:8180/solr/admin/でsolrが利用可能になっている

ファイアーウォールを使っていなかったり、8180ポートを公開していたりする場合はこの時点でsolr APIを誰でも読み書きできてしまい非常に危険

いろいろいじるまえに、停止する

sudo /etc/init.d/solr stop

最低限、スキーマの設定をいじらないと使い物にならないのでいじる必要がある

インストール直後は勝手にサンプルのスキーマが書かれている

スキーマ設定編集の詳細は次のエントリに書く

sudo vim /etc/solr/conf/schema.xml

schema.xmlを変更したら既存のインデックスを削除する必要がある

sudo rm -r /var/lib/solr/data/index

起動する

sudo /etc/init.d/solr start

rubyで使うためにgemsも入れておく

sudo gem install solr-ruby
トラックバック - http://rubyist.g.hatena.ne.jp/yuiseki/20100810
 |