Hatena::Grouprubyist

雲雀は高く空を舞い RSSフィード

 | 

2007-06-19

[]Yahoo! テキスト解析のリファレンス 13:18 Yahoo! テキスト解析のリファレンス - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - Yahoo! テキスト解析のリファレンス - 雲雀は高く空を舞い Yahoo! テキスト解析のリファレンス - 雲雀は高く空を舞い のブックマークコメント

あった。とりあえず次は、テキストを送って結果を得る、を目標にしよう。

JLPはJapanese Language Parsing、なのかな?

Yahoo!テキスト解析に挑戦 (1) 07:28  Yahoo!テキスト解析に挑戦 (1) - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク -  Yahoo!テキスト解析に挑戦 (1) - 雲雀は高く空を舞い  Yahoo!テキスト解析に挑戦 (1) - 雲雀は高く空を舞い のブックマークコメント

Yahoo 日本語形態素解析Webサービスを使ってみる - 酒日記 はてな支店」を見て、挑戦。


REST初体験、実際やってる事はXMLの解析、どちらにしても初体験。とりあえずは、xmlファイルの解析にはrexml::documentを使うみたい。


使ったxmlファイルは「Yahoo!デベロッパーネットワーク:WebAPIの使い方(GETリクエスト) - Yahoo!デベロッパーネットワーク」で挙げられてる '庭には二羽ニワトリがいる。'という文を形態素解析する場合の例をローカルに保存したもの。以下のアドレスで入手できる。

http://api.jlp.yahoo.co.jp/MAService/V1/parse?appid=YahooDemo&results=ma,uni q&uniq_filter=9|10&sentence=%E5%BA%AD%E3%81%AB%E3%81%AF%E4%BA%8C%E7%BE%BD%E3 %83%8B%E3%83%AF%E3%83%88%E3%83%AA%E3%81%8C%E3%81%84%E3%82%8B%E3%80%82

まずはともあれ、.new

require 'rexml/document'

doc = REXML::Document.new(File.open('parse.xml'))
  puts doc.root

で中身が色々見れる。(略)


  puts doc.root.elements[1].elements[1]
  # => <total_count>9</total_count>

これで各種の要素にアクセスできる、みたい。とりあえず、色々アクセスしてみる。

p doc.root.elements[1].elements[1]    #=> <total_count> ... </>
p doc.root.elements[1].elements[2]    #=> <filtered_count> ... </>
p doc.root.elements[1].elements[3]    #=> <word_list> ... </>

p doc.root.elements[1].elements[3].elements[1]    #=> <word> ... </>
p doc.root.elements[1].elements[3].elements[2]    #=> <word> ... </>

puts doc.root.elements[1].elements[3].elements[1].elements[1]    #=> <surface>庭</surface>
puts doc.root.elements[1].elements[3].elements[1].elements[2]    #=> <reading>にわ</reading>
puts doc.root.elements[1].elements[3].elements[1].elements[3]    #=> <pos>名詞</pos>

これを利用して、要素を列記。

doc.root.elements[1].elements[3].elements.each do |item|
  item.elements.each do |elem|
    p elem.text
  end
  puts
end

にわ

名詞

助詞

助詞

2

名詞

接尾辞

ニワトリ

にわとり

名詞

助詞

いる

いる

動詞

特殊

スマートなやり方じゃない様な、気がする。rexmlの使い方を勉強しよう。

ここら辺を斜め読みしました。後でちゃんと読む

きょうはここまで。

ゲスト



トラックバック - http://rubyist.g.hatena.ne.jp/allegro/20070619
 |