2009-06-20htmlのparse
hpricotを使ってみる
|hpricotというもんを使うらしい。
した後で、
require 'hpricot' require 'open-uri' require 'kconv' require 'cgi' target_word="図書館警察" target_url="delta16v.sblo.jp" search_uri ="http://www.google.co.jp/search?q=" + CGI.escape(target_word.toutf8)+ "&lr=lang_ja&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:ja:official&client=firefox" puts search_uri doc = Hpricot( open(search_uri).read ) count = 0 (doc/:a).each do |a| count=count+1 if a[:href].index(target_url) then puts "#{ Kconv.tosjis(a.inner_html)} : #{a[:href]}" puts count end end
とりあえず指定の文字列でぐぐった結果から指定urlを含むリンクを表示してみる。
類似ページとかキャッシュのリンクもヒットしているしw
カウンタとかはほんとは後で要りようになるんだけど、暇を見てもうちょっとまじめに書いてみます。GoogleのページをめくるところがMechanizeの仕事になる予定。
urlエンコードとか文字コードの変換なども勉強になりました。
コメントを書く
Phebe2012/10/20 00:25Wowza, problem svoled like it never happened.
rhvpnozxqg2012/10/20 07:04jXO7e4 <a href="http://jwexllqezhcr.com/">jwexllqezhcr</a>
qfanigxwvp2012/10/20 17:02NU8yVd , [url=http://tplqqrgpxrru.com/]tplqqrgpxrru[/url], [link=http://ruckqdkohxry.com/]ruckqdkohxry[/link], http://eihnhkbvtbfw.com/
umljranld2012/10/21 11:25JiE7Sq , [url=http://uwzizgudfgno.com/]uwzizgudfgno[/url], [link=http://ufvisrrjnpgq.com/]ufvisrrjnpgq[/link], http://grbahlnmrcqi.com/