Hatena::Grouprubyist

いつかはRails(笑) このページをアンテナに追加 RSSフィード

2009-06-20htmlのparse

hpricotを使ってみる

10:09 | hpricotを使ってみる - いつかはRails(笑) を含むブックマーク はてなブックマーク - hpricotを使ってみる - いつかはRails(笑) hpricotを使ってみる - いつかはRails(笑) のブックマークコメント

Mechanizeの前に、htmlをパースする練習。

hpricotというもんを使うらしい。

gem install hpricot

した後で、

require 'hpricot'
require 'open-uri'
require 'kconv'
require 'cgi'

target_word="図書館警察"
target_url="delta16v.sblo.jp"
search_uri ="http://www.google.co.jp/search?q=" + CGI.escape(target_word.toutf8)+ "&lr=lang_ja&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:ja:official&client=firefox"

puts search_uri

doc = Hpricot( open(search_uri).read )

count = 0

(doc/:a).each do |a|
  count=count+1
  if a[:href].index(target_url) then
    puts "#{ Kconv.tosjis(a.inner_html)} : #{a[:href]}"
    puts count
  end
end

とりあえず指定の文字列でぐぐった結果から指定urlを含むリンクを表示してみる。

類似ページとかキャッシュのリンクもヒットしているしw

カウンタとかはほんとは後で要りようになるんだけど、暇を見てもうちょっとまじめに書いてみます。GoogleのページをめくるところがMechanizeの仕事になる予定。

urlエンコードとか文字コードの変換なども勉強になりました。

PhebePhebe 2012/10/20 00:25 Wowza, problem svoled like it never happened.

rhvpnozxqgrhvpnozxqg 2012/10/20 07:04 jXO7e4 <a href="http://jwexllqezhcr.com/">jwexllqezhcr</a>

qfanigxwvpqfanigxwvp 2012/10/20 17:02 NU8yVd , [url=http://tplqqrgpxrru.com/]tplqqrgpxrru[/url], [link=http://ruckqdkohxry.com/]ruckqdkohxry[/link], http://eihnhkbvtbfw.com/

umljranldumljranld 2012/10/21 11:25 JiE7Sq , [url=http://uwzizgudfgno.com/]uwzizgudfgno[/url], [link=http://ufvisrrjnpgq.com/]ufvisrrjnpgq[/link], http://grbahlnmrcqi.com/

ゲスト



トラックバック - http://rubyist.g.hatena.ne.jp/delta16v/20090620