Hatena::Grouprubyist

Rubyで遊ぶよ

 | 

2009-03-15

SEOブログの証拠

22:12

SEO ブログとの闘いの記録。

前回まで。


昨日のリストから各ブログのフィードを取得して、ブログの本文を抜き出してみた。

参考URL : 
http://ameblo.jp/ascendan/entry-10223944798.html
本文 : 
  <!-- 引用開始 -->天津薊県に3カ所目のスキー場 11月完成へ(サーチナ)<br><br>天津市薊県の話題を見ると、なんだか嬉しくなります。<br>そして実は、天津日報に関する話題を最近よく見かけますね。<br>ですが、総延長とメートルについて、もっと掘り下げて調べてみたいですね。<br>かつ、ホテルの情報について、注意深くみています。<br><br>以下、<br><a href="http://rd.yahoo.co.jp/rss/l/headlines/cn/scn/*http://headlines.yahoo.co.jp/hl?a=20090314-00000012-scn-cn" target="_blank">記事</a>から引用。<br><br>
 天津市薊県でこのほど、新たなスキー場「薊州国際滑雪(スキー)中心」の建設が始まった。天津日報が伝えた。

 ゲレンデは初級、中級、高級の3面を用意し、総延長は計1200メートル。薊県にはすでに盤山…事・情報】
・ 東方明珠などの観光地18ヶ所、入場料が半額に−上海 (2009/02/26)
・ 北京に初雪…空気清涼、郊外ではスノボー楽しむ姿も (2008/12/11)
・ スキー場に客1200人…<br><a href="http://rd.yahoo.co.jp/rss/l/headlines/cn/scn/*http://headlines.yahoo.co.jp/hl?a=20090314-00000012-scn-cn" target="_blank">続きを読む</a><br><!-- 引用終わり -->
 


参考URL : 
http://ameblo.jp/become12/entry-10223906507.html
本文 : 
<p>
 <!-- 引用開始 -->大卒内定率悪化 理系は4.9ポイント減(フジサンケイ ビジネスアイ)<br><br>文部科学省について、もう少し掘り下げて調べてみたいと思います。大学生についても同様に。<br>日現在に関して気になることはもちろんですが、前年同期に関して、もう少し情報を追いかけてみたいですね。<br>また、景気悪化を見て直感的に興味が湧きました。<br>なお、前年同期比について、はてなダイアリーでよく確認してみたいと思います。<br><br>以下、<br><a href="http://rd.yahoo.co.jp/rss/l/headlines/bus_all/fsi/*http://headlines.yahoo.co.jp/hl?a=20090313-00000008-fsi-bus_all" target="_blank">記事</a>から引用。<br><br>
 厚生労働省と文部科学省が13日まとめた今年3月卒業予定の大学生の就職内定調査によると、2月1日現在の内定率は、86.3%で、前年同期を2.4ポイント下回った。また、厚労省の調査で、今年3月卒業予定…期比2.7ポイント、女子が86.2%で前年同期を2.0ポイントそれぞれ低下。文系の86.1%に対し理系は88.1%と就職率は理系が優位にみえる。ただ落ち込み幅は文系が1.8ポイントマイナスなのに対し、…<br><a href="http://rd.yahoo.co.jp/rss/l/headlines/bus_all/fsi/*http://headlines.yahoo.co.jp/hl?a=20090313-00000008-fsi-bus_all" target="_blank">続きを読む</a><br><!-- 引用終わり -->
 
</p>


参考URL : 
http://ameblo.jp/kemuri002/entry-10223939864.html
本文 : 
  <!-- 引用開始 -->北朝鮮提示のロケット座標、発射基地から3600キロ(YONHAP NEWS)<br><br>通報内容は非常に素晴らしいと思います。<br>また、太平洋海の情報については、再確認をしておいた方が良さそうだと思います。<br>そして、情報当局について、もっと掘り下げて調べてみます。<br>なんと、ロケットについて、Wikipediaでよく調べてみようと思います。キロメートルについても調べてみたいですね。<br><br>以下、<br><a href="http://rd.yahoo.co.jp/rss/l/headlines/kr/yonh/*http://headlines.yahoo.co.jp/hl?a=20090313-00000036-yonh-kr" target="_blank">記事</a>から引用。<br><br>
【ソウル13日聯合ニュース】北朝鮮の「人工衛星」打ち上げに関する国際海事機関(IMO)への通報内容で、ロケット落下危険地域として示された軌道座標とミサイル発射基地間の距離が関心を集めている。
 政府…分析している。

 4月4~8日に発射予告されたロケット「銀河2号」は、「ノドン」ミサイルの推進体4つを組み合わせた形の1段目と、ノドン推進体1つの2段目、固体燃料を利用する3段目で構成されていると軍…<br><a href="http://rd.yahoo.co.jp/rss/l/headlines/kr/yonh/*http://headlines.yahoo.co.jp/hl?a=20090313-00000036-yonh-kr" target="_blank">続きを読む</a><br><!-- 引用終わり -->
 


参考URL : 
http://ameblo.jp/ketteika/entry-10223944479.html
本文 : 
  <!-- 引用開始 -->中央アジアのエネ・資源ブローカーに?キルギスの米基地閉鎖も追い風—中国(Record China)<br><br>ポストは、米軍唯に対してどのような関係性を持っているのでしょうか。<br>かつ、アジアがカムバラチンスクのようです。<br>また気になったこととしては、キルギスはとても面白そうですね。<br>しかしながら、エネルギーと金融危機に関して、どのような相関性があるのか興味があります。<br><br>以下、<br><a href="http://rd.yahoo.co.jp/rss/l/headlines/cn/rcdc/*http://headlines.yahoo.co.jp/hl?a=20090314-00000008-rcdc-cn" target="_blank">記事</a>から引用。<br><br>
2009年3月12日、香港の英字紙「サウスチャイナ・モーニング・ポスト」は、キルギス共和国が先月、中央アジアにおける米軍唯一の主要な補給拠点・マナス米空軍基地の閉鎖を発表したが、これはかつての「領地…は分析ている。

 【その他の写真】 

将来の継続的発展のために電力供給を確保する必要のある中国にとって、キルギスから電力を買い付けるメリットは大きい。中国はすでに、資金援助と基礎設備の提供を表明し…<br><a href="http://rd.yahoo.co.jp/rss/l/headlines/cn/rcdc/*http://headlines.yahoo.co.jp/hl?a=20090314-00000008-rcdc-cn" target="_blank">続きを読む</a><br><!-- 引用終わり -->

などなど。全部載せようと思ったけど、長すぎたのか切られてしまったので省略。

すべてに当て嵌まる特徴として、

  • 「rd.yahoo.co.jp/rss/l/headlines/ほにゃらら」という記事へのリンク。
  • HTML ソース中で改行しない。(ニュース記事からの引用部分を除く)
  • 記事の最初と最後を<!-- 引用開始 --> <!-- 引用終わり --> というコメントタグで挟んである。

などがある。

これを各社にメールして通報してみるつもり。


あ、別バージョンもあった。「記事から引用」じゃなくて「記事より引用」で、yahoo じゃなくて livedoor ニュースへリンクしてるやつ (例 : http://kmweb.exblog.jp/9456851/) しかも上のやつには excite blog が抜けてるなあ。もうちょっと増やしてから報告する。


使ったソース

昨日のリストYAML にしたもの。

ameblo:
  - http://ameblo.jp/ascendan/
  - http://ameblo.jp/become12/
  - http://ameblo.jp/kemuri002/
  - http://ameblo.jp/ketteika/
  - http://ameblo.jp/kinoubus/
  - http://ameblo.jp/kukeijp/
以下略
#!/usr/bin/ruby -Ku
require 'yaml'
require 'open-uri'
require 'rubygems'
require 'feed-normalizer'

blogs = YAML.load_file('./spams.yaml')

feed_urls = []

blogs['ameblo'].each{|blog|
  name = blog.sub(/http:\/\/ameblo\.jp\/(.*)\//){$1}
  feed_urls.push("http://feedblog.ameba.jp/rss/ameblo/#{name}/rss20.xml")
}
blogs['livedoor'].each{|blog|
  name = blog.sub(/http:\/\/blog\.livedoor\.jp\/(.*)\//){$1}
  feed_urls.push("http://blog.livedoor.jp/#{name}/index.rdf")
}
blogs['cocolog'].each{|blog|
  name = blog.sub(/http:\/\/(.*)\.cocolog-nifty\.com\/blog\//){$1}
  feed_urls.push("http://#{name}.cocolog-nifty.com/blog/rss.xml")
}
blogs['fc2'].each{|blog|
  name = blog.sub(/http:\/\/(.*)\.fc2\.com\//){$1}
  feed_urls.push("http://#{name}.fc2.com/?xml")
}

feed_urls.each do |feed_url|
  feed = FeedNormalizer::FeedNormalizer.parse open(feed_url)
  e = feed.entries.first
  puts '参考URL : '
  puts e.url
  puts '本文 : '
  puts e.content
  puts "\n\n"
end

ゲスト



トラックバック - http://rubyist.g.hatena.ne.jp/edvakf/20090315
 |