Hatena::Grouprubyist

たばさの RSSフィード

03/22(金) 2013

はてぶホット

はてぶホット - たばさの を含むブックマーク はてなブックマーク - はてぶホット - たばさの

一部でホットな話題かもしれないはてブ、置いてみました。タイトルが並ぶだけ。

独自の超難解ランク付けです。うそです。

リンクをはらないのにグーグルbotはくるような気がするのでちょっとhttp外してみるテス。

http://tabasano.sakura.ne.jp/bhot.htm


~~ やったこと ~~

スパムやノイズを、できるだけ自動でのぞきたい。除きすぎてもつまらないですが。

ホワイトリスト的。


適当な有用なぶくまをしているidを起点にします。

有用なぶくまをする人のfavoriteは有用にちがいない、かも。

ということでたどっていき、有用idリストを作ります。

おたがいをfavoriteするような自己完結しているようなスパマー集団はここで弾けるのではないか。

それぞれをfavoriteしているidのうちの有用id数順にランク付けします。

上位数百idを選びます。有用有用idリスト(有用かもしれないidに有用と思われているかもしれないidリスト)。

めんどうなのでこれは固定。

せいぜい数カ月おきに更新くらいでもいいのではないかと。

ここまでがidリスト作成。ここからぶくま取得リスト作成。


sakura vpsのcronで有用有用idリストのfavorite.rssを取得。

ぶくまのリストをつくり、新着24時間程度、有用idにされているぶくま数、総ぶくま数などで計算しランク付けして出力。

ますだがうざ過ぎるなと思ったら適度にマイナス重み付けするなど、ランク付けの式は適宜調整。ただなるべくブラックリスト的な手法は手間もかかりそうなので排除したい。


これでもエロサイトなどはちらほらあがったりもするが有用idぶくま数に2以上などと下限をもうければそれなりに過激な?ものは減り無難なリストになる、はず。

重くなるのもなんなのでvpsはバックエンド、フロントエンドはレンタルサーバのほうにキャッシュする。フロントエンドって言い方あってるかな? にゃ~



こちらはオフライン用のツイート履歴です。…

 こちらはオフライン用のツイート履歴です。… - たばさの を含むブックマーク はてなブックマーク -  こちらはオフライン用のツイート履歴です。… - たばさの

f:id:hatecha:20130322140211j:image

全ツイート履歴ダウンロードできるようになりました。html形式をブラウザで見れるようですが、csvと(javascriptの)月別jsonがあるのでjsonrubyで使ってみます


require'json'
require'kconv'

file=ARGV[0]

data=File.read(file).sub(/^Grailbird.data.tweets_([^=]*)=/){}
j=JSON.parse(data)
j.each{|item|
  t=Time.parse(item["created_at"]).strftime("%Y-%m-%d %H:%M:%S")
  puts"#{t} #{item["text"].tosjis}"
}

result

…
2012-03-04 12:06:32 ももちの...
2012-03-03 15:09:40 RT @soo_me...
2012-03-03 14:32:44 RT @MITUDO...
…
トラックバック - http://rubyist.g.hatena.ne.jp/hatecha/20130322
カレンダー
<< 2013/03 >>
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
archive Error : RSSが取得できませんでした。