その人を表す特徴的な単語

gwibberにあるデータからなんか統計処理できないかと考えてみた。

Twitterで(勝手に)フォローしてる人固有の特徴的な単語上位3つを挙げる

頻度の高い方順に5人抽出しました。

なんとなくそういうイメージな人からどうしてそうなったのかよく分からない人までいますが、おおよそ違和感のない感じになっています。

方法は

といった感じ。

以前はこの後にきちゃなくて遅いソースを載せていたのですが、gwibberからのデータが大量でも処理できるよう、データベースに格納するようにしたら、すっかりスパゲッティになってしまいました。とりあえずgithubに移動してあります。

実行にはPython用O/R mapperであるSQLAlchemyが必要です。

*1:「gwibberでtwitter」id:nekomusha6:20110112:1294826232

*3:その人がその単語をつぶやいた回数(TF)と全人数をその単語をつぶやいたことのある人数で割ったもの(IDF)の積