?Bから好みのエントリを発掘する

ホットエントリとは何かと問わば、「多数のブックマークから比較的有用そうな情報をピックアップするためのフィルタ」ということになろう。そのプロパティにブックマーク人数を用いているわけだが、昨今問題視されている「はてブの衆愚化」とやらは、突き詰めればそのフィルタが有効に機能していないのではないか、ということになる。
何が問題なのか。無論、フィルタがデータマイニングされていないことだ。
全員の意見を持ち寄って、そこから共通部分を抽出する。集合知の基本概念だが、結果として抽出される偏りのない意見は世論を知るには向くかも知れないが個人にとって最良のものではない。普遍的なデータを如何に偏らせるか、それがデータマイニングの真骨頂である。


id:naoya氏の設計思想としては、ホットエントリは普遍化のための目の粗い篩で、もっと個人向けに絞り込んだエントリ抽出には「お気に入り」を使ってね、ということのようだが、ここにも問題がある。お気に入りとはデータ収集の範囲を拡げる機能であって、絞り込む機能ではないのだ。
お気に入りがブックマークした情報ならばホットエントリでないものも拾える。だから巧くすれば趣味が特殊でなかなかホットエントリ化しない情報でも拾うことができるが、実際のところ全ての趣味が一致するわけはないから、逆に自分にも関心のないノイズエントリをも増やす原因となる。ここを何らかの仕組みで絞り込まねばならない。
また、現状の仕組みではお気に入りのブックマークはブックマークした時間順に並べられるのみで、「同じエントリを何人のお気に入りがブックマークしたか」というような情報は手動計測するしかない*1


例えば。
現状では全員に同じデータを表示しているホットエントリの集計について、ログインユーザに対しては別の集計方法で表示してはどうか。お気に入りユーザのブックマークは2票分とカウントするなどの工夫があれば、ホットエントリの傾向をある程度偏在化させることができる。現在のものより計算量が増加する問題はあるが、集計対象はお気に入りのブックマークのみ、その結果をホットエントリデータと合算するだけだから一人あたりの計算に要する負担はそう大きくあるまい(例外:id:nobody氏)。
より良いのは、Amazonのように自分のブックマークエントリに含まれるキーワードなどから精細なデータマイニングを行なって、それらと共通性の高いエントリを「お薦め」することだ。この場合は、お薦めに対する評価集計が必須となり、より複雑なシステムとなる問題点があるが、代わりに得られる効果も大きい。
こうしたはてな純正以外の抽出機能の試みとしては、既にhttp://gimite.ddo.jp/rotd/index.rbhttp://yagi.xrea.jp/2006/01/hb_fav_suggest/http://acc.blogdb.jp//などが発表されているが、何れも決定的なものではない。
「今日のおすすめ」は自分が既にブックマークしている記事を考慮しないし、「お気に入りサジェスタ」はお気に入り(になる可能性の高そうな)ユーザを紹介するだけ。「Alpha Clipper Clips」はホットエントリを人気ブックマーカで絞ったもので、個人向けチューニングはしてくれない。
誰かはてなブックマーク専門の検索エンジンでも作らないだろうか。そうすれば検索結果をごにょごにょして有意なデータを作り出せそうな気が……いや私はできないけど。

*1:て言ってたらいぬビームの人が作ってくれてた