集合愚から集合知を取り出す

はてなブックマークが衆愚と呼ばれて久しい。Wikipediaは記事のかなりの部分が信頼おけぬものであることが徐々に認知されつつある。市民ニュースは悉く失敗に終わった。
Web2.0は集合知の時代だと言うが、実際に知が取り出せた部分はほんの一握りで、それ意外の大半は愚にもつかない情報ノイズなのではないか。

そりゃそうだ。「SFの90%はクズである。ただし、あらゆるものの90%はクズである」といったのはテオドア・スタージョンだが、要するにあらゆるものは玉石混淆であり、玉より石の方が圧倒的に多い。その中からどうやって玉を選り分けるか、それがWeb2.0などと銘打たれた代物の本質であって、そのための装置(とそれによって得られた全体)を見て何か言っても仕方ないのだ。全体を見れば、常に90%はクズなのであって、注目すべきはそのうち10%の玉、そしてそれを石から選り分けるのに要する手間の部分だけだ。そこを間違っている限り、集合知の本質は見誤られたままだろう。

とは言え、今の「Web2.0な」装置の数々が未完成なものであることは確かだ。それは精々、効率よく玉石をかき集める装置に過ぎない。
母集団を増やした分だけ、絶対量としての玉は増加する。けれども、玉と石を効率良く分離する方法に関しては、残念ながらまだ発展途上にあり理想には程遠い(この点では今だ2.0ではなく、精々1.5ぐらいのものに思える)。
現段階で試みられている情報精製手法はほぼランキングに限られている。この方法は大多数が注目する最大公約数的な情報の精製には適した手法だが、それだけでは個人のニーズを満たすには不足だ。
近年登場した新たな手法がメタデータによる関連性の処理、例えばタグクラウドのような方法。これは個人個人が付けた自分のためだけの情報を無数に集合させることで、その中から共通性を見出そうという手法で、より個人の嗜好に近いデータを絞り込める点で優れている。しかし実際のところ、個人のデータ解析とそれに合わせたデータ抽出にかかる計算量は膨大で、個別には処理可能だが全体サーヴィスとしてこれを行なうには、まだ時間がかかりそうだ。

ほぼ唯一の成功例はAmazonの「おすすめ」機能。過去に購入、カートに入れた、ウィッシュリストに入れた、「持っている」に設定した、または閲覧したデータを元に、似た傾向の購買層が多く買っている商品を表示するもので、まだ精度は高くないものの、そこそこ的確に嗜好の近い情報を出してくる。食い違いがある部分は、個人データの蓄積が少ない、または全体としてのデータ蓄積が少ないことによる誤差だろう。
またAmazonは数少ない「not情報も持っている」集合知データベースである(多分)。orによる情報取得範囲の拡大が、S/N比が悪く使いものにならないことは検索エンジンの教訓から知られている。andによる絞り込みは有効性が高いが、これにも限界がある。最終的には無為なデータをnotで篩い落とさねばならない*1。

今、はてなブックマークに必要とされているのはこのあたりの補完だ。過去のブックマーク記事に含まれるキーワードクラウドやタグクラウド解析による、おすすめエントリの抽出。おすすめを拒否したエントリのタグクラウド・キーワードクラウドを元にしたノイズ除去フィルタ。
言うは易し、行なうは難しかも知れないが、未来は確実にその先にある。

*1:Amazonに限って言えば、メタデータとして作者やシリーズ名を活用して欲しいと思う。特定の作者の作品全部を拒否したい場合、あるいは特定シリーズすべてを拒否したい場合は結構多いが、それをする方法がないのは不便だし、データベースの精度としても好ましくない