タグの関連性の可視化 #0

fladdict.net blogの中の人が書かれている、「ソーシャルブックマーク考 タギングの可視化について」というエントリを見て、自分も最近別方向からのタグの可視化について考えていたので、それについて書いてみる。

fladdict.net blogの中の人は、タグの出現頻度を可視化する手法が画一的なのに対して問題提起をしておられるのですが、自分が考えているのは、「頻度だけを可視化するのでは情報として不十分じゃないのか?」ということです。

出現頻度の可視化により、タグづけしている人の趣味嗜好や関心事の傾向がひと目で把握できるのはおもしろいのですが、頻度だけから得られる情報には限りがあるなぁ、と。例えば、このブログでのタグの出現頻度をとると、「blosxom」が19で最多、次いで「plugin」が18といった感じなのですが、これだけを見ると「こいつはblosxomとpluginに関心があるのかぁ。で、pluginって何のplugin?」といった感じになるわけですが、実際にはblosxomというタグとpluginというタグはほとんどが同一のエントリにタグづけされているわけで、「blosxomのplugin」に関する話題が多いわけですよ。タグ間の関連性まで可視化できて、blosxomタグとpluginタグの関連性が強いということがひとめで分かれば、「こいつはblosxomのpluginラブなんだな」というところまで読み取れるわけで、なんとかうまく関連性を可視化できる方法はないものかなぁ、と考えていたりします。

で、とりあえず頻度は今まで通り、フォントのサイズで表すとして、関連性は何で表そうということになるのですが、色がいいのではないかと。ここまではすぐに思いつくのですが、じゃあ、いったいどういう形で色づけしていくのか、というのがノーアイデアだったりします。

関連性の計算については、昨日のBlog Hacks Conで知った相互情報量とやらでいけそうだし、ひとつのタグを取り出して、それに関連するタグを引っ張り出すことは容易だと思います。しかし、すべてのタグをならべた状態で、各タグ間の関連を可視化するのは容易ではなさそうです。

たとえば、A, B, C3つのタグがあるとして、AとB、BとCが関連が強く、AとCは関連がない、といった場合、どういう色で表せばいいのだろう?AとBは関連があるので同系色、BとCも関連があるので同系色、としてしまうと、関係のないAとCまでもが同系色になってしまいます。

こんな感じで、「関連性を可視化できるといいんじゃね?」ということは思いついても、具体的にどう実装するかがノーアイデアという情けない状態だったりします。

もっと整理できてからエントリあげようかと思ったのですが、ここを読んだ頭の良い方が、「こうすれば簡単じゃね?」と言ってくれるのを期待して、ここに記すことにしました。