なにかのまねごと

A Journey Through Imitation and Expression

第2回SBM研究会メモ

 今日行ってきた第2回SBM研究会のメモです。

SBMがつくるコミュニティ SBMでつくるコミュニティ - 研究・サービスの両面から - 国立情報学研究所・株式会社グルコース 大向一輝様

 コンテンツ推薦をやってみたが効果はほとんどなかった。
 推薦の対象をコンテンツではなくイノベータユーザに変えて実験してみた。上手くいったが、コミュニティに偏りがあるからだと思われる。
 SBMは今までのアナロジーの枠組みでは説明が難しい。
 コミュニティブックマーク、http://4dk.jp/ の説明。コミュニティ内での情報共有が主な目的。圧倒的にクローズドで使われている。

  • SBMがつくるコミュニティ
    • 偏りの理解と応用に関する研究
  • SBMでつくるコミュニティ
    • 情報を伝えることに特化したブックマークサービス
質疑応答

4dkを社内向けにカスタマイズしてもっと情報を使いやすく出来ないか?
 視野に入ってる。要相談。
イノベータユーザ推薦とユーザのお気に入りは何が違うのか?
 具体的な誰かよりも、理想のイノベータユーザを作って情報推薦した方がいい。
あともう一つ質問があったのですが、私の頭では上手く整理できませんでしたorz。

大向様のブログ。http://d.hatena.ne.jp/i2k/

ソーシャルブックマークデータの時間情報を用いた情報フィルタリングと検索 慶應義塾大学大学院 政策・メディア研究科 修士課程1年 上野大樹

 ブクマ数と時間の関係をグラフ化した。3つのタイプのページが存在。

  1. 一時的に急激にブクマされ、その後はブクマされないページ(Type1)
  2. 一時的に急激にブクマされるが、その後もブクマされていくページ(Type2)
  3. 急激にブクマされないが、長い間ブクマされ続けていくページ(Type2)

 Type1は一度読んだら終わり。
 Type2は何度も参照するページ
 Type2を優先的に検索するため、セレクトブクマを作った。http://plazman.chi.mag.keio.ac.jp/sbm/summary.jsp 時間的なフィルタリングがかかっているのが特徴。
 セレクトブクマでjavaを検索したら入門者向けのページが出てくる。
 セレクトブクマについて考察。

  • ブクマ数の多いタグによる1単語検索
  • 一時的、暫定的なWebページをフィルタリング
  • Google検索と比較して、その単語について詳しく知りたい場合に有用

 セレクトブクマの今後の課題

  • 今のところ古いページが有利>ブクマされた時期による重みづけ
  • タグの意味を使ってない>タグ率の利用
  • データ数の偏り>はてブ以外のSBMサービスのデータも使う。
質疑応答

Google検索結果と比較するみたいだが、何を基準に比較するのか?
 被験者に面白さや有用さで比較してもらう。定量的ではない。
関連サービスのじわじわ来てるエントリーとセレクトブクマの違いは?
 一日のブクマ数に制限をつけていないので、検索結果が結構違うと思う。
古いページの方が有利だと言っていたが、αが大きくなったときの順位相関はどう変わるか?
 まだそこまでやっていない。
ブクマされたページが一時性かどうかを判断する期間はどのくらいか?
 そこはあまりしっかり分析していない。
今後のセレクトブクマではユーザ重みを考えるのか?
 そうしたアプローチも面白いと思っている。
セレクトブクマの推薦に使う式はどのくらい考えたのか?
 一番シンプルな方法をまず試してみた。他の式も考えている。

ミニプレゼン

 は、自分がボランティアで全然話を聞けなかったセッションがあったり、プレゼン資料が配信されてなく、目が悪い上メガネを忘れてさらに一番後ろの席に座ってしまったのでプレゼン資料が見えない。ので、ログに残すことは止めときます。
【追記】西谷さんの資料が配布されていたのに気付いてなかったorz。

伊藤 直也:株式会社はてな「新はてなブックマークについて」

300万UU。
20.6万ユーザ。
はてブの3軸

  • 機能
  • コミュニティ
  • メディア

特に機能を強化。
お気に入り機能を強化。
 衆愚問題に対応したい>コミュニティは分散するべき
はてなユーザの1割しか使ってなかった。>お気に入りがある程度増えないと面白くない。
 お気に入りを増やすために>TwittermixiFacebookなどのグラフを読み込む。
 お気に入りのグループ分けが必要。
    ↓
 スパム対策、コメントフィルタリングができる。

 検索、テキスト分類、関連エントリ
 従来のはてブの欠点>最新の記事にばかりフォーカス
    ↓
 過去のデータに光を当てる>検索、機械学習
 新はてブ検索>お気に入りがブックマークしてることが分かる。
 テキスト分類
 ベクトル空間の類似度を調べて分類する。
 なぜ分類エンジンを作ったか?>元々のカテゴリ分けの精度が低かった。また、コンピュータ以外の話題にもリーチ出来る導線が必要。

今後はコミュニティ、メディアに手を付けていく。
お気に入りが繋がりやすくなるように。
非表示機能によるフィルタリング。
コミュニティの分散
はてなブックマーク市民

フィルタリングの基本方針
表現の自由は確保したい。
見たくないものは見なくてすむようにしたい。
   ↓
たこつぼ化していくのでは>逆で、アグレッシブじゃないのも見えるようにしたい。問題が顕在化してから対処したい。今のところ問題はあまり無いと思っている。

質疑応答

関連エントリのキーワード検索が上手く行かなかったらしいが、なぜ?
 本文を対象にしたが、はてなダイアリーのキーワードだけじゃ語彙空間が狭すぎたのではと分析している。
はてブコメントをスターの重みなどで並び替えられないか?
 要望は非常に多い。

コミュニティに対しては問題が顕在化してから対応する。

藤田 昭人:IIJ−II/大阪市立大学大学院 創造都市研究科「Kikker の Map/Reduce 化」

 kikkerは大量のクロールをこなすのが重たかったが、それをMap/Reduceでやってしまおう。Googleのクローラもコレ。Map/Reduceは分散並列処理についての論文。クローンとしてHadoopがある。
 Webページのクロール
  はてブの新着ページをクロールする。
 WebUIは作っていない。
 Map/Reduceで作り、並列処理させると新着ページのクロールスピードが上がった。有用。8万ページも5分くらいで処理できる。絶大。
 GPLライセンスオープンソースとして公開する。

質疑応答

どんなクロールの仕方してるの?
 はてブで1000くらいエントリを取りにいくには、はてブのページを40くらい一気にどんととってきてる。
はてブの新着ページって一日どのくらい?
 1〜3万くらい(伊藤氏)。

□パネルディスカッション「SBM研究を加速・拡大するために−SBM事業者には何ができるのか 」

はてな 伊藤氏

研究のために出せるものは、パブリックになっているものでユーザの著作権を侵害しないもの。

livedoor 井原氏:事業者から見たSBM

CGMの3つのレイヤ

  • 情報を創る
  • 情報に付加価値を与える
  • 情報を消費する

SBMの役割とビジネス
 高い広告マッチ率をたたき出してほしい。
livedoor clipの三つのホーム

  • ウォッチリスト
  • マイクリップ
  • オススメクリップ

プログラマ的視点で見ると、一つ更新されたら連鎖的に更新が必要。キャッシュ技術で、如何に残すかより如何に消すか?
clipやreaderの公開情報をレコメンドの研究などのために出せる。

Yahoo!Japan 沢田氏

Yahoo!ブックマークとは?
2001年にオンラインブックマークとして登場。
2007年に大幅更新。ブックマークされたページを全文検索できたり知り合いに教えたりする機能を搭載。Yahoo!ツールバーにもブックマーク機能を搭載。Yahoo!検索にブックマーク数を出している。SNSにもブックマークを出したりして、発展中。
ブラウザブックマークに近い操作性。
ブックマークについても研究のために出せるデータを検討中。

ECナビ 須藤氏 SBM事業者には何が出来るのか?

Buzzerlの特徴

  • コミュニケーション指向
    • 長文コメント可
    • コメントに対する返信可
    • お気に入りの人の新着ページがtwitterみたいに出てくる。
  • ユーザ層
    • ギーク少なめ
    • スーツ多め
    • 主婦多め
  • 意外と古株
    • 2005年から

SBM研究について
どんどん情報出していきます。実績あり。

内容によりNDAを結んでもらう。
学術研究への希望

  • スパム解析とかしてほしい
Yahoo!Japan 岡本氏

追試可能なデータセットが必要。
SBMの使い分けは研究できない。
研究と企業は非常に近い。相互に行き交うことでWebはもっといいものになっていく。

慶応大学 上野氏

必要なデータは

  • URL
  • Title
  • ユーザに紐づくタグ名
  • いつ登録されたか?
  • 後一つ失念。すみません。

の五つ。
レコメンデーションの研究はそろそろ限界。はてブのレコメンデーションは優秀。コミュニティ化が面白い。そうしたデータがいただけると今後面白い研究が出来るのでは?

国立情報学研究所 大向氏

欲しいデータは

  • タイムスタンプ
  • コメント
  • ○と×

Up to dateである必要性は無い。
個別の研究者が個別のサービスに問い合わせて研究してるのが現状。中には無断でクロールも。
自分が持ってるデータセットだけで研究するのは意味が無い。再現可のデータセットが必要。
共通データセットによる研究大事。
研究者側の宿題

  • 事業者へのメリット
  • 情報の取り扱い

 実際のパネルディスカッションはログを取りこぼしてしまいました。すみません。


 そして最後に、アンケートにご協力いただいた皆様、ありがとうございました。