HAIシンポジウム2009

大岡山の東工大で開催されたヒューマン・エージェント・インタラクションのシンポジウム。昨日の1日目に参加できず、今日の2日目も朝遅刻して会場に着きました。
ときどき意識がなかったり、b-mobile 3Gが止まったりして、記録が抜けています。自分用のメモのつもりでつぶやきました。網羅的な記録になっていないことをお断りしておきます。御容赦ください。
私が共著に入っている発表2件もなんとか終わりました。

追記:私が関わっている研究についてのブログ記事(英語)を書きました。Voice interface and effectiveness です。

  • 10:57  HAI2009 二日目に参加。遅刻した。現在のセッション「インタラクション分析」寺田さん http://tonolab.jp/hai09/program.php
  • 11:03  HAI2009 2A-6 「人間を騙すロボット」寺田さん「だるまさんがころんだ」をロボットと人間にさせる実験。騙すアルゴリズムが実装された設計物、という意味で人間とロボットが等価ではないかという考察。
  • 11:05  #HAI2009 2A-6 「人間を騙すロボット」寺田さん「ロボットに騙されたと感じるか、ロボットの設計者に騙されたと感じるのか。どちらにせよ騙された瞬間の感覚は同じではないか」
  • 11:08  #HAI2009 2A-6 「人間を騙すロボット」寺田さん質疑「ソフトウェアでなくロボットであることの意味?」「予測を固定しやすくなる?」セッション終了
  • 11:20  #HAI2009 概念獲得のセッションを聞いています。2B-1 Learning to Understand Spoken Commands through a Human-Robot Training Task
  • 11:44  #hai2009 2B-2 小野さん「最終行動ヒューリスティクスを用いた状況推定による自由発話音声データからの語句意味学習」「Juliusを音節列認識器として使う。迷路抜けエージェントに教示する人間の発話の意味を獲得」
  • 11:55  #hai2009 2B-2 小野さん「最終行動ヒューリスティクス」「状況からの教示と人手での教示の性能は大きく変わらない」質疑「最終行動に近い状況が有用?最後の行動だけが正しい」「問題の難しさには依存する」
  • 11:58  #hai2009 2B-3 Robot-Directed Speech Detection by Situated Understanding in Physical Interaction 「対ロボットの発話と雑談を区別する。従来法は韻律、言語的特徴、視線や顔の向き」
  • 12:01  #hai2009 2B-3 左さん「提案:行動の最もらしさを評価する。画像と動作も仕様。物体を操作するタスクで有効。RD発話=robot directed発話。視線検出と発話検出を統合。」
  • 12:04  #hai2009 2B-3 左さん「OOD発話=RDでない発話に対してもRD発話の文法で認識。音響・オブジェクト・動作の確信度の低下が期待される」
  • 12:16  #hai2009 2B-3 左さん質疑「慣れてくるとロボットを見ないでロボットに発話するのでは?この実験ではロボットを見てRD発話するのが前提。視線を使わないようにもできる。」
  • 12:17  #hai2009 2B-3 左さん議論「オブジェクトの確信度が特に有効?物体を操作しないタスクでも?案内タスク?音響確信度だけに頼ることも。要求性能レベルは?音響だけでは不足では?」
  • 12:20  #hai2009 2B-4 小松さん「オノマトペから感じる印象を表現する属性の設定とその客観的数値化」「擬音語、擬態語、擬声語。感覚的で繊細な表現。日本語に豊富なのは音節数が少ないことを補えるから?」
  • 12:23  #hai2009 2B-4 小松さん「オノマトペ:物事を思い通りに言語化できない人が頻繁に使う傾向?音象徴に注目。カ行は硬い、マ行は柔らかい、など」
  • 12:26  #hai2009 2B-4 小松さん「オノマトペ:これまでの成果。8次元属性ベクトル。ガシガシ歩け、といえばロボット動作が矩形波になる。プリプリといえば波形が柔らかくなるなど」
  • 12:33  #hai2009 2B-4 小松さん「オノマトペ:印象を客観的に評価したい。2回のアンケート。形容詞対。因子分析。因子:キレ・俊敏さ、柔らかさ・丸み、躍動感、大きさ・安定感」
  • 12:36  #hai2009 2B-4 小松さん議論「カ行にもカリカリでない印象を持つものはない?ありそう。シトシトは言語の意味にグラウンディングされている。でも大部分は網羅しているつもり」
  • 12:38  #hai2009 2B-4 小松さん議論「日本語オノマトペ辞典には5000語収録されているが、勝手に作れる。アンケートは呈示をランダムにしている。最後ほどばらついたりする?心理学の授業として依頼した」
  • 12:40  #hai2009 2B-4 小松さん議論「どう使うか。動きは提案済み。編集ツールに。絵や音なども」http://bit.ly/7e571W
  • 12:45  #hai2009 2B-5 田中さん 「No News規準を用いた韻律情報の意味学習」「暗黙的に与えられる評価。称賛、肯定など。今回は一定時間発話がないことを利用。AIBOの骨蹴りゲーム課題」
  • 12:48  #hai2009 2B-5 田中さん 「遅れ時間の分布:否定的発話<肯定的発話とはいえない。時間が短い場合はどちらもあり得る」
  • 12:55  #hai2009 2B-5 田中さん 「分類にSVMを使用。実験。考察。短い距離を移動してほしい場合も即座に評価。学習データの偏りの原因。即座と遅れで肯定的発話の韻律が異なるかも」
  • 13:00  #hai2009 2B-5 田中さん質疑「被験者5人のうち良かった人の特徴?分析中。訛りが原因の可能性も。研究の目的がわかりにくい?短ければ否定だと思ったがそうではなかった」
  • 13:01  #hai2009 2B-5 田中さん質疑「ラベル付けの自動化を教師なし学習と言っていいのか?混合正規分布で再検討してみたい」
  • 13:03  昼休み。Tweenはイベント中継には便利かも。。
  • 14:00  #hai2009 2C-1 中沢さん(西本共著)「力学モデル駆動による音声対話エージェントの動作生成」http://bit.ly/7e571W
  • 14:05  #hai2009 セッション2C「動作生成」中沢さん「自然な印象を与えるエージェント動作を。言語に同期させたい。音声合成の藤崎モデルをヒントに」
  • 14:15  #hai2009 2C-1 中沢さん「頭部と視線。方向指令と動作指令。言語イベントとの階層化。実験:線形と二次遅れ系の比較」
  • 14:22  #hai2009 2C-1 中沢さん「心理的尺度の主観評価で高得点。今後は音声との同期などが課題」議論「人間との比較?今後の課題」「首を振るときの目の位置は中央?不自然?意志が伝わっているかどうかが重要」
  • 14:23  #hai2009 2C-2 尾関さん「粒子フィルタを用いた視覚的注意モデルの検討」
  • 14:27  #hai2009 2C-2 尾関さん「視覚的注意がHAIにどう役立つかを知りたい」「人の認知モデルをエージェントに与えたい。視線は基本。シンプルで柔軟、が目標。注意にトップダウンボトムアップがある」
  • 14:31  #hai2009 2C-2 尾関さん「Itti-Kochモデル:画像処理ベース。重み制御が課題。多層化する?大規模で応用しづらい。制御層を挟む?赤を追う粒子フィルタの例。予測、尤度計算、リサンプル」
  • 14:36  #hai2009 2C-2 尾関さん「粒子フィルタは実装が簡単で適用範囲が広い。尤度マップを制御層に使うのが主張点。実例:トップダウン制御で注目点を変化させる画像処理」
  • 14:43  #hai2009 2C-2 尾関さん議論「応用?赤ちゃんが注意機能を獲得するように?飽きっぽい、物を振らないと注意を引かない、といった状況を想定。音声言語獲得とあわせて」「色以外の注意の例?」「注意したかどうかのフィードバック?」
  • 14:45  #hai2009 2C-3 米澤さん「ユーザの視線・発声に対するクロスモーダルアウェアネス〜ユーザ状況把握を表すロボット」「仕事中・考え中にロボットから話しかけられたくない」
  • 14:51  hai2009 2C-3 米澤さん「話しかけ意図表現をぬいぐるみロボットにさせる。視線認識。ユーザはデバイスフリー。チャンスが来たら伝達。礼儀正しいパートナーロボット」
  • 15:00  #hai2009 2C-3 米澤さん「評価。視線の感じ方。邪魔をされない感覚?ユーザにタスクを与えて実験。ユーザの視野に入っていれば意図行動を示せる。好意的な評価」
  • 15:02  #hai2009 2C-3 米澤さん議論「メール着信のバルーンを連想する。ぬいぐるみロボットとの違い?今回はロボットが移動できない」
  • 15:05  #hai2009 2C-4 藤本さん「FGS:言葉とジェスチャを用いた情報表現に関する研究」「コミュニケーションロボットのコンテンツ作成に焦点。従来技術=記述言語、スクリプト言語
  • 15:07  #hai2009 2C-4 藤本さん「商店にいても自宅にいても「これがお勧めだよ」と指差すエージェント:コンテンツの場所依存。汎用性が課題」
  • 15:11  #hai2009 2C-4 藤本さん「再生状況モデル:long, normal, short. L型は指示語や指さしを利用できない。S型は動きや形態もジェスチャで表現」
  • 15:18  #hai2009 2C-4 藤本さん「ジェスチャは文章量の抑制に貢献。指示、ストローク、エンブレム、ビート。LNSの各型で使用の可・不可の制御。変換の方法を考察」
  • 15:22  #hai2009 2C-4 藤本さん議論「ミドルレンジ、ランドマークの存在?東京タワーの近くのお店、あのコンビニの角を曲がって」
  • 15:23  #hai2009 2C-5 黄さん「複数ユーザの盛り上がり状態の変化に応じて発話するクイズエージェント」「クイズの司会エージェントの例」
  • 15:28  #hai2009 2C-5 黄さん「方針:グループのリーダーっぽい人にエージェントが話しかけてゲームへの参加を促し、盛り上げる。盛り上がり状態の判断、中心人物の推定」
  • 15:34  hai2009 2C-5 黄さん「各被験者に骨伝導マイクをつけて実験。エージェントがリーダに「ヒントありますよ」などと発話」
  • 15:43  #hai2009 2C-5 黄さん議論「会話を盛り上げたい?クイズの進行をスムーズにしたい?両方を目指している」「オーバラップ。どういう動きの検出?」「なぜ音声だけでなく顔も使う?」
  • 15:45  目が疲れた。。いまTweenの文字色を黒背景・白文字に変更中。。。
  • 15:49  #hai2009 2C-6 池田さん「交渉エージェントのしぐさ作成と印象評価」「過去の研究:オンライン交渉支援システム。必要な仕草が選べないことがある。人間が行う仕草を分析。頻度の高い仕草をエージェントにさせてみる」
  • 16:02  #hai2009 2C-6 池田さん「交渉対話:有利・不利などの状況で仕草が変わる。TVMLで作成。野球選手の契約更新というタスクで事例収集。分析結果の考察。仕草の共起性。エージェント実装例」
  • 16:07  #hai2009 2C-6 池田さん質疑「ジェスチャとポスチャ(姿勢)が混ざっている。タイミングは?同期はしている」
  • 16:20  #hai2009 セッション2D「行動学習」2D-1 盧さん(西本共著)「擬人化エージェントとの円滑なマルチモーダル対話のための強化学習を用いた割り込み制御の検討」
  • 16:28  #hai2009 2D-1 盧さん「人間的な対話=効率的な対話。割り込みの制御。音声認識の制約。割り込み早期確定。ユーザが何を言おうとしているのか。効率的かどうかは対話が終了するときに分かる。強化学習を検討」
  • 16:34  #hai2009 2D-1 盧さん「アーキテクチャの提案。発話を複数の状態に分けてクロック単位で制御。クロック数で報酬。エージェントは音声認識中・認識完了、といった観測を得る。実験。どこを聞き取れていないかをエージェントは推定可能」
  • 16:40  #hai2009 2D-1 盧さん議論「学習時の状況の定義は?現在はテキスト固定」「状態空間が小さい?報酬の与え方、割り込みの上手さを途中で報酬として与えたほうが学習が効率的になる?」
  • 16:44  #hai2009 2D-2 池田さん「教示における動きの汎化」「ロボット:設計者が想定しない操作ができない。再生時に動きを変更可能にしたい。行わせたい動きを教示。操作方法をあわせて教示」
  • 17:12  #hai2009 2D-3 ヤングさん「Puppet Master: 例示によるインタラクティブなエージェントの動作作成手法」b-mobile復活した
  • 17:19  #hai2009 2D-3 ヤングさん議論「motion pathを3次元に拡張できるか?」
  • 17:25  #hai2009 2D-4 田中さん「ロボットのためらい:行動の遅れは学習効率を向上させ教えやすい印象を与える」
  • 17:28  #hai2009 2D-4 田中さん「ロボットの強化学習:行動教示と評価教示を与えるタイミングが重要。人は学習の初期段階は自信がないのでためらうはず。実行遅延を学習状態に応じて変化する」
  • 17:47  #hai2009 2D-4 田中さん議論「遅延でいらいらする場合?教示者の慣れ?」「SD法は主成分分析ではなく因子分析では?被験者不足」
  • 17:50  #hai2009 2D-5 廣川さん「コーチングによる報酬関数の動的生成に基づくエージェントの行動学習」「報酬関数の設計条件が重要。ロボカップに勝利したら、という報酬はチャンスが1回しかない。個々の行動への報酬は設計者の経験に依存」
  • 17:57  #hai2009 2D-5 廣川さん「コーチング:報酬関数を任意の時点で更新。教示の対象となっている可能性のある状態をサンプリング。EMアルゴリズムにより確率密度分布を。複数回の教示のandを取る」
  • 18:05  #hai2009 2D-5 廣川さん質疑「人間の教示の誤りの可能性?ゼロではない」「教示が即座に反映されるわけではない。教示側の分かりやすさが課題」
  • 18:16  #hai2009 2D-6 安部さん「模倣学習時における社会的ロボットの表出行動の重要性の検証」「ロボット同士の模倣。同種ロボットで予備実験。異種ロボットでホン実験。学習していることを人間が理解できるか。お手本の有無が条件」
  • 18:26  #hai2009 2D-6 安部さん議論「表出行動?コミュニケーション?通信しあったように見えた?」終了。。

Powered by twtr2src

地域情報のバリアフリー

視覚障害者が地域に密着した情報を得にくいのでなんとかしたい、というプロジェクトの話を伺ったり関わったりすることがありますが、最近 Twitter で興味深い経験をして、ついそういったプロジェクトのことを思い出しました。

私が休日の朝に自宅で「ヘリコプターの音がうるさいなあ」と思いながら、Twitter で私のタイムラインをみたら、たまたま前日にフォローした隣町の商店街の公式アカウントが「駅前の商店街で火事らしい」という情報を流していました。(商店街さんは「近所の人の目撃情報」を転送(RT)していたわけです)

後で全国ニュースで報じられた高円寺パル商店街の居酒屋火事でした。写真を投稿してくださった方も何人かおられたので、テレビやラジオのニュースで報じられる前に、ある程度状況を把握できました。

もちろん草の根ユーザのクチコミにはデマも多いのですが、(有名人や芸能人の死亡などのデマが時々流れます)デマが鎮火するのも早い、というのがTwitterの面白いところです。
最近は世界的に「マスコミよりもTwitterのほうが第一報が早い」と言われます。全般的に繁華街での事件や鉄道事故の情報は非常に早いです。

らくらくホン」でTwitterを使う視覚障害者の方もだんだん増えてきているようです。特にスクリーンリーダをお使いの方はWebからユーザ登録すると「ReCAPTCHAのあの超難しい英語の音声課題」を解かないといけませんが、どうやら携帯からであれば容易にユーザ登録できるらしいです。

商店街や町内会のような組織が公式Twitterアカウントを作り、地域情報を適切にRT
していけば、かなりユニバーサルでアクセシブルな地域情報メディアになるのではないか。居酒屋火災の事件は、当事者の方々のご冥福をお祈りしたい気持ちとともに、私にとっては一つの可能性を感じる出来事でした。

私は「Twitterは放送である」と割り切ることをこのブログで主張し続けています。そう考えれば「忙しいときは読まなければいい」と割り切ることができます。そして、半日や一日タイムラインを見なくても、特に不安も不便も感じない、ということははっきりしました。必要になればあとで検索すればいいのだから。。

たまたま今朝、NHKラジオ第一放送の朝のニュースで記者クラブ問題について解説していました。曰く、記者クラブは取材する側の要求だった。明治23年、弱者だったメディアと国家権力の戦い。。NHKラジオは「歴史はメディアを通して作られてきた」と締めくくっていました。

そしてNHKは語らなかったのですが「21世紀の歴史はマスメディアではなく、個人ブランドのダダ漏れメディアが作る」。そんな気がします。。

orpheus_tw

こんなものを作っています。

Mon, Nov 16

Tue, Nov 17

  • 09:10  フォロー感謝 @orpheus_tw どういうbotに育てていけばよいのか、御意見を伺いたいです。

なお、作曲された曲のデータは1ヶ月しかサーバに保存されません。

heroku ってなに?という方は私の記事 heroku をどうぞ。残念ながら無料サービスの範囲内では実現できず、$15/month のオプションである delayed job を使っています。

オルフェウスについては 自動作曲システムオルフェウスの説明 をどうぞ。

今年の流行語「クラウド」をただニュースとして追いかけるのではなく、rails と git を覚えて、手を動かしてみるのが(いろいろ落とし穴もあったけど)楽しいです。どうして日本には heroku のようなサービスがないのだろう。。

ツイート

だんだんまとまった文章を書くことがおろそかになりつつあります。。

Tue, Nov 10

  • 09:11  いまTwitter界隈から起きつつある社会の変化が「リアルタイムWeb」の普遍的な現象なのか、Twitterでなくてはならないのか、それが気になる。アメブロを採用した日本の首相はいずれ「アメーバなう」を使うと思うので。
  • 09:14  インターネットのインフラの「自前主義」は戦略的に見直す時代かも。例えば日本政府は日本の企業のサービスにこだわるのだろうが、過去に日の丸OSも日の丸PCも失敗したじゃないか。。
  • 09:19  複数の類似サービスを有機的に連携させれば、自前主義でなくても特定企業のサービスへの過度な依存のリスクは回避できる。手段ではなく結果・効果にこだわるべき。例えばgmailを使わないのも、gmailしか使わないのも、リスクのように思える。
  • 21:23  加藤ただし「エンジニアのための開発生活ガイド」 講談社ブルーバックス を読んでいる。工学系大学研究室の研究生活ガイドとしてお勧めできるが、大学から出たことがない私には社会勉強になる。

Wed, Nov 11

  • 08:02  学会の研究会予稿や論文誌がどんどん電子化されているが、いずれkindleのようなデバイスで読むのが当たり前になるかも。情報処理学会はPC画面に特化した横長の書式を導入したけれど、早まったのではなかろうか。。

Thu, Nov 12

  • 11:27  科研費や共同研究に頼らずに、法人や個人から少額の寄附金を幅広く集めて活動し、目的に合わせて成果の社会還元方法を選択する、NPO型の研究プロジェクトができないだろうか、と常々考えている。
  • 17:06  WIT(福祉情報工学研究会)更新しました http://www.ieice.org/~wit/
  • 22:22  クラウドの課金の説明とか読んでると、遠い昔の大型計算機のTSSってこんな感じだったのかなあ、と思う。だとしたら大学の研究室がAmazonにお金払ってサーバを借りるのも当たり前になるのかな。。

Fri, Nov 13

  • 00:01  久しぶりに heroku を触った。 http://ja.nishimotz.com/heroku
  • 00:31  「天才数学者はこう賭ける〜誰も語らなかった株とギャンブルの話〜」を読み始めた。読みにくいと不評らしいのだが、私はプロローグと第1章ですでに大満足している。。100年前のAT&T、50年前のベル研。。
  • 08:49  TSSに反応されてしまった。大昔と違うのは、昔はパンチカードでいまはシンクライアントってところでしょうか。それとも昔はFORTRANでいまはMapReduceか。。
  • 12:06  HCGシンポジウムの事前受付を開始しました http://www.ieice.org/~hcg/sympo2009/
  • 23:57  自分の研究活動や学会活動の意義や現状について情報発信をしている研究者がまだまだ少ないと思う。でもみんなそんなことする暇があったら論文を書かなければ生き延びられない、という現実があるのもよくわかる。悪循環。

Sat, Nov 14

  • 11:50  メーリングリストや電子掲示板では得られない価値のために「実際に人が集まる学会・研究会」は重要だ。でもTwitterのリアルタイム性、カジュアルさ、人との交流しやすさ、そしてアクセシビリティは、とても大きな可能性だと感じる。
  • 14:39  音声認識どんどん使って見せるべき。そしてまだまだ不完全、もっと研究が必要だということも広く理解してもらうべき。
  • 16:30  とはいえ、短期的な利益に繋がらなくても、真実を探求したり、社会理念を実現したり、不測の事態に備えたりする科学研究は、日本が誇らしい国であるために必要。言語や音声の研究って、安直に仕分けされるような近視眼的な仕事ばかりではないはず。

一部ID入りの発言を修正しました。

音声言語情報処理研究会 2009-SLP-78

第78回 音声言語情報処理研究会 (SIG-SLP)(第5回 音声言語情報処理技術デベロッパーズフォーラム) に行ってきました。つぶやいていたらフォローが増えました。感謝。

  • 10:19  SLP研究会なう。西早稲田という最寄り駅ができたから西早稲田キャンパスになったのか。。
  • 10:25  検索して見つからないから #SIGSLP を使っていいのかな。。
  • 10:31  #SIGSLP 講演(1)「長時間スペクトル変動と調波構造に基づく発話区間検出法の音声認識による評価」福田さん他
  • 10:58  #SIGSLP 講演(1)質疑:フレームドロッピングの必要性?VADで発話前後の無音がすでに落ちているのでは?意図的にやっていないか?
  • 10:58  #SIGSLP 講演(2)「ユーザの発話傾向分析に基づく車載機器操作のための音声入力手法の検討」倉田さん
  • 11:25  #SIGSLP 講演(2)質疑:エラー時の振る舞いは今後の課題。自然言語理解は最大エントロピー法。もっと軽い手法ではだめか?学習データ数とカバー率の関係は?未知語を含む発話に対する正解判断は?
  • 11:27  #SIGSLP 講演(3)「音声対話システムにおける暗黙的な教師信号に基づく音声認識率の推定とそれを用いたエラー予測」駒谷さん
  • 11:50  #SIGSLP 講演(3)質疑:評価尺度は文認識率に相当。絶対値としては低い?バージインを対話状態によって分けて検討しては?
  • 12:38  #SIGSLP 昼休みなう http://sig-slp.jp/2009-SLP-78.html
  • 12:47  #SIGSLP 講演(4)音声中の検索語検出のためのテストコレクション構築 -中間報告-
  • 13:52  #SIGSLP 講演(5)で5分だけ喋りました。さっきの報告の続き。
  • 13:53  #SIGSLP 講演(4)質疑:検索速度の評価は?要望は誰に?検索速度の評価に音声認識の処理は含む?
  • 13:53  #SIGSLP 講演(5)「階層的MMIアーキテクチャに基づくプラットフォーム実装方法の検討」
  • 13:54  #SIGSLP 講演(5)質疑:リアルタイムでの応答は6階層モデルでできるのか?
  • 13:55  #SIGSLP (6)(招待講演) 「音声認識実用化事例の紹介とその課題」藤田 泰彦さん (アドバンストメディア)
  • 13:55  スーツ率が高くて私もびっくり RT @whym #sigwi2 から #SIGSLP に移動したら会場の雰囲気がガラッと違う。wi2は大半が私服、slpはほぼ100%スーツ
  • 13:59  #SIGSLP 招待講演:音声認識AmiVoiceの実績紹介。医療分野で2900施設以上。画像を見ながら入力。電子薬歴は保険点数に。専門用語が多いのでカナ漢字変換よりも有利。入力効率が34〜73%改善。
  • 14:01  #SIGSLP 招待講演:東京都議会の議事録作成で導入。速記会社とアドバンストメディアさんの連携でサービスとして提供。
  • 14:04  #SIGSLP 招待講演:音声認識によって大阪府では速記者の人件費を削減できた。課題は話しことば対応、速記者の使いやすいインタフェース。
  • 14:05  #SIGSLP 招待講演:ここまではビジネスとして成熟した事例。コールセンターでの利用は多種多様。モニタリング、コンプライアンス強化、分析。
  • 14:09  #SIGSLP 招待講演:コールセンターでの利用、オペレータ音声の認識だけでも有効。
  • 14:13  #SIGSLP 招待講演:らくらくホンiPhoneでの音声認識。自動学習がポイント。単語やユーザ言語モデルApp Storeのアンケート評価は良好だが、今後も使い続けたい人が少ない?
  • 14:16  #SIGSLP 招待講演:音声認識による英語教材。楽しいコンテンツが作りやすい。月額使用料によるライセンス。課題は市販ハードや他ソフトとの共存。
  • 14:18  #SIGSLP 招待講演:実用化における課題。ビジネスモデルの確立。第一印象=イニシャルの認識率。継続利用の支援=適応など。データ収集の障害。
  • 14:26  #SIGSLP 招待講演:質疑:いまの手法では性能を出すためのコストに収入が見合わない。研究機関に期待すること=性能を上げるためのブレークスルーを。
  • 14:27  #SIGSLP 講演 (7) 「第5回SLPデベロッパーズフォーラムイベント企画の趣旨について〜コーディネータの立場から〜」庄境さん
  • 14:28  #SIGSLP 庄境さん「ハイテクの落とし穴=キャズム
  • 14:33  #SIGSLP 庄境さん「ハイテクオタク相手では投資を回収できない。マジョリティに受け入れられるためには?要求=低コスト、高品質、限定機能」
  • 14:36  #SIGSLP 庄境さん「車載機器における音声入力の市場。必須機能だが使われているかどうか不明。安価で真に役立つ音声認識に需要=キャズムを超える好機?」
  • 14:40  #SIGSLP 講演(8)「音声インタフェース普及促進のため開発支援技術」中野さん
  • 14:45  #SIGSLP 中野さん「音声インタフェースの設計手法と評価手法、パタンランゲージによる記述」「利用環境を絞り込む」「視覚フィードバックが不要な環境、キーボードの利用困難な環境」「不正確性、処理時間の問題を回避」「片手コントローラとの併用」
  • 14:48  #SIGSLP 中野さん「敏速かつ正確な操作はコントローラで、絞り込みは音声で」実装例の紹介。
  • 14:57  #SIGSLP 中野さん「タスク達成率が異なる際の達成時間の比較が困難」「制限時間に実験者の主観が混入する」「T-Aグラフを使う手法を提案」
  • 15:07  #SIGSLP 講演(8)質疑:音声で入力してテンキーで修正、という状況も評価すべきでは?設計の問題になる。主観評価も重要。
  • 15:08  #SIGSLP 講演(9)「音声UI設計とその評価 〜普及促進にむけて,システム構築の立場から〜」石川さん「今日もヨタ話?」
  • 15:14  #SIGSLP 石川さん「製品設計の場に音声UI設計の専任がいない」「人間中心の設計開発のプロセス」「ものづくりアーキテクチャのポジショニング=製品内部構造×製品外部構造、インテグラル型/モジュール型」
  • 15:18  #SIGSLP 石川さん「日本のUI設計の現状=アプリケーションごとの要求をすりあわせる。機能に対するUI設計。電源入れるとナビ」「欧米=UIもモジュールで、アプリと独立に検討、最後につなぐ。電源を入れるとまずメニューが出る」
  • 15:24  #SIGSLP 石川さん「音声が着目すべき特徴=一貫性、確実性、効率」「今後の製品=アーキテクチャの大変革が間近。社外サービスとの連携を。車載機器は安全性を確保できる一貫したUIを」
  • 15:27  #SIGSLP 石川さん「記述できること、ではなく、UIの基本原理が含まれたインタフェースモジュールを」
  • 15:35  #SIGSLP 石川さん:質疑:モバイルPCを車内に置けばよい?安全性に考慮したUIが前提?自動車メーカーのビジネスチャンスの考慮?
  • 15:35  #SIGSLP 休憩なう
  • 15:49  #SIGSLP 講演(10)「人間の多様な振る舞いを考慮した音声UIの必要性」岡本さん。昨年度までの国プロの成果。ユーザは困るまでマニュアルを読まない。画面に表示されている情報や音声ガイダンスに誘導される。開発者の意図が伝わらない。
  • 15:52  #SIGSLP 岡本さん「テストとプロトタイプ改良をスパイラルに繰り返した」「被験者は画面からヒントを探そうとしない」「ユーザの多様な行動を想定しているか?」「仕組みがわかるUIになっているか?」「ユーザに役立つシンプルで的確な情報を」
  • 15:59  #SIGSLP 岡本さん「具体的な対応方法を知らせる。xxするにはxxと発話してください、など」「情報を垂れ流すだけでは気づいてくれない。使用法を文字と音声で説明する。注意してくれているか確認する。準備ができたらスタートとお話しください、など」
  • 16:06  #SIGSLP 岡本さん「使用意欲を調査。使用前は5点でも使用後に4点に。慣れてきたらガイダンス不要。手動バージインを使ってもらえない。使っている状況をモニタして習熟度を判断し、習熟度にあったUIを提供すべき」
  • 16:08  #SIGSLP 習熟度の定義は難しそうですね。音声入力への熟練、アプリケーションへの熟練、ヒントに気づくことへの熟練、などなど。
  • 16:09  #SIGSLP 講演(11)「実世界に存在する音声・音響を対象とした認識技術」大淵さん
  • 16:13  #SIGSLP 大淵さん「技術になれていないと音声認識を使いこなせない現状」「どこまで完璧に作ればマジョリティは満足してくれるか」
  • 16:17  #SIGSLP 大淵さん「音声認識はキーボードやタッチパネルに勝てるか?」「機械に向かって話してもらう、をやめる=書き起こしの下請け、監視など、インタフェースでない用途?」
  • 16:23  #SIGSLP 大淵さん「画像認識はどう使われているか?画像認識してもらうために人間が行動することは少ない。すでにそこにある姿を認識する」「従来は議事録を作らなかったような会議の音声を・・」
  • 16:28  #SIGSLP 大淵さん「そこそこの認識率のものを有効活用できる応用を」「侵入音や銃声などの音響イベント認識」「意図的音声コマンド検知」
  • 16:31  #SIGSLP 大淵さん「一秒を完璧に認識?一万時間を適当に認識?」
  • 16:41  #SIGSLP 朝からの話を振り返って。音声インタフェースは「車輪の再発明」され続ける運命なのかな http://bit.ly/KpSLj
  • 16:43  #SIGSLP (パネル討論) 「音声認識技術がキャズムを越えるには?」なう
  • 16:49  #SIGSLP 西村さん「InventionとInnovation」「セグウェイ=技術の高度さがビジネスの成功につながらない例」
  • 16:53  #SIGSLP 西村さん「世界が大きく変化している」「技術者が自分の取り組んでいる技術ありきで使い道を考えていないか」「10年前と同じ発想、同じ仮定でいいのか」「アフリカでは音声通話しかない携帯電話が数ドルで売られている」
  • 17:02  #SIGSLP 質問なう「オープンソースの役割」「アクセシビリティ
  • 17:11  #SIGSLP ビジネスモデルの議論に。イニシャルの性能をいかに上げるか。コストの問題。独自の文化へのこだわり。
  • 17:14  #SIGSLP 技術の独占?オープンイノベーション音声認識技術は枯れているので自前で作れる。オープンソース的なコーパス
  • 17:19  #SIGSLP 評価結果の共有。ソリューションを考える人を増やすべき?企業の研究所にいてもビジネスはわからない。学会とは別の場を作るべきかも。組織がやるべきことが個人に押しつけられている
  • 17:22  #SIGSLP 成功している分野としてない分野があるA社。いかに差別化するか。先行するか。分野ごとにアライアンスを組む必要がある。業界が参入を恐れている?使えるものが作れる自信はでてきた。
  • 17:26  #SIGSLP 「フィールドで評価までやったうえでソリューションとして売れば成功できるはず」「ビジネスと研究所が思考を共有できない」「オープンソースはソリューションさえ公開しているのでは?」
  • 17:29  #SIGSLP ソリューションビジネスの経験。「手組み」か「パッケージ」かの判断から始まる。判断する人が情報を持っていない。よほど音声に思い入れがないとSI事業は成立しない。既存パッケージとの音声の連携は?
  • 17:32  #SIGSLP 最近は音声認識のソリューションが消費者から見えなくなっている。既存パッケージはPCが前提で音声が有効性を見いだしにくい。PDA連携は実績につながりやすい。
  • 17:37  #SIGSLP 「習熟度の定義」を。道は一本ではないはず。システムの透過性がしっかりしていれば、その人なりの道がある。
  • 17:44  #SIGSLP 開発者の意図を伝えること=習熟度かも。習熟度ごとにインタフェースを適応するのは音声固有の問題?
  • 17:47  #SIGSLP 議論:ユーザがシステムを擬人化するかどうか。設計の違いが大きいのでは?擬人性を考えるならアダプティブに。道具型の場合は透明性が重要?
  • 17:50  #SIGSLP 議論:システムを知的に見せるとユーザは過信し、問題は難しくなる。機械の頭の悪さをいかにユーザに知らせる。ユーザが期待するタスクを絞って選択肢を呈示してはどうか
  • 17:52  #SIGSLP 議論:マジョリティに向けた戦略。カーナビについて日本はもう舵を切ったと思う。最初に音声でセットアップさせるなど、成功体験を与えたい。
  • 17:55  #SIGSLP 議論:対話だと思うとぐちゃぐちゃになる。インタフェースだと割り切る。人間は人工的に作れない。検索は迷わず使える。「見える化」が重要
  • 17:55  #SIGSLP 終了。

Powered by twtr2src

つぶやきの捕まえ方

今年3月に電子情報通信学会の総合大会とHCGシンポジウムに参加していたとき、Twitterでイベントの中継を試してみて「Twitterの欠点は『落ちる』こと」だと思った。半年が過ぎて、これだけ普及しても、まだその不安は払拭されていない。

Twitterの利点の一つは「国際化されていること」だ。同じシステムの中で母国語と外国語の発言が混在すると、短波ラジオアマチュア無線のような感覚がある。最近ちょくちょくログインするようになったFacebookもそうだが。
そして発言したことが「ちゃんとWeb検索エンジンに引っかかること」がよい。自分のブログやWebサイトを更新したときに、TwitterでそのURLをお知らせすることが、ちゃんとSEOに貢献している(ような気がするが、そのうち何らかのSEO対策が講じられるかも知れない)。

一方で、いろんな人をフォローしてみて、情報発信の仕方もさまざま、捕まえ方もさまざまだと感じる。
勝間さんと広瀬さんをフォローしたら、このお二人が会話しているところにいろんな人が出入りする、その様子を立ち聞きしている感じになる。高校生のころやっていたアマチュア無線で「電波の人気者たちの会話」にチューニングしている、あの感覚がある。
津田さんをフォローすると、津田さんの参加する会合をリアルタイムで受信できる。自分がいまいる場所で、同時にもう一つのイベントに参加している、そんな不思議な感覚が得られる。

SourceForge.jpは、誰かがソフトウェアをリリースすると、自動的にTwitterにメッセージが流れる仕掛けらしい。先日の連休に自分がgalateaからリリースを出してみて、その情報が瞬時に流れてきて、そのことが確認できた。

企業のアカウントも使い方はさまざま。毎日新聞は担当ごとにアカウントを使い分けているらしい。カブドットコムは一つのアカウントで複数の担当者が署名入り発言。
佐々木俊尚さんのように「つぶやき」にソーシャルブックマークの役割を見いだしている方もおられる。その一方で、もっとも古典的な使い方である「ナントカなう」発言に徹している人たちもいる。

情報発信としては中途半端なコンテンツをあえて許容するために、140文字という縛りがある、と思われる。明確な目的を持った使い方にとっては、その縛りはやはり中途半端だ。だがその縛りは「受信者への配慮」だと考えなくてはならない。受信者は情報の洪水に遭遇すると入力を遮断してしまうのだ。
複数人での情報発信のためには、アカウントを共有するか、ハッシュタグなどの検索を活用するか、なにか工夫が必要になる。一対一のやりとりについても、いまだに私はダイレクトメッセージや @ つきの発言に戸惑ってしまう(2つのアカウントを同時に使って一通り実験すれば腑に落ちるのだろうが)。
いろいろな面においてシステムの未熟さ(将来のさらなる発展の可能性)を感じる。しかしながら、未熟さを逆手にとって、熱い盛り上がりを演出する、そういうサービスの育て方もあるのだ、と気づかせてくれる。かつてはグリーやミクシィもそんな場所だった、かも知れない。

私はしばらくTwitterは「個人がニュースをリリースする手段」あるいは「RSSを配信することの代替」として使いたい。ときどき「イベントを実況中継する放送ツール」として使うつもりだ。私が日頃関わっている活動に関連して、障害を持つ方が学会に参加するための支援や情報保障に、何か役立たないだろうか、と常々考えている。ちなみに @nannohi によれば10月1日は「福祉用具の日」「補助犬の日」「国際高齢者の日」だそうだ。

PCから普通に twitter.com を使い、携帯電話からモバツイを使っているが、フォローする相手が3桁・4桁になったら、標準的な使い方では破綻するだろう。受信の仕方もいろいろ工夫してみたいのだが、すでにさまざまな閲覧ツールがリリースされているらしく、いろいろ試すのは楽しいような面倒くさいような。。

最近「質の高いフォロワーを増やす」というテーマの記事が(どなたかのつぶやきのおかげで)目に入った。私はフォローされるとたいていフォローし返しているので「フォロー数よりフォロワー数が多い」人にはなかなかなれそうにない。
私の考えでは Twitter は「放送的なメディア」なので、たぶんポッドキャストやラジオ番組と同じだと思う。つまり「大事な情報源に絞り込む」ことよりも「不快な情報源を遮断する」ことになりそうだ。「この人をフォローし続けると大事な情報が得られなくなる」と思った人をフォローから外すことになるだろう。ヘビーローテーションしたいアルバムや放送局は「耳障りなトークや音楽が出てきにくい」という理由で選ばれるのだと思う。
逆に言うと「自分がノイズ発生源にならない」ことを心がけるべきだ。自分がどんなフォロワーを持っているのかを意識したうえで「自分のフォロワーにとって目障りな情報を自粛する」ということが、気持ちよく情報を共有するコツではなかろうか。

「棒読みちゃん」というソフトを見つけた。前からやってみたかった「音声合成で友達のつぶやきを聞き流す」ということが実現できる。まさに「ソーシャルネットワーク型ラジオ番組」だ。いろいろ課題があるとは思ったが、ちょっと未来を垣間見ることができて嬉しかった。

  • 追記(2009-10-05) : sourceforgejp のリリース告知機能なのですが「パッケージ」「リリース」「ファイル」のすべてを「秘密」というステータスにしていても、ファイルをアップロードしたときに tweet が流れるようです。ちょっとどうかと思いますが。。

出版と放送とTwitter

最近 Twitter にどんな機能があり、どんな使われ方をしているかを学ぶにつれて、Twitter を「放送的なメディア」だと感じるようになりました。

2001年に私と共著者は下記の発表

において

  • 我々は「放送」を、不特定の人に対して合理的かつ同報的に情報を伝達しようとする「通信の編集形式の一つ」と定義する

と主張しました。この主張を発展させた議論は http://radiofly.to/wiki の中でも続けられているのですが、「放送」の議論を進める前にまず「出版」についてお伝えしたいと思います。

今日もまた、全視情協(全国視覚障害者情報提供施設協会)さんの会議に、スーパーバイザーとして参加してきました。以前この日記で御報告しましたが、改正著作権法の施行(2010年1月)によって「点字図書館」の可能性が広がろうとしています。
視覚障害に対応する点訳・音訳の図書だけでなく、高齢者・ディスレクシア聴覚障害など、さまざまな読書障害・情報障害に対応できる「出版のユニバーサルデザイン」として「マルチメディア DAISY」が期待されています。海外ではBOOKSHAREプロジェクトが積極的に活動をしており、例えば以下の関根さん(ユーディット)の記事で報告されています:

たとえ合成音声での読み上げを想定した「単なるテキストファイル」であっても、マルチメディアDAISYの一要素として(テキストDAISYとして)作られれば、読み手にとって「情報の構造に基づくナビゲーション」が可能になるだけでなく、図書館においても「電子的な奥付」が付与された「書籍」として扱えます。

さらに「テキスト版」「点訳版」「音訳版」などの書籍を「一つのマルチメディアDAISY書籍のサブセット」として扱えれば、同じ書籍の点訳版や音訳版の検索性を高めるメタデータとしても利用できます。点訳データには点字に対応する読み情報だけが、音訳データには音声ファイルだけが含まれており、検索は容易ではありませんが、テキスト版とリンクしていれば、読みたい本の読みたい場所を簡単に探すことができるわけです。

全国の点字図書館がとりまとめをしておられるボランティア活動の支援も、全視情協さんの検討課題となっています。私としては「点字版を作る」「音訳版を作る」という個別の作業の垣根を越えて「電子書籍の可能性」を広げていただける活動のお手伝いができればと感じています。

こうした議論を通じて私は、DAISY があくまでも「書籍の出版」のメタファを逸脱しないように注意深く活動を進めておられると感じています。それに対して、全視情協さんがもう一つ検討しておられるのは「書籍というメディアを超えた地域密着型の情報サービス」です。

私は意見を求められて「地域情報の件は、DAISY技術による「出版サービス」ではなく、むしろ「放送」だということを意識していただきたい」と発言しました。
そして、会議終了後に、いま私が「放送的なサービスの代表格」だと考える Twitter の紹介を(私の理解した範囲で)させていただきました。

正直なところ Twitter が現状の仕様のまま万人に広まるかどうかはわかりません。しかし既存の Web 上のサービスが持つ「出版的な部分」を徹底的にそぎ落とした結果生まれた「放送的なサービス」であると思います。

例えば Twitter では「ある構造を持ったひとまとまりの情報を『何月何日付け』として発信する」のは不得意です。(だから先ほど私は Twitter での発言の「まとめ記事」をブログに書いたわけです)

Twitter は「時間を超えるメディア」ではありません。時間を超えるメディアの考察は1年前に下記で行いましたが「ニコニコ動画」のような蓄積型の放送ではありません。

Twitter はあくまでも「生放送」です。しかし、

  • 不特定の人に対して合理的かつ同報的に情報を伝達しようとする「通信の編集形式の一つ」

という放送の定義を Twitter に当てはめると

  • 誰をフォローするか

という単純な操作が「自分にとって合理的な情報」を選ぶことに対応しています。逆に言えば、それ以上なんの操作も必要ない(できない)ということが「放送的」です。
そういえばミクシィで「マイミクシィ」「コミュニティ」を選ぶことで同じような感覚が得られました。私が2005年にIPA未踏ソフトウェアで採択された「ソーシャルネットワーキング型ラジオ番組のシステム開発http://ora-be.nishimotz.com の最初の着眼はまさにこの感覚でした。

「生放送的なメディア」である Twitter は、遠い過去の情報を検索することは得意ではなく、むしろ「フレッシュな情報」にこそ意味があるし「空間を超えた時間の共有」という感覚を強く持ちます。

「人を選ぶこと=情報を選ぶこと」というコンセプトは決して新しいことではありませんが、特に情報システムの世界で普遍的になりつつあると感じます。例えば分散バージョン管理システム git および github.com に関する下記の記事

はソフトウェア開発という課題において「誰もが発信者になれる時代」の情報管理術だと考えられます。

「日記と掲示板=ソーシャルネットワーク」ではなく、具体的な目的と作業のために人と人が合理的に関わって情報を共有することこそが重要です。「ミクシィ的」なコミュニケーションにこだわらず、コミュニケーションを「出版的な機能」「放送的な機能」の諸要素に還元する発想が本質的に重要です。

ダイレクトメッセージやReTweetといった独特の流儀は、やがてもっと洗練されたインタフェースに進化していくのではないかと思います(「引用の流儀」はまさに私が10年くらい前に研究していたテーマです)。マルチメディア化されたTwitterがもし実現するとしたら、それは素直に誰もが受け入れる可能性の高い「参加型テレビ」「参加型ラジオ」になるのでしょうが、そういう段階がありえるのか、あり得ないからこそ現在の「140文字のツイッター」の価値があるのか。
私もイノベーションの傍観者ではなく当事者として(しつこく)関わっていきたいという思いを新たにしています。