音声対話技術の普及促進と進化

下記の場で連名で発表をした内容について、西本担当分の原稿をご紹介しておきます。

第78回音声言語情報処理研究会 (SIG-SLP)(第5回音声言語情報処理技術デベロッパーズフォーラム)
日時：平成21年10月23日(金)
(5) 階層的MMIアーキテクチャに基づくプラットフォーム実装方法の検討
- 荒木雅弘 (京都工繊大), 西本卓也 (東大), 桂田浩一, 新田恒雄 (豊橋技科大)
- プログラム http://sig-slp.jp/2009-SLP-78.html
- スライド http://www.slideshare.net/nishimotz/ss-2327572

今後の活動のために新しい組織が必要と考えています。

http://ja.nishimotz.com/project:open_source_speech_technology

に公開したマニフェストを随時改訂していくつもりです。

＊＊＊＊

3 音声対話技術の普及促進と進化

3.1 Rubyによる対話記述の検討

さまざまな機能を持つWebベースのアプリケーションが広く使われるようになった現在こそ、たとえその一部でも音声インタフェースを介して利用できることの意義は大きい。ブラウザのフォームに情報を埋める作業を繰り返していると、もっと効率よく、あるいは、キーボードやマウスに頼らずに操作したい、と感じるのではなかろうか。

システム記述言語の設計においては、実績のある成功事例（ベストプラクティス）が有用である。我々の6階層アーキテクチャにおける第5〜6層（タスク間制御、データモデル、アプリケーションロジック）について、既存のWebアプリケーション開発から借用できる成功事例の一つとして、Rails (Ruby on Rails) に着目している。

VoiceXMLは第5層と第4層の界面に対応しており、これは一般的なWebにおけるHTMLに相当する。Webアプリケーションではテンプレートエンジン（HTML に埋め込まれたスクリプト言語を実行する処理系）が一般的である。
「階層の界面が記述言語に対応し、各階層がテンプレートエンジン処理系に対応する」
という構図は6階層モデルの随所に当てはまる。
テンプレートエンジンにはさまざまな技術や記述言語が乱立しているが、Rails によるWebアプリケーション開発ではオブジェクト指向が徹底され、MVC のすべての要素が Ruby で記述され、一貫性がある。Ruby言語はコードブロックによって手続き型言語と宣言型言語の記述の混在が可能になり、いわゆる「ドメイン記述言語」への流用が容易とされる。Model においては SQL データベースを簡潔な記述で操作できるクラスライブラリがある。View においては HTML にRubyの記述を埋め込むテンプレートエンジン機能(ERB)がある。

RubyによるVoiceXMLアプリケーションの事例は、階層モデルにおける記述言語やアーキテクチャの詳細を考える出発点になるという立場から、Galatea Dialog Studio の開発はRuby on Rails との互換性を重視して進めている。

3.2 知識からの対話生成

音声対話システムによって「どのようなインタラクションを実現すべきか」を議論することは重要である。目標が定まらない段階でアーキテクチャや記述言語を検討するのは時期尚早という意見もある。これまでの標準化活動では、できるだけ先進的なユースケースを取り入れることでこの問題を克服してきたが、ユースケースもやがて時代遅れになる懸念がある。
これに対して、時代遅れになりにくい「抽象的で普遍的な情報構造」に着目して、インタラクションの詳細を後から開発・標準化する、というアプローチがある。多くの実現例が報告されている「一問一答型の対話システム」も一例と言える。書籍のメタファで音声対話コンテンツを記述する提案はこれまでにも行われてきた。

Takuya Nishimoto, Masahiro Araki, Yasuhisa Niimi:"RadioDoc : A Voice-Accessible Document System,"Proc. ICSLP2002, pp.1485-1488, Denver, Sep 2002.
西本卓也, 荒木雅弘, 新美康永:"擬人化音声対話エージェントのためのタスク管理機能,"日本音響学会2002年春季研究発表会, 1-5-15, pp.29-30, Mar 2002.

近年「情報提供型の音声対話」の要素技術として注目に値するのは、障害の有無にかかわらず読書ができる環境を実現する「マルチメディアDAISY」

DAISY研究センター http://www.dinf.ne.jp/doc/daisy/

である。その派生技術である「テキストDAISY」はテキスト音声合成技術の新しい応用分野である。ハイパーリンクや検索といった電子書籍の操作手段としての音声対話にも期待が高まる。

3.3 コミュニケーションの効率性

擬人化音声対話エージェント技術は「人間が声で会話したいと感じるような人工物をいかに実現するか」という問題への一つの回答だと考えられてきた。

嵯峨山茂樹, 西本卓也, 中沢正幸: "擬人化音声対話エージェント,"情報処理学会誌, Vol.45, No.10, pp.1044-1049, Oct. 2004.

その目標を真に達成するためには「対人コミュニケーション」を形式的な問題として捉えるのではなく、高品質の映像や音声を高速に制御し、豊かな情報の伝達を可能にし、コミュニケーションの効率性を本質的に高める必要があろう。

エージェント制御に力学や物理学のモデルを取り入れる試み

中沢正幸, 西本卓也, 嵯峨山茂樹:"視線制御モデルによる擬人化音声対話エージェントの制御,"2005年度人工知能学会全国大会(第19回)論文集, 3B2-07, Jun 2005.

音声インタフェースを「実時間の効率性」という観点から構成要素に分解する検討

西本卓也，岩田英三郎, 櫻井実, 廣瀬治人:"探索的検索のための音声入力インタフェースの検討,"情報処理学会研究報告 2008-HCI-127(2), pp.9-14, Jan 2008.

などはマルチモーダル対話アーキテクチャに今後必要となる視点を与えるだろう。