メーリングリストでの議論

先日、音声対話ツールキット(構成要素として音声認識音声合成、顔画像合成などを含む)の公開パッケージを更新しました。

galatea-users および galatea-i18n の各MLの皆様にお知らせしたところ、さっそく Windows 版の音声合成に関する不具合の御報告をいただき、開発者にも確認していただいて対応しました。リリース前に不具合を発見できなかったことを申し訳なく思っておりますが、やはり幅広い立場の方に評価していただけることが必要と痛感しました。

Galatea ツールキットはいろいろな構成要素の寄せ集めです。各構成要素のいくつかは sourceforge.jp に別のプロジェクトを持っています。しかし不具合や要望について各構成要素の何が関係しているのか切り分けが難しいケースも多いと思います。そういった場面で「総合案内」として galatea プロジェクト(あるいは私のお手伝い)がお役に立てると思います。

音声合成を取り出して別のアプリケーションと連携させて使いたい、という要望は頻繁に伺っています。galatea プロジェクトは「汎用のツールキット」の整備を目指していますが、「汎用性」に貢献する議論は積極的に行うべきだと思います。その上で、新しいアプリケーションの構想が具体化したら、そのためのプロジェクトを別途設けていくことも必要ではないかと思います。
英語の情報を整備し、ツールキット全体を多言語対応していくことも必要な課題です。これについては galatea-i18n で今後議論を進めていくつもりです。
galatea プロジェクトはチケットシステムも利用しています。不具合や要望の管理に役立てていきたいと思います。
今後もいろいろ皆様の御意見を伺いながら、このツールを発展させていきたいと思っております。

音声合成エンジンとライセンス

私のブログにさっそく匿名のコメントをいただきました:

>再配布不可のUniDicを使ってるからオープンソースの意味ないです
>お金払うなら高性能な他の有料合成エンジン使います

どこかでこの件について書きたいと思っていました。私としては、こういう意見をたくさんの方に出していただけると、問題が明確になってよいと思います(匿名ではない方がよいですが)。

Unidic形態素解析用の日本語辞書です。無償で利用できますが再配布については制約があります。Unidic のライセンスについては、例えば修正BSDのようなライセンスにしてもらえないか、とお願いしたことがあるのですが、変更できないとのことでした。

現状で単語のイントネーションに関する情報は unidic でしか得られないこともあり、これまで Galatea は unidic の最新版に追従する形で開発が続けられてきました。
Galatea プロジェクトの開始当初は unidic のライセンスは現在の形で明確になっていませんでした。音声対話技術コンソーシアムというプロジェクトの成果として、現在の構成での配付を行っていますが、再配布に関する御意見はこれまでもずっといただいております。

まず unidic 1.1.0 (Unidic が現在のライセンスになるまえに、「IPA2002版」の一部として配付されたもの)へのバックポートの可能性を検討しています。現在の unidic と品詞体系が変わっているので、gtalk および chaone も過去のバージョンに戻すか、unidic 1.1.0 の品詞体系に合わせて最新のエンジンにパッチを当てる必要がありそうです。時間がかかりそうであることと、性能を保証しにくいので、とりあえず現在のバージョンを公開しています。要望が多ければ頑張ってみたいと思うのですが。
unidic を使わない方法については例えば「島根県CMS」で ipadic (現在はnaist_jdic)への差し替えを行ったものなどがあります。これも「IPA2002版」に対する非公式なパッチがベースです。

私は技術的な実験についてはお手伝いできますし、私自身も音声合成を使った研究やソフトウェア開発に関してやりたいことはあるのですが、sourceforgeオープンソースコミュニティですので、多くの人に汎用的に役立つように意識しながら、個別の問題を解決することが望ましいと思います。

ライセンスの問題も大事なのですが、エンジンとしての性能が、商用の技術と比べて、だんだん見劣りしてきていることも問題です。Unidic のアップデートによって必ずしも音声合成エンジンの読み付与精度が上がっていない、という指摘もあります。
もっと幅広くオープンソース音声合成技術を概観するとき、 espeak や festival のような多言語化を前提として作られた技術と比べて日本語だけが孤立していることも気になります。オーディオデバイスのインタフェースについても PortAudio ライブラリが普及したり、LinuxWindows いずれについても新しいAPIへの移行が進んでいたり、技術を取り巻く環境は常に変化しています。Mac OS X への対応もまだ実現されていません。

先ほどNVDA日本語化プロジェクトのミーティングに出席してきました。以前から NVDA に組み込むことができる日本語TTSとして GalateaTalk の検討を続けてきたのですが、GPL で配付されている NVDA は現状の GalateaTalk を同梱して配付する目処が立ちません。espeak エンジンの日本語化を真剣に検討してはどうか、などの議論を行いました。

私のブログでは繰り返しになりますが、オープンソースプロジェクトが社会的に受け入れられるためには、単に商用ソフトにお金を払いたくないから、といった動機ではなく、「既存のビジネスを破壊しないこと」が重要だと思います。

スクリーンリーダである NVDA の存在意義の一つは、Web開発者にアクセシビリティの問題を幅広く認知していただくことです。JIS X-8341-3(ウェブコンテンツアクセシビリティガイドライン)の改訂作業が進んでいますが、この分野ではコンテンツの対応と支援技術の対応が連携していなくてはなりません。視覚障害の当時者でない方も含めて、多くの方が「新しい標準に準拠した支援技術」を手軽に入手できる環境が必要です。そうでないと、標準化作業が完了しても、「誰も実際に使うことができないから」という理由で形骸化してしまいます。特に国際協調が必要なWeb技術において、日本だけが技術の進歩に取り残されるのはとても不幸なことです。そのような背景から、Web コンテンツ JIS の改訂に取り組んでおられる方々は NVDA に期待しています。「少なくともNVDAは対応しているから新しい標準に対応してください」とアピールしたい、というわけです。

Galatea プロジェクトへの要望や批判的な御意見は歓迎です。しかし、ただ批判していただくだけではなく、論理的で客観的な議論のための材料を求めたいと思います。「ライセンスに対して何のためにどういう要求があるか」「何のために、どういう機能や性能のものが必要なのか」「現在使えるリソースは何か」「どう具体的なアクションを起こすか」など、建設的な議論が必要です。今後ともよろしくお願いします。

社会科学方法論

先日図書館で、田村正勝先生の「社会科学原論講義」早稲田大学出版部(2007)を見つけた。
遠い昔、早稲田大学理工学部から他学部聴講で田村先生の「社会科学方法論」を聞くために、私は1年間「社学」に通った。電気工学科に在籍しながらも浅羽通明「ニセ学生マニュアル」や筒井康隆文学部唯野教授」などを面白がって読んでいた自分にはとても有意義な時間だった。
ギリシャ哲学、ヘーゲル弁証法アダム・スミス国富論マルクスケインズの経済学、そして日本の思想、などなど。一人の先生の一つの講義がここまでいろいろな話題に触れられて(ほとんどノートも見ずにお話になっていたと思う)、それが毎回毎回、現代の日本と世界の問題を鋭く分析するツールとして機能していたことに感銘を受けた。
その講義が(この十数年の政治や経済の問題に対する鋭い論考を付け加えつつ)こうして一冊の本にまとまって読めるのは、ありがたいことだ。
田村先生の講義で出てきたいくつかのキーワード、例えば「偶然は必然と必然の交である」といったことは今もよく覚えている。
あるいは「社会科学の優れた理論は、その理論そのものが社会を変えてしまう。そしてその理論が成り立たないような社会がやがて実現されてしまう」といったパラドックスも、その後の人生と経験の中で、何度も、思い当たる節があると感じた。
通勤時間に読書するには物理的にも内容的にも重い本だったが、拾い読みをしているだけで、なにかとても温かくて真っ直ぐな気持ちが蘇った。

Winny裁判の影響

金子さんが二審で無罪になった。

彼の逮捕の日、マスコミから私にも電話がかかってきた。確かに同じ研究科の所属で職位も年齢も同じだったが、彼がどういう人なのか教えて欲しい、という質問に答えられるような個人的な接触はなかった。ただ学生は「戦略ソフトウェア」という学内の活動を通じて、プログラミングの指導などで彼のお世話になっていた。マルチスレッドの使い方など。。
その日も私は、警察が入った建物と別の場所が居室であったため、ニュースで見るまで何が起こったのかわからなくて戸惑った。

事件の経緯は佐々木俊尚氏の書籍(「ネットvs.リアルの衝突―誰がウェブ2.0を制するか」 (文春新書) )や記事などに詳しく報じられている。私も佐々木氏の本を読むまで知らないことがたくさんあった。学内の対応については、実は私も詳しいことは知らないのだが、大学側(教授会?)も彼を罪に問えるかどうかについて疑問を感じていたはずで、大学として彼を免職にしたという話は聞いていない。

「匿名性の高いファイル共有ソフトが普及すると著作権法は時代遅れになる」という指摘は、前々からいろいろなインターネット技術の研究者によって(積極的な悪意ではなく客観的な予測、あるいはDRMなどの積極的な推進を訴える立場として)語られていた、と思う。二審判決直前に行きすぎた取材があったと報じられたが、そういった文脈での発言を期待したのかも知れない。

しかしながら当時の風潮が「大容量のコンテンツを効率よく配信したいというニーズは不法な目的しかあり得ない」と決めつけていたとしたら、間違っていたと思う。
自由な再配付を保障するソフトウェアのライセンスの普及、個人が音楽や映像をどんどん発信することが一般化してそれが重要なメディアになってきたこど、などなど。。

逮捕後に出版された金子氏の著書「Winnyの技術」は読ませていただいた。私自身は Winny を使ったことがないが、技術書として興味深く読むことができた。こんなすごい人なら逮捕される前にもっといろいろお話しておけば良かったと残念に思った。

私の職場である「大学院情報理工学系研究科」で、金子氏の逮捕後に起きたことは、「プライベートアドレスでネットワークに接続することを禁止」「ノートPCからP2Pアプリケーションを使用することを禁止」「その他の場合もP2Pアプリの利用は事前の届け出が必要」という規則の導入である。世の中の大学や企業でこのルールがどのくらい一般的なのだろうか。。
これは具体的には「NAT使用不可」が前提である。研究科内のネットワーク管理者がファイアーウォール側でトラフィックを監視していて、P2Pプロトコルの通信が検出されると、「何月何日に IP アドレスどこどこが、P2P 利用していたので事実関係を確認せよ」という連絡がそのアドレスの管理者(例えば私)に届く。NAT だとルーターのアドレスまでしかさかのぼれないので、誰が何というソフトを使っていたか、を答えられない、だから NAT 不可、というわけだ。

アジア系の外国人留学生が使っているWebブラウザやファイルダウンロードソフトには、わりと P2P 技術を使っているものが多いらしく、何度か原因究明をさせられたものの、聞いたことのないソフトや、なんと書いてあるのかわからないドキュメントなど、いろいろ苦労している。結局「使わせてはいけないソフトの一覧」をちゃんと作ることができない状態だ。

NAT不可なので、お客さんにネットワークを一時的に使わせて欲しいと言われた場合にもグローバルアドレスをお貸しすることになる。なのでDHCPで簡単に対応できない。

次の Ubuntu Linux Japanese Remix は BitTorrent での配付を予定している、などと聞くが、それを職場からダウンロードするのに「こういう目的でこのアドレスのマシンで何月何日にBitTorrentを使わせてください」という届け出が必要になりそうだ。

そういえばこの手の技術を応用したと言われるSkype はすっかり「なくてはならないもの」になってしまった。Skype で警告を受けたことはないのでこれは許可されているらしい。

そしてこの事件も影響を与えつつ、もっと大きな時代の変化、技術の変化を踏まえて、著作権法の改正が行われ、来年1月の施行が迫っている。アクセシビリティ関連でも多くの影響が(一般的には良い方向に)出ているのだが、もっと勉強しなくては、と思う。

CEATECにて

来年度の福祉情報工学研究会(WIT)をCEATEC展示会の中で開催する案が出ているので、下見をかねて、幕張メッセCEATEC に行ってきました。
企業の新製品発表など、いろいろ報道もされていますが、大学やNICTさんの展示ブースもありました。もし来年この場所での研究会が実現したら、研究会の関係者の皆様にいろいろ回っていただけるので、よいことだと思います。
WIT 関連でいえば、たまたま「アクセシビリティ PLAZA 」というブースが目に入ったのでお話を伺ってきました。(社)ビジネス機械・情報システム産業協会(JBMIA) の方が、JIS X-8341-5(高齢者・障害者等配慮設計指針:事務機器)の説明やバリアフリーコピー機の実演などをしておられました。
毎年展示しているが、レポートの課題を課せられた大学生などがよく来てくれる、会議場を取るためにお金がかかるので展示のみで講演などはやっていない、というお話でした(対応してくださったのは(株)リコーの方でした)。
こういった展示をされている方を研究会にお招きしてお話をしていただいたり、見学に来る大学生を積極的に研究会に誘導したり、いろいろ工夫できるのではないかと思いました。

受付はWebで名前を事前に登録してコンファレンス予約などを行い、会場でバーコードリーダーまたはEdyリーダーを使うセルフサービス方式でした。研究会の入場者にもこういったことをお願いすることになるのでしょうか。うまく情報を共有できれば研究会としてもメリットがあるかも知れません。。

あまり時間がなく、限られたブースしか見ることができませんでしたが、個人的に興味があって、並んで触ったのはSONYVAIO Wでした。左手で持ちながら右手で操作してみましたが、紙のように軽く、Windows 7も軽快でした。初めて Let's Note T1 の実機を触ったときの、あの衝撃に近いものを感じました。あの頃の Panasonic の立ち位置にいま SONY がいるような気がします。。

音声CAPTCHAに関する発表予定

第50回福祉情報工学研究会(2009年10月29日(木)〜30日(金)、青森県青森市で開催)において、下記の発表を予定しています。

  • 著者:西本卓也(東大)・松村 瞳(東京女子大)・渡辺隆行(東京女子大
  • 題目:音声CAPTCHAシステムにおける削除法と混合法の比較
  • 概要:我々は音声聴取課題によって対象者が人間であるか機械であるかを判別する音声CAPTCHAシステムに着目し、普遍的な設計方針の体系化を踏まえて、音韻修復効果を用いた「削除法」を提案している。本報告では「機械による破られにくさ」の予備的検討として、提案法である「削除法」および既存システムの主流である「混合法」について音声加工の条件の違いが音声認識性能に与える影響を報告する。

これに関連して、最近気になっていることを書きます。
先月、郡山の音響学会の3日目に「音バリアフリー」会場にいたのですが、

  • 3-10-12 単語了解度を指標とした高齢者の会話のしやすさについての検討−喫茶店を事例に−,根津さん、永幡さん(福島大学

の質疑応答で鈴木先生東北大学)がおっしゃった Informational Masking (IM)という話がずっと気になっています。
もともとの発表は、高齢者は喫茶店(他のグループの会話で妨害されやすい状況)で、背景に音楽が流れている方が会話がしやすい、という報告でした。音楽のおかげで他のグループの会話がマスキングされ、自分たちの会話に集中しやすくなるのではないか、という考察です。

IMについて探してみると、こんな記事がありました:

音声を聴き取りにくくする妨害に関して、「エネルギーによるマスク」「情報によるマスク」という概念が出てきます。
昨年から「音声CAPTCHA」の実際の利用例をあれこれ聞いているのですが、その両者がありそうです。
ちなみに私が去年発表したのは「削除法」というアイディアでした。エネルギーによるマスクの最も極端なケースとも解釈できそうですが。。

上記のサイトはこんな文献を引用しています:

  • Watson, C.S. (2005). Some Comments on Informational Masking. Acta Acoustica 91, 502-512.
  • Durlach, N.I., Mason, C.R., Kidd, Jr, G., Arbogast, T,L Colburn, H.S.,and Shinn-Cunningham, B.G.(2003). Note on informational masking. JASA. 113, 2984-2988.
  • Tanner, W.P., Jr (1958 and 1964). What is masking? JASA 30, 919-921.reprinted and updated as Chapter24 in J.A. Swets (1964). Signal Detection and Recognition by Human Observers: Contemporary Readings, John Wiley & Sons, New York.
  • Carhart, R., Tillman, W., and Greetis, E.S. (1969). Perceptual masking in multiple sound backgrounds, JASA 45, 694-703.
  • Neff, D.L. and Green, D.M. (19987). Masking produced by spectral uncertainty with multicomponent maskers, P&P 41, 409-415.
  • Kidd, Jr, G., Mason, C.R., and Arbogast, T.L. (2002). Similarity, uncertainty, and masking in the identification of nonspeech auditory patterns, JASA 111, 1367-1376.

私はこの話が「音声CAPTCHA」に絡む話だと気づいて勉強を始めたばかりです。
8月ごろから音声CAPTCHAの課題設計と予備実験をやっているのですが、(実は数日中に原稿執筆と被験者実験をやらなくてはいけない。。)HMM で音声認識されにくい妨害音声の条件が、「IMが起きやすい雑音」にも対応しているように直感的に思えます。
上記Webページの筆者である Yost は「IMは選択的注意の失敗である」と述べています。私としては、自分の実験に取り入れたい視点と思いつつも、中途半端に手を出すと危険そう、という気もしてきたので、迷いつつ、そろそろ時間切れで実験方針を決めなくてはいけません。

私が注目していたCMUのプロジェクト reCAPTCHA は大学からスピンアウトして、そして最近 Google による買収が報じられました。音声CAPTCHAについても、古いラジオ番組の音声を聞き取りの課題にする、という面白い試みがなされていた(日本人が聴き取るには結構ハードな課題でした)ので、オープンに研究成果が発表されなくなるとしたら残念なことですが。。

こういった議論は、私が世話役を務めている(そして最近サボっていた)「音声・音楽研究会」のメーリングリストでも行っていく予定です。お気軽にご参加ください。

そして、今月末の青森での研究会にもふるってご参加いただければ幸いです。
青森にはこんな活動をしておられる方もおられます。

  • 2009-10-08 追記: 西本の発表予定のタイトルを訂正しました。

静原・大原・元田中

すこし前のことになってしまったが、先月のシルバーウィークの旅行について書きたい。


京都市静原のCafe Milletに行って、大いに元気をいただいてきた。隅岡樹里さんの「自然にはすべてが備わっている」と言う言葉が心に残った。予約していただいたランチはとても美味しくて、天気もよく、景色も美しく、素晴らしい場所だった。

ご主人の隅岡敦史さんは、京都でSCCJというNPOに関わっておられる。私はタイピング練習ソフト「ウチコミくん」の開発にはじまり、視覚障害者支援や音声インタフェースの技術開発で、SCCJさんにいろいろお世話になった。今は「アグリライフ」という活動も積極的になさっている。


たまたまNHK-BS「猫のしっぽ カエルの手」という番組でベニシアさんの友人として紹介されているご夫婦をお見かけして、思い切って静原にやってきた。ブログで報告されているが、樹里さんは足を怪我されており、不自由な中おもてなししていただいて恐縮だった。

アクセスは(車で行けば何でもない場所なのだろうが)出町柳から(数少ない)34番「静原・城山行」の京都バスに乗る。バスの中から静原学校の運動会の様子が見えた。全校生徒15人とのこと。終点の「城山」で降りて、さらに徒歩。テレビに出てきた、パンを焼く石窯が目印だ。Cafe Milletさんは完全予約制なので、ご注意を。

お話すると、かつて松ヶ崎にあった「はるや」さんのお知り合いで、吉田山の「茂庵アートマーケット」にも参加しておられた、とのこと。私は一時期「アートマーケット」の運営をお手伝いしていたので、そこで樹里さんと顔を合わせていたかも知れない。どこでどんな縁があるか、わからないものだ。。

その日は自然歩道を歩いて、大原に降りた。一時間くらいの、ちょっと軽装では歩きづらい山道だった。人里に降りると初秋というより残暑の日差し。稲刈りの終わった田や畑が広がり、ヒガンバナが道ばたに咲き乱れていた。「里の駅」には地元の農家さんたちの野菜が、作った人の写真つきで並べられていた。

翌日はまず建礼門院ゆかりの寂光院。庭の手入れをされていた男性が、数年前の火災の影響について語っておられた。しかし復興された本堂と庭園は、それでも十分落ち着く場所だった。
三千院に近づくにつれて車と人の混雑が激しくなる。国宝の仏像も人垣の後ろから拝むしかなかった。午後は観光地とは違ったのんびりした大原を散策。

夜は出町柳に戻り、かつてよく通った「老安記」と「ぐるぐるかふぇ」に久しぶりに立ち寄った。
同じ左京区とは思えない3つのエリアの対比を楽しむことができた。慌ただしくも意義深い旅だった。

実はこの旅行中に携帯電話を落とした。出町柳でバスに乗った直後に紛失に気づき、バスを降りて、最後に立ち寄った草木染めの「大原工房」さんに電話したら、そこに置き忘れていたことが確認できて、送っていただいた。御親切にしていただいたことを感謝します。