音声認識を使った情報保障の企画案

１年ぐらいかけて準備したらいいと思っている企画案です。

さまざまな学会・研究会が低コストで実現可能な情報保障のために、音声認識を使った情報保障を継続的に行う実験を行いましょう。

これから福祉情報工学研究会が音声研究会さんなどに共同ワーキンググループの設置を提案したらよいと思います。

関連する技術やノウハウを蓄積しているはずの企業や研究機関はたくさんあるはずです。特にリスピーク方式を使う技術は、とある企業が実用化をされたのですが、すでにサービスを終了しておられるとのこと。

「寝ぼけたことを言うな、実験としてやれることは終わってるんじゃないの？」

と言われるかも知れませんが、そうであれば、なぜもっと使わないのか。
誰でも簡単にできる「マニュアル」が不足しているのでしょうか。「やっぱり専門家に頼まないと『主催者の手抜き』と思われる」という心理的なバリアでしょうか。

学会の運営者は決して手抜きをしたいわけではありません。
イベントに手話通訳やPC要約筆記をつけたことがある経験を持っている人はまだまだ少数で、これはそうそう簡単には増えないと思います。担当者に高い技術が要求されるからです。それがどんな高い技術なのかは、私もよく理解しているつもりです。

しかし結果的に「専門家に頼めばできます、でもお金がかかります」という状態が、この10年間のWIT研究会の歴史の中でずっと続いてきました。
特に情報のバリアフリーについて研究する場であったにもかかわらず。
私はそのことを、とてももどかしく思っています。

私が提案したいのは「こうしたサービスを普及させるために、技術を定期的にきちんと評価するべき」ということです。

あらためて、音声認識ベンダーに呼びかけて技術コンペをしていただいたり、フリーソフトを使うボランティアチームを作ったりするなど、きちんと準備してみてはいかがでしょうか。

実証実験の場として大きなイベントを企画して、その準備プロセスを報告しあうセッションを設けたり、有効性を議論する場としましょう。
人手によるPC要約筆記と使い分けたり併用するなどして、その有効性を比較検証することも重要です。

おそらくは「PC要約筆記の不要論」ではなく「いかに上手に併用するか、使い分けるか」が現実的な手段になるはずです。
そして「音声認識は完璧でない」という結果になることは目に見えているのですが、それが「ないほうがマシなレベル」なのか「ないよりはマシなレベル」なのか、はっきりとした答えがあるでしょうか？

さらに「音声認識が100%もらさず文字にしている」ということが「本当に当事者の方のメリットなのか」「本当はある程度要約をした方が当事者が議論に参加するためには有効なのではないか」という疑問も解決できるのではないでしょうか。

フリーソフトチーム（仮）が使えそうなツールの一つ julius2iptalk が先日公開されました。
「事前に講演者から予稿やスライドを提供してもらい、言語モデルのチューニングを行う」というプロセスが重要になると思います。そのあたりのツールを整備したいところです。

音声認識の研究をずっと続けてこられた立場での御活動。
こういうイベントにちゃんと参加したら「誰でも音声認識を使った情報保障はできるよ」ということなら、私の努力不足をお詫びしますが。。

音声認識を使ってブログを書くことを日常的に行っておられる方の考察。使っておられる方ならではのノウハウや利点について述べておられるので、よく読ませていただいています。

そういえば昔からよくヒューマンインターフェースの研究者に「インタフェースの研究者は自分が使えるものを作るが、音声研究者はそうではない」と批判されてきました。

個人的には最近「しゃべったー」「もじもじTV」など（私から見ると無謀とも思える）音声認識の事業展開をなさっているカタログさんに、ちょっと勇気づけられる今日この頃です。