第50回福祉情報工学研究会2日目

09:04 #spwit 研究会２日目。午前に2つセッション。お昼に終了する予定。 http://bit.ly/hSIoW
09:06 #spwit 途中で私の発表（１０）があるので中継とまります。お許しください
09:09 #spwit ゆうべの懇親会でこんな話がでました「来年の10月にPRMU/SP/WITの共催研究会を幕張CEATEC内で開催する際に、発表件数が多くなりそうなので、音声認識による情報保障を試してはどうか」
09:14 #spwit (8) 國越さん「手の動きを入力としたリアルタイム音声生成系における鼻音の合成とピッチ制御に関する検討」
09:16 #spwit (8) 國越さん「構音障害者支援技術。手話、コミュニケーションボード、VOCAなどがある。手話は相手も知っていないといけない。他の手法は感情を表現しにくい。テキスト音声合成に頼らない手法はないか？」
09:18 #spwit (8) 國越さん「藪さんの先行研究。ペンタブレットで第１フォルマントと第２フォルマントを制御。その他１０年前にグローブトークという提案」
09:18 #spwit (8) 國越さん「提案。身体運動から音声に特徴量空間を写像。音声合成技術を使う。手の動きをデータグローブでキャプチャする」
09:21 #spwit (8) 國越さん「ジェスチャ空間１８次元と音響空間１８次元の結合ベクトル。GMMで写像。話者変換で使われる技術。ただし、学習データのアラインメントを取るのは音声より難しい」
09:23 #spwit (8) 國越さん「ジェスチャーと音の対応付け。指文字などを使わず新たに設計する。ジェスチャー群の配置と母音群の配置が等価になるように。指を曲げるか伸ばすか３２通り。２８種類を選んでジェスチャー位置の主成分分析」
09:25 #spwit (8) 國越さん「群の分離されやすさ、指の形の作りやすさ。５つの形を決める。ジェスチャーとケプストラムを対応付け。結合ベクトル作成。GMM構築。STRAIGHTベースのケプストラム」
09:27 #spwit (8) 國越さん：ビデオ「ロボットボイス的だが、元の声の分析合成音と似ている。合唱経験者なので難しい発声をさせやすかった。５母音の合成を実現。ピッチと子音が次の課題」
09:29 #spwit (8) 國越さん「他に制御できるパラメータは？腕の方向を使う。地磁気・加速度などのセンサモジュールを使用。Rollを音声のピッチに割り当てる。「あおい」と喋るデモ」
09:34 #spwit (8) 國越さん「子音の合成。波形接続と空間写像。前者は子音部と母音部の窓かけと混合部の長さを予備的に検討」「な」を合成した音声を聞かせる
09:37 #spwit (8) 國越さん「nを考慮したジェスチャデザイン。アラインメント：目で見て子音部、遷移部分、母音部に分割して対応付け」「なにぬねの」の合成のデモビデオ
09:39 #spwit (8) 國越さん「聴取実験による評価。分析再合成と比べると低いが、ｎとｍの置換を許容すると良好な結果。フォルマント遷移部の音響特性に課題？」
09:40 #spwit (8) 國越さん「ケプストラム歪みの評価。遷移部分が特に大きい」「まとめ：ピッチ制御の導入。鼻音合成の実験的検討」
09:42 #spwit (8) 國越さん：デモ。手の動きで母音と鼻子音の再生。
09:44 #spwit (8) 國越さん質疑「渡りの部分がたりないのでナがマになる？」「遷移部分は文字ごとに変える必要がある。いまの手法だと次にくる音素を予測できない」
09:45 #spwit (8) 國越さん質疑「どれだけ自然な割り当てができるか＝誰が使うか」「構音に障害があっても手には障害がない人が対象」
09:47 #spwit (9) 中村さん「外部音源を用いた発声支援システムにおける統計的声質変換の評価」
09:49 #spwit (9) 中村さん「声帯がない人のための人工喉頭（使って喋ってみせる）生成される音声が不自然。どうやって自然にするか」
09:52 #spwit (9) 中村さん「概要。呼気センサーを使う。F0情報が得られる。統括的評価を」「従来法：F0を変化できない。Type-B：電気的に収録された音声を声質変換。電話なら変換音声だけを伝送できる」
09:58 #spwit (9) 中村さん「Type-A：呼気センサー使用。気管孔からの呼気。強くふくと高い音になる」「Type-C：振動子を小さくして微弱音源を出す。NAMマイクで収録する」
10:01 #spwit (9) 中村さん「B,A,Cの利点を比較」「最尤基準に基づく声質変換。入力と出力の話者を設定。入出力を結合した特徴量のGMM。条件付き確率密度最大化。言語情報に依存しない」
10:04 #spwit (9) 中村さん「モノトーン電気音声が入力のときもF0をスペクトルから推定。非モノトーン電気音声のときはF0推定にスペクトルまたは入力F0を使う」
10:07 #spwit (9) 中村さん「客観評価。メルケプストラム歪み。すべての変換で歪みを改善。F0評価：相関係数、有声無声判定。呼気センサーによる相関係数の上昇。入力F0の使用は無効（習熟による改善？）」
10:10 #spwit (9) 中村さん「微弱音源からの変換結果がよくない。パワーが低すぎる」「主観評価。自然性、明瞭性、好感度。微弱音声の場合もやらないよりはよい」
10:12 #spwit (9) 中村さんデモ音声再生。
10:14 #spwit (9) 中村さん質疑「ささやきが特に自然に聞こえる。日本語に固有？中国語でささやきは困難？トーンランゲージ対策？」「ウィスパーでもピッチ成分が得られる可能性がある。知識で補完？」「スペクトルからF0が相関0.6で得られる。どう評価？」
10:15 #spwit 次は (10) 西本「音声CAPTCHAにおける削除法と混合法の比較」
10:16 #spwit (9) 中村さん質疑「F0推定は限界に来ている？品質を上げる可能性？」「案はあるけど。。セグメント特徴をPCA以外の方法でなにか」
10:17 #spwit (9) 中村さん質疑「今回の被験者は呼気センサー訓練１ヶ月」
10:17 #spwit (9) 中村さん質疑「MOSでささやきの評価が４なのは不自然？」
10:20 #spwit (9) 中村さん質疑「人の声として自然か、ささやきも評価」「実時間性？一発話ごとに処理。ディレイは対策していない。将来の課題」「F0も言語情報なしでスペクトルと対応させる」
10:58 #spwit (10) 西本発表終了。最初にツイッターのユーザ登録の reCAPTCHA をお見せしました（笑）
11:02 #spwit (11) 大墳さん「体表点字による盲ろう者と健常者の会話システム」
11:03 #spwit このセッションは西本が司会しながらつぶやきます
11:06 #spwit (11) 大墳さん「最近は２個のモータで体表点字を実現。背中や肩など任意の箇所を使える。文字だけでなく左右などの情報も。ウェアラブル。受動的な情報取得」
11:08 #spwit (11) 大墳さん「点字ひとマスを上中下の段に分ける。段に点がない場合は左を短く振動」「に：左・左・左」「な：左ブー、左トン、左ブー」「う：左右ブー、左トン、左トン」
11:09 #spwit (11) 大墳さん「テレサポート。ジュースなのかコーラなのかカメラでサポーターに見せる、返事を体表点字で受け取る」
11:10 #spwit (11) 大墳さん「自律歩行支援システム。RFIDを白杖で読み取る。音声の代わりに体表点字で情報提示」
11:12 #spwit (11) 大墳さん「ヘレンケラーホン。携帯電話のボタン６個で入力。体表点字で会話」
11:15 #spwit (11) 大墳さん「会話相手が健常者のとき、相手が近くにいるかどうかわからない。解決：赤外線で相手の存在を呈示。健常者はカナによる読み書き」
11:17 #spwit (11) 大墳さん「盲ろう者の機器はベストに埋め込み。健常者は４ｘ４ボタンと液晶画面の端末。会話までのタイミングチャート」
11:21 #spwit (11) 大墳さん「盲ろう者が相手を見つけると会話モードに移行」「IrDAは通常１０センチ。今回はリモコン用赤外線。８ｍ届く。赤外線をPICでPWM変調。実験：光量と到達距離」
11:22 #spwit (11) 大墳（おおつか）さんの発表中です。プログラム http://bit.ly/hSIoW
11:24 #spwit (11) 大墳さん「今年８月の盲ろう者大会で意見を聞く。約30人（介助者含む）点字を知っているのは半数。ろうベースの触手話使用者も。好評をえた」
11:35 #spwit (11) 大墳さん質疑。マイクを持っていたので中継できず。後ほどフォローします。
11:36 #spwit (12) 伊藤さん「漢字の要素読み上げ及び拡大表示Webアプリケーションの開発」
11:40 @mushakei 次の講演が始まってしまいました。後で質問してみますね！ [in reply to mushakei]
11:41 #spwit (12) 伊藤さん「漢字は日本語である」「漢点字の提案：８点。六点漢字：６点。昭和４７年長谷川さん」「視覚障害者の漢字学習の現状」
11:44 #spwit (12) 伊藤さん「漢字の詳細読みの説明」「従来法の課題。実際に使えるか。扱う文字数に限りがある。形や構成の情報を伝えられるか」
11:45 #spwit (12) 伊藤さん「視覚障害者から漢字の形を知りたいという要望を受けた。音声による漢字の構成情報の提供が可能なシステムを開発。点字プリンタは高価」
11:47 #spwit (12) 伊藤さん「動作の流れ。漢字一字を入力。説明文データベースと漢字画像データベースを検索。JavaScriptとHTMLとPerlとSQliteで実装」
11:49 #spwit (12) 伊藤さん「ダイアログボックスを出す。画面の一部書き換えなどの状況を理解させるため。出力画面の例」
11:52 #spwit (12) 伊藤さんデモ。スクリーンリーダ（PC-Talker）でウェブブラウザを読み上げ。「文字入力」が空欄だとエラーのダイアログ。文字数が２文字だとやはりエラー。
11:53 #spwit (12) 伊藤さんデモ。「男」を入力。「上に田んぼの田、下に力持ちの力」と説明。
11:56 #spwit (12) 伊藤さん「課題：要素分解の程度。階層的に説明するべき？　効率よいデータの増やし方？　画像表示のサイズ変更など。視覚障害者による試用を予定」
11:57 #spwit (12) 伊藤さん「課題：熟語のそれぞれの漢字を説明してくれるとよい？」
12:07 #spwit (12) 伊藤さん質疑。後でフォローします。それから (11) で @mushakei さんからツッコミいただいた件。あまり進んでないようですが長谷川先生のサイトがあるはず、とのこと。。
12:08 #spwit (13) 小宮さん「視覚障害者のための意味情報を用いた仮名漢字変換における説明語選択手法の検討」
12:10 #spwit (13) 小宮さん「スクリーンリーダによる文書作成。仮名漢字変換は欠かせない」デモ。変換キーを押して詳細読みで候補が読み上げられる。
12:12 #spwit (13) 小宮さん「例えばコウエンという語に同音異義語がたくさんある。正しく速く仮名漢字変換をしたい。提案：詳細読みではなく意味情報を説明につかう」
12:13 #spwit (13) 小宮さん「例えば「講演：演説、話す、スピーチ」。これまでの実験の結果。正解率と平均変換時間で有効性確認。連想しやすい説明語をいかに選ぶか」
12:15 #spwit (13) 小宮さん「説明語を自動選択したい。単語親密度に着目。NTTデータベースシリーズ。有効性を実験で検討」
12:17 #spwit (13) 小宮さん「説明語の単語親密度の分布。４〜７の高親密度が使われている。でも逆は成り立つのか？連想しやすさの評定実験」
12:18 #spwit (13) 小宮さん「問題例：「演劇」から「ドラマ、プレー、劇、芝居」などが「意味的に近くない、やや近い、、」などを評定」
12:20 #spwit (13) 小宮さん「単語親密度が低い：意味を知らない比率が上がる。変化の大きい親密度３〜４に着目。知らない率10%の閾値が親密度3.6」
12:22 #spwit (13) 小宮さん「「午後」と「後」は意味的に近くないと多数が回答。デジタル類義語辞典の定義が不自然？」
12:24 #spwit (13) 小宮さん「「後」には「観点：場所」と「観点：時刻」の両方がある。観点付き単語は除外すべき」「「早熟」と「ひねる」も近くないと回答。「ひねた子供」と「ねじる」の多義性」
12:25 #spwit (13) 小宮さん「「ひねる」の親密度5.7は「ねじる」の意味での得点だと思われる」
12:27 #spwit (13) 小宮さん「課題：音声による実験など、詳細読みとの併用」
12:45 #spwit 終了。とりあえず会場かたづけます。ボイスレコーダで録音したので後で聞き返してフォローします。
20:23 新幹線にて今日の研究会の録音を聞き直した。いまさらツイッターって気がしないので中継が抜けたところは後でブログに書きます。誰か私の発表と司会の間だけ中継を手伝ってくれる人を緩募。。
20:27 最近買い換えたボイスレコーダー、三洋ICR-PS503RM。三洋の操作系に慣れている私には使いやすい。再生ボタン連打でちょっと巻き戻しができることにいま気付いた。

以下、生中継できなかったところの補足：

(10) 西本の発表に対する質疑。発表概要は別途このブログに書く予定。

ターゲットと妨害音声のSNRの定義の確認
混合法で数字の桁ごとに話者が変わるとどうなる？やっていないが、難しい課題になりそう
同じ話者の妨害音声を破る側が用意できたら話者認識によって何かできそう？ターゲット音声の話者はもともと不特定話者のつもり。
妨害とターゲットの話者が同じだったら？コーパスがないのでやっていないが、人間にも機械にもおそらく不利
被験者が女性の場合は男性音声の聞き分けが苦手、逆もあり、という現象の可能性？
ユーザ登録で入力された名前を使って妨害音声を作るCAPTCHAの可能性？機械が妨害音声をコントロールできてしまうと破る側に悪用されるかも
破る側と守る側に分かれてコンペをすればよいと思う

(11) 大墳さん質疑：

カメラによるテレサポートを自動化できるか？画像を写すためにカメラの向きを変えてもらう必要がある。やりとりが必要。
MITのシックスセンスというシステムがある。カメラ画像を認識してネット情報を検索する拡張現実。同じようなことができるかも。
健常者の読み書きは？仮名文字。赤外線で通信されるのは仮名の文字コード。
センサーを2つずつ3回で呈示するのはなぜ？指と違って体では同時に多くの振動を認識できない。３点ｘ２回の方が「母音」「子音」に対応するのでは？
次の文字とタイミングが重ならないのか？文字ごとに空き時間を作っている。
段や文字の呈示スピード？熟練度に応じて変更。
「打ちはじめ」を知らせては？これから送る、という合図の信号は使っている。ずっと待っているのは疲れる。

(12) 伊藤さん質疑：

男→田・力のような説明辞書をどう学習？田→口・十のような階層的データを作りたい。触覚とコラボしたい。
わかっているが確認したい文字、という使い方？
詳細読みで区別がつかない場合の呈示に役立つのでは？
IMEで詳細読みを理解して入力ができる人が対象ユーザ？第２水準の文字など、形だけ知りたいというニーズがある
文字を拡大して表示するのは？弱視の人を対象。弱視の人も音声を好むかも？

(13) 小宮さん質疑：

詳細読みと意味情報のそれぞれの利点と欠点？わからなくなったときにリカバーしにくいことはないか？
詳細：「週刊」「週間」一文字目が同じ。一文字目がわからないと区別ができない。詳細読みが苦手なケース。
意味：カタカナ語や聞き慣れない語が出現するのが欠点。固有名詞に対応しにくい。
詳細：他の語では使わない難しい漢字が存在する
意味：前の発表の実験の手順？二字の熟語を呈示
MS-IMEの同音異義語の意味ヒントの音声化と似た効果？
日本語の語彙特性データベースは「語を知っているか」の尺度。意味の一義性とのミスマッチで苦労している？
前提は「連想しやすい＝類義語」。主観的な選択ではなく基準を作りたい
どのデータから何がわかり、どんなフローで何をフィルタリングするか、整理していくとよい？