成果概要
誰もが自在に活躍できるアバター共生社会の実現[2] 自在音声対話の研究開発
2024年度までの進捗状況
1. 概要
音声認識・対話技術を発展させて、人間のようにホスピタリティの感じられる自律的な音声対話システムを実現するとともに、アバターが操作者の意図や状況に応じて、遠隔操作対話と自律対話を臨機応変に切り替えられる自在対話技術を開発します。高齢者の傾聴対話、案内・プレゼンテーション、就職面接対話、相談・カウンセリング、接客・営業などの応用場面を想定して、システムを開発します。
本研究開発は、本プロジェクトにおいて、音声言語による対話処理の高度化を担っています。対話システムは近年高度化を遂げていますが、基本的には静かな環境で画一的な知識レベルのやりとりにとどまっています。本研究開発では、店舗や公共空間などの実環境で頑健に動作する音声処理と、自然な相槌や共感的な応答を含む言語・対話処理に取り組んでいます。さらに、アバター技術との迅速かつシームレスな切替えに必要な対話制御や要約の処理についても研究を行い、これらを統合したシステムとCGアバター操作環境を開発します。全体像を図1に示します。

2. これまでの主な成果
音声処理
- ① 従来のシステムが1名のユーザを想定しているのに対して、複数人が自然に対話できるシステムを開発・実装し(図2)、家族連れなどを対象とした実証実験において円滑に対話ができることを確認しました。

- ② 音声合成の品質評価は従来人手で行われていましたが、自動評価するシステムを開発し、国際コンテストVoiceMOS Challengeで1位となりました。
言語・対話処理
- ① 音声をリアルタイムに処理して応答を生成するために、テキストを介しないspeech-to-speechモデル (J-Moshi)を構築しました。また、自然な相槌を生成するモデルも大規模機械学習に基づき改良しました。
- ② 従来の対話研究が1対1の対話を主に想定しているのに対して、人間関係を含めた多人数の対話をモデル化するために、家族や知合いどうしも含まれる大規模なチャットコーパスを構築しました。

統合システムとCGアバター操作環境
- ① 自然性の高いCGアバター(図3)、及び自律システムと遠隔操作の両方で動作するソフトウエア環境を改良しました。また、操作者の音声からアバターの動作を生成するシステムを作成しました。さらに、相手の音声に対して自動的に頷きを生成する研究も行いました。
- ② 5名相手に同時並列に傾聴するシステムを作成し、動作を確認しました。操作者が介入することによって、自律システムのみの場合と比べて、共感に関する評価が高くなる効果について確認しました。
- ③ 6名相手に説明・ガイドを行うシステムを作成し、水族館において1カ月間実証実験(図4)を行い、2名のオペレータで十分に対応できることを確認しました。

3. 今後の展開
実用的な環境で動作するレベルの要素技術が開発でき、その多くが統合システム(会話ロボットやCGアバター)に組み込まれています。今後は、議論や人間関係の構築の支援を想定して、複数人が関わる対話を想定して研究を進める予定です。