人の発声機構を考慮した話者固有の情報の抽出と話者照合への応用に関する研究
【研究分野】知覚情報処理
【研究キーワード】
話者照合 / 特徴抽出 / 深層学習 / 特徴表現学習 / 深層ニューラルネットワーク / 音声合成
【研究成果の概要】
話者性と音韻性は分離可能であると仮定し,音韻の影響を受けない話者表現を得るためのニューラルネットワークを構築することを試みた.その成果として,音響特徴量から音韻性と話者性をフレーム単位で分離・抽出するディスエンタングリング・ニューラルネットワークの構築に成功した.発話単位で表出する話者情報をフレーム単位の特徴量に反映させるために統計的プーリングを導入し,特に識別の直前にプーリングを行うことの重要性を明らかにした.さらに,分離・抽出された各特徴量が各々話者および音韻の情報のみを含むように特徴抽出器を最適化するために,識別器のエントロピーに基づく損失を新たに導入しその有効性を明らかにした.
【研究代表者】
【研究協力者】 |
俵 直弘 | |
|
【研究種目】挑戦的萌芽研究
【研究期間】2016-04-01 - 2019-03-31
【配分額】3,380千円 (直接経費: 2,600千円、間接経費: 780千円)