マルチエージェント深層学習による音声因子分解
【研究キーワード】
深層学習 / 音声認識 / 話者認識 / 話者分離 / 感情認識
【研究成果の概要】
前年度に「(A)音韻性と雑音の分離」と「(B)音韻性と話者性の分離」について、ある程度の性能向上が達成されたため、今年度はこれらを活用して、「(D)音源分離」の応用に着手した。より具体的には、これまで開発してきた波形ベースの音声信号処理システムをベースに、複数の話者の音声を分離する音源分離のフレームワークをまず構築した。そして、「(A)音韻性と雑音の分離」の成果をもとに、音源から雑音を除去する仕組みをこのシステムに追加し、雑音の影響に対して頑健な音声分離システムを構築した。既存のデータベースに雑音を重畳したデータを構築し、それを用いて評価を行った。従来法に比べ有意に高い性能を得た。この成果は、信号処理関連の国際会議IEEE APSIPA 2021に採択され、発表した。さらに「(E)言語認識、感情認識」において、まず感情認識に着手した。ここでは、まず、「(B)音韻性と話者性の分離」の成果に基づき、音声から音韻性と話者性を分離する、disentanglement(もつれをほどく)のフレームワークを構築し、残された成分を入力として感情の認識を行うシステムを開発する。今年度は、既存のデータベースを用いたベースラインを構築した。disentanglementには、オートエンコーダー(自己符号化器)を利用した声質変換を用いる方法を採用し、実装を行った。最終年度に評価を行う予定である。評価には、感情認識の分野で広く用いられているIEMOCAPデータベースを用いる予定である。
【研究代表者】