深層学習によるマルチモーダル時系列データ認識基盤の構築
【研究分野】知覚情報処理
【研究キーワード】
知覚情報処理 / 音声情報処理 / 動画情報処理 / 深層学習
【研究成果の概要】
本研究では深層学習を用いてマルチモーダル時系列信号を高精度に認識することを目的とした。深層学習におけるEnd-to-End学習方式、少ないデータ量でも動作する深層モデル、マルチタスク学習、耐ノイズ認識などの手法を開発した。特に、音源分離と音声認識の同時学習、音声からの認知症診断、口唇画像を用いたマルチモーダル認識、耐雑音音声認識、の4つのテーマについてこれらの技術を適用し、各々の応用において、識別性能、検出性能を改善することができた。
【研究の社会的意義】
深層学習はこの十年ほど画像認識や音声認識の標準的な技術となった。しかしながら、人間のもつ事前知識の活用、周囲環境の違いや話者の違いなどによる性能の劣化、学習のための大量のデータが得られない応用への適用、などの点においてまだ課題が多い。本研究では、これらの問題を解決する鍵となる、End-to-End学習、少ないデータからの効率的なモデル学習、マルチタスク学習、耐ノイズ認識の方式を提案し、一定の成果を得ることができた。これらの成果は実社会における様々な問題に対して容易に適用可能である。
【研究代表者】
【研究分担者】 |
井上 中順 | 東京工業大学 | 情報理工学院 | 助教 | (Kakenデータベース) |
岩野 公司 | 東京都市大学 | メディア情報学部 | 教授 | (Kakenデータベース) |
|
【研究種目】基盤研究(B)
【研究期間】2016-04-01 - 2019-03-31
【配分額】15,990千円 (直接経費: 12,300千円、間接経費: 3,690千円)