Discovery Sagaサイレントキーワード俯瞰

本研究の目的は、深層モデルに適用可能な統計的推論法を開発することである。深層モデルには、層の数に関する複雑性とパラメータの膨大性という二つの特徴があり、それらを考慮した推論法を開発するという二つの困難さがある。また層の数に関する技術的課題には、線形モデルやガウス性を用いた近似を解する方法と、深層構造を直接制御する二つの方策がある。これらの方針のもとで以下のような研究の進捗を得た。
1. 線形性やガウス性を用いた近似による深層構造の解析：この方針に基づく解析では、深層モデルを含む一般の(非線形)損失関数を線形近似し、そのモデルの確率的変動をヘッセ行列のスペクトル行列を用いて評価した。この時のヘッセ行列の各要素は従属する場合があるため、その場合に適合するランダム行列理論を用いて評価を行った。結果として、一定の仮定の下での挙動の記述に成功したが、仮定を満たす例が非自明であるため、その部分の解析を進めている。
2. 深層構造を直接制御する解析：この方針では、非凸損失関数の形状と確率的な学習アルゴリズムの性質を考慮し、アルゴリズムが出力するパラメータが止まる集合を特定し、さらにその下でのパラメータ行列の各層ごとのスペクトルを用いて、深層モデルの確率的挙動を記述した。結果として、損失関数の平坦な形状がパラメータの誤差に影響を及ぼすという理論を構築した。
3. 膨大なパラメータの解析：この項目については、いわゆる過剰パラメータの理論の一つである良性過適合の理論に注目し、これらを時系列データやベイズ推定に応用した。結果として、長期記憶を持つような従属データの元でも良性過適合が起こることや、特殊な事前分布に基づくベイズ推定が良性過適合の性質を引き継ぐ事後分布を構成することを明らかにした。