超巨大ニューラルネットの継続学習への型破りな線形代数技術の適用
【研究キーワード】
深層学習 / 2次最適化 / 継続学習 / クロネッカー因子分解 / H行列 / 2次最適化 / 分散深層学習 / 線形代数ライブラリ / GPU
【研究成果の概要】
最近の深層ニューラルネットワーク (DNN) の傾向を見ると、個々のタスクに特化した小規模なモデルを皆が冗長に学習するのではなく、大規模なモデルを用いて様々なタスクを一元的かつ継続的に学習する方向に向かっている。本研究では、このような超巨大ニューラルネットの継続学習を行う際に用いられるフィッシャー情報行列を高速に計算する方法を開発する。2021年度は、「分散並列二次最適化の BERT-Large への拡張」と「H 行列の GPU 実装と深層学習への応用」を計画当初の目標として掲げていたが、これらの目標は概ね達成できたといえる。分散並列二次最適化の BERT-Large への拡張に関しては、畳み込みニューラルネット(CNN)などよりも構造が単純なTransformerベースの BERT モデルは二次最適化に必要なフィッシャー行列のクロネッカー因子分解による近似が容易であり、BERT-Large への拡張は問題なく行うことができた。また、H 行列の GPU 実装に関しては、BLASのライブラリをcuBLASに置き換えることで高性能な GPU 実装が実現できた。H 行列では無数の小さな行列が生じるため batch 処理が必要になるが、これも MAGMA などのライブラリに標準的に実装されている機能であり、行列積だけでなく行列分解などの GPU 実装も行うことができた。深層学習への応用に関しては、2020年度に行った検証実験において、対角+低ランク行列によって作られるフィッシャー情報行列は階層的に分割した場合に非対角ブロックが低ランクになることが確認されており、この原理を応用することで大幅な高速化を実現することができた。クロネッカー因子分解ではO(N^1.5)の計算量になるが、H 行列分解はO(N)の計算量になることが実証できた。
【研究代表者】
【研究分担者】 |
Khan Emtiyaz | 国立研究開発法人理化学研究所 | 革新知能統合研究センター | チームリーダー | (Kakenデータベース) |
大島 聡史 | 名古屋大学 | 情報基盤センター | 准教授 | (Kakenデータベース) |
伊田 明弘 | 国立研究開発法人海洋研究開発機構 | 付加価値情報創生部門(地球情報基盤センター) | 副主任研究員 | (Kakenデータベース) |
|
【研究種目】挑戦的研究(開拓)
【研究期間】2020-07-30 - 2023-03-31
【配分額】25,350千円 (直接経費: 19,500千円、間接経費: 5,850千円)