Discovery Sagaサイレントキーワード俯瞰

強化学習 / 深層学習 / ゲーム / 深層強化学習 / モデルベース

部分観測環境における深層強化学習における報酬設計の問題に対処するため、部分観測環境における教師なし強化学習のアルゴリズムの開発を行った。具体的には、部分観測性に対処するための記憶機構、および相互情報量に基づいた内発的報酬を設計した。本内発的報酬は、観測情報が限られている状態空間を優先的に探索し、有効な記憶を学習することを可能にする。実験では、外部報酬を使用せずに、部分観測環境において有益な方策を学習することに成功した。
強化学習の問題点の一つとして、学習時に見たことがない未知の環境においてエージェントの性能が大きく低下することが知られている。その問題に対処するため、行動類似性に基づく潜在状態表現を利用することで、モデルベース強化学習の汎化性能を向上させる手法の開発を行った。提案手法を背景画像が変化する環境における連続行動空間の制御タスクに適用し、汎化性能の検証を行なったところ、一部のタスクにおいて汎化性能の向上が見られた。
深層強化学習における報酬設計の問題に対処するため、これまでに様々な内発的報酬の仕組みが提案されている。本研究では、状態遷移の予測不可能性と、状態の新規性をベースにした内発的報酬を組み合わせることで、noisy-TV problem と呼ばれる、ランダムな状態遷移が継続して起きる状況にエージェントがトラップされる問題の解消を試みた。実験の結果、探索が難しいとされるベンチマークでの性能向上を確認し、新規性ベースの内発的報酬と組み合わせることで noisy-TV problem を緩和できることを確認した。

軌道最適化 / 深層強化学習 / 動作計画 / 深層学習 / ニューラルネットワーク / 強化学習

本研究では，実ロボットに適用可能な，複雑な軌道を計画する方法を学習することのできる階層型深層強化学習アルゴリズムの開発することを目標としている．本研究においては，タスクを実行するための多様な解を見つけ出し，それぞれをオプションとして使い分けることで，複雑な軌道を計画することを目指す．提案するシステムの実現には，多様な軌道を学習し，一つのニューラルネットワークでモデル化することが必要になる．
3年目となる当該年度では，多様な解を同時に学習する深層強化学習アルゴリズムを開発した．2年目までに開発したアルゴリズムは軌道計画を対象としていたが，当該年度に開発したアルゴリズムは制御系への適用などが可能であり，より汎用性の高いものになる．提案手法では，解の多様体に対応する潜在変数を学習するため，潜在変数と状態変数および行動変数の間の相互情報量を最大化する問題として，問題を定式化した．提案アルゴリズムでは，潜在変数を切り替えると挙動が変わるニューラルネットワークを得ることができる．提案するアルゴリズムは，歩行動作や食事介護タスクなどに適用できることがシミュレータ上で確認され，一つのタスクに対して様々な解を見つけられることが示された．また，学習された多様な挙動を使い分けることにより，タスクの条件が変化した際にも少ない試行で適応できることが確認された．例えば歩行タスクにおいては，多様な歩行動作を学習した後，足の長さなどが変化した場合でも，学習済みの歩行タイプの中から使用可能なものを同定することで，少ない試行で適応できることが示された．