顔形状復元によるデータ生成と自己教師型補助タスクに基づく視線推定器のドメイン適応
【研究キーワード】
視線推定 / コンピュータビジョン / 機械学習 / ドメイン適応
【研究成果の概要】
本年度は、顔形状の3次元復元に基づく学習データ生成手法について実験的な検証を進めた。視線推定モデルの学習に用いる顔画像データは人物や照明条件、頭部姿勢など様々な点で多様な情報を含むことが求められるが、全ての要求を満たすデータセットを構築することは難しい。本研究では、通常の視線推定データセットに含まれる視線方向アノテーション付きの単眼画像から顔形状を復元し、それを回転させることで擬似的に頭部姿勢と視線の範囲を広げるアプローチに取り組んだ。顔形状復元モデルが出力する顔形状をカメラ座標系に合わせ、整合性を保ったまま視線方向真値ラベルを回転させるための定式化について議論した上で、背景や顔領域の明るさを変更するデータ拡張や、生成した顔領域に相当するマスク画像を補助的に学習に用いる手法を提案した。本研究のアプローチにより、元のデータセットに含まれない頭部姿勢を持つ入力画像に対する視線推定性能が向上し、既存の学習データ生成手法を用いた場合を大きく上回る性能が得られることを示した。
また、視線推定モデルのドメイン適応のために、特徴分離を行う手法についても検討を行った。視線推定モデルの内部で入力顔画像から特徴を抽出する際に、視線、頭部姿勢、それ以外のアピアランスに関連する各特徴を分離するようネットワークを学習する。特徴を入れ替えた際にデコーダにより生成される画像に対する複数の損失関数を組み合わせることでこれを実現している。このような特徴分離を行うことで、適応対象のドメインで擬似ラベル学習を行う際の性能が向上する可能性を確認した。
【研究代表者】
【研究種目】基盤研究(C)
【研究期間】2021-04-01 - 2024-03-31
【配分額】4,160千円 (直接経費: 3,200千円、間接経費: 960千円)