Henry Pulver , Francisco Eiras†, Ludovico Carozza, Majd Hawasly , Stefano V. Albrecht and Subramanian Ramamoorthy
安全な自動運転のための、模倣ネットワークとネットワークの計画を修正するオプティマイザで構成されるプランニングフレームワーク(PILOT, Planning by Imitation Learning and Optimisation at Training time)を提案する。最適化ベースのモーションプランニングは安全でスムーズかつ快適な計画を計算できる一方で、その計算コストの効率が問題になる。深層模倣学習により得られた素朴な軌跡は効率的な計算である一方で、その安全性を無視する可能性がある。PILOTはこれらのハイブリッドなアプローチである。最適な計画を模倣するネットワークにより効率的に初期の計画を計算する。そしてその計画を下に最適化を行うことにより、安全性や快適性を損なう可能性のあるOut-of-Distributionでの失敗や学習不足からのオンライン保護を行い、安全と快適性の要件を満たすことを保証する。PILOTはプランニングの質を損なうことなく、これまでの手法と比べて、実行時間の大幅な削減を達成する。
次の3つが経路計画に利用できると仮定する。
この仮定の下、次の最適化問題を解くことで自車両の経路計画を得ることを目的とする。
\(f\): discrete kinematic bicycle model、 \(x\): 位置、ヘディングと速度、\(u=(a, \delta)\): 制御入力、加速度とステアリング角、\(\mathcal{E}(x_k)\): 時刻kに自車両が有しているエリア(そのコーナー点で近似)、\(\mathcal{B} \subset \mathcal{R}^2\): 走行可能領域、\(S_k^{1:w}\): 他のユーザー\(w\)が有している楕円体の領域である。
Twostage optimization-based motion planner for safe urban drivingで提案された2s-OPTはこの最適化問題を2段階手法で解く方法である。簡単に言えば、2s-OPTはこの最適化問題を線形化しMixed-Integer Linear Programming(MILIP)ソルバーで解いた後、その解を初期解として改めてNonlinear Programing(NLP)オプティマイザで解く方法である。
PILOTはMILIPの代わりに、この最適化問題で得られる経路計画を出力する模倣ネットワーク\(\mathcal{N}_{\theta}^{2s-OPT}\)をNLPの初期解として使用する。
使われるネットワーク\(\mathcal{N}_{\theta}^{2s-OPT}\)は共変量シフトに適応するため、模倣学習の一つであるDAgger(Dataset Aggregation)アルゴリズムで訓練される(Algorithm 2)。具体的には2s-OPTなどの実行が高価なプランナーで最適な解を作成し、初期データセットのもとでネットワークを訓練する。そして得られたネットワークを用いてPILOTアルゴリズムをシミュレーター環境内で動かし、新しいデータを得る。新しいデータを含めたデータセットでネットワークの重みを逐次更新する。
PILOTで使われるネットワーク\(\mathcal{N}_{\theta}^{2s-OPT}\)のアーキテクチャを示す。CNNへの入力はChauffeurNetのような入力であり、現在時刻から未来の時刻Nまでの情報が含まれている。各チャンネルは静的な道路のレイアウト、その時刻の道路上のユーザー、ルートプランである。これらの情報はpath-based座標系で表現されている。初期速度などのパラメータはCNNで抽出された特徴とともに後段のFCNに入力される。ネットワークは経路計画をN個の位置\(p_i^{\theta} = \{ (x_j, y_j) \}_{=1,....,N}\)として出力する。
損失関数は次式である。
\[\mathcal{L}_{\theta}(\mathcal{D}) = \frac{1}{nN} \sum_{i \in \mathcal{D}} \| p_i^{\theta} - p_i^{*} \| + \mu \| \theta \|^2\]CALRA上で現実的な様々な条件を設定し提案手法を検証した。
20604個のプランニング問題を生成し、PILOTと2s-OPTを実行した。実行時間および最適化関数のコスト値で比較した結果、PILOTの実行時間が明らかに早く、~86%の時間を短縮することがわかった。コスト値の比較に置いては、2s-OPTが良い結果となったが、大きな劣化はなく5%以内にとどまった。
上限速度を超えていないか、入力加速度は制限範囲内か、物体にぶつかっていないか、キネマティクス的に実行できるかなどの最適化問題の拘束条件をPILOTとネットワーク\(\mathcal{N}_{\theta}^{2s-OPT}\)が満たすかどうかの評価を行った。評価の結果、PILOTがネットワーク単体よりも拘束条件を満たしており、オプティマイザがネットワークの間違いを修正していることがわかる。
簡単なヒューリスティックを用いたときの実行時間およびコストの変動を評価した。その結果ネットワークによる初期軌道が最適化問題を解く実行時間を減らすことがわかる。
None: 軌道の各位置を(0, 0)にする、ConstVel: 車両のヘディングを保ったまま一定速度で走ったときの軌道、ConstAccel/ConstDecell: ConstVelと似ているが、所定の加速度速度を保ったときの軌道。
最適化問題の拘束条件を満たすかどうかを確認した。PILOTの性能が上回っている。
エキスパートを模倣するネットワークに改良の余地がある。よりよい初期化を行うために
ことが考えられる。
未定