ICLR 2020 Deep Imitative Models for Flexible Inference, Planning, and Control 模仿学习产生的行为策略灵活性有限,无法在测试时适应新的目标。相比之下,基于模型的强化学习(MBRL,model-based reinforcement learning)可以从数据中学到预测动力学模型(predictive dynamics model),并规划任意的目标。本文提出了“模仿模型”,结合模仿学习和MBRL的优势。模仿模型是概率性预测模型,能够规划实现任意目标的可解释的类似专家的轨迹。在MBRL中,对其推断类似于轨迹优化,对其学习类似于模仿学习。 该方法的性能在动态模拟的自动驾驶任务中性能明显优于六个直接模仿学习方法和MBRL方法,并且它可以从一组固定的专家操作高效地学习而无需在线收集其他数据。