Behavioral cloning 能够得到很好的 policy。
3DReacher
DeepFollower
circles_path
Behavioral cloning 训练的 policy 存在累积误差。