开发自动驾驶策略需要弥合训练与部署之间的关键鸿沟。视觉-语言-动作(VLA)模型能够利用互联网规模的图文数据预训练,再通过驾驶数据进行微调,展现出在驾驶场景中理解和行动的能力。然而,传统的开环训练方式——模型在静态数据集上学习预测正确的驾驶动作——无法让模型体验自身决策的后果,导致在真实道路上面临分布偏移时表现不稳定。NVIDIA Alpamayo正是为解决这一挑战而设计,它是一个闭环训练框架,让自动驾驶策略模型在逼真的仿真环境中不断试错和学习。
Alpamayo的工作流程包括三个阶段:首先在真实驾驶数据上进行开环预训练,使模型具备基础的感知和驾驶能力;然后在NVIDIA Omniverse构建的高保真仿真环境中进行闭环策略学习,模型在仿真器中自主驾驶并接收奖励信号,通过强化学习优化驾驶策略;最后将训练好的策略迁移到真实车辆上进行验证和微调。通过在仿真环境中经历数百万英里的驾驶体验,包括各种边缘场景和危险情况,Alpamayo训练出的自动驾驶策略在安全性、流畅性和泛化能力上显著优于仅通过开环训练得到的模型。这一方法正在成为L3/L4级自动驾驶策略开发的标准范式,有效解决了仿真到现实(sim-to-real)的迁移鸿沟。
WeChat
Profile