具身智能领域正在经历范式转变。传统机器人策略学习依赖针对特定任务从头训练深度强化学习模型,不仅耗时且泛化能力有限。NVIDIA World-Action Models代表了一种新方法:从预训练的视觉-语言模型骨干网络开始,通过微调使其具备理解和执行物理世界动作的能力。这种预训练到微调的范式与NLP领域的基础模型革命一脉相承。
WAM将世界建模和动作策略统一在同一框架中。世界模型部分学习环境动态变化,动作策略部分基于世界模型的预测选择最佳行动。通过联合训练,WAM能在虚拟环境中进行计划、推理和执行,然后将策略迁移到真实机器人上。NVIDIA使用Isaac Sim和Omniverse生成大规模训练数据,结合域随机化技术确保泛化能力。WAM的优势在于预训练阶段可利用互联网规模的图文数据学习丰富的视觉语义知识,微调阶段只需少量真实机器人交互数据即可适配到具体任务。这一范式正在成为具身智能研究的主流方向。
WeChat
Profile