机器人策略正在经历从视觉-语言-行动模型到世界-行动模型的重要转变。NVIDIA 发布的技术文章系统梳理了这一新兴范式的核心概念与发展路径。WAM 从预训练的世界模型或视频骨干网络出发,学习预测场景随时间的变化并输出相应行动。
与直接从视觉-语言模型适配为机器人策略的 VLA 模型不同,WAM 利用视频生成模型或世界模型的强大先验知识来理解物理世界的动态变化。NVIDIA Cosmos 世界基础模型系列为这一方法提供了坚实基础。
文章详细介绍了 WAM 涉及的关键技术,包括:逆动力学模型从当前和未来观测推断行动、联合预测同时预测未来观测和行动、扩散 Transformer 用于动作生成,以及混合 Transformer 架构处理不同模态。这些方法正在弥合语言理解与物理行动之间的差距,为更智能、更可靠的机器人系统铺平道路。
WeChat
Profile