机器之心PRO · 会员通讯 Week 16
本周为您解读 ②个值得细品的 AI Robotics 业内要事
1. 探索 Action Sapce,VLA 在如何演化?
VLA 目前有哪些主要研究方向,需要解决哪些关键挑战?在 VLA 的关键问题及研究路径上,业界有哪些共识与非共识?...
2. 5 亿月活用户的 OpenAI ,有哪些「软肋」?
Sam Altman 如何回应 OpenAI 的版权问题?在安全实践上被评为「D+」的 OpenAI 有哪些关键 「软肋」?AGI 时刻何时的到来是否真的能为人来带来好处?OpenAI 对人工智能安全性保证都有哪些实际上的动作?...
本期完整版通讯含 2 项专题解读 + 28 项本周 AI Robotics 赛道要事速递,其中技术方面 8 项,国内方面 10 项,国外方面 10 项。
本期通讯总计 18529 字,可免费试读至 8%
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读① 探索 Action Sapce,VLA 在如何演化?
从 Language Space 到 Action Space 的探索之路,VLA 在如何演化?
1、2025 年初,具身智能领域捷报频传,诸如 Figure AI、英伟达、智元机器人等具身智能公司及团队陆续发布产品 demo 和模型进展,众多 VLA 模型相继涌现,也让这种多模态模型受到许多关注。
① 许多 VLA 进展来自头部 AI 公司,如谷歌团队发布了 Gemini Robotics,英伟达于 GTC 发布了 Groot N1,微软则发布了 VLA 基础模型 Magma。
② 许多国内外创业团队同样发布了各自的 VLA 模型,如 Figure 发布了 Helix、银河通用发布了 GraspVLA、智元机器人则发布了 Go1 基座模型及 ViLLA 架构。
2、这些 VLA 模型在发布时均展示了其对机器人控制任务的优越性能,但由于不同模型各有特点,模型架构均有差异,引发业界开始关注「VLA」的特征和方案差异。
3、VLA(视觉语言动作模型)是在具身智能研究中产生的一种多模态模型,用于处理具身智能系统所面对语言条件机器人任务。谷歌 DeepMind 在 2023 年 7 月发布的 RT2 被认为是首个 VLA,而后这种概念在具身智能、机器人和智驾领域中迅速扩散。
① 具身智能被认为是实现 AGI 的有效路径,其特征在于涉及控制具身智能体在物理世界中执行任务,而机器人是则是具身智能中最为突出的研究领域。
② 在语言条件下的机器人任务中,策略必须具备理解语言指令、视觉感知环境和生成适当行动的能力,因而需要 VLAs 的多模态能力。
③ 与早期的深度强化学习方法相比,VLAs 在复杂环境中的多功能性、灵活性和泛化能力更强,因此它们不仅适用于受控环境(如工厂)中的任务,也适用于家庭日常任务。
④ 在 RT2 发布不久后,智驾公司 Wayve 团队在 2023 年 9 月提出了相似概念的视觉语言动作模型(VLAM),称为 LINGO1,可通过语言解释自动驾驶系统的行为逻辑。(详情请见 Pro 会员通讯 2023 年 Week 38 期)
4、作为一种新型的多模态模型,VLA 的概念在近年来不断得到探索,并发展出许多不同的技术方案。2024 年底,中科院自动化所的研究者在知乎文章中分享了他对 VLA 的思考,并尝试总结了各类 VLA 方案的特征。
① 该文章将 VLA 方案分为五种类别,分别是经典方案、基于预训练 LLM/VLM 的方案、基于扩散模型的方案、结合 LLM 与扩散模型的方案和结合视频生成与逆动力学的方案。
表:各类 VLA 技术方案汇总[11]
5、在各类 VLA 方案中,Sergey Levine 的创业公司 PI、Figure AI 和智源机器人作为具身智能领域的知名创企,其相关先后发布了具身智能系统。这些模型因各自的能力特征引起了极大关注。[12]
6、π0 是 Sergey Levine 的 PI 团队在 2024 年 10 月提出的端到端 VLA,也被该团队称为「通用机器人策略」。[13]
① π0 由预训练的 VLM 作为基础骨干,采用了一种基于流匹配(flow matching)的扩散方法,加入独立的动作专家模块构成。