Google新机器人AI可在没有云情况下运行,并仍可系鞋带
我们有时将 Gemini 和 ChatGPT 等聊天机器人称为“机器人”,但生成式 AI 在真实的物理机器人中也发挥着越来越大的作用。在今年早些时候宣布 Gemini Robotics 之后,Google DeepMind 现在推出了一种新的设备上 VLA(视觉语言动作)模型来控制机器人。与之前的版本不同,它没有云组件,允许机器人完全自主运行。
Google DeepMind 机器人技术负责人 Carolina Parada 表示,这种 AI 机器人技术方法可以使机器人在具有挑战性的情况下更加可靠。这也是 Google 机器人模型的第一个版本,开发人员可以根据其特定用途进行调整。
机器人技术是 AI 的一个独特问题,因为机器人不仅存在于物理世界中,而且还会改变其环境。无论您是让它四处移动积木还是系鞋带,都很难预测机器人可能遇到的每一种可能性。使用强化训练机器人动作的传统方法非常缓慢,但生成式 AI 允许更大的泛化。
“它借鉴了 Gemini 的多模态世界理解,以完成一项全新的任务,”Carolina Parada 解释说。“这使得 Gemini 能够以同样的方式生成文本、写诗、总结一篇文章,还可以编写代码,还可以生成图像。它还可以生成机器人动作。
通用机器人,无需云
在之前的 Gemini Robotics 版本(仍然是 Google 机器人技术的“最佳”版本)中,这些平台运行了一个混合系统,其中一个小模型在机器人上,一个较大的模型在云中运行。您可能已经看到聊天机器人在生成输出时“思考”了可测量的几秒钟,但机器人需要快速反应。如果您告诉机器人拾取并移动对象,则不希望它在生成每个步骤时暂停。本地模型允许快速适应,而基于服务器的模型可以帮助完成复杂的推理任务。Google DeepMind 现在正在将本地模型作为独立的 VLA 发布,而且它非常强大。
新的 Gemini Robotics On-Device 模型的准确性仅比混合动力版本差一点。根据 Parada 的说法,许多任务都是开箱即用的。“当我们与机器人一起玩时,我们看到它们能够理解新情况的能力出奇地大,”Parada 告诉 Ars。
通过发布带有完整 SDK 的模型,该团队希望开发人员能够为 Gemini 驱动的机器人提供新任务,并向它们展示新环境,这可能会揭示与模型的库存调整不起作用的作。借助 SDK,机器人研究人员将能够通过低至 50 到 100 次演示使 VLA 适应新任务。
新的 Robotics On-Device 模型几乎与具有云处理功能的混合模型一样具有适应性。来源: 谷歌
AI 机器人的“演示”与 AI 研究的其他领域略有不同。Parada 解释说,演示通常涉及远程作机器人 — 手动控制机器以完成任务,调整模型以自主处理该任务。虽然合成数据是 Google 培训的一个元素,但它并不能替代真实数据。“我们仍然发现,在最复杂、最灵巧的行为中,我们需要真实的数据,”Parada 说。“但是,你可以用仿真做很多事情。”
但这些高度复杂的行为可能超出了设备上的 VLA 的能力范围。它应该没有问题,可以进行简单的作,例如系鞋带(AI 机器人的传统困难任务)或折叠衬衫。但是,如果您想让机器人为您制作三明治,则可能需要一个更强大的模型来完成将面包放在正确位置所需的多步骤推理。
该团队认为 Gemini Robotics On-Device 非常适合与云连接不稳定或不存在的环境。在本地处理机器人的视觉数据也更有利于隐私,例如,在医疗保健环境中。
构建安全的机器人
安全始终是 AI 系统关注的问题,无论是提供危险信息的聊天机器人还是成为终结者的机器人。我们都见过生成式 AI 聊天机器人和图像生成器在其输出中产生幻觉,为 Gemini Robotics 提供支持的生成系统也不例外——该模型并非每次都做对,但给模型一个带有冰冷、无情的金属抓取器的物理体现会使问题变得更加棘手。
为了确保机器人安全运行,Gemini Robotics 采用了多层方法。“使用完整的 Gemini Robotics,您正在连接到一个模型,该模型正在推理什么是安全的,”Parada 说。“然后你让它与实际产生选项的 VLA 交谈,然后 VLA 调用一个低级控制器,该控制器通常具有安全关键组件,例如您可以移动多少力或可以移动这个臂的速度。”
重要的是,新的设备端模型只是一个 VLA,因此开发人员将自行构建安全。不过,谷歌建议他们复制 Gemini 团队所做的。建议早期测试程序中的开发人员将系统连接到标准 Gemini Live API,其中包括一个安全层。他们还应该实施一个低级控制器,用于关键的安全检查。
任何有兴趣测试 Gemini Robotics On-Device 的人都应该申请加入 Google 的可信测试员计划。Google 的 Carolina Parada 表示,过去三年中,机器人技术取得了许多突破,而这仅仅是个开始——Gemini Robotics 的当前版本仍然基于 Gemini 2.0。Parada 指出,Gemini Robotics 团队通常落后于 Gemini 开发一个版本,而 Gemini 2.5 被认为在聊天机器人功能方面取得了巨大改进。也许机器人也会如此。

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码