就在不久前,Google Deepmind正式推出了面向物理世界的运算模型Gemini Robotics,意味着他们在机器人应用上的更进一步。

根据Google的介绍,具体推出的模型有二:
- Gemini Robotics 1.5:Google目前最强的视觉-语言-行动(VLA)模型。它能把视觉信息与指令转化为机器人执行任务所需的电机控制指令。该模型会先思考再行动,并以可见过程展示其推理,帮助机器人更透明地评估与完成复杂任务。同时,它还能跨不同形态的机器人进行学习,加速技能迁移。
- Gemini Robotics-ER 1.5:则是Google最强的视觉-语言模型(VLM),用于具身推理。它能够理解物理世界、原生调用数字工具,并为任务生成细致的多步骤计划。该模型如今在多项空间理解基准上达到了最新 SOTA 水平。
Gemini Ronotics ER 1.5被视为是“高层大脑”,负责统筹机器人的活动、评估、决策、进行语言交互等等,其后将自然语言指令交给Gemini Robotics 1.5,后者透过视觉和语言理解来进行动作,也会透过思考指令、理解并解释思考过程等,更像是负责“执行”的模型。
根据Google的说法,这个Gemini Robotics 1.5是“通往物理世界AGI”的重要里程碑,其重要的关键点在于这个算法不只是单纯的针对指令作出反应,而是能够去推理、规划、主动使用工具的系统,也就是说,这样的AI能够让机器人更为自主的行动,而不是单纯的说一步动一步。

其中,Gemini Robotics-ER 1.5能够“体化认知”,简单来说就是像人类一样用自己的身体与这个世界进行认知,并表示在学术和内部评测基准中获得了“State of the art”(SOTA)级别的思考能力,能够很好的在现实世界运作。
也强调Gemini Robotics重视的是“行动前思考”,Google以“按颜色分类衣物”这个命令为例,机器人除了会依照命令形式意外,也会思考步骤规划以及进行这个动作的细节,会将长任务分解为各种更短的多个小任务,来提升成功率、以及适应环境的变化等。
另外,这次的AI模型还能将学习的成果从一个机器人迁移到另一个机器人身上,进而加速学习,同时Google也强调会强调机器人的安全性,以及确保与人类能够友好尊重的对话等。

