正文

谷歌DeepMind发布Gemini Robotics-ER 1.6

发布时间:3小时前

谷歌 DeepMind 发布 Gemini Robotics-ER 1.6,定位为机器人的高层推理模型,相比前代 ER 1.5 和 Gemini 3.0 Flash 在空间推理和多视角理解上有显著提升。模型已通过 Gemini API 和 Google AI Studio 向开发者开放,核心升级包括三项能力:

1. 指向(pointing)精度提升:可用于精确物体检测、计数、空间关系推理(如 "指出所有能放进蓝色杯子的物体 ")和运动轨迹规划,且能正确拒绝指向画面中不存在的物体

2. 多视角成功检测:机器人现在能综合多个摄像头画面判断任务是否完成,即使在遮挡或动态环境下也能保持准确

3. 新增仪表读取能力:可解读圆形压力表、垂直液位指示器和数字显示屏等多种工业仪表,通过 agentic vision(视觉推理 + 代码执行)实现逐步推理,先放大细节区域,再通过指向和代码计算比例与间隔,最后结合世界知识得出读数