谷歌最強具身大腦發布!波士頓機器狗瞬間人模人樣

谷歌最強具身大腦發布!波士頓機器狗瞬間人模人樣

文章圖片

谷歌最強具身大腦發布!波士頓機器狗瞬間人模人樣

文章圖片

谷歌最強具身大腦發布!波士頓機器狗瞬間人模人樣

文章圖片

谷歌最強具身大腦發布!波士頓機器狗瞬間人模人樣

文章圖片


henry 發自 凹非寺
量子位 | 公眾號 QbitAI
剛剛 , Google DeepMind發布了最新的機器人推理模型——
Gemini Robotics-ER 1.6 。
搭載它的波士頓動力機器狗Spot , 現在能走到工廠里的壓力表前 , 停下來 , 讀出數字 。 精確到刻度以下 。
機械臂面對操作任務時 , 也能判斷什么時候開始 , 什么時候算完成 。
說起來 , 這已經是Gemini Robotics主打空間推理的第三代模型 。
九年前谷歌把波士頓動力賣掉 , 今年CES剛宣布重新合作 , ER 1.6就是這次新開始的第一個正式成果 。
掌門人哈薩比斯也是第一時間轉發了 。

【谷歌最強具身大腦發布!波士頓機器狗瞬間人模人樣】ER 1.6的定位是機器人的高層大腦 , 不直接控制機械動作 , 而是負責理解環境、制定計劃、調用工具——
谷歌搜索、VLA、或者開發者自己定義的任何函數 , 都可以直接調用 。
相比上一代ER 1.5和Gemini 3.0 Flash , 新模型在空間推理、物體計數、任務成功檢測上均有顯著提升 。
還多了一個全新能力 , 讀儀表 。

Gemini Robotics-ER 1.6在技術博客中 , Laura Graesser和Peng Xu兩位作者開篇寫道:
機器人要真正有用 , 就必須不只是執行指令 , 而是要對物理世界進行推理 。
ER 1.6的核心升級圍繞一件事 , 讓機器人真正「看懂」它所處的環境 。
儀表識別先看Spot在工廠里做的那件事 。
工業設施里有大量儀器需要持續監控 , 溫度計、壓力表、化學視鏡 。 以前Spot能走過去拍一張照片 , 但看不懂上面的數字 。
ER 1.6讓這件事變了 。
模型讀儀表分三步 。 先放大 , 把小刻度看清楚;再用Pointing定位指針和刻度 , 結合代碼計算比例;最后調用世界知識 , 把數字解釋成有意義的讀數 。
這套組合的效果 , ER 1.5的儀表識別成功率是23% , 加上Agentic Vision之后 , ER 1.6達到了93% 。

波士頓動力Spot副總裁Marco da Silva表示:
儀表識別等能力和更可靠的任務推理 , 將使Spot能夠完全自主地觀察、理解并應對現實世界的挑戰 。
Pointing , 空間推理的基石儀表識別能做到這一步 , 背后是Pointing能力的支撐 。
Pointing是ER模型從初代就在練的基本功 。 簡單說 , 就是讓模型用「點」來表達它對空間的理解 , 哪里有什么 , 有幾個 , 怎么移動 , 抓哪里最合適 。
ER 1.5在這一任務上表現不佳:給它一張工具圖 , 它數錯了錘子數量 , 漏掉了剪刀 , 還把圖里根本不存在的手推車給「指」了出來 。
ER 1.6則能把這些全部答對 , 錘子2把、剪刀1把、畫筆1支、鉗子6把 , 一個不差 。 更關鍵的是 , 對于圖里沒有的東西 , 它知道不去指 。
成功檢測 , 知道什么時候停ER 1.6還有一個升級 , 成功檢測 。
知道任務何時結束 , 和知道如何開始 , 同樣是自主性的核心 。
以前的系統 , 做完一個動作就算完了 。 但真實場景里有遮擋、有光線變化、有模糊指令 , 「做完了」這件事本身就需要判斷 。
ER 1.6強化了多視角推理 , 機器人通常有多個攝像頭 , 頭頂一個、手腕一個 , 系統需要把這些視角合并成一個連貫的判斷 。
比如開頭的那個demo:把藍色筆放進黑色筆筒 , 任務完成了嗎?
ER 1.6能從多個角度的畫面里 , 給出一個可靠的答案 。
順帶一提 , 這也是谷歌迄今最安全的機器人模型 。
在對抗性空間推理任務里 , ER 1.6對安全指令的遵循程度優于所有前代版本 。
不處理液體、不搬運超過20公斤的物體 , 這類物理安全約束 , ER 1.6能通過Pointing等空間輸出做出更準確的判斷 。

在基于真實傷害報告的安全隱患識別測試里 , ER系列比Gemini 3.0 Flash高出6%(文字場景)和10%(視頻場景) 。
谷歌與波士頓動力看到Spot , 你可能會好奇 , 為啥谷歌要用波士頓動力的狗?
事情是這樣的:
谷歌2013年收購波士頓動力 , 2017年賣給軟銀 , 理由是看不到商業閉環 。
2020年現代汽車以8.8億美元接盤 。 然后2025年11月 , 波士頓動力的前CTO Aaron Saunders離職 , 加入了谷歌DeepMind 。
2026年1月CES , 兩家在現代汽車的發布會上宣布正式合作 , 目標是把Gemini Robotics部署到Atlas人形機器人上 。

賣出去九年 , 又回來了 。
哈薩比斯的說法是 , 谷歌不做硬件 , 要成為「機器人領域的Android」 , 給所有機器人廠商提供大腦 。
這次ER 1.6發布 , 署名了兩位作者 , Laura Graesser和Peng Xu 。
Laura Graesser是牛津本科、NYU碩士出身 , 2018年加入Google , 2023年至今在DeepMind做機器人研究 , 還合著過一本強化學習教科書《Foundations of Deep Reinforcement Learning》 。

她早期的研究方向之一 , 是讓機器人打乒乓球 , 系統需要在100毫秒內完成感知、計算和擊球動作 。

Peng Xu是DeepMind機器人基礎模型方向的研究員 , 專注機器人學習與大模型的結合 , 不僅參與過上面的機器人打乒乓球 , 也是RT-1、RT-2、Cap(Code as policy)、Gemini robotics等一系列著名工作的作者之一 。

參考鏈接[1
https://deepmind.google/blog/gemini-robotics-er-1-6/[2
https://deepmind.google/models/gemini-robotics/gemini-robotics/
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀