上交00后和團隊造出機器人眼球,讓機器人也有主動視覺系統

上交00后和團隊造出機器人眼球,讓機器人也有主動視覺系統

文章圖片

上交00后和團隊造出機器人眼球,讓機器人也有主動視覺系統

文章圖片


近日 , 上海交通大學楊佳澍和所在團隊開發出一款名為 EyeVLA 的機器人眼球系統 , 讓機器人擁有了真正的主動視覺 。

假設你想讓掃地機器人看看沙發下有沒有玩具車 , 有了 EyeVLA 機器人就可以靈活地調整視角和焦距 , 不需要湊進去看 , 這種能力讓機器人在許多實際任務中變得更加有用 , 比如可以在倉庫里不需要移動位置找貨、在工廠里檢查零件 , 甚至幫助老人在雜亂的環境中找到需要的藥品 。


(來源:https://arxiv.org/abs/2511.15279)

在一個測試里 , 楊佳澍等人讓機器人辨認一下放在盒子里的筆的品牌 。 普通的固定攝像頭根本無法拍攝到筆身的細節 , 而 EyeVLA 通過自動轉動和放大 , 讓筆身上的小字清晰可見 , 最終準確識別出了品牌 。

類似的應用場景還有很多 , 比如可以幫你找鑰匙和檢查窗戶是否關好 , 可以在工業流水線上識別細小的零件缺陷 , 可以協助藥師在藥店快速尋找目標藥品等 。


圖 | 楊佳澍(來源:楊佳澍)

無需人工引導或控制 , 只需給定指令即可自主完成觀察

EyeVLA 搭載了一個精巧的系統 , 讓機器人可以根據語言指令自主調整視角 , 這個系統主要由三部分組成:一個可以水平旋轉、垂直俯仰的 2 維云臺 , 一個可以變焦的攝像頭 , 以及一個智能大腦 , 這個大腦是一個經過特殊訓練的多模態大模型 , 能夠同時理解圖像、語言并生成具體動作 。

機器人的每個動作 , 比如向左轉 5 度、向上抬 3 度、放大 1.2 倍 , 都需要被轉換成計算機能夠理解的格式 。 楊佳澍等人設計了一種高效的動作編碼方式 , 把連續的動作數值分層編碼為基本的動作詞 , 就像我們使用字母拼成單詞一樣 。 這樣做的好處是 , 機器人可以使用更少的信息來表達更加精確的動作 , 同時有更強的語義性 , 便于模型學習 。

當你對機器人說請看清楚那個藍色盒子的標簽時 , EyeVLA 會首先分析這句話的含義 , 再結合當前攝像頭拍到的畫面 , 判斷該如何調整視角 。 它會自動計算出需要轉動多少角度、放大多少倍 , 才能讓標簽清晰地出現在畫面中心 。 這個過程是實時、連續和閉環的 , 就像我們使用時鼠標拖動電子地圖以及放大查看細節一樣自然 。

相關論文的第一作者楊佳澍告訴 DeepTech:“盡管近期有其他團隊使用云臺電機進行感知探索 , 但我們的系統在擴展性、可靠性及開放場景下的完全自主性方面具有明顯優勢 。 我們是首個在完全開放場景下基于變焦相機實現語言指令驅動視覺感知的系統 , 無需人工引導或控制 , 只需給定指令即可自主完成觀察 。 ”


(來源:https://arxiv.org/abs/2511.15279)

小到找鑰匙、大到醫療輔助均可使用

手動收集真機數據往往成本高昂 , 為了降低成本讓機器人學會這套視覺動作 , 楊佳澍等人使用了包含兩個階段的訓練方法 。

第一個階段是模仿學習 , 他們先是收集了少量真人操作機器的數據 , 記錄下真人在不同指令下是如何調整視角的 。 接著 , 利用這些數據批量合成了模擬數據 , 讓模型在虛擬數據中進行對齊 , 初步建立起語言、視覺、動作之間的關聯 。
【上交00后和團隊造出機器人眼球,讓機器人也有主動視覺系統】
第二個階段是強化學習 。 這時 , 模型開始在真實數據中試錯 。 每當做出一個動作 , 系統就會根據它是否看得清楚來給出獎勵或懲罰 。 這樣一來 , 就能在復雜場景中讓機器人逐漸學會做出更魯邦的視角調整 。

當前 , 我們大都習慣了使用手機拍照:手機會自動對焦和調整亮度 , 拍攝出來清晰的照片 。 但是 , 傳統的機器人視覺系統更像是一臺固定在三腳架上的老式相機 , 它只能從一個角度、一個距離拍攝 , 既不能轉動、也不能拉近拉遠 。

這就導致如果機器人要觀察的目標很小、或者離得很遠 , 它就很難看清楚 。 比如 , 想讓機器人看看書架第二層那本書的書名 , 如果書名字體很小 , 普通的機器人攝像頭可能只能拍攝出來一團模糊的像素 , 根本認不出來是什么字 。

而該團隊意識到 , 要讓機器人真正地看懂世界 , 就不能讓它被動地接收圖像 , 而是讓它主動地獲取詳細的信息 , 就像人類會轉頭、走近、瞇起眼睛或瞪大眼睛觀察事物一樣 。 這就是主動視覺的核心思想 , 機器人也應該學會怎么去看 , 而不僅僅是看到了什么 。


(來源:https://arxiv.org/abs/2511.15279)

楊佳澍表示:“現有機器人往往在機械臂前端或者固定支架上安裝固定攝像頭 , 但由于機械臂體積和活動范圍等限制 , 無法深入狹窄或危險區域觀察目標細節(如文字、紋理) 。 我們的方法通過純光學變焦調整 , 可在機械臂無法觸及的場景中實現視覺感知 , 避免進入雜亂或危險環境 , 拓寬了機器人視覺的應用范圍 。 ”

參考資料:
相關論文 https://arxiv.org/abs/2511.15279

運營/排版:何晨龍

    推薦閱讀