上海交大給具身智能發了一張“統考卷”，這會是機器人的LMArena嗎？

2026-03-20

文章圖片

文章圖片

文章圖片

文章圖片

智東西
作者 | 陳駿達
編輯 | 漠影
在具身智能領域，一個越來越突出的現實是：Demo ，似乎成為了技術能力的通用敘事方式。
在發布會、短視頻和展臺上，我們反復看到類似的場景，機器人在精心布置的環境里完成一次抓取、一段行走，流程流暢、效果驚艷。
然而，一旦離開展示場景，問題便變得復雜得多。換一個光照條件、換一個物體材質、稍微打亂順序，系統是否還能穩定工作，外界往往無從得知。
不同廠商基于不同任務與展示方式來定義“領先” ，使得這些Demo之間既難以橫向比較，也難以被復現驗證。在缺乏統一評測標準的情況下， Demo與實際落地之間的差異逐漸放大。
日前，圖靈獎得主姚期智便在一場演講中點破了這一現狀：（具身智能行業）要從各說各話到統一評測，建立開放機制、安全規范等等，鼓勵開源復現與挑戰賽，讓優秀的算法可以重復使用，可驗證、可產業化。
這一呼吁背后的核心，正是建立一套統一、科學且可被反復驗證的評測體系。 2026年開年，上海交通大學等機構聯合發布的GM-100 ，正是目前國內少數試圖在這一方向上給出系統性解決方案的嘗試之一。

一、具身智能，缺一張“統考卷”在一個仍處于早期探索階段的技術領域，評測體系的意義并不止于給模型排個名次，更像是一張“統考卷”：它通過題目設置，明確哪些能力被認為是重要的，哪些問題值得被長期投入，從而在無形中塑造和引領整個行業的研究方向與技術路線。
但從現實情況來看，具身智能領域的評測體系仍然較為分散。不同企業和研究團隊往往使用各自的任務集、評測流程和指標體系：有的側重抓取成功率，有的關注路徑規劃，有的強調單一長任務完成情況。
現有的評測在一定程度上推動了行業早期的發展，但其任務設置多集中于高頻、相對簡單的場景。隨著模型能力的提升，這類基準對真實應用的區分度正在下降，也越來越難以反映具身智能在復雜環境中的核心挑戰。
當模型已經可以穩定完成這些“標準動作”時，繼續在同一類任務上刷分，往往只能體現工程調優或場景適配能力，而難以揭示模型在復雜條件下的真實表現。行業在判斷技術成熟度時，仍然缺乏一個被廣泛認可的客觀參照。
面向具身智能的未來，一個好的評測體系不只考“常見題” ，還應覆蓋偏題、難題和綜合題，結構上既有基礎能力測試，也有對長尾行為和復雜交互的檢驗。
它的目標不是讓模型看起來“很強” ，而是清晰呈現模型在真實執行中的能力邊界——在哪些條件下可以穩定工作，在哪些情況下會失敗，失敗模式又是什么。
同時，隨著具身任務從單一動作走向長序列、多步驟協作，評測也不能唯結果論。是否完成任務固然重要，但完成過程中的決策質量、異常處理方式、對環境和人類行為的響應，同樣是衡量系統成熟度的關鍵維度。
過去一段時間里，學術界和工業界已關注到這一問題，并著手解決。從李飛飛教授的BEHAVIOR ，到HuggingFace聯合業內打造的RoboChallenge ，各種新的評測體系，恰恰折射出了行業對更全面評測的迫切需求。他們希望通過更具挑戰性和解釋力的測試體系，為技術演進提供清晰坐標。

二、讓機器人穿糖葫蘆、開抽屜，如何揭示具身智能的能力邊界？GM-100由100個任務組成，每個任務大約有100條訓練軌跡和30條測試軌跡，總計13000條操作軌跡，規模已經不小。不過，相比單純追求規模的數據集，真正讓GM-100與其他測評集打出差異化的，是其任務多樣性和評估系統性。
GM-100的主要作者與項目牽頭人、上海交通大學副教授李永露告訴智東西，其實驗室踐行的理念是“以數據為中心的具身智能” 。
他認為在這個時代，數據集和評測對科研的貢獻超過了60% ，加些數據，或是讓數據的分布更為健康，便有可能大幅推動模型能力的提升。
研究中，團隊對現有的海量數據集和任務進行了統計，發現大部分任務仍以 “pick hold place”這三大類為核心。因此， GM-100選擇了以長尾任務和精細操作為重點，力圖展現當前具身智能在真實世界操作中的能力邊界。
任務設計過程中，研究團隊先對人類與物體的交互原語進行了系統分析，然后借助大語言模型生成候選任務，再經過專家篩選與優化，最終形成100個任務。這些任務從日常常見到罕見，從簡單到復雜。
這些任務中有不少“反直覺”的存在——人類覺得非常精細困難的任務，機器人反而能夠較好完成；而人類認為非常簡單的操作，機器人卻經常失敗。
該實驗室成員、上海交通大學博士生王梓宇告訴我們，像穿糖葫蘆這樣人類認為對機器人比較復雜的任務，機器人已經能夠做到一定水平，而開抽屜、按臺燈開關或整理小物體等直覺上簡單的任務，卻因為機械臂構型、物體材質、位置擺放以及指令理解等因素而變得困難。
GM-100中的部分任務
在現有評測體系普遍面臨任務同質化、容易被針對性優化“刷榜”的背景下， GM-100通過高度多樣化且長尾的任務來貼近真實物理世界。這拉高了針對性優化的成本，進而有效引導模型發展通用能力，避免模型僅在簡單任務上過擬合的傾向。
在研究論文中， GM-100背后的團隊已經驗證了這一測評集的有效性。他們對Diffusion Policy（DP）、π?、π?.?及GR00T等主流具身學習模型進行了測試。值得注意的是， GM-100評估指標不止于傳統的任務成功率（SR），還引入了部分成功率（PSR）和動作預測誤差。
PSR讓多步驟任務的細節完成情況可量化，動作預測誤差則衡量模型在新軌跡上的模仿精度。這種多維度指標使研究者能從不同角度衡量模型表現的強弱，遏制了模型通過“作弊”、“走捷徑”完成部分動作，鼓勵研究者關注模型真正的泛化和模仿能力。
結果顯示， GM-100的任務在許多機器人平臺上都可執行，但也沒有過于簡單，不同模型在GM-100上的表現拉開了區分度，這證明任務設計本身是合理的。跨平臺測試也表明，這些任務在不同機器上具有一定的泛化價值，為評估模型能力提供了可靠參考。

三、不做“爹味很濃”的測評集， Benchmark不只靠權威說話不過，對一個測評集來說，打造出來僅僅是第一步。如何讓更多的人用起來，對它產生信賴，可能是更為關鍵的一步。
在與李永露的溝通中，我們了解到， GM-100團隊在打造這一測評集的時候就意識到，一個真正有生命力的評測體系不能只靠“權威” ，而應走向“社區共建” 。
李永露
換言之，他們似乎并未將自己定位為“裁判” ，而是“搭臺者” 。
當前的機器人學習模型仍顯著受到測試者能力和環境條件的影響， GM-100不是要成為一個絕對公平的物理測試環境，這在當前的產業發展階段也不現實。 GM-100打造了一個開放平臺，研究人員可以自主上傳測試結果與證據視頻。
為了讓更多人參與這一評測， GM-100開源了全部100個任務的詳細說明，需要購買的物料清單精確到了淘寶鏈接，還上傳了每個任務約130條真實機器人操作數據，極大降低了復現門檻。
對于開源模型， GM-100團隊進行驗證與作者身份確認，要求提交模型權重以供審核，并為符合標準的提交打上“已驗證”標簽。未來， GM-100還會豐富社區的功能，讓用戶可以點評、收藏，表達自己的見解。
李永露說，他們不想成為一個“爹味很濃”的組織，來告訴大家應該怎么做，因為這樣很有可能喪失公信力。相反，他們希望讓研究社區以“悠悠眾口”的模式，長期討論并建立共識，最終形成對模型能力的客觀評價。這種模式也有望讓“刷榜”、“作弊”的模型在群眾監督下現出原形，最終建立起透明、可信的基準測試體系。
GM-100的數據采集工作（圖源：RHOS）
對熟悉大模型評測的讀者來說， GM?100在理念上讓人聯想到LMArena 。
LMArena 的公信力來自一種去權威化的評測機制：平臺通過匿名雙盲對比和真實用戶投票，讓性能評估不依賴單一指標、不受品牌影響，再用Elo排名體系動態反映真實偏好，而非靠構建者主觀設定的權威分數。
在這一點上， GM 100同樣強調機制而非權威背書。它通過跨平臺數據、詳盡的交互說明和多維度指標體系，使評估結果具有可復現性和解釋性，而非依賴實驗者主觀裁定。
兩者都探索了一種面向社區與實際表現的評估范式，試圖讓評測結果既透明可檢驗、又不受單一權威框架制約。

結語：GM-100將進一步擴展，不怕干“臟活累活”李永露告訴我們，團隊不會止步于GM-100數據集的發布。 GM取自“Great March” ，寓意“長征” ，團隊將逐步把任務庫擴展至300乃至1000項，并推進跨機器人平臺評測，以增強評測的覆蓋面。
長遠來看，他們希望通過任務設計的系統化、評測維度的多元化（如引入進度評分、安全性、社會價值等指標），打造更科學、更工程化的具身智能評測“奧林匹克” 。
【上海交大給具身智能發了一張“統考卷”，這會是機器人的LMArena嗎？】數據集和評測的構建是公認的“臟活累活” 。正如李永露所說：“評測其實是一個挺苦的事情，這類工作并非在空調房里寫寫代碼就能完成，而需要實實在在動手操作，甚至擰螺絲。但完成后，對整個世界的貢獻卻非常巨大。 ”他希望更多年輕人、研究團隊和企業能夠參與，共同推進這一事業。

推薦閱讀

上一篇：騰訊年會，馬化騰談AI戰略并且“罕見”點評豆包手機和千問 | 電廠

下一篇：傳三星NAND合約價大漲100%！