全球最大開源具身大模型！中國機器人跑完馬拉松后開始學思考_人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：好困
【新智元導讀】從馬拉松冠軍到最強大腦，這次的突破不再是四肢，而是靈魂。

中國人形機器人，再獲突破性進展！
昨天，全球參數量最大的具身智能多模態(tài)大模型——Pelican-VL 1.0正式開源。
它不僅覆蓋了7B到72B級別，能夠同時理解圖像、視頻和語言指令，并將這些感知信息轉化為可執(zhí)行的物理操作。
而且還針對目前具身能力短板，在空間理解、物理推理和思維鏈等維度實現了系統(tǒng)性提升，并在12個主流公開評測基準上達到行業(yè)領先水平。
可以說， Pelican-VL 1.0的提出，打通了從「看懂世界」到「動起來」的完整智能鏈路。

項目主頁：
https://pelican-vl.github.io/
Github：
https://github.com/Open-X-Humanoid/pelican-vl
Hugging Face：
https://huggingface.co/X-Humanoid/Pelican1.0-VL-72B
ModelScope：
https://modelscope.cn/models/X-Humanoid/Pelican1.0-VL-72B

而這背后，便是創(chuàng)造全球首個人形機器人馬拉松冠軍的團隊——北京人形機器人創(chuàng)新中心。
當前，通用大模型在遷移到具身智能任務時，仍面臨多維度能力欠缺的問題。
李飛飛教授提出過Think in Space的觀點，強調走向具身智能需要解決空間智能問題的重要性。英偉達和谷歌也在研究中指出，具身領域的大模型必須具備物理智能，并相繼推出了Cosmos-Reason和Gemini-RoboticsER這類面向具身場景的多模態(tài)大模型。
無獨有偶，創(chuàng)新中心也希望通過全面開源Pelican-VL這一基礎大腦模型，幫助更多具身智能體獲得更強的認知與決策能力，并在意圖理解、長程任務規(guī)劃推理等多類場景中實現性能提升。

具體來說，通過「刻意練習」（DPPO）訓練范式， Pelican-VL在不斷自我診斷與糾錯中提升推理與規(guī)劃能力，使模型像人類一樣在失敗中學習，從而實現了視覺理解、語言表達和物理執(zhí)行的深度融合。
憑借這一機制， Pelican-VL在多個維度展現出突破性能力：

具備跨模態(tài)的理解與推理能力，能在復雜環(huán)境中識別目標、推斷物體功能與可供性；
具備時間-空間認知，能理解動作的順序與因果關系。

模型的自進化循環(huán)使其在每一輪訓練后都能修正弱點，形成持續(xù)強化的學習閉環(huán) 。 Pelican-VL不僅是一種模型，更是一個能夠驅動機器人系統(tǒng)不斷進化的「智能引擎」。
總體上，論文報告稱相較基線模型，在空間理解和時間推理等能力上出現顯著提升，并在若干公開基準上超過了部分100B量級的開源模型。

【全球最大開源具身大模型！中國機器人跑完馬拉松后開始學思考】Pelican-VL的推出不僅是一次技術突破，更為產業(yè)界與學術界帶來了雙重啟示。
它首先構建了一套貫通「視覺理解—長程規(guī)劃—物理操作」的通用訓練范式，提供了一個可復用、可擴展的范式，降低了具身智能研發(fā)的門檻。
與此同時，團隊開放了模型與推理框架，為科研機構和企業(yè)提供了一個可自由定制、快速迭代的智能基座，加速了從實驗到落地的過程。
更深層的意義在于， Pelican-VL讓「機器人自主學習和反思」從理念走向現實。
它的「刻意練習」機制使模型能在錯誤中總結經驗、持續(xù)進化，如同人類通過反復訓練掌握技能。
這意味著未來的機器人不再只是機械執(zhí)行者，而是具備認知與改進能力的學習體。
可以想象，在家庭或工業(yè)場景中，它將能夠自主判斷物體用途、調節(jié)操作力度、優(yōu)化行動策略——從被動執(zhí)行邁向主動理解與自我成長，標志著具身智能邁入真正的「學習時代」。

智能抓取
實現精細抓取泛化操作新突破

當抓取一個水杯或一枚雞蛋時，基于Pelican-VL的大腦會瞬間完成一系列精密的操作：
通過視覺預判物體屬性、在接觸瞬間施加恰到好處的力道、并在觸碰后根據手感微調抓力。

這套由主動預測、觸覺適應與記憶更新構成的「感知運動閉環(huán)」，是靈巧抓取的關鍵。
而這項能力正是具身智能機器人與物理世界交互的基礎，但卻面臨著觸覺感知與運動靈活的協(xié)同難、復雜場景下的泛化難、算法與數據制約等等難題，目前行業(yè)內即便有相關技術突破，也仍未完全解決大規(guī)模落地的難題。
如今， Pelican-VL驅動的機器人抓取框架，成功復現并實現了這一高級智能。

仿生核心：Pelican-VL構建的智能抓取閉環(huán)

技術框架嚴格遵循了人類感知運動的三個核心環(huán)節(jié) ，并將其轉化為可執(zhí)行的機器人系統(tǒng)：
1. 主動預測：提供精準的「第一印象」
在機械臂接觸物體前， Pelican-VL大模型憑借其卓越的視覺感知與真實世界物理推理能力，僅通過視覺輸入，就能精準預測出物體的物理屬性（如材質、易碎度），并生成初始抓取力。
這為機器人提供了如同人類般的「先見之明」，使其從指尖接觸的一刻起，就具備了恰到好處的基準夾持力，通過模型提供前饋信息縮短閉環(huán)控制穩(wěn)定時間。
2. 觸覺適應：實現毫秒級的「手感微調」
在抓取和操控過程中，指尖的觸覺傳感器會實時傳回微滑移、受力分布等數據。系統(tǒng)通過一個同步的在線摩擦估計與自適應抓取控制模塊，像人類神經反射一樣，持續(xù)、快速地微調抓力。
這不僅確保了抓取的穩(wěn)定性，更關鍵的是能動態(tài)適應不確定因素，避免對精致、柔軟的物品造成損傷。
3. 記憶更新：打造持續(xù)進化的「經驗庫」
每次抓取任務完成后，系統(tǒng)會對比預測與實際感官結果的差異，并將這次成功的交互經驗存儲在一個物理記憶圖譜中。
當下一次遇到相同或類似的物體時， Pelican-VL會優(yōu)先調用這個更新、更精確的記憶來指導預測。使機器人系統(tǒng)具備持續(xù)學習的能力，每一次抓取都在為下一次更精準、更柔和的操作打下基礎。

實戰(zhàn)驗證：輕松拿捏精致與柔軟物體

在實際機器人測試中，該框架展現出了卓越的性能。
從接近、加載、提升、持穩(wěn)到運輸歸還的完整七階段抓取流程中， Pelican-VL驅動的機器人能穩(wěn)定操作一系列精致與柔性物體。

「看得準」：由Pelican-VL提供的精準初始力先驗，極大地加速了后續(xù)自適應控制器的收斂過程。
「抓得穩(wěn)」：在線控制器在提升、移動過程中持續(xù)動態(tài)調整抓力，有效應對慣性等擾動，確保抓取萬無一失。
「學得快」：整個交互過程形成的經驗被存入知識圖譜，系統(tǒng)像一位經驗豐富的老師傅，越用越熟練。

通過將Pelican-VL大模型的強大認知能力與實時控制、記憶系統(tǒng)深度融合，機器人抓取從簡單的「執(zhí)行命令」升級為了具備預測、反應與學習能力的智能行為。
這一能力使機器人在低成本、低樣本的條件下依然能夠實現高度泛化、更加柔性的抓取表現，為行業(yè)帶來了真正可規(guī)模化落地的智能抓取方案。
這不僅是技術上的一個里程碑，更為機器人在復雜、非結構化環(huán)境中真正實現自主操作，打開了無限可能的大門。

VLM讓VLA實現能力躍遷

在典型的Vision–Language–Action（VLA）系統(tǒng)里， Pelican-VL扮演著「視覺語言大腦」的角色，為機器人提供強大的環(huán)境感知和指令理解能力。
它將攝像頭所見與自然語言指令結合，構建起對場景的多模態(tài)表征，然后輸出可供后續(xù)決策單元使用的結構化信息。
也就是說， Pelican-VL負責「看圖聽話」，理解指令和環(huán)境， VLA負責跨機器人應用；二者組合可以在多種機器人上執(zhí)行多任務。
有了這樣的基礎，系統(tǒng)可以完成長時序、多步驟的任務規(guī)劃和執(zhí)行。

Pelican-VL等具身智能模型可部署在商超、家居等多種真實場景中，通過視覺-語言感知輔助多步任務規(guī)劃
論文中演示了一個生活場景下的復合指令：例如「把鞋子放到鞋架上、將桌上的垃圾扔到垃圾桶，再把衣服放入洗衣機」。
Pelican-VL首先感知房間物體和布局，構建出整個環(huán)境的語義表示；接著根據指令自動生成行動序列：依次移動到鞋架、垃圾桶和洗衣機位置并進行抓取和放置操作。
在這一過程中，模型不斷更新內部環(huán)境狀態(tài) ，調整計劃并適應實際情況，實現了自然語言指令的自主分解和執(zhí)行。
簡而言之， Pelican-VL構成了VLA系統(tǒng)的認知前端，為長期規(guī)劃和指令執(zhí)行提供跨模態(tài)的信息支持，使機器人能夠像人類一樣將復雜任務拆解并落地操作。
同時，在快慢系統(tǒng)、端到端等諸多架構中，前沿探索者們也一直在致力于研究當VLA以VLM為基座時， VLM各項能力為度對VLA模型所帶來的性能增益。
例如DeepMind的RT-Affordance ，李飛飛的ReKep以及Sergey Levine的Training Strategies for Efficient Embodied Reasoning等著名學者和機構都曾探討過可供性、思維鏈等能力對于具身操作的重要性。
對此， Pelican-VL針對性地進行了能力提升，并在多個維度中達到行業(yè)領先水平。

RT-Affordance項目地址：https://snasiriany.me/rt-affordance

ReKep項目地址：https://rekep-robot.github.io/

跨本體具身大腦實現多機協(xié)作

Pelican-VL具備不同層級的機器人任務規(guī)劃調度能力，可根據場景生成機器人行為規(guī)劃，并將其轉化為具體機器人功能函數的執(zhí)行調用，作為多機器人系統(tǒng)的任務調度器。
論文中給出一個多機器人協(xié)作流水線的開發(fā)示例：
在一個燈泡質檢流程中， Pelican-VL將任務按機器人拆分為若干行為層任務，進而生成不同機器人動作層的函數調用。

例如，它會生成對「輪式人形機器人」執(zhí)行「檢查電控柜并啟動系統(tǒng)」的函數調用指令，也會為雙臂機器人生成「對燈泡進行結構與功能檢測」的調用。
對于通用的操作函數，生成所需的控制參數，由專門的運動規(guī)劃模塊將其轉化為關節(jié)軌跡和夾爪動作。
這種方式類似于一個項目經理給不同的團隊下達精確的工作指令， Pelican-VL則通過多輪對話和分步指令，確保多臺機器人的協(xié)同工作。

基于穩(wěn)定多視角可供性的零樣本操作

在更加通用的操作場景下，論文也給出了一個基于可供性進行任意物體操作的例子。
Pelican-VL先輸出詳細的視覺定位和功能性描述（如目標物體的抓取點、放置位置等），然后利用函數調用機制觸發(fā)操作。
例如在通用抓取演示中，它會先生成多視角下的一致性預估（如抓取點、避障區(qū)域）以保證空間定位準確；接著將這些計劃通過接口調用下發(fā)給運動控制單元。
這一流程就像「思維鏈」式的中間規(guī)劃：模型內部先思考出清晰的步驟，再把每步落成可執(zhí)行的函數調用，確保執(zhí)行過程可控且透明。
通過函數調用， Pelican-VL不僅能處理單機任務，也可管理多機器人協(xié)作任務，進一步彰顯了其在復雜系統(tǒng)中的實用性。

結語

此次Pelican-VL的開源，對于人形機器人產業(yè)與研究而言帶來了兩個正向價值：

首先它提供了一整套「視覺理解→長程規(guī)劃→物理操作」串聯(lián)的可復用訓練范式，降低了在機器人中使用 VLM 的門檻；

其次，借助開源基礎模型和推理代碼，所有其他實驗室或企業(yè)都可以在這個「腦」上做定制化訓練，加速人形機器人在各行各業(yè)的落地探索。

作為拿下過全球首個人形機器人馬拉松冠軍、百米賽跑冠軍的團隊，北京人形機器人創(chuàng)新中心已經推出了具身智能的通用硬件平臺「具身天工」和通用軟件平臺「慧思開物」兩個開放平臺，如今又在VLM上實現了重大突破。
不難看出，一切都是為產業(yè)落地提供更良好土壤，讓國內的機器人廠商和開發(fā)者可以自由使用與定制人形機器人，加速研發(fā)進程，并且正在讓具身智能機器人從最能跑，演化到最聰明和最好用的更高階段。
根據了解，目前北京人形機器人創(chuàng)新中心還在推進「千臺機器人真實場景數據采集計劃」，讓上千臺機器人在工廠、倉庫、酒店等場景中執(zhí)行任務并采集數據。
而這些規(guī)模化的多模態(tài)數據與Pelican-VL結合，將推動其在制造業(yè)自動化、智能物流、零售無人化和家居服務等多領域的快速適配和優(yōu)化。
對于制造業(yè)企業(yè)來說，基于Pelican-VL快速開發(fā)特定場景下的應用方案，可大大降低開發(fā)成本和難度。
長期來看， Pelican-VL及其后續(xù)版本將促進國內形成完善的通用機器人智能平臺，推動更多種類的機器人像安裝「通用智能操作系統(tǒng)」一樣迅速獲取新能力，讓人形機器人更低門檻、低成本、高效率的走進不同制造業(yè)、工業(yè)體系。
參考資料：
https://pelican-vl.github.io/
https://github.com/Open-X-Humanoid/pelican-vl
https://huggingface.co/X-Humanoid/Pelican1.0-VL-72B
https://modelscope.cn/models/X-Humanoid/Pelican1.0-VL-72B