專訪中科第五紀黃巖：在具身智能的狂熱中，做一位技術實干家

2026-04-17 通用別克機器人電池上汽通用

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯｜Panda
2026 年的春天，具身智能賽道迎來了前所未有的狂熱浪潮，短短兩個月內更是已經實現了全行業近 150 億元的驚人融資。
當無數創業者奔走于各大投資機構的會議室大談通用智能的宏大敘事時，也有人可能正待在實驗室里，與代碼和硬件構成的機器人死磕。
黃巖就是其中之一。在堆滿線纜和測試道具的實驗臺前，他和學生為了弄清機械臂在抓取復雜零件時為何總是出現微小的物理偏差，常常一待就是十幾個小時。他們會盯著屏幕上動態刷新的三維熱力圖，反復拆解并重構底層的感知代碼，直到那條機械手臂在真實的物理空間中完成一次精準貼合。
黃巖擁有兩個截然不同卻又緊密咬合的身份。在學術界，他是中科院自動化所的研究員與博士生導師，在各大國際計算機視覺頂級會議中擔任領域主席。在工業界，他兼職具身智能新銳企業中科第五紀的青年首席科學家，也是一位深度參與商業落地的技術實干派。
更為關鍵的是，作為具身智能全棧技術的代表人物之一，他的技術背景完整覆蓋了多模態感認知技術、具身世界模型技術與強化學習技術。他所主導的模型創新，深深扎根于真實的工業場景需求，致力于解決數據短缺并極致提升數據的利用率。他試圖在這個喧囂的 2026 年，用一種近乎極客的狂熱與克制，為復雜的 AI 算法尋找一個能在真實物理世界中穩健運行的軀體。

近日，機器之心獨家專訪了這位已有超 1.2 萬引用量的多模態和具身智能研究者。在這場專訪中，黃巖拋開熱鬧的行業表象，與我們分享了他和團隊在具身大模型領域的探索歷程 —— 當行業內都在談論數據量、算力問題時，他們另辟蹊徑，從真實場景痛點出發，展開了全棧式架構重構，通過一場技術實戰，解決了行業內數據利用效率瓶頸。
前瞻性的技術直覺
成就國內具身智能「拓疆者」
把時間指針撥回 2013 年，深度學習剛剛開始在計算機視覺領域撕開一道口子。當時的學術界主流依然在追逐純文本的自然語言處理，或者純粹的圖像識別技術。
黃巖則選擇了一條跨界的冷門路線：將視覺與語言進行結合。
【專訪中科第五紀黃巖：在具身智能的狂熱中，做一位技術實干家】「當時之所以選擇視覺-語言，本質上還是基于對這個技術的個人喜好。」黃巖在采訪中向機器之心回憶起當初的決定，「我覺得這個任務的想象空間會比較大一些，它不單單是純粹去理解語言，或者僅僅去關注視覺的一些內容。」
這種前瞻性的技術直覺，為他日后進軍具身智能埋下了伏筆。
隨著多模態技術的飛速發展，到了 2019 年，純軟件層面的算法研究逐漸開始走向大一統的狀態。為了打破常規的算力堆疊，黃巖在這一年已經開始研究和創新強化學習算法（此前曾在圍棋 AI AlphaGo 中大放異彩），并在語言驅動的視頻行為定位任務上取得了當時的國際領先精度。
通過強化學習，他們成功增強了視覺-語言模型的類人時空選擇性注意等認知機制。模型只需要動態跳轉 5 到 8 次即可快速把握視頻中的關鍵行為信息，完全不需要耗時耗力地去提取時空目標框，這讓執行效率顯著提升了 7 倍。這項開創性的工作也成功入選為計算機視覺頂級會議 CVPR 的 Oral 論文，躋身前 3% 的頂尖行列。

這篇 CVPR 2019 論文開創性地研究了「通過句子查詢來定位活動」的問題，并提出了一種語義強化學習模型并取得了 SOTA 成績。
這種強化學習基因，在多模態大模型時代結出了新的果實。針對當前多模態大語言模型（MLLM）在與人類偏好對齊方面的顯著短板，中科第五紀團隊內多名成員深度參與，推出了代表性成果 MM-RLHF 。他們不僅構建了當時規模最大、覆蓋場景最廣的多模態偏好數據集，還提出了一種能夠解釋為何回答更好或更差的新型獎勵模型架構，并輔以 MM-DPO 算法，成功規避了傳統強化學習訓練不穩定和超參數敏感的問題。這是多模態領域首個系統性將強化學習技術擴展到全方位人類偏好對齊的工作，標志著大模型從能力構建階段邁向了價值對齊階段。
然而，無論是多模態感知還是價值對齊，如果不與真實的物理世界發生物理接觸，算法的潛力終將受限。黃巖意識到，需要為這些算法裝上物理軀殼，所以他最早選擇把視覺-語言算法直接用到機器人導航上。
當從安靜的服務器云端進入布滿雜物與摩擦力的真實物理世界時，現實很快就給他上了一堂殘酷的課。在早期的真機部署嘗試中，團隊面臨著極其致命的虛實遷移難題。
「最大的問題在于，我們在虛擬空間或者模擬器中訓練出的一個非常出色的導航模型，是無法直接部署到真機上的。」黃巖指出了其中的殘酷現實。他強調模擬器數據和真實數據的差異非常大：在模擬器里有 80% 的準確率，拿到真機上可能 10% 都沒有，這種極端的落差是極有可能發生的。
模擬器數據與真實數據之間巨大的分布差異，讓黃巖深刻體會到物理世界的不可預測性。在這場從零開始的探索中，他沒有退縮，反而被激起了技術狂熱者的斗志。他明白，要想真正馴服機器人的物理軀體，就必須拋棄對仿真數據的完全依賴，重新回到真實世界中，在底層架構上尋找提升真實數據利用率的解法。這也為后來中科第五紀一系列完全圍繞真實場景痛點展開的架構創新奠定了基調。
全棧技術硬核「實干派」代表
對抗算力與數據的狂熱
在當下的具身智能賽道，將大語言模型領域的 Scaling Law 平移過來，似乎成了一種行業共識。許多初創企業和頭部大廠試圖通過搭建龐大的數據工廠，用暴力堆疊算力和海量數據的方式來催熟具身大腦。
面對這種對算力與數據的狂熱迷信，黃巖保持著冷靜的審視。
實際上，早在行業沉迷于數據堆疊的初期，黃巖就前瞻性地預測到了這條路徑的極大挑戰。但他所堅持的這條「極少樣本」和「新架構」的冷門路線，在早期也曾面臨過外界的質疑。
黃巖在采訪中回憶了那段時期：「當時的環境下，大家都在關注具身大模型的通用性和泛化性，甚至宣稱要在兩三年之內就要訓練出一個能夠進入家庭的具身大模型，走這種高舉高打的路線。」
面對這種狂熱的行業情緒，黃巖從純粹技術的角度給出了冷靜的判斷。他認為短期內真正做出一個通用的具身大模型并進入家庭是非常具有挑戰性的，而且時間很可能遠遠不夠。
「我們經過很長時間的討論，最終選擇了一個相對務實的路線。」黃巖表示。他帶領團隊果斷放棄了追逐短期的通用神話，轉而聚焦真實的工業場景，有針對性地去解決樣本量少、可靠性低等最核心的產業痛點。黃巖在采訪中給出了自己的判斷：「想要實現具身領域的 Scaling Law ，它的數據量一定要提升得很快，數量要非常非常多。只有在數據量非常充足的情況下，我們再去提升算力和參數量才是有意義的。」他認為，以目前物理世界交互數據的積累速度，一味地提升參數量，有可能需要很長時間才能夠達到引發智能涌現的時間點。
行業首創超少樣本大模型，拒絕暴力堆疊
作為一位務實的全棧技術代表，他拒絕等待虛無縹緲的海量數據涌現。基于對數據瓶頸的精準預判，黃巖與中科第五紀聯合中科院自動化所團隊潛心打磨，基于更早之前開發的 BridgeVLA 推出了行業首個超少樣本大模型 FAM 系列。

這堪稱一次極客美學的底層重構，也是少有的、完全圍繞解決具身智能場景痛點而設計的專屬架構。
「當我們確實有海量數據時，直接利用數據進行暴力擬合可能是最簡單、短平快的方法。」黃巖一語道破了當前主流視覺-語言-動作（VLA）架構的痛點：「但現有的架構丟掉了太多的高維空間結構信息。」
他向我們剖析了傳統架構中那個致命的維度瓶頸：模型的輸入往往是二維甚至三維的視覺信息，輸出也是三維的動作，但在模型內部處理時，卻被強行壓縮成了一維的表征。
「在這個壓縮過程中，大量與空間結構緊密相關的信息被丟掉了，保留下來的多是偏向語義層面的內容，例如物體名稱、屬性、顏色等。」黃巖解釋道，「這些語義信息對精確的動作生成雖然有貢獻，但不會特別明顯。」
為了找回丟失的三維空間，解決工業現場數據匱乏的難題，中科第五紀與中科院自動化所團隊在 FAM 模型中引入了全局與局部協同的精妙設計。

BridgeVLA 是一種新型 3D VLA 模型，它在統一的 2D 圖像空間內對齊輸入和輸出。它使用 2D 熱力圖在對象定位任務上進行預訓練，并在 3D 操作的動作預測任務上進行微調。在仿真和真實世界中的實驗結果表明，它能夠高效且有效地學習 3D 操作。 arXiv:2506.07961
黃巖揭示了其中的核心原理：「我們主要是把模型中間層，從一維特征拉高到三維的熱力圖，讓整個空間結構建模能力能夠在模型中間流動起來。」這種無損傳遞空間信息的設計，讓模型從很大程度上擺脫了對龐大數據量死記硬背的依賴。
同時，這種專為具身場景設計的架構，賦予了中科第五紀的具身機器人一種「既見森林，又見樹木」的罕見認知能力。它不僅能夠通過三維熱力圖進行全局的空間結構建模（見森林），還能通過獨創的局部注意力機制，精準鎖定料箱把手、零件邊緣等關鍵操作點（見樹木）。

「既見森林，又見樹木」的比喻源自黃巖參與的一篇 CVPR 2017 論文。
這種全局與局部的無縫協同，加上對真實場景痛點的定向攻堅，造就了中科第五紀在全球范圍內極具統治力的小樣本技術表現。
在真實的工業落地中，這種架構創新轉化為了一種強悍的實戰能力：面對全新的任務， FAM 模型在極限情況下僅需 3 到 5 條真機演示數據，即可完成高可靠性的部署，基礎任務成功率近 97% 。

中科第五紀用這種冠絕行業的數據利用效率，定向擊穿了長期困擾具身智能落地的「數據荒」壁壘。
同時，模型的泛化能力也能得到極大提升。即便面對光照變化、復雜背景、干擾物體等極具挑戰性的泛化場景，該模型依然能夠保持高度的穩定性。這種極低成本的部署能力，正是打通工業場景商業閉環的關鍵所在。

利用世界模型，做具身安全的守衛者
如果在操作層面的創新是為了「能干活」，那么將世界模型引入執行端，則是黃巖為了「安全干活」而上的一道保險。
對于想要跑通商業閉環的企業而言，工業安全是一個無法回避的紅線。黃巖在采訪中列舉了非常具體的落地痛點：「例如在做產品出廠前的質檢時，有時操作用的力比較大，把東西拉壞了，或者是操作半徑太大，碰到了周邊其他物體，這些都會產生潛在的安全隱患。」
他最初的出發點非常直接：「利用世界模型預見未來的能力，讓大模型在感知到未來的情況下產生更準確的行為。」
然而，讓機器人真正學會預演未來面臨著一條巨大的鴻溝：視頻生成模型看懂的是像素，機器人輸出的動作是坐標系里的位姿。為了跨越這道墻，中科第五紀聯合中科院自動化所團隊推出了 BridgeV2W 世界模型，其中引入了極具巧思的本體掩碼（Embodiment Mask）設計。

BridgeV2W 流程概述。使用 URDF 和相機參數將動作投影到像素空間掩碼中。初始圖像和掩碼序列由 VAE 編碼，掩碼特征通過 ControlNet 分支注入到 DiT 主干中。該模型生成與動作一致的視頻，訓練時采用擴散、動態一致性和基于流的目標函數。 arXiv:2602.03793
黃巖解釋道:「我們主要是想規避掉直接從坐標點映射到視頻像素的困難，本質上是把不同的行為序列，直接轉化到像素的層面上去。」通過將抽象的坐標實時渲染成二維圖像上的動作剪影，預訓練的視頻大模型瞬間就能看懂機器人的動作意圖，從而真正打通視頻生成與具身世界模型之間的橋梁。

BridgeV2W 在 DROID 數據集上的單臂操作預測。尤其在「未見視角」測試中，對比方法常出現畫面崩塌、肢體錯位，而 BridgeV2W 依然生成物理合理、視覺連貫的未來視頻，充分驗證了其視角魯棒性。在「未見場景」（全新桌面布局、背景）下，泛化能力同樣出色。
探索具身強化學習前沿的架構師
除了多模態感知與世界模型，黃巖還將對技術的追求延伸到了強化學習領域。為了進一步提升跨場景的泛化能力并降低交付成本，團隊開展了具身強化學習后訓練，并完成了一項名為 E-TTS 的「具身測試時拓展」前期工作。
現有的 VLA 強化學習方法通常先生成中間推理，再生成動作。這種方式往往只強化學習動作空間，卻忽略了推理質量對動作的決定性影響。
E-TTS 框架通過三個核心機制解決了這一痛點：首先是推理與動作的聯合擴展，同時擴展推理軌跡和動作候?。黃浯問搶犯兄謀棧費櫓?，結合過去的歷史推理與動作對以捕捉長程依賴；最后是自適應在線選擇策略，通過動態分配計算資源避免陷入局部最優。
這項工作展現出了極高的工程實用價值。它不需要像傳統的 PPO 或 DPO 算法那樣更新模型權重，也無需收集額外的專家數據或進行微調，極大地降低了落地門檻。在這一框架中，驗證器扮演了過程獎勵模型的角色，在每一步對推理和動作的質量進行打分，實現方式更加輕量、靈活。
更為重要的是，這項研究向全行業證明了一個極具啟示性的結論：在機器人領域，單純擴大模型規?；驍祿?，不如在推理時引入「慢思考」機制有效。這為計算資源受限場景下的機器人智能提升開辟了一條全新的路徑。
這種不卷算力、專注數據利用率，且完全圍繞真實場景痛點展開的全棧式架構重構，正是黃巖及中科第五紀能夠在商業化大考中脫穎而出的核心底牌。
探尋本源，將「人類認知」刻入機器大腦
撥開 FAM 模型、BridgeV2W 世界模型以及 E-TTS 強化學習框架的技術外衣，黃巖及其團隊所有架構創新的深層驅動力，源于一種試圖在硅基芯片上復現碳基智慧的極客執念。
在學術界，黃巖出版過一本探討深度認知網絡的專著《Deep Cognitive Networks》。這部著作的核心思路，就是通過模擬人類的認知機制來增強深度學習的能力，相關成果還獲得了 2024 年北京市自然科學一等獎。

這種對人類認知機制的深度拆解，構成了中科第五紀與中科院自動化所合作研發的眾多技術創新的理論基石。
黃巖向機器之心總結了他十余年研究的一條隱形主線：「我們其實就是在關注人腦的注意、記憶、推理、決策等認知機制，去實現它的信息選擇性過濾、知識存儲復用、動態推理以及主動決策等認知功能。」
無論是 FAM 模型像人類雙眼一樣進行局部注意力聚焦，還是 BridgeV2W 世界模型像人類大腦一樣對未來物理操作進行安全預判，亦或是 E-TTS 框架中引入的「慢思考」推理機制，其核心機制都在嘗試建立一套符合具身認知規律的智能系統。
既然這套模擬人類認知的「大腦框架」已有雛形，它亟需海量的數據燃料來啟動運轉。真實物理交互數據極其昂貴，但黃巖很早就將目光投向了另一座巨大的寶庫：互聯網上海量的人類操作視頻。
讓機器人直接看懂人類的教學視頻并學會操作，是具身智能領域公認的圣杯之一。這其中的阻力顯而易見。
「網絡上其實是有很多操作視頻的，但是它們沒有動作標注。」黃巖指出了直接利用這些數據的最大痛點，「如果我們直接讓人工做動作標注，其實非常困難。」
為了繞開繁瑣的人工標注環節，真正將這些沉睡的視頻資產激活，中科第五紀聯合中科院自動化所提出了一種名為 EC-Flow 的流預測框架。這項極具前瞻性的研究成果已被計算機視覺頂級會議 ICCV 2025 接收。

EC-Flow ，即以本體（Embodiment）為中心的流預測網絡架構。分支（a）：本體流的預測分支（b）：目標圖像的預測，該預測作為輔助任務，用于將流與對象交互和語言指令對齊。 arXiv:2507.06224
黃巖解釋了這套方案精妙的解題思路：「我們嘗試去關注它中間層面的運動情況，例如圖像中機械臂關鍵點的運動軌跡。拿到這些運動軌跡之后，再通過機器人本體的配置文件，解算出它的精確行為。」

在真實世界的開冰箱任務上的流預測和實際任務執行示例。
通過這種方式，機器人仿佛擁有了「看視頻自學」的能力。在面臨被遮擋物體、可變形物體操作等高難度任務時，其成功率較當時的最佳方案分別提升了 62% 和 45% 。

Meta-World 基準測試上的模擬結果。

在真實世界操作任務上的結果。
這項技術的巨大潛力也引起了國際頂尖學者的關注，斯坦福大學李飛飛團隊在近期發布的 Dream2Flow 研究中便引用了這篇論文。

Dream2Flow 論文中引用 EC-Flow 的內容。
除了挖掘現有視頻，中科第五紀還聯合中科院自動化所將這種提升數據利用率的巧思應用到了數據合成領域，研發了一鍵生成多視角數據的技術。
在真實場景的采集中，多攝像頭的布置成本高昂，且單視角往往容易面臨視覺遮擋的風險。黃巖指出，這項具身跨視角數據增廣方法的核心優勢在于，能夠基于單一視角的演示數據，自動生成多角度且高保真的機器人訓練數據。這套方法結合了動作重定向與生成式視頻修復技術，通過自監督學習實現，整個過程完全無需人工標注。使用該方法生成的數據進行訓練后，模型在已知視角和全新視角下的任務成功率最高分別提升了 18.3% 和 25.8% 。

在這個以落地變現為主旋律的 2026 年，黃巖依然保留著對技術本源的純粹好奇。他在追求務實的商業戰場上，小心翼翼地守護著那份屬于極客的終極浪漫。
雙線作戰，迎接 2026 年的商業大考
如果說在頂會發論文、探尋認知機理是屬于極客的終極浪漫，那么 2026 年具身智能賽道的商業化現實，則是一場冷酷的生存淘汰賽。
「去年，投資人更傾向通用的具身智能敘事。現在大家更看重能不能先扎進一個具體的場景里，把活干好。」正如中科第五紀創始人兼 CEO 劉年豐所觀察到的那樣，一級市場對機器人的認知已經變得非常務實。投資人與客戶已經略過了那些花哨的演示視頻，他們當前只看重一點：機器人在真實場景中能否創造真正的復購率。
在這場務實的商業大考中，中科第五紀交出了一份極具說服力的答卷。 2026 年初，公司在短短一個月內接連完成規模達數億元的 Pre-A 及 Pre-A+ 輪融資，這正是對中科第五紀這種從真實工業痛點出發、腳踏實地的技術路線最直接的背書。
資本的青睞與堅實的技術壁壘并非憑空出現。中科第五紀背后的核心研發團隊來自中科院自動化所和清華大學，是一支擁有長達十余年技術蟄伏的科研團隊。
回顧團隊的發展歷程，他們不僅是國內最早投入多模態研發的先驅之一，更在學術與工程的交匯處刻下了眾多開創性的里程碑。早在 2013 年他們便發表了第一篇視覺-語言理解領域的 ICCV 論文；2016 年將注意力機制引入多模態匹配任務并達到國際領先；2019 年率先投入視覺-語言-導航（VLN）模型的研發，并于 2023 年在全世界率先實現了該模型的真機部署。

中科第五紀的發展歷程。
在實戰對抗中，從 2016 年斬獲 IROS 機械手抓取與操作冠軍，到 2024 年研發出業內首個世界模型的 VLA 大模型，再到 2025 年接連奪得 CVPR 通用操作泛化性挑戰賽冠軍與 ICRA 機器人虛實遷移冠軍，這支團隊在具身智能的演進之路上始終展現著硬核的集體作戰能力。
在這樣一支兼具學術深度與工程落地能力的隊伍中，在這個要求嚴苛的商業考場上，黃巖必須在兩種身份之間保持精準的平衡。
在學術界，他需要帶領學生探索前沿，哪怕面臨極高的失敗率；在工業界，他需要從實際場景中提煉關鍵科學問題，然后相應進行模型算法的研發。
為了將領先的技術壁壘轉化為真實的產業生產力，中科第五紀構建了從底層架構到軟硬協同的完整交付能力，面向客戶直接交付具有通用泛化能力的具身大腦和具身機器人。
在硬件實體層面，團隊推出了自研的輕量化輪式具身機器人。這款身高 187 cm 的機器人全身具備 28 個自由度，其仿人形手臂集高負載與高精度力控于一身，具備亞毫米級的裝配與作業能力，能夠滿足全天候的連續作業需求。

在生態賦能層面，中科第五紀正在以具身大腦供應商的身份，向更為廣闊的千行百業滲透。目前，該公司已陸續與多家知名大型央企展開合作。
黃巖對這種商業落地策略有著清晰的定位：「具身智能的真正壁壘在于大腦的通用性與泛化能力。我們通過提供統一的模型大腦來賦能各式各樣的硬件本體，這樣既能讓機器人更快地進入真實的作業場景，也能利用規?；某鲐泚矸床肝覀兊臄祿w系。」
伴隨著不斷擴展的商業版圖和過硬的落地能力，中科第五紀正向著「讓百萬機器人服務于人類」的愿景穩步邁進。

結語
采訪臨近結束時，我們的話題回到了那個布滿雜物、光線變幻莫測的真實產線。
當行業客戶們拋出那個頻繁被提出的「適應新場景需要多久」的嚴苛問題時，中科第五紀的機器人們已經做好了準備。它們不需要在模擬器里跑上幾萬次，也不需要依賴堆積如山的服務器集群去強行記住每一個像素的改變。只需人類工程師帶著它們在現場做 3 到 5 次示范，它們就能憑借著內部流動的空間熱力圖，瞬間領悟操作的物理真諦。
這份底氣，正是中科第五紀和中科院自動化所團隊用 13 年的技術蟄伏換來的。
在這個算力焦慮蔓延的時代，這位年輕的技術狂熱者與實干家證明了一件事：想要馴服龐大復雜的物理世界，靠的絕對不能是盲目的算力堆疊。只有懷揣著對底層認知的敬畏，在每一次代碼重構中將數據的利用率推向極致，具身智能的齒輪才能真正與人類社會的工業齒輪完美咬合。

推薦閱讀

上一篇：處處皆方便：愛普生“愛蘿卜打印”激活全場景打印服務

下一篇：侮辱消費者像狗的羅技 CEO曾放話削減中國生產線產能轉向東南亞