從模仿到自主，機(jī)器人還需跨越三重挑戰(zhàn)｜專訪NTU助理教授王子為_ai|蘋果|算法|人工智能

AI、機(jī)器人和未來。

在新加坡南洋理工大學(xué)的一間實(shí)驗(yàn)室里，一只機(jī)械臂正在嘗試完成一個(gè)看似簡(jiǎn)單的任務(wù)：抓取一個(gè)蘋果。這個(gè)動(dòng)作，對(duì)于三歲的孩童來說不過是本能，但對(duì)于當(dāng)今最先進(jìn)的機(jī)器人而言，卻是一道難以跨越的鴻溝。

在這個(gè)人工智能的“GPT 時(shí)刻” ，我們見證了 AI 以快速迭代的方式掌握了語言、圖像甚至代碼。大型語言模型已經(jīng)能在許多信息處理任務(wù)中展現(xiàn)出高效表現(xiàn) 。然而，從知到行之間，橫亙著一道我們尚未完全理解的鴻溝：一個(gè)能在虛擬世界通過美國執(zhí)業(yè)醫(yī)師資格考試的 AI ，卻無法在物理世界為我們可靠地端來一杯水。

這不僅是一個(gè)工程問題，更接近一個(gè)哲學(xué)命題：如果一個(gè)智能體無法與物理世界交互、感知、行動(dòng)并承受后果，它是否真正理解了這個(gè)世界？在中國古典哲學(xué)中， “知行合一”被視為智慧的最高境界。而在今天的人工智能研究中，如何讓機(jī)器實(shí)現(xiàn)從“知”到“行”的跨越，正成為這個(gè)領(lǐng)域最前沿、也最艱難的挑戰(zhàn) 。

王子為的研究經(jīng)歷，正是在這一問題背景下展開的。從清華大學(xué)的物理系，到 AI 研究，再到具身智能（Embodied AI）——他的每一次轉(zhuǎn)向，都與技術(shù)發(fā)展趨勢(shì)密切相關(guān) 。

（來源：受訪者提供）

兩次“轉(zhuǎn)向”：從物理定律到機(jī)器人鐵律
2016 年，當(dāng) AlphaGo 與李世石的圍棋對(duì)決吸引全球目光時(shí) ，王子為還是清華大學(xué)物理系數(shù)理基礎(chǔ)科學(xué)專業(yè)的一名學(xué)生。在當(dāng)時(shí)的學(xué)術(shù)路徑規(guī)劃中，物理系的學(xué)生，未來大多走向理論物理、高能物理或是金融工程。但這場(chǎng)人機(jī)大戰(zhàn) ，徹底改變了這個(gè) 20 歲年輕人的人生方向。

【從模仿到自主，機(jī)器人還需跨越三重挑戰(zhàn)｜專訪NTU助理教授王子為】“當(dāng)時(shí)覺得這個(gè)東西非常神奇，有非常大的潛力。 ”回憶起那個(gè)轉(zhuǎn)折點(diǎn) ，王子為的語氣依然帶著當(dāng)年的激動(dòng) 。這種激動(dòng)促使他做出了一個(gè)大膽的決定——從物理學(xué)轉(zhuǎn)向人工智能研究。 “我們當(dāng)年有很大一部分同學(xué)都轉(zhuǎn)向了 AI 相關(guān)的工作，不管是計(jì)算機(jī)、電子還是自動(dòng)化，多多少少都受了 AlphaGo 的影響。 ”

但真正讓他從 AI 轉(zhuǎn)向機(jī)器人研究的，是 2020 年另一項(xiàng)發(fā)表在Nature的里程碑式工作——“Robot Chemist” 。來自英國利物浦大學(xué)的 Andrew I. Cooper 教授課題組開發(fā)了機(jī)器人化學(xué)家，其可以在實(shí)驗(yàn)室“走來走去”并如同人類化學(xué)家一樣操作實(shí)驗(yàn)儀器，完成各種各樣的實(shí)驗(yàn)任務(wù) 。

這項(xiàng)研究讓他意識(shí)到：相比純粹的算法研究， AI 與物理世界的結(jié)合可能是一個(gè)更具空間的方向。

同年，他開始了 AI 與機(jī)器人結(jié)合的研究，從純粹的 AI 走向具身 AI 。 “我記得非常的清楚， ”他回憶起2020年第一次調(diào)試機(jī)器人， “看到我們自己設(shè)計(jì)的機(jī)械臂，能夠完成打包工作，把一個(gè)物體像人一樣打包進(jìn)盒子里面……那一份成就感，哪怕過去這么多年了，也是記憶猶新。 ”

加速的時(shí)代， CMU 的“快”與“慢”
在 AI 這個(gè)以月為迭代周期的領(lǐng)域，快是公認(rèn)的信條。算法在加速，模型在膨脹，論文在增長(zhǎng) 。然而，王子為在博士畢業(yè)后前往卡內(nèi)基梅隆大學(xué)（CMU）進(jìn)行博士后研究時(shí) ，學(xué)到的最重要的一課，卻是“慢下來” 。

“讓研究慢下來，其實(shí)不容易。 ”王子為發(fā)現(xiàn) ，當(dāng)AI 與機(jī)器人結(jié)合，研究的范式就徹底變了。在純AI 領(lǐng)域，一個(gè)想法的驗(yàn)證周期可能很短：設(shè)計(jì)一個(gè)新模型，在已有的數(shù)據(jù)集上跑一下，幾個(gè)小時(shí)或幾天后，就能迅速驗(yàn)證想法是否有效。但在機(jī)器人領(lǐng)域，這個(gè)周期會(huì)被無限拉長(zhǎng) 。

“要把問題想清楚是需要時(shí)間的。 ”王子為舉例，在機(jī)器人上驗(yàn)證一個(gè)新算法，首先要采集數(shù)據(jù) 。這個(gè)過程是物理的、實(shí)時(shí)的、昂貴的。 “機(jī)器人采數(shù)據(jù)是需要時(shí)間的，是需要成本的。 ”采集完數(shù)據(jù) ，還要進(jìn)行漫長(zhǎng)的訓(xùn)練和調(diào)試。

更重要的是，物理世界遠(yuǎn)比數(shù)據(jù)集要狡猾。 “比如，我們?cè)O(shè)計(jì)的框架對(duì)不同的網(wǎng)絡(luò)結(jié)構(gòu)、不同的硬件，是不是都有效？增加數(shù)據(jù)之后，在特定的問題上，它是否會(huì)產(chǎn)生像物理學(xué)里面那種相變？”就像 GPT 模型在數(shù)據(jù)量跨越某個(gè)閾值后突然涌現(xiàn)出能力一樣。在機(jī)器人領(lǐng)域，這個(gè)涌現(xiàn)點(diǎn)在哪里？沒有人知道。

“這都是需要時(shí)間的。 ”他反復(fù)強(qiáng)調(diào) 。

他在 CMU 參與的一個(gè)項(xiàng)目，是研究如何通過人類的語言或草圖，來生成樂高積木的拼接方案，并指揮機(jī)器人完成組裝。這聽起來像個(gè)玩具問題，但其背后的技術(shù)復(fù)雜度是驚人的。這套系統(tǒng)首先需要理解人類模糊的指令（造一個(gè)帶兩個(gè)窗戶的紅房子），然后生成一個(gè)三維的、符合物理拼接邏輯的模型；接著需要規(guī)劃?rùn)C(jī)器人的每一步操作（抓取、旋轉(zhuǎn)、放置），最后才到讓機(jī)器人執(zhí)行高精度的動(dòng)作的環(huán)節(jié) ，并還要保證全過程的安全。

“這個(gè)工作從 2023 年就開始了，一直到今年（2025年）才有一個(gè)里程碑式的結(jié)果，但最后這篇論文也是拿到了 ICCV 的 Best Paper 。 ”

一個(gè)看似簡(jiǎn)單的搭樂高任務(wù) ，耗費(fèi)了團(tuán)隊(duì)數(shù)年的時(shí)間。這種“慢” ，在如今的加速社會(huì)里似乎是不可想象的。但王子為認(rèn)為，正是這種“慢” ，讓他們能夠沉淀下來，去發(fā)現(xiàn)一些平常容易忽略的，但是真正重要的一些問題。

與此同時(shí) ， CMU 的合作氛圍為研究帶來了一種“快” 。不同實(shí)驗(yàn)室在硬件、感知、移動(dòng)平臺(tái)等方面能力互補(bǔ) ，使項(xiàng)目推進(jìn)更為高效。這種“快”與“慢”的結(jié)合，也影響了他后來在 NTU 開展研究的方式。

蘋果掉在地上：具身智能的“阿喀琉斯之踵”
“我們實(shí)驗(yàn)室的長(zhǎng)期目標(biāo) ，是為機(jī)器人賦予能夠理解世界、并且能夠自主決策的大腦。 ”

在 NTU 的實(shí)驗(yàn)室里，王子為正試圖回答這個(gè)領(lǐng)域最核心的難題：為什么今天的機(jī)器人，本質(zhì)上仍然是模仿者，而不是決策者？他用一個(gè)極其生動(dòng)的例子，點(diǎn)出了具身智能的“阿喀琉斯之踵”——泛化性（Generalization）。

“以抓蘋果為例。蘋果放在桌子上，很多模型表現(xiàn)都能把它抓起來。這是我們通常在演示視頻里看到的。但是，如果某一次抓的時(shí)候沒抓穩(wěn) ，蘋果掉在地上了，那么很多的機(jī)器人的模型現(xiàn)在就會(huì)直接 fail 掉。因?yàn)樵谟?xùn)練的過程中，它可能壓根就沒有見過這種類似的數(shù)據(jù) 。 ”

這就是當(dāng)前主流的模仿學(xué)習(xí)（Imitation Learning）范式的弱點(diǎn) 。模型只是在復(fù)現(xiàn)它在訓(xùn)練數(shù)據(jù)中見過的軌跡，它并沒有真正理解這個(gè)任務(wù) 。 “人哪怕看到蘋果掉在地上，我理解到蘋果、桌子、地板之間的規(guī)律，以及這個(gè)世界的物理運(yùn)行規(guī)律，包括摩擦力、包括重力……它都是能夠解決的。 ”而機(jī)器不能。這就是“分布外”（Out-of-Distribution OOD）問題。當(dāng)機(jī)器人遇到一個(gè)它訓(xùn)練數(shù)據(jù)分布之外的、全新的情況時(shí) ，它就束手無策了。

背后的挑戰(zhàn)可以概括為三類，這也是整個(gè)行業(yè)共同面臨的“三座大山”：

其一，數(shù)據(jù)昂貴。機(jī)器人數(shù)據(jù)必須在真實(shí)物理環(huán)境中采集，每條數(shù)據(jù)往往要數(shù)十秒甚至更久，難以像語言模型那樣依靠大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練；其二，物理精度要求高。幾毫米的誤差都可能導(dǎo)致任務(wù)失敗，小偏差的累積會(huì)迅速放大；其三，環(huán)境物理規(guī)律多變。摩擦、質(zhì)地、光照等因素的微調(diào)都會(huì)影響動(dòng)作效果，模型需要實(shí)時(shí)建模這些隱性變量。

走向“自主”：世界模型、推理鏈與強(qiáng)化學(xué)習(xí)
為了應(yīng)對(duì)上述難題，王子為團(tuán)隊(duì)正在探索三類方法。

第一條路徑，是嘗試用世界模型（World Model）打破數(shù)據(jù)詛咒。既然物理世界的數(shù)據(jù)采集那么昂貴，我們能不能讓機(jī)器人在“腦海中”采集數(shù)據(jù)？這就是世界模型的邏輯。 “它根據(jù)當(dāng)前的觀察和即將要采取的一個(gè)動(dòng)作，就會(huì)提前預(yù)判后續(xù)會(huì)產(chǎn)生什么樣的后果。 ”王子為解釋道， “也就是說，我不需要真的去做這個(gè)事，我只需要在我腦海里面想一下，我就知道會(huì)產(chǎn)生什么樣一個(gè)后果。 ”

通過世界模型，機(jī)器人可以在“想象”中源源不斷地產(chǎn)生訓(xùn)練數(shù)據(jù) ，極大地降低數(shù)據(jù)成本。當(dāng)然，前提是這個(gè)“想象”要足夠逼真。這是王子為團(tuán)隊(duì)的重點(diǎn)方向之一，即如何生成真正跟真實(shí)的數(shù)據(jù)差距比較小的高質(zhì)量數(shù)據(jù) 。

第二條路徑，是用推理鏈解決長(zhǎng)程任務(wù) 。當(dāng)前的機(jī)器人模型（如 VLA ， Vision-Language-Action 模型）普遍“短視” 。它們能做好抓取蘋果這樣的一步動(dòng)作，但無法完成做一份早餐這樣的長(zhǎng)程任務(wù) 。 “做早餐，它可能需要 20 步，甚至 30 步。打開冰箱、拿出食材、洗、切、煮、端到桌子上。 ”王子為說， “這是一個(gè)需要推理能力的長(zhǎng)程任務(wù) 。 ”而受大語言模型思維鏈（Chain-of-Thought）的啟發(fā) ，王子為團(tuán)隊(duì)的思路是，把長(zhǎng)任務(wù)拆解成一步一步的短任務(wù) ，讓機(jī)器人每次只去解決一小步。

但核心問題是：怎么“拆”才是最優(yōu)的？人類認(rèn)為的 20 步，不一定是模型認(rèn)為最高效的 20 步。他近期的工作（如 ThinkBot 和 VLA-Reasoner）就是為了解決這個(gè)拆解問題。他們嘗試用蒙特卡洛搜索樹和強(qiáng)化學(xué)習(xí)的方法，去搜索一個(gè)最優(yōu)的拆解方案。 “機(jī)器人需要推理物體與物體之間的關(guān)系（空間上），也需要推理動(dòng)作與動(dòng)作之間的關(guān)系（時(shí)間上）。 ”

第三條路徑，用強(qiáng)化學(xué)習(xí)跳出模仿的范式。這是最激進(jìn) ，也可能最具革命性的一步。它試圖徹底解決那個(gè)“蘋果掉在地上”的 OOD 問題。模仿學(xué)習(xí)的覆蓋面總是有限的， “人是沒有辦法去窮盡所有的分布外的情況的。 “那我們能不能， ”王子為設(shè)想， “不再依賴于人類的數(shù)據(jù)采集，而是說通過自己主動(dòng)的去嘗試一些東西？”

這就是強(qiáng)化學(xué)習(xí)的回歸。讓機(jī)器人自己去探索，甚至主動(dòng)犯錯(cuò) 。 “比如說，它自己主動(dòng)覺得，這個(gè)蘋果如果將來掉到地上之后，我可能不確定怎么去拿，那么他就會(huì)自己主動(dòng)去嘗試，把這個(gè)蘋果弄到地上，然后去把它抓起來，在這個(gè)過程中進(jìn)行學(xué)習(xí) 。 ”這是一種根本的范式轉(zhuǎn)變：從“向人類學(xué)習(xí)”（Learning from Human）轉(zhuǎn)向“自主學(xué)習(xí)”（Self-learning）。

這標(biāo)志著機(jī)器人從一個(gè)被動(dòng)執(zhí)行的工具，開始向一個(gè)主動(dòng)探索的智能體（Agent）進(jìn)化。王子為提到，近期已有很多論文顯示，通過這種方式，機(jī)器人在某些任務(wù)上能達(dá)到接近 100% 的成功率——這是純模仿學(xué)習(xí)無法企及的高度。

從“知”到“行”：熱情是最后一公里
迄今，那只機(jī)械臂仍在不知疲倦地重復(fù)著訓(xùn)練動(dòng)作，身后的科研工作者們還在夜以繼日地調(diào)試。它還不夠完美，偶爾會(huì)失誤，會(huì)在意想不到的情況下“手足無措” 。但正是這些失敗，構(gòu)成了通向理解的必經(jīng)之路。這也讓我們?cè)诓稍L的最后，不禁問出了那個(gè)問題：在這樣一個(gè)瞬息萬變、充滿不確定性的領(lǐng)域，究竟什么樣的人才能走到最后？

“我認(rèn)為是要有熱情和快速學(xué)習(xí)的能力。 “因?yàn)橐粋€(gè)頂級(jí)的研究者，他肯定是這個(gè)世界上對(duì)于這個(gè)細(xì)分小領(lǐng)域最了解的人，至少是之一。所以他每往前邁一小步，其實(shí)都是要面臨無限的不確定性和挑戰(zhàn) 。這種情況下，研究在很多時(shí)候就是一份煎熬。只有真正對(duì)這個(gè)領(lǐng)域充滿熱情的人，期待能夠看到自己把這個(gè)東西做出來、并且覺得有成就感的人，才能夠克服這份煎熬。 ”

在快速演化的具身智能領(lǐng)域，研究者需要面對(duì)復(fù)雜系統(tǒng)帶來的不確定性。算法在一個(gè)場(chǎng)景中表現(xiàn)良好，換一個(gè)位置或環(huán)境后可能完全失效；不同批次的數(shù)據(jù)可能帶來截然不同的訓(xùn)練結(jié)果；許多問題缺乏現(xiàn)成答案，需要從頭推導(dǎo)和驗(yàn)證。

為了保持學(xué)習(xí)效率，王子為在實(shí)驗(yàn)室推動(dòng)“論文快講會(huì)” ，讓團(tuán)隊(duì)成員每周快速總結(jié)新的研究進(jìn)展，并相互討論。他認(rèn)為，在一個(gè)知識(shí)迭代迅速的領(lǐng)域，團(tuán)隊(duì)式學(xué)習(xí)能更好地保持對(duì)前沿的敏感。

在應(yīng)用層面，他的團(tuán)隊(duì)也在與制造行業(yè)合作，包括汽車、飛機(jī)維保、物流等場(chǎng)景，希望在真實(shí)工業(yè)環(huán)境中采集到更高質(zhì)量的數(shù)據(jù) ，為未來的機(jī)器人模型打下基礎(chǔ) 。

具身智能仍是一個(gè)不斷發(fā)展的領(lǐng)域，從“知道”到“做到”之間仍有距離。研究者在其中要面對(duì)工程復(fù)雜度、物理系統(tǒng)的不確定性，以及長(zhǎng)期投入的要求。通往可用的通用機(jī)器人系統(tǒng) ，仍需要時(shí)間、耐心和持續(xù)不斷的跨學(xué)科合作。

從模仿到自主，機(jī)器人還需跨越三重挑戰(zhàn)｜專訪NTU助理教授王子為

推薦閱讀

三鍋兒團(tuán)隊(duì)為什么解散

lol小丑怎么玩打野小丑攻略全面介紹

中建科工是央企嗎

絲巾什么材質(zhì)的比較好

飛毛腿6688改裝完美座充

香蕉空腹吃可以嗎

花椒苗怎么種植

黑色t恤搭配推薦

宋朝有玻璃嗎

寒蘭和春劍有什么區(qū)別

陽新婦幼保健院怎么樣,黃石陽新月皇后月子中心

筆記本電腦的刪除鍵是哪個(gè)鍵

倉鼠快死時(shí)有什么反應(yīng)

五禽戲的好處，習(xí)練五禽戲?qū)ι眢w有何好處

網(wǎng)絡(luò)上引發(fā)熱議的懶漢病真相

鹽堿地種植什么合適