日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

從模仿到自主,機(jī)器人還需跨越三重挑戰(zhàn)|專訪NTU助理教授王子為

從模仿到自主,機(jī)器人還需跨越三重挑戰(zhàn)|專訪NTU助理教授王子為

AI、機(jī)器人和未來 。

在新加坡南洋理工大學(xué)的一間實(shí)驗(yàn)室里 , 一只機(jī)械臂正在嘗試完成一個(gè)看似簡(jiǎn)單的任務(wù):抓取一個(gè)蘋果 。 這個(gè)動(dòng)作 , 對(duì)于三歲的孩童來說不過是本能 , 但對(duì)于當(dāng)今最先進(jìn)的機(jī)器人而言 , 卻是一道難以跨越的鴻溝 。

在這個(gè)人工智能的“GPT 時(shí)刻” , 我們見證了 AI 以快速迭代的方式掌握了語言、圖像甚至代碼 。 大型語言模型已經(jīng)能在許多信息處理任務(wù)中展現(xiàn)出高效表現(xiàn) 。 然而 , 從知到行之間 , 橫亙著一道我們尚未完全理解的鴻溝:一個(gè)能在虛擬世界通過美國執(zhí)業(yè)醫(yī)師資格考試的 AI , 卻無法在物理世界為我們可靠地端來一杯水 。

這不僅是一個(gè)工程問題 , 更接近一個(gè)哲學(xué)命題:如果一個(gè)智能體無法與物理世界交互、感知、行動(dòng)并承受后果 , 它是否真正理解了這個(gè)世界?在中國古典哲學(xué)中 , “知行合一”被視為智慧的最高境界 。 而在今天的人工智能研究中 , 如何讓機(jī)器實(shí)現(xiàn)從“知”到“行”的跨越 , 正成為這個(gè)領(lǐng)域最前沿、也最艱難的挑戰(zhàn) 。

王子為的研究經(jīng)歷 , 正是在這一問題背景下展開的 。 從清華大學(xué)的物理系 , 到 AI 研究 , 再到具身智能(Embodied AI)——他的每一次轉(zhuǎn)向 , 都與技術(shù)發(fā)展趨勢(shì)密切相關(guān) 。


(來源:受訪者提供)


兩次“轉(zhuǎn)向”:從物理定律到機(jī)器人鐵律
2016 年 , 當(dāng) AlphaGo 與李世石的圍棋對(duì)決吸引全球目光時(shí) , 王子為還是清華大學(xué)物理系數(shù)理基礎(chǔ)科學(xué)專業(yè)的一名學(xué)生 。 在當(dāng)時(shí)的學(xué)術(shù)路徑規(guī)劃中 , 物理系的學(xué)生 , 未來大多走向理論物理、高能物理或是金融工程 。 但這場(chǎng)人機(jī)大戰(zhàn) , 徹底改變了這個(gè) 20 歲年輕人的人生方向 。

【從模仿到自主,機(jī)器人還需跨越三重挑戰(zhàn)|專訪NTU助理教授王子為】“當(dāng)時(shí)覺得這個(gè)東西非常神奇 , 有非常大的潛力 。 ”回憶起那個(gè)轉(zhuǎn)折點(diǎn) , 王子為的語氣依然帶著當(dāng)年的激動(dòng) 。 這種激動(dòng)促使他做出了一個(gè)大膽的決定——從物理學(xué)轉(zhuǎn)向人工智能研究 。 “我們當(dāng)年有很大一部分同學(xué)都轉(zhuǎn)向了 AI 相關(guān)的工作 , 不管是計(jì)算機(jī)、電子還是自動(dòng)化 , 多多少少都受了 AlphaGo 的影響 。 ”

但真正讓他從 AI 轉(zhuǎn)向機(jī)器人研究的 , 是 2020 年另一項(xiàng)發(fā)表在Nature的里程碑式工作——“Robot Chemist” 。 來自英國利物浦大學(xué)的 Andrew I. Cooper 教授課題組開發(fā)了機(jī)器人化學(xué)家 , 其可以在實(shí)驗(yàn)室“走來走去”并如同人類化學(xué)家一樣操作實(shí)驗(yàn)儀器 , 完成各種各樣的實(shí)驗(yàn)任務(wù) 。

這項(xiàng)研究讓他意識(shí)到:相比純粹的算法研究 , AI 與物理世界的結(jié)合可能是一個(gè)更具空間的方向 。

同年 , 他開始了 AI 與機(jī)器人結(jié)合的研究 , 從純粹的 AI 走向具身 AI 。 “我記得非常的清楚 , ”他回憶起2020年第一次調(diào)試機(jī)器人 , “看到我們自己設(shè)計(jì)的機(jī)械臂 , 能夠完成打包工作 , 把一個(gè)物體像人一樣打包進(jìn)盒子里面……那一份成就感 , 哪怕過去這么多年了 , 也是記憶猶新 。 ”


加速的時(shí)代 , CMU 的“快”與“慢”
在 AI 這個(gè)以月為迭代周期的領(lǐng)域 , 快是公認(rèn)的信條 。 算法在加速 , 模型在膨脹 , 論文在增長(zhǎng) 。 然而 , 王子為在博士畢業(yè)后前往卡內(nèi)基梅隆大學(xué)(CMU)進(jìn)行博士后研究時(shí) , 學(xué)到的最重要的一課 , 卻是“慢下來” 。

“讓研究慢下來 , 其實(shí)不容易 。 ”王子為發(fā)現(xiàn) , 當(dāng)AI 與機(jī)器人結(jié)合 , 研究的范式就徹底變了 。 在純AI 領(lǐng)域 , 一個(gè)想法的驗(yàn)證周期可能很短:設(shè)計(jì)一個(gè)新模型 , 在已有的數(shù)據(jù)集上跑一下 , 幾個(gè)小時(shí)或幾天后 , 就能迅速驗(yàn)證想法是否有效 。 但在機(jī)器人領(lǐng)域 , 這個(gè)周期會(huì)被無限拉長(zhǎng) 。

“要把問題想清楚是需要時(shí)間的 。 ”王子為舉例 , 在機(jī)器人上驗(yàn)證一個(gè)新算法 , 首先要采集數(shù)據(jù) 。 這個(gè)過程是物理的、實(shí)時(shí)的、昂貴的 。 “機(jī)器人采數(shù)據(jù)是需要時(shí)間的 , 是需要成本的 。 ”采集完數(shù)據(jù) , 還要進(jìn)行漫長(zhǎng)的訓(xùn)練和調(diào)試 。

更重要的是 , 物理世界遠(yuǎn)比數(shù)據(jù)集要狡猾 。 “比如 , 我們?cè)O(shè)計(jì)的框架對(duì)不同的網(wǎng)絡(luò)結(jié)構(gòu)、不同的硬件 , 是不是都有效?增加數(shù)據(jù)之后 , 在特定的問題上 , 它是否會(huì)產(chǎn)生像物理學(xué)里面那種相變?”就像 GPT 模型在數(shù)據(jù)量跨越某個(gè)閾值后突然涌現(xiàn)出能力一樣 。 在機(jī)器人領(lǐng)域 , 這個(gè)涌現(xiàn)點(diǎn)在哪里?沒有人知道 。

“這都是需要時(shí)間的 。 ”他反復(fù)強(qiáng)調(diào) 。

他在 CMU 參與的一個(gè)項(xiàng)目 , 是研究如何通過人類的語言或草圖 , 來生成樂高積木的拼接方案 , 并指揮機(jī)器人完成組裝 。 這聽起來像個(gè)玩具問題 , 但其背后的技術(shù)復(fù)雜度是驚人的 。 這套系統(tǒng)首先需要理解人類模糊的指令(造一個(gè)帶兩個(gè)窗戶的紅房子) , 然后生成一個(gè)三維的、符合物理拼接邏輯的模型;接著需要規(guī)劃?rùn)C(jī)器人的每一步操作(抓取、旋轉(zhuǎn)、放置) , 最后才到讓機(jī)器人執(zhí)行高精度的動(dòng)作的環(huán)節(jié) , 并還要保證全過程的安全 。

“這個(gè)工作從 2023 年就開始了 , 一直到今年(2025年)才有一個(gè)里程碑式的結(jié)果 , 但最后這篇論文也是拿到了 ICCV 的 Best Paper 。 ”

一個(gè)看似簡(jiǎn)單的搭樂高任務(wù) , 耗費(fèi)了團(tuán)隊(duì)數(shù)年的時(shí)間 。 這種“慢” , 在如今的加速社會(huì)里似乎是不可想象的 。 但王子為認(rèn)為 , 正是這種“慢” , 讓他們能夠沉淀下來 , 去發(fā)現(xiàn)一些平常容易忽略的 , 但是真正重要的一些問題 。

與此同時(shí) , CMU 的合作氛圍為研究帶來了一種“快” 。 不同實(shí)驗(yàn)室在硬件、感知、移動(dòng)平臺(tái)等方面能力互補(bǔ) , 使項(xiàng)目推進(jìn)更為高效 。 這種“快”與“慢”的結(jié)合 , 也影響了他后來在 NTU 開展研究的方式 。


蘋果掉在地上:具身智能的“阿喀琉斯之踵”
“我們實(shí)驗(yàn)室的長(zhǎng)期目標(biāo) , 是為機(jī)器人賦予能夠理解世界、并且能夠自主決策的大腦 。 ”

在 NTU 的實(shí)驗(yàn)室里 , 王子為正試圖回答這個(gè)領(lǐng)域最核心的難題:為什么今天的機(jī)器人 , 本質(zhì)上仍然是模仿者 , 而不是決策者?他用一個(gè)極其生動(dòng)的例子 , 點(diǎn)出了具身智能的“阿喀琉斯之踵”——泛化性(Generalization) 。

“以抓蘋果為例 。 蘋果放在桌子上 , 很多模型表現(xiàn)都能把它抓起來 。 這是我們通常在演示視頻里看到的 。 但是 , 如果某一次抓的時(shí)候沒抓穩(wěn) , 蘋果掉在地上了 , 那么很多的機(jī)器人的模型現(xiàn)在就會(huì)直接 fail 掉 。 因?yàn)樵谟?xùn)練的過程中 , 它可能壓根就沒有見過這種類似的數(shù)據(jù) 。 ”

這就是當(dāng)前主流的模仿學(xué)習(xí)(Imitation Learning)范式的弱點(diǎn) 。 模型只是在復(fù)現(xiàn)它在訓(xùn)練數(shù)據(jù)中見過的軌跡 , 它并沒有真正理解這個(gè)任務(wù) 。 “人哪怕看到蘋果掉在地上 , 我理解到蘋果、桌子、地板之間的規(guī)律 , 以及這個(gè)世界的物理運(yùn)行規(guī)律 , 包括摩擦力、包括重力……它都是能夠解決的 。 ”而機(jī)器不能 。 這就是“分布外”(Out-of-Distribution OOD)問題 。 當(dāng)機(jī)器人遇到一個(gè)它訓(xùn)練數(shù)據(jù)分布之外的、全新的情況時(shí) , 它就束手無策了 。

背后的挑戰(zhàn)可以概括為三類 , 這也是整個(gè)行業(yè)共同面臨的“三座大山”:

其一 , 數(shù)據(jù)昂貴 。 機(jī)器人數(shù)據(jù)必須在真實(shí)物理環(huán)境中采集 , 每條數(shù)據(jù)往往要數(shù)十秒甚至更久 , 難以像語言模型那樣依靠大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練;其二 , 物理精度要求高 。 幾毫米的誤差都可能導(dǎo)致任務(wù)失敗 , 小偏差的累積會(huì)迅速放大;其三 , 環(huán)境物理規(guī)律多變 。 摩擦、質(zhì)地、光照等因素的微調(diào)都會(huì)影響動(dòng)作效果 , 模型需要實(shí)時(shí)建模這些隱性變量 。


走向“自主”:世界模型、推理鏈與強(qiáng)化學(xué)習(xí)
為了應(yīng)對(duì)上述難題 , 王子為團(tuán)隊(duì)正在探索三類方法 。

第一條路徑 , 是嘗試用世界模型(World Model)打破數(shù)據(jù)詛咒 。 既然物理世界的數(shù)據(jù)采集那么昂貴 , 我們能不能讓機(jī)器人在“腦海中”采集數(shù)據(jù)?這就是世界模型的邏輯 。 “它根據(jù)當(dāng)前的觀察和即將要采取的一個(gè)動(dòng)作 , 就會(huì)提前預(yù)判后續(xù)會(huì)產(chǎn)生什么樣的后果 。 ”王子為解釋道 , “也就是說 , 我不需要真的去做這個(gè)事 , 我只需要在我腦海里面想一下 , 我就知道會(huì)產(chǎn)生什么樣一個(gè)后果 。 ”

通過世界模型 , 機(jī)器人可以在“想象”中源源不斷地產(chǎn)生訓(xùn)練數(shù)據(jù) , 極大地降低數(shù)據(jù)成本 。 當(dāng)然 , 前提是這個(gè)“想象”要足夠逼真 。 這是王子為團(tuán)隊(duì)的重點(diǎn)方向之一 , 即如何生成真正跟真實(shí)的數(shù)據(jù)差距比較小的高質(zhì)量數(shù)據(jù) 。

第二條路徑 , 是用推理鏈解決長(zhǎng)程任務(wù) 。 當(dāng)前的機(jī)器人模型(如 VLA , Vision-Language-Action 模型)普遍“短視” 。 它們能做好抓取蘋果這樣的一步動(dòng)作 , 但無法完成做一份早餐這樣的長(zhǎng)程任務(wù) 。 “做早餐 , 它可能需要 20 步 , 甚至 30 步 。 打開冰箱、拿出食材、洗、切、煮、端到桌子上 。 ”王子為說 , “這是一個(gè)需要推理能力的長(zhǎng)程任務(wù) 。 ”而受大語言模型思維鏈(Chain-of-Thought)的啟發(fā) , 王子為團(tuán)隊(duì)的思路是 , 把長(zhǎng)任務(wù)拆解成一步一步的短任務(wù) , 讓機(jī)器人每次只去解決一小步 。

但核心問題是:怎么“拆”才是最優(yōu)的?人類認(rèn)為的 20 步 , 不一定是模型認(rèn)為最高效的 20 步 。 他近期的工作(如 ThinkBot 和 VLA-Reasoner)就是為了解決這個(gè)拆解問題 。 他們嘗試用蒙特卡洛搜索樹和強(qiáng)化學(xué)習(xí)的方法 , 去搜索一個(gè)最優(yōu)的拆解方案 。 “機(jī)器人需要推理物體與物體之間的關(guān)系(空間上) , 也需要推理動(dòng)作與動(dòng)作之間的關(guān)系(時(shí)間上) 。 ”

第三條路徑 , 用強(qiáng)化學(xué)習(xí)跳出模仿的范式 。 這是最激進(jìn) , 也可能最具革命性的一步 。 它試圖徹底解決那個(gè)“蘋果掉在地上”的 OOD 問題 。 模仿學(xué)習(xí)的覆蓋面總是有限的 , “人是沒有辦法去窮盡所有的分布外的情況的 。 “那我們能不能 , ”王子為設(shè)想 , “不再依賴于人類的數(shù)據(jù)采集 , 而是說通過自己主動(dòng)的去嘗試一些東西?”

這就是強(qiáng)化學(xué)習(xí)的回歸 。 讓機(jī)器人自己去探索 , 甚至主動(dòng)犯錯(cuò) 。 “比如說 , 它自己主動(dòng)覺得 , 這個(gè)蘋果如果將來掉到地上之后 , 我可能不確定怎么去拿 , 那么他就會(huì)自己主動(dòng)去嘗試 , 把這個(gè)蘋果弄到地上 , 然后去把它抓起來 , 在這個(gè)過程中進(jìn)行學(xué)習(xí) 。 ”這是一種根本的范式轉(zhuǎn)變:從“向人類學(xué)習(xí)”(Learning from Human)轉(zhuǎn)向“自主學(xué)習(xí)”(Self-learning) 。

這標(biāo)志著機(jī)器人從一個(gè)被動(dòng)執(zhí)行的工具 , 開始向一個(gè)主動(dòng)探索的智能體(Agent)進(jìn)化 。 王子為提到 , 近期已有很多論文顯示 , 通過這種方式 , 機(jī)器人在某些任務(wù)上能達(dá)到接近 100% 的成功率——這是純模仿學(xué)習(xí)無法企及的高度 。


從“知”到“行”:熱情是最后一公里
迄今 , 那只機(jī)械臂仍在不知疲倦地重復(fù)著訓(xùn)練動(dòng)作 , 身后的科研工作者們還在夜以繼日地調(diào)試 。 它還不夠完美 , 偶爾會(huì)失誤 , 會(huì)在意想不到的情況下“手足無措” 。 但正是這些失敗 , 構(gòu)成了通向理解的必經(jīng)之路 。 這也讓我們?cè)诓稍L的最后 , 不禁問出了那個(gè)問題:在這樣一個(gè)瞬息萬變、充滿不確定性的領(lǐng)域 , 究竟什么樣的人才能走到最后?

“我認(rèn)為是要有熱情和快速學(xué)習(xí)的能力 。 “因?yàn)橐粋€(gè)頂級(jí)的研究者 , 他肯定是這個(gè)世界上對(duì)于這個(gè)細(xì)分小領(lǐng)域最了解的人 , 至少是之一 。 所以他每往前邁一小步 , 其實(shí)都是要面臨無限的不確定性和挑戰(zhàn) 。 這種情況下 , 研究在很多時(shí)候就是一份煎熬 。 只有真正對(duì)這個(gè)領(lǐng)域充滿熱情的人 , 期待能夠看到自己把這個(gè)東西做出來、并且覺得有成就感的人 , 才能夠克服這份煎熬 。 ”

在快速演化的具身智能領(lǐng)域 , 研究者需要面對(duì)復(fù)雜系統(tǒng)帶來的不確定性 。 算法在一個(gè)場(chǎng)景中表現(xiàn)良好 , 換一個(gè)位置或環(huán)境后可能完全失效;不同批次的數(shù)據(jù)可能帶來截然不同的訓(xùn)練結(jié)果;許多問題缺乏現(xiàn)成答案 , 需要從頭推導(dǎo)和驗(yàn)證 。

為了保持學(xué)習(xí)效率 , 王子為在實(shí)驗(yàn)室推動(dòng)“論文快講會(huì)” , 讓團(tuán)隊(duì)成員每周快速總結(jié)新的研究進(jìn)展 , 并相互討論 。 他認(rèn)為 , 在一個(gè)知識(shí)迭代迅速的領(lǐng)域 , 團(tuán)隊(duì)式學(xué)習(xí)能更好地保持對(duì)前沿的敏感 。

在應(yīng)用層面 , 他的團(tuán)隊(duì)也在與制造行業(yè)合作 , 包括汽車、飛機(jī)維保、物流等場(chǎng)景 , 希望在真實(shí)工業(yè)環(huán)境中采集到更高質(zhì)量的數(shù)據(jù) , 為未來的機(jī)器人模型打下基礎(chǔ) 。

具身智能仍是一個(gè)不斷發(fā)展的領(lǐng)域 , 從“知道”到“做到”之間仍有距離 。 研究者在其中要面對(duì)工程復(fù)雜度、物理系統(tǒng)的不確定性 , 以及長(zhǎng)期投入的要求 。 通往可用的通用機(jī)器人系統(tǒng) , 仍需要時(shí)間、耐心和持續(xù)不斷的跨學(xué)科合作 。

    推薦閱讀