當智能醒于物理世界,英偉達副總裁: 下一個十年屬于物理AI!

當智能醒于物理世界,英偉達副總裁: 下一個十年屬于物理AI!

文章圖片

當智能醒于物理世界,英偉達副總裁: 下一個十年屬于物理AI!

文章圖片

當智能醒于物理世界,英偉達副總裁: 下一個十年屬于物理AI!

文章圖片

當智能醒于物理世界,英偉達副總裁: 下一個十年屬于物理AI!

文章圖片

當智能醒于物理世界,英偉達副總裁: 下一個十年屬于物理AI!

文章圖片

當智能醒于物理世界,英偉達副總裁: 下一個十年屬于物理AI!

文章圖片

當智能醒于物理世界,英偉達副總裁: 下一個十年屬于物理AI!

文章圖片

當智能醒于物理世界,英偉達副總裁: 下一個十年屬于物理AI!

文章圖片

當智能醒于物理世界,英偉達副總裁: 下一個十年屬于物理AI!

文章圖片

當智能醒于物理世界,英偉達副總裁: 下一個十年屬于物理AI!
編輯:編輯部
【新智元導讀】AGI從未如此逼近——新天終啟 , 萬象智生 。 在新智元十年峰會上 , NVIDIA副總裁分享了下一個十年的AI浪潮:新的數據基礎設施、新的算力層次、新的千億級市場 , 物理AI正在鋪開 。
當全世界的目光還聚焦在大語言模型和AI智能體的競賽時 , 英偉達已經將視線投向了更宏大戰場——物理世界 。
我們所熟知的人工智能 , 至今更多存在于數字世界中:生成文字、圖片、代碼 , 進行搜索和推薦 。
然而 , AI的「終極形態」 , 必然要走向現實 , 與真實環境互動!
在「新智元十周年峰會」上 , NVIDIA工程和解決方案副總裁賴俊杰 , 向外界系統地揭示了公司的下一個十年戰略核心:物理AI (Physical AI) 。

這不僅是繼「生成式AI」和「智能體AI」之后的下一波浪潮 , 更是一個旨在徹底解放人類生產力 , 重塑未來生活方式的宏偉藍圖 。
這 , 是一個要把真實地球裝進GPU的時代!
英偉達為什么在今天把籌碼壓向現實世界?
線索藏在九年前的一次英偉達和新智元的對話里 。

黃仁勛(右)接受新智元創始人楊靜采訪并合影
當時 , 黃仁勛就看到了AI對GPU的強勁需求 , 并對AI做出判斷:具有常識的機器會很快出現 。

但對于類似于人類的通用的人工智能 , 是否會在10—15年內實現 , 他仍不確定 。
今年7月 , 黃仁勛再訪北京 , 接受了國內外媒體采訪 。 在現場 , 新智元有幸采訪了黃仁勛 。 這次 , 黃仁勛改變了9年前對AGI的看法:
根據我所理解的AGI定義 , 目前已有很多很好的想法 , 可能會在不遠的將來引向通用人工智能 。

2025年 , 黃仁勛和新智元創始人楊靜女士合影(上方左);在新智元創始人楊靜女士背后 , 黃仁勛在簽名(上方右);黃仁勛簽名(下方)
這也是新智元十周年峰會參會嘉賓的共同感受——
過去10年 , 是AI奇跡的10年 。 現在 , 人類前所未有地接近AGI 。
AI在指數級發展 , 正如《2025新智元ASI前沿趨勢報告》所言:
過去6年 , AI智能體獨立完成人類任務的時長能力 , 始終以約7個月翻一番的速度指數級增長 。


最新的GPT-5模型 , 在軟件工程任務上的「50%成功率時間視域」 , 已達2小時17分鐘 。


到2027年末 , AI智能體將能獨立執行需要人類耗時幾天乃至數周的項目 。 屆時 , ASI的曙光將沖破云霄 , 一個恢弘的智能新紀元將正式開啟 。
今年 , OpenAI已發布了三大智能體——Operator、Deep Research、Codex 。
據稱 , DeepSeek的下一個大動作也是高階智能體 , 力爭年底發布相關更新 。
智能體讓模型從會答變成會做 , 門檻是可靠性與工具鏈整合 。
但英偉達的視野已經越過了智能體乃至Agentic AI , 他們開始布局下一波AI浪潮——物理AI 。

在「新智元十周年峰會」上 , NVIDIA工程和解決方案副總裁賴俊杰分享了對AI未來的行業判斷 。



算力大爆發
2012年 , AlexNet橫空出世 。
之后 , 深度神經網絡席卷學術界工業界 , 深度學習引爆AI研究范式轉移:
無數研究者開始下定決心 , 全力投入到以深度神經網絡為代表的深度學習技術 。
很快 , 許多落地了一批場景與應用:語音、視覺、圖像、搜索……
2013年 , 賴俊杰加入英偉達 。
他見證了AI史上這波浪潮 , 英偉達迎來新的算力需求大爆發 。
之前 , 英偉達已經開發了CUDA , 但GPU等算力主要用于科學計算、生物、化學、天體物理等等任務 。
一般的客戶也就買幾塊、幾十塊GPU;如果能買上幾百塊GPU , 那就是真正意義上是大客戶 。
但2014年 , 百度一家就買下了英偉達1000塊GPU 。
第一次聽到這個消息的時候 , 賴俊杰感到吃驚 。
而現在 , xAI旗下的數據中心Colossus已配備了20萬塊GPU 。

只有如此的算力 , 才足夠支持GenAI進入千家萬戶 。
LLM迎來了爆發 , 帶來了很多生產力工具 。
今天 , 大家已經非常習慣于用自然語言去跟數字世界的大模型進行交互 , 來生成圖像、視頻、文本等等 。
對于游戲發燒級玩家而言 , 可能沒有想到游戲渲染新技術DLSS也得益于AI的發展 。
AI改變了太多 。
但到今天為止 , 大家接觸最多的人工智能還只存在于數字世界中:各種各樣的圖像、語音搜索、廣告推薦等等 ,
英偉達認為 , 「物理AI」是繼Agentic AI后的下一代AI浪潮 。
賴俊杰重點分享了英偉達的物理AI戰略構想 。

AI的下一代浪潮
機遇與挑戰
回到物理AI , 它被視為接下來人工智能發展的重要方向 。
所謂的物理AI , 就是與現實的物理世界交互的AI 。
物理AI意味著物理AI驅動的自主機器 , 可以與周遭的物理世界交互 , 理解真實世界 , 采取各種各樣的行動 。

不同的物理AI自主機器 , 大家的期望也有所不同 。
比如 , 工業的機械臂 , 大家只是期望它在固定位置上 , 可以進行抓取和叉裝這些精細的小動作 。
而智能駕駛汽車 , 大家則希望它理解各種各樣復雜的路況 , 并且需要掌握像轉向、變道、加速、剎車等等技能 。
最具挑戰性的是人形機器人 , 我們對它的期望是
在基本所有人類涉足的復雜場景里 , 它都能做出各種各樣復雜的動作 。
物理AI要想取得成功的話 , 其實面臨著非常大的挑戰 。
因為人工智能的模型和算法驅動機器 , 與現實的世界交互 。
【當智能醒于物理世界,英偉達副總裁: 下一個十年屬于物理AI!】如果算法和模型沒有經過充分驗證 , 或者說它的安全措施不到位的話 , 就可能對我們周遭的物理環境 , 甚至是人本身產生傷害 。
而要開發安全魯棒的物理AI, 另一大挑戰是數據要求更高 。
物理AI需要的高質量數據 , 以及在一些極端場景數據非常難以去采集 。
極端場景稀缺——但恰是魯棒性關鍵 。
比如說車前突然出現了車輛或其他障礙物 , 類似于這樣危險的數據的話還是比較稀少的 。

此外 , 物理AI的測試與驗證 , 成本體量非常的高 , 人力、物力等投入非常大 。
而且物理AI需要的數據難以拓展 , 受到物理現實的直接制約 。
比如說 , 現在是夏秋之交 , 想要測試冰雪環境下自動駕駛算法 , 很難甚至可以說基本不可能 。
要實現安全可靠的AI , 不止需要傳統LLM訓練需要的算力平臺集群之外 , 或者部署平臺需要的一些計算平臺 。
我們還需要第三類計算的基礎設施 。


把地球裝進GPU
在第三類計算基礎設施之內 , 實際上就是把現實的物理世界 , 非常逼真地還原到虛擬世界中 。
然后 , 在這樣的虛擬世界中 , 對物理AI算法進行測試、驗證、仿真等等 。
但為什么要在虛擬世界中做物理AI?最大的好處是什么呢?
首先 , 它非常的容易擴展scale 。
現實測試從一臺車拓展到10臺車 , 拓展到100臺車 , 不是特別容易 , 但是在數據中心里面放1臺機器 ,10 臺機器、 100臺機器、 1000臺機器 , 就相對容易拓展 。
而且在虛擬世界中 , 更容易擺脫時空的限制 。
比如 , 在虛擬世界中 , 夏天測試自動駕駛算法在冰雪環境下的表現就相對容易 。
這就是英偉達對物理AI的核心思路想法 。
為了應對物理AI各種各樣的一些挑戰 , 為了更好能夠去測試、驗證、訓練模型 , 英偉達今年年初開源了Cosmos世界基礎模型 。

開源方案覆蓋預訓練、后訓練、微調等全流程 , 而且可以免費商用;目前 , 已下載200多萬次

加速物理AI
英偉達開源三大模型
世界基礎模型Cosmos包含三類模型:
Predict:未來世界狀態的生成模型;
Transfer:照片真實集的增強模型;
Reason:針對物理世界的推理模型 。
Predict模型的輸入是當前的世界狀態 , 或者說可以認為是一個起始的圖像幀 , 用文字的方式去描述希望接下來這個世界發生的事件 。

許多自主機器人配備多相機;將相機位姿與位移等信息輸入后 , 即可生成對應輸出 。
比如 , 相機控制 , 在虛擬世界中告訴模型你要向左向右 , 向前向后做移動 , 就可以在虛擬世界中產生這樣一些視頻圖像 。
很多自主機器尤其像智能駕駛汽車經常有多個傳感器或者多個相機 , Predict模型支持同時生成六個不同位置的汽車上的相機所對應的視頻 。

第二類是Transfer模型 。
它的輸入有很多類 , 包括分割圖 , 包括激光雷達的點云 , 或者說高清地圖 , 還有表示各種各樣物體移動信息的bounding box , 把這些綜合上你的指令prompt , 輸入Transfer模型 , 就可以生成下面右邊的視頻 。

第一眼看過去 , 腦子里面有一個疑問 , 這些有什么用呢?
其中一類用法 , 把它當成生成式仿真工具 , 拿一段原始真實的視頻 , 從中提取出它對應的世界狀態 。

比如說高清地圖 , 還有bounding box , 把這些信息結合prompt輸入進去 , 你可以得到從原始視頻轉換來不同條件所對應的視頻 , 比如不同光照條件下、氣候條件下 , 甚至包括火災情況下的新的視頻 。
另外 , 值得一提 , 中間的這個視頻也非常重要:對世界狀態做一些編輯 。
而上文提到過訓練安全魯棒的算法 , 其中一個挑戰是極端情況的數據非常難得 。
解決思路:人為注入極端要素(如突然有動物穿越車前) , 生成對應視頻 , 用于驗證算法的魯棒性——
這正是高性能Transfer的價值 。
接下來的一段視頻 , 讓大家更好地去理解一下現在它能達到的效果 。
最后 , 推理模型Cosmos Reason 。
它的輸入也是一段視頻 ,進入視覺編碼器生成token , 再結合文字的prompt輸入到大語言模型里面 , 進行思維鏈的計算 , 最后輸出 。

Cosmos Reason應用領域非常多 。
比如做質檢的企業 , 拿它做視頻的標注 , 或者視頻的判斷 , 包括對于模型做直接的微調之后 , 甚至可以直接去作為機器人VLA(Vision Language Action)的模型 。
人工智能已經在數字世界取得非常大的成功 , 深刻地改變了日常的生活與工作的習慣 , 并正加速進入物理世界 。
最后 , 賴俊杰再次強調:
為了能夠訓練與開發出來魯棒的模型、算法 ,


為了能夠讓這些AI算法對真實的物理世界、對人類足夠安全 ,


NVIDIA開發開源了Cosmos世界基礎模型 。
展望未來十年 , 英偉達相信在物理世界 , 物理AI的應用必將取得非常實質性的進步 , 進一步解放人類的生產力 。

    推薦閱讀