
文章圖片
云棲大會上 , 阿里宣布AI平臺將把完整的英偉達Physical AI(物理AI)軟件棧納入其開發者選項菜單 。 這個看似技術性的宣布 , 實際上標志著人工智能發展的一個重要轉折點 。 英偉達CEO黃仁勛在2025年CES大會上明確表示:AI下一個前沿就是物理AI , 蘊藏著巨大的潛力和機遇 。
根據市場研究數據 , 全球工業機器人市場規模預計從2024年的1544億元增長到2025年的3000億美元 , 其中AI技術在工業機器人中的應用市場更是以21.9%的年復合增長率快速擴張 。
然而目前大部分工業機器人仍屬于傳統自動化設備 , 按照預設程序執行固定動作 。 一旦環境發生變化——比如零件位置偏移或形狀略有不同——就需要人工重新編程 。 物理AI機器人則可以自主適應這些變化 , 通過實時感知和決策來完成任務 。
這其中 , 由傳統工業機器人升級到物理AI所帶來的增長 , 正是阿里和英偉達合作的根本 。 不過在此之前 , 我們需要了解一個問題 , 什么是物理AI?
A如果非要用一句話來概括什么是物理AI , 那就是一個讓人工智能從屏幕里走出來 , 真正進入物理世界的技術 。
舉個簡單的例子:傳統AI可以識別出一個杯子 , 并告訴你這是什么;而物理AI不僅能識別杯子 , 還能判斷杯子的重量、材質 , 計算出抓取它需要多大的力度 , 以及如何避免打翻里面的液體 。 這種差異決定了兩者的應用場景完全不同 。
黃仁勛強調 , PhysicalAI的核心在于將物理規律與人工智能技術相結合 , 通過整合真實物理規則來優化AI生成的內容 , 使其更符合現實世界的邏輯與規律 。 物理AI , 顧名思義就是物理+AI , 也就是人工智能反饋的內容要符合物理規律 。
物理AI這個概念并非一夜之間出現 , 而是英偉達經過多年技術積累和戰略布局的結果 。 早在2021年 , 英偉達就開始在GTC大會上提及 物理 AI的概念 , 但真正將其作為核心戰略推出是在2024年3月的GTC 2024大會上 。 黃仁勛在那次大會上首次系統性地闡述了 物理 AI的愿景 , 并發布了相關的技術平臺和工具鏈 。
【阿里英偉達合作的Physical AI,是怎么回事?】在黃仁勛看來 , AI的發展經歷了三個清晰的階段:最初是感知AI(Perceptual AI) , 能夠理解圖像、文字和聲音 , 這個階段的代表是計算機視覺和語音識別技術;然后是生成式AI(Generative AI) , 能夠創造文本、圖像和聲音 , 以ChatGPT、DALL-E等為代表;現在我們正進入Physical AI(物理AI)的時代 , AI不僅能夠理解世界 , 還能夠像人一樣進行推理、計劃和行動 。
物理AI的技術基礎建立在三個關鍵組件之上:世界模型(World Model)、物理仿真引擎(Physics Simulation Engine)和具身智能控制器(Embodied Intelligence Controller) 。 世界模型是 物理 AI的認知核心 , 它不同于傳統的語言模型或圖像模型 , 需要構建對三維空間的完整理解 , 包括物體的幾何形狀、材質屬性、運動狀態和相互關系 。 技術上 , 這通常通過神經輻射?。 ∟eRF)、3D高斯濺射(3D Gaussian Splatting)或體素網格(Voxel Grid)等方法來實現空間表征 , 模型需要學習物理定律的隱式表示 , 比如重力加速度、摩擦系數、彈性模量等參數 , 并能夠根據當前狀態預測未來的物理演化 。
物理仿真引擎則負責實時計算物理交互 , 這不是簡單的預設規則 , 而是基于偏微分方程求解器的動態計算系統 , 需要處理剛體動力學、流體力學、軟體變形等復雜物理現象 。 在技術實現上 , 通常采用有限元方法(FEM)、粒子系統(Particle System)或基于深度學習的可微分物理仿真器 , 關鍵在于計算效率和精度的平衡——系統需要在毫秒級時間內完成復雜的物理計算 , 同時保證足夠的精度來支持準確的決策 。
具身智能控制器是連接虛擬推理和物理執行的橋梁 , 它接收來自世界模型的預測結果和物理仿真的計算輸出 , 生成具體的控制指令 。 技術上 , 這通常基于模型預測控制(MPC)或深度強化學習(DRL)算法 , 控制器需要處理高維的狀態空間和動作空間 , 同時考慮執行器的物理限制、延遲和噪聲 。
從系統架構角度 , 物理AI采用分層設計 。 感知層集成多模態傳感器陣列 , 包括RGB-D攝像頭、激光雷達、IMU、力/扭矩傳感器等 , 關鍵技術挑戰在于傳感器融合和實時處理 , 系統需要將不同傳感器的數據統一到同一個坐標系中 , 處理時間同步、標定誤差和數據噪聲 , 技術上通常采用卡爾曼濾波、粒子濾波或基于深度學習的傳感器融合網絡 。
認知層運行世界模型和物理仿真引擎 , 這一層的計算密集度極高 , 需要專門的硬件加速 。 英偉達的方案是使用GPU集群進行并行計算 , 同時開發了專門的CUDA內核來優化物理仿真算法 , 內存管理也是關鍵技術點——系統需要在有限的GPU內存中維護大規模的3D場景表示和物理狀態 。
執行層負責運動規劃和控制 , 技術核心是逆運動學求解和軌跡優化 。 對于多自由度的機器人系統 , 需要實時求解復雜的約束優化問題 , 現代方法通常結合解析解和數值優化 , 使用雅可比矩陣的偽逆來處理冗余自由度 , 并采用二次規劃(QP)或序列二次規劃(SQP)來處理約束 。
在物理AI發布的同時 , 英偉達還發布了與之對應的完整技術生態系統 , 包括Omniverse仿真平臺、Isaac機器人開發套件、Cosmos世界基礎模型等 。
這是因為物理AI的訓練需要大量的物理交互數據 , 但現實世界的數據收集成本極高 , 解決方案是基于仿真的數據生成 。 于是英偉達就通過Omniverse和Cosmos平臺 , 生成大規模的合成訓練數據 , 包括各種物理場景、材質屬性和交互模式 。 不過再仿真環境中 , 訓練的模型在現實世界中往往性能下降 , 這被稱為“現實差距” , 英偉達現在正在做的 , 就是用仿真到現實的遷移(Sim-to-Real Transfer)技術 , 去彌補虛擬數據和現實數據之間的差距 。
物理AI對計算資源的需求遠超傳統AI應用 , 單個 物理 AI系統可能需要數百個GPU核心來實時運行 。 英偉達專門開發了RTX PRO服務器和DGX Cloud平臺來支持這種計算需求 , 系統架構采用分布式計算 , 將不同的計算任務分配到專門優化的硬件上 。 這種技術架構使得 物理 AI能夠在復雜的現實環境中實現實時的感知、推理和行動 , 真正實現了AI從虛擬世界向物理世界的跨越 。
還有一點 , 與傳統AI系統主要處理文本、圖像等數字信息不同 , 物理AI通過大模型驅動 , 使機器不僅能夠處理數據 , 還能理解三維世界的空間關系和物理規律 。 這種技術讓AI系統具備了類似生物的空間感知能力 , 能夠在現實環境中進行復雜的物理操作 。
舉個具體例子來說明這種差異:如果AI生成一段機器人抓取物體的視頻 , 傳統的生成式AI可能會創造出物體懸浮在空中、機械臂穿過固體障礙物、或者違反重力定律的畫面 , 因為它只是基于訓練數據進行像素級的模仿 。 而物理AI則會確保生成的內容完全符合物理世界的運作方式——物體會受重力影響下落 , 機械臂必須繞過障礙物 , 抓取力度要與物體重量相匹配 。
這種技術革新的深層意義在于 , 它讓AI從純粹的信息處理工具 , 轉變為能夠真正理解和操作物理世界的智能系統 。 傳統的AI就像一個只會看書但從未實踐的學者 , 擁有豐富的理論知識卻缺乏實際操作經驗;而物理AI則像一個既有理論知識又有實踐經驗的工程師 , 不僅知道是什么和為什么 , 更重要的是知道怎么做 , 能夠將抽象的知識轉化為具體的行動 。
B黃仁勛對物理AI的前景極其樂觀 。 他曾在CES上表示 , Physical AI將催生超50萬億美元規模的行業變革 , 涉及1000萬家工廠、20萬個倉庫、未來數十億計臺人形機器人和15億輛汽車及卡車 。 這個數字聽起來令人震撼 , 但背后有著堅實的邏輯支撐 。
世界上有10億知識工作者 , AI智能體可能是下一個機器人行業 , 很可能是一個價值數萬億美元的機會 。 黃仁勛在CES 2025上表示 。 他認為 , 物理AI意味著AI不再局限于虛擬世界 , 而是開始走向現實世界 , 并將在機器人、物流、汽車、制造等千行百業成為主流應用 。
在黃仁勛的規劃中 , 未來將有兩款高產量的機器人產品:第一個是自動駕駛汽車 , 第二個很可能就是人形機器人 。 這兩種機器都需要具有人類般的感知能力 , 能夠應對快速變化的環境 , 并在幾乎沒有容錯的情況下做出即時反應 。 他對人形機器人的潛力感到特別興奮 , 因為它們最有可能適應為人類設計的環境 。
黃仁勛還預言 , 機器人時代已經到來 , 未來所有移動的物體都將實現自主運行 。 這個預言的背后 , 是對物理AI技術成熟度和應用潛力的深度判斷 。 從技術發展的角度看 , 隨著計算能力的提升、傳感器成本的降低、算法的優化 , 物理AI正在從實驗室概念走向商業應用的臨界點 。
英偉達在物理AI領域的布局可以追溯到多年前對機器人技術的投入 。 該公司提出的物理AI概念 , 核心在于將物理規律與人工智能技術相結合 , 通過整合真實物理規則來優化AI生成的內容 , 使其更符合現實世界的邏輯與規律 。
但是英偉達不敢步子邁得太大 , 與傳統AI應用不同 , 物理AI系統直接與物理世界交互 , 其錯誤可能導致嚴重的安全后果 。 這要求物理AI系統具備更高的可靠性和安全性標準 。
英偉達目前的方案是Halos安全系統 。 這是一個全棧安全系統 , 它可以統一硬件架構、AI模型、軟件工具和安全標準 , 確保物理AI系統在各種環境下的穩定運行 。 從數據收集、模型訓練到部署應用 , 每個環節都需要嚴格的安全驗證 。
視角來到阿里這邊 , 他們選擇將英偉達物理AI軟件棧納入開發者選項 , 背后有著深層的戰略考量 。 當前的AI大模型應用主要集中在線上場景 , 而物理AI試圖將整個現實世界融入AI當中 。 這種從虛擬到現實的跨越 , 正是阿里云在AI時代需要搶占的制高點 。
阿里云智能集團董事長兼CEO吳泳銘在云棲大會上表示:生成式AI最大的想象力 , 絕不是在手機屏幕上做一兩個新的超級app , 而是接管數字世界 , 改變物理世界 。 這一表態清晰地表明了阿里對物理AI重要性的認識 。
阿里云CTO周靖人說過這么一句話 , 通義千問已開源300+模型 , 累計下載量超過了6億 。
然而 , 面對物理AI的發展趨勢 , 通義大模型也面臨著從二維理解向三維交互轉型的挑戰 。 傳統的大語言模型擅長處理文本和圖像 , 但在理解物理世界的空間關系、物理規律方面存在天然的局限性 。 這正是阿里需要引入物理AI技術棧的根本原因 。
但 , 這正好也是阿里的瓶頸 。 阿里的數據更多來自于互聯網 , 而非線下 。 這就迫使他們需要找到一個全新的途徑 , 以幫助通義來完成虛擬到物理的轉變 。
李飛飛曾經也說過類似的觀點 , 她認為對于AI而言 , 如果無法建立三維世界模型 , 就無法真正理解、操作或重建現實世界 。
通過集成英偉達的物理AI軟件棧 , 阿里可以為通義大模型增加空間理解和物理交互能力 。 這種集成不僅僅是技術層面的疊加 , 更是從語言智能向空間智能的戰略轉型 。 開發者可以利用阿里云的基礎設施和通義大模型的語言能力 , 結合英偉達的物理仿真和機器人控制技術 , 構建真正能夠在物理世界中工作的AI系統 。
不過與之相對的 , 物理AI的發展不是孤立的 , 它需要與現有的AI技術生態深度融合 。 大語言模型提供了強大的語言理解和推理能力 , 計算機視覺技術提供了環境感知能力 , 機器人技術提供了物理執行能力 。 物理AI正是這些技術融合的產物 。
在這個融合過程中 , 數據流動和處理架構至關重要 。 物理AI系統需要實時處理來自多個傳感器的海量數據 , 進行快速決策 , 并控制執行器完成動作 。 這對計算架構和算法優化提出了極高要求 。
云邊協同是物理AI部署的重要模式 。 復雜的AI推理可以在云端進行 , 而實時的控制決策則在邊緣設備上執行 。 這種架構既能利用云端的強大計算能力 , 又能滿足實時性要求 。
所以阿里也相當于給P物理AI提供了發展的養料 。
C如果說第一代感知AI讓機器學會了看和聽 , 第二代生成式AI讓機器學會了創造 , 那么物理AI則讓機器真正學會了行動 。
然而 , 物理AI的發展也面臨著諸多挑戰 。 首先是技術上的挑戰 , 如何讓AI系統在復雜的物理環境中穩定運行 , 如何降低巨大的計算成本以實現技術的普及化應用 , 這些都是當前亟待解決的問題 。 此外 , 仿真訓練與現實應用之間的“現實差距”也是一大難題 。 盡管仿真可以提供大量數據 , 但如何確保這些數據在現實世界中的適用性是個關鍵問題 。
物理AI或許不會像某些預測那樣迅速顛覆所有行業 , 但它必將逐步改變我們的工作和生活方式 。 它不僅是技術的革新 , 更是對傳統行業的顛覆和重塑 。 隨著技術的不斷發展和應用場景的拓展 , 物理AI將成為推動全球經濟增長和社會進步的重要力量 。
本文來自微信公眾號“字母榜”(ID:wujicaijing) , 作者:苗正 , 36氪經授權發布 。
推薦閱讀
- 科沃斯與阿里云達成全棧AI合作,掃地機器人產品已接入通義千問
- 英特爾助力阿里云推出多款云實例與存儲方案,共筑AI時代云端算力基石
- 阿里云政企下一個十年,藏在這兩個“i”里
- Robotaxi眼睛革命:三次激光雷達換代潮,無人車從0走向100000
- 再見了,英偉達!500億美元中國市場對美芯關門,比爾蓋茨預言成真
- 科技向善 AI興實|中興通訊亮相2025云棲大會 手阿里云共建云生態
- 發光效率國際領先!小米17搭載超級陽光屏:峰值亮度達3500nits
- L卡口萬金油長焦來了,松下100-500mm放大倍率達0.36X
- 華為遺憾落榜!小米僅排第四,蘋果、三星市場份額總和高達73%!
- 阿里云與英偉達再牽手,在具身智能應用落地達成合作
