群核科技,摸著李飛飛過河

群核科技,摸著李飛飛過河

文章圖片

群核科技,摸著李飛飛過河

文章圖片


作者|Li Yuan
編輯| 鄭玄
李飛飛的「空間智能」(Spatial Intelligence) , 無疑是今年科技圈最性感的詞匯之一 。
當這位 AI 教母振臂一呼 , 原本還在卷文本、卷視頻生成的行業目光 , 瞬間被拉向了 3D 世界 。 然而 , 這個領域太過前沿 , 以至于在大洋彼岸 , 除了李飛飛的 World Labs , 真正能看懂并跟進的玩家也寥寥無幾 。
在中國 , 誰會是那個最快跟進的人?
令人意外的是 , 答案或許不在那些聲量巨大的大模型獨角獸名單里 , 而是一家在裝修設計領域耕耘多年的老兵——群核科技(酷家樂母公司) 。
12 月 9 日 , 在群核科技 2025 酷+大會上 , 這家在 3D 空間領域深耕 14 年的公司宣布了一項重大戰略升級:從 3D 軟件提供商 , 轉型為空間智能基礎設施提供商—— 發布了物理模擬視頻生成模型 LuxReal , 并同步推出了 Aholo 空間智能開放平臺 , 一口氣開放了從空間重建、生成 , 到編輯與理解的全套能力 。
雖然并非傳統意義上的 AI Native 公司 , 但群核科技似乎正在走出一條獨特的「中國版李飛飛路線」 。
看起來或許有點反直覺:為什么率先在這條賽道交卷的 , 不是那些算力雄厚的通用大模型巨頭 , 而是這家垂直軟件公司?
答案藏在空間智能的特性里 。
空間智能的門檻不僅僅是算力 , 更是這種對物理世界的「顯式掌握」 。
在過去的 14 年里 , 群核科技積累了全中國最龐大的真實戶型數據庫、帶有精確物理材質參數的商品模型 , 以及數以億計經過渲染驗證的裝修方案 。 這些并非合成數據 , 而是物理世界的「數字底稿」 。
當李飛飛指明空間智能是 AI 的下一站時 , 行業才猛然發現 , 通往這一站最關鍵的「數據船票」 , 其實早就握在了這位行業老兵手中 。

01中國的「李飛飛路線」:
在黑盒中植入「把手」
在這次發布會中 , 承載群核科技空間智能野心的核心產品 , 是一個名為 LuxReal 的視頻生成模型 。
如果僅僅看演示 demo , LuxReal 似乎是在做與 Sora、或者李飛飛的 World Labs 類似的事情:輸入一個圖片 , 生成一段與圖片相關的 , 物理規律準確且具有一致性的視頻 。 但如果揭開引擎蓋 , 你會發現幾者的技術底色截然不同 。
首先是 Sora 代表的「大力出奇跡」路線 。
Sora 本質上是一個「2D 原生」的模型 。 它并不真正理解三維空間 , 而是通過 DiT(Diffusion Transformer)架構 , 學習了海量視頻數據中「像素塊」的運動規律 。 它像是一個看過幾億部電影的天才畫家 , 因為它知道「杯子掉落」后下一幀畫面通常是什么樣 , 所以它能畫出符合物理直覺的視頻 。 但這種物理規律是「涌現」的 , 是不穩定的——這也是為什么 Sora 生成的視頻中 , 人有時候會突然長出第三只手 , 或者椅子在旋轉時會莫名變形 。 因為它心中沒有「椅子」的三維模型 , 只有「看起來像椅子的像素」 。
而群核科技與李飛飛的 World Labs , 則站在了 Sora 的對立面 。
兩者都堅信: 要解決物理一致性 , 中間必須多一步三維幾何結構 , 就是所謂世界模型的路線 。也就是不能直接從 Text 變 Video , 必須是 Text -3D World -Video 。 只有先在計算機里構建出一個有深度、有體積的 3D 舞臺 , 再在這個舞臺上架設虛擬攝像機拍攝 , 才能保證無論怎么運鏡 , 物體都不會崩壞 。
但就在「如何構建這個 3D 舞臺」這一步上 , 群核科技和李飛飛的路線略有不同 。
李飛飛試圖構建一個「可學習的渲染器」 。 在這個模型中 , AI 不需要構建任何顯式的 3D 模型 。 它將世界壓縮進了神經網絡的「激活狀態」(KV Cache)里——這是一個人類看不見、摸不著的*「隱式世界」 。 通過端到端訓練 , 模型學會了像上帝一樣在神經元內部「渲染」光影、反射和遮擋 。 它模糊了「重建」與「生成」的界限:給它幾張圖 , 它就能在腦海中補全這個場景的各個角度 。它極其優雅 , 像是一個看過世界的「缸中之腦」 , 在思維內部完美模擬了物理法則 。
而群核科技的 LuxReal , 選擇了一條更「笨」但對產業更有用的路: 基于資產的結構化生成 。
得益于 14 年的積累 , 群核不需要讓 AI 在神經元里去「隱式模擬」一個沙發 。 LuxReal 以群核自研的 Lux3D 為底座 , 它的工作流是: 先生成 3D: 它是生成式 AI , 但它首先生成的是 3D 物體和場景; 再渲染視頻: 有了確定的 3D 資產后 , 再通過物理引擎將其渲染成視頻 。
因為中間多了一步「顯式」的 3D 支撐 , 無論鏡頭怎么甩 , 高達的模型結構被牢牢鎖死 , 絕不可能出現「長出第三只手」或「金屬變液體」的幻覺 。
而群核之所以敢選這條路 , 底氣依然在于他們的數據積累 。 要訓練 AI 進行精準的「顯式表征」 , 需要海量帶有精確物理標注的 3D 數據作為「教材」 。 這正是群核科技過去十四年構建的護城河——他們不需要像其他公司那樣用游戲引擎去合成數據 , 他們手里就有最真實的物理世界數字底稿 。
這個多出來的「顯式步驟」 , 它在處理流體與極端形變時 , 或許不如李飛飛的隱式模型那般寫意 , 相對來說也帶來了額外的算力負載 。但這恰恰是群核的取舍之道——通過支付這些成本 , 他們在 AI 那深不可測的黑盒中 , 成功植入了一個可供人類精準操作的「把手」 。
它在處理剛體(Rigid Body)、結構化場景和復雜的室內光影時展現出了極強的優勢 。 它少了一些無中生有的「幻覺」 , 卻多了一份產業急需的「確定性」和「可編輯性」 。
這在 電商與廣告 場景中極具殺傷力 。
試想 , 當你上傳一款新發布的咖啡機模型 , 你需要的是它在各種高級光影下流轉 , 展示其金屬質感 , 而不是讓 AI 發揮想象力把它的按鈕位置改了 , 或者把機身扭曲了 。 相比于其他模型容易「二創」產品 , LuxReal 能做到「產品 100% 還原 , 而光影與運鏡無限生成」 。
這才是從「看著好玩」的 Demo , 走向「所見即所賣」的 Commercial(商業交付)的關鍵一步 。

02意外的 3D 時代富礦
為什么在中國追趕李飛飛路線的 , 反而是群核科技?
要回答這個問題 , 我們需要把時鐘撥回十四年前 。 那時候 , 群核科技(及其核心產品酷家樂)在大多數人眼中的形象 , 僅僅是一個好用的 SaaS 工具 。 它讓設計師扔掉了難學的 3D Max , 在瀏覽器里就能快速搭建戶型、渲染效果圖 。
彼時 , 沒有人能預見到 2024 年的 AI 變局 。 群核自己可能也沒想到 , 當年為了「讓裝修變簡單」而建立的這套云端 CAD 系統 , 竟在十四年的漫長歲月中 , 無意間通過數千萬設計師的手 , 堆出了一座 全世界最大的、真實物理世界的數字富礦。
這便是空間智能賽道上最反直覺的一幕:當硅谷的頂尖頭腦們為了獲取高質量 3D 數據而絞盡腦汁時 , 這家中國垂直軟件公司 , 卻坐在了金山上 。
在空間智能的訓練中 , 數據決定了天花板 。
即便是李飛飛的 World Labs , 或者是其他試圖沖擊 3D 世界模型的大廠 , 在缺乏真實數據的情況下 , 往往只能退而求其次——利用 Unity 或 Unreal 等游戲引擎來生成「合成數據」(Synthetic Data) 。
這在邏輯上是通的 , 但存在致命的 Sim2Real(從仿真到真實) 鴻溝 。 游戲引擎生成的場景是完美的、干凈的、人工定義的 。 然而 , 真實的物理世界是「臟」的、復雜的、充滿噪聲的 。 完全用合成數據訓練出來的 AI , 在面對真實世界時往往會「水土不服」 。
而群核科技手里握著的 , 是真正的「物理底稿」 。
過去 14 年 , 中國幾乎每一次裝修浪潮、每一套奇葩戶型的改造、每一個家具的擺放邏輯 , 都被數字化地保存在了群核的服務器里 。
這里有 數億張 真實的戶型圖 , 涵蓋了中國大江南北最復雜的建筑結構;這里有 海量 帶有精確物理參數(材質、摩擦力、尺寸)的商品模型 , 而不是只有外殼的 3D 貼圖;這里還有 數不清 的設計方案 , 它們不是隨機生成的 , 而是包含了人類設計師對于「什么家具應該放在哪里」的深度語義理解 。
這些數據不是為了 AI 專門造出來的 , 它們是真實業務長出來的 。 正是這種「原本為了產業應用而積累的高精度數據」 , 構成了群核科技最深的護城河 。 它比通用的視頻數據更深(有結構) , 比游戲引擎的數據更真(有物理屬性) 。
一轉頭 , 群核科技發現自己正坐在這一輪 AI 競賽最稀缺的資源——數據金山上 。
這種資產層面的底氣 , 直接推動了公司戰略維度的躍遷: 從一家垂直的 3D 軟件提供商 , 正式轉型為空間智能的基礎設施服務商 。
12 月 9 日 , 群核科技正式發布 Aholo 空間智能開放平臺。 這不只是發布了一個工具箱 , 更是一次徹底的「家底開放」 。 群核將過去 14 年在 3D 領域打磨最深的四項核心能力—— 空間重建、空間生成、空間編輯、空間理解 ——毫無保留地進行了系統性封裝并對外輸出 。
這是一個極其關鍵的戰略轉身 。 在此之前 , 這些能力主要服務于家居裝修行業的內部提效;而現在 , 通過 Aholo , 群核試圖將這些能力變成 AI 時代的「水電煤」:
空間重建 :讓單張 2D 圖片瞬間「升維」 , 變成可漫游、有深度的 3D 場景;
空間生成 :用自然語言描述就能「生長」出復雜的 3D 模型;
空間編輯 :這是群核最擅長的「顯式」能力 , 讓生成的 3D 不再是死板的像素 , 而是可被精準修改的資產;
空間理解 :讓 AI 真正看懂畫面里的物體關系 , 知道「椅子在桌子旁邊」不僅是像素的位置 , 更是語義的關聯 。
如果說 LuxReal 是為了讓人類看到更逼真的視頻 , 那么 Aholo 開放平臺的野心則更進一步—— 它想讓機器看懂世界 。
在這次發布中 , 一個不起眼但極具想象力的信號是: 群核科技正在發力具身智能(Embodied AI) 。
這也是「空間理解」能力最性感的落地場景 。 過去的機器人(如掃地機或服務機器人)在室內導航時 , 往往是個「瞎子」或者「高度近視」 。 它們依靠激光雷達避障 , 雖然能測距 , 卻不懂環境的語義——它們不知道前面這堆像素究竟是「昂貴的玻璃瓶」 還是 「耐撞的承重墻」 。
群核科技正在嘗試將其海量的 3D 資產和場景理解能力 , 投喂給機器人 。
通過學習群核數據庫中成千上萬種真實的室內布局和物品擺放邏輯 , 機器人可以獲得一種「上帝視角」般的先驗知識 。 龍天澤透露 , 群核已經在做機器人導航中的 3D 物品視覺理解。 這意味著 , 未來的機器人不僅能「看見」障礙物 , 還能通過接入 Aholo 的模型 , 瞬間做出判斷:
「這是易碎品 , 必須繞行 20 厘米 。 」
「這是柔軟的沙發 , 可以緊貼著走 。 」
從服務設計師 , 到服務機器人 , 群核科技的數據價值 , 正在發生一場從「畫圖」到「識途」的質變 。

03摸著李飛飛過河
對于群核科技來說 , 「空間智能」既是一次站在風口上的順勢而為 , 也是一次略帶遺憾的「遲來覺醒」 。
在發布會后的交流中 , 團隊內部流露一種真實的緊迫感 , 甚至有一種聲音感嘆:「 要是早知道 , 去年就該發力做了 ?!?br /> 這種遺憾背后 , 其實是對 AI 技術代際演進的深刻復盤 。 當大模型從文本(Text)卷向圖像(Image) , 再到視頻(Video) , 行業終于意識到 , 下一站必然是 3D , 是物理世界 。 群核科技猛然發現 , 自己手里那些原本只用于裝修設計的圖紙和模型 , 在新的 AGI 語境下 , 突然變成了一張通往物理側人工智能的昂貴門票 。
【群核科技,摸著李飛飛過河】這種沖擊不僅發生在技術層 , 更直接撼動了商業模式的底層邏輯 。
陳航(群核科技 CEO)透露 , 隨著 AI 產品的推出 , 傳統的 SaaS 售賣方式正在失效 。 以前 , 軟件是按 Seat(坐席) 收費的 , 邏輯是「人」在使用;但現在 , 調用場景變成了「人機混用」 , 機器調用的頻次可能比人高出幾個數量級 。
「如果只按年費、月費收費 , 機器一調用就被拉爆了 。 但如果只按 Token 或 Credit 充值 , 準入門檻又太低 , 無法篩選高質量客戶 。 」陳航說道 。
為了適應這個新時代 , 群核正在摸索一種「年費/月費 + Token/Credit」的混合計費模式 。 這不僅是計費方式的調整 , 更是對軟件價值定義的重構——從賣「工具的使用權」 , 轉向賣「算力與智能的消耗量」 。
當然 , 陳航也表現出了難得的清醒 。 他坦言 , 國內市場對 AI 產品的付費驗證周期相對較長 , 「 讓客戶在原有預算之外再花額外的錢 , 是很難的 , 必須要驗證絕對的價值 ?!?br /> 他們坦言 , 關于未來具體怎么走 , 商業模式是賣 API、賣模型還是做新的超級應用 , 目前并沒有百分之百的定論 。 這更像是一場「摸著石頭過河」的冒險 , 只不過這一次 , 河對岸多了一個明確的燈塔——李飛飛 。
「摸著李飛飛過河」 , 不僅僅是一句玩笑 , 它有著雙重含義:
一方面 , 是 方向上的確認。 李飛飛和 World Labs 的存在 , 證明了「空間智能」不是一個偽命題 , 而是 AI 進化的必經之路 。 這給了群核科技巨大的信心 , 去重倉投入這個原本只有他們在做的冷門領域 。
另一方面 , 是 路徑上的獨立。 群核沒有盲目照搬硅谷的純科研模式 , 而是結合中國產業的土壤 , 利用自己獨有的「顯式數據」壁壘 , 走出了一條更注重可控性、更強調產業落地的差異化路線 。
對于群核科技而言 , 這條河剛剛過了一半 。 水深水淺 , 唯有自知 。
但至少 , 在通往物理世界 AI 的這艘大船上 , 他們已經不再是岸上的旁觀者 , 而是手握羅盤與燃料的核心玩家 。 未來或許充滿不確定性 , 但對于一家擁有 14 年數據底蘊的公司來說 , 沒有什么比「正在場上」更重要的事情了 。
*頭圖來源:視覺中國

    推薦閱讀