群核科技發布空間大模型,旨在解決AI視頻空間一致性難題


8月25日 , 在首屆技術開放日(TechDay)上 , 群核科技正式發布了其空間大模型的最新成果:新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen , 并宣布將延續開源戰略 , 逐步向全球開發者開放模型 。
【群核科技發布空間大模型,旨在解決AI視頻空間一致性難題】作為專注于3D室內場景認知與生成的模型體系 , 群核空間大模型主要圍繞真實感全息漫游、結構化可交互及復雜室內場景處理三個方向構建其技術優勢 。
本次發布的SpatialLM 1.5是一款基于大語言模型訓練的空間語言模型。 群核科技首席科學家周子寒在技術交流中解釋 , SpatialLM并非在視覺語言模型(VLM)上增加新模態 , 而是讓大語言模型學會了一種新的“空間語言” 。 這種語言能以數字文本的形式 , 精確描述場景中物體的空間結構、幾何信息、相互關系及物理參數 。
通過對話系統SpatialLM-Chat , 用戶輸入簡單的文本指令 , 模型即可自動生成包含物理正確信息的結構化3D場景腳本 , 并智能匹配家具進行布局 。 該模型還能通過自然語言進行場景問答與編輯 , 例如 , 在現場演示中 , 當輸入“去客廳餐桌拿藥”指令后 , 模型不僅理解了物體對象 , 還調用工具自動規劃出行動路徑 , 展示了其在機器人場景中的應用潛力 。
群核科技聯合創始人兼董事長黃曉煌在演講中提到 , 當前空間智能發展的一大瓶頸在于三維可交互數據的稀缺 , 尤其是在物理世界對應的室內空間數據獲取難度極大 。 SpatialLM 1.5能夠快速、批量地生成大量符合要求且多樣化的場景 , 可直接用于機器人路徑規劃、避障和任務執行等訓練 , 為解決當前機器人訓練數據不足的難題提供了有效途徑 。
與SpatialLM專注于“理解與交互”不同 , SpatialGen模型則聚焦于“生成與呈現” 。 它是一款基于擴散模型架構的多視角圖像生成模型 , 可根據文字、參考圖和3D空間布局 , 生成具有時空一致性的多視角圖像 。
群核科技AI產品總監龍天澤指出 , 當前主流AI視頻生成工具基于2D圖像序列學習 , 缺乏對3D空間和物理規則的真正理解 , 因此在視角切換或復雜運動時 , 常出現物體位置偏移、背景混亂、模型穿模等空間邏輯錯誤 。
SpatialGen通過生成空間屬性和物理關系在不同鏡頭下保持一致的多視角圖像 , 并能進一步生成3D高斯(3DGS)場景 , 最終渲染出可供用戶自由漫游的視頻。 這一方案旨在從根本上解決當前AIGC視頻生成中的時空一致性難題。 龍天澤透露 , 公司正在研發一款深度融合3D能力的AI視頻生成產品 , 計劃于年內發布 。
黃曉煌在活動現場分享了群核科技的空間智能戰略布局 , 其核心是“空間編輯工具-空間合成數據-空間大模型”構成的空間智能飛輪。 通過酷家樂等工具的廣泛應用 , 沉淀海量數據;利用這些數據加速模型訓練;再以強大的模型能力反哺和提升工具體驗 , 從而形成正向循環。 截至2025年6月30日 , 群核科技已擁有超過4.41億個3D模型及超過5億個結構化3D空間場景 。
黃曉煌表示 , 開源是群核科技戰略的重要組成部分 , 公司自2018年起便開始逐步開放數據和算法能力 。 他認為 , 當前空間大模型尚處初級階段 , 希望通過開源與全球開發者共同將“蛋糕”做大 , 推動技術快速前進 。
據悉 , 本次發布的兩款模型將陸續在Hugging Face、GitHub和魔搭社區等平臺開源。 其中 , SpatialGen在技術開放日當天已開放下載 , 而SpatialLM 1.5未來也將以“SpatialLM-Chat”的形式完成開源 。

    推薦閱讀