群核科技發布空間大模型，旨在解決AI視頻空間一致性難題ai

8月25日，在首屆技術開放日（TechDay）上，群核科技正式發布了其空間大模型的最新成果：新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen ，并宣布將延續開源戰略，逐步向全球開發者開放模型。
【群核科技發布空間大模型，旨在解決AI視頻空間一致性難題】作為專注于3D室內場景認知與生成的模型體系，群核空間大模型主要圍繞真實感全息漫游、結構化可交互及復雜室內場景處理三個方向構建其技術優勢。
本次發布的SpatialLM 1.5是一款基于大語言模型訓練的空間語言模型。群核科技首席科學家周子寒在技術交流中解釋， SpatialLM并非在視覺語言模型（VLM）上增加新模態，而是讓大語言模型學會了一種新的“空間語言” 。這種語言能以數字文本的形式，精確描述場景中物體的空間結構、幾何信息、相互關系及物理參數。
通過對話系統SpatialLM-Chat ，用戶輸入簡單的文本指令，模型即可自動生成包含物理正確信息的結構化3D場景腳本，并智能匹配家具進行布局。該模型還能通過自然語言進行場景問答與編輯，例如，在現場演示中，當輸入“去客廳餐桌拿藥”指令后，模型不僅理解了物體對象，還調用工具自動規劃出行動路徑，展示了其在機器人場景中的應用潛力。
群核科技聯合創始人兼董事長黃曉煌在演講中提到，當前空間智能發展的一大瓶頸在于三維可交互數據的稀缺，尤其是在物理世界對應的室內空間數據獲取難度極大。 SpatialLM 1.5能夠快速、批量地生成大量符合要求且多樣化的場景，可直接用于機器人路徑規劃、避障和任務執行等訓練，為解決當前機器人訓練數據不足的難題提供了有效途徑。
與SpatialLM專注于“理解與交互”不同， SpatialGen模型則聚焦于“生成與呈現” 。它是一款基于擴散模型架構的多視角圖像生成模型，可根據文字、參考圖和3D空間布局，生成具有時空一致性的多視角圖像。
群核科技AI產品總監龍天澤指出，當前主流AI視頻生成工具基于2D圖像序列學習，缺乏對3D空間和物理規則的真正理解，因此在視角切換或復雜運動時，常出現物體位置偏移、背景混亂、模型穿模等空間邏輯錯誤。
SpatialGen通過生成空間屬性和物理關系在不同鏡頭下保持一致的多視角圖像，并能進一步生成3D高斯（3DGS）場景，最終渲染出可供用戶自由漫游的視頻。這一方案旨在從根本上解決當前AIGC視頻生成中的時空一致性難題。龍天澤透露，公司正在研發一款深度融合3D能力的AI視頻生成產品，計劃于年內發布。
黃曉煌在活動現場分享了群核科技的空間智能戰略布局，其核心是“空間編輯工具-空間合成數據-空間大模型”構成的空間智能飛輪。通過酷家樂等工具的廣泛應用，沉淀海量數據；利用這些數據加速模型訓練；再以強大的模型能力反哺和提升工具體驗，從而形成正向循環。截至2025年6月30日，群核科技已擁有超過4.41億個3D模型及超過5億個結構化3D空間場景。
黃曉煌表示，開源是群核科技戰略的重要組成部分，公司自2018年起便開始逐步開放數據和算法能力。他認為，當前空間大模型尚處初級階段，希望通過開源與全球開發者共同將“蛋糕”做大，推動技術快速前進。
據悉，本次發布的兩款模型將陸續在Hugging Face、GitHub和魔搭社區等平臺開源。其中， SpatialGen在技術開放日當天已開放下載，而SpatialLM 1.5未來也將以“SpatialLM-Chat”的形式完成開源。

群核科技發布空間大模型，旨在解決AI視頻空間一致性難題

推薦閱讀

天文望遠鏡原理天文望遠鏡的原理是

秋分的三候是什么

打玻尿酸的作用會有哪些呢

正能量激勵孩子的話語

字如其人,人亦如字是什么意思字如其人人亦如字的意思字如其人,人亦如字是啥意思

電子膜怎么清理污漬手機膜怎么清洗污漬

dnf紅狗裝扮墨鏡在哪整的

伊索蜜柑水潤乳霜好用嗎

qx50有什么通病

汽車輕度混動的好處是什么

對講機2021年新款,遠距離對講機

高鐵開發票為什么要支付25元，高鐵發票在哪里打高鐵票怎么開發票

南京是怎樣的一座城市

什么是網銀優盾

聯通寬帶服務電話北京快速搞定聯通寬帶故障

孕婦吃核桃對胎兒有什么好處嗎孕婦吃核桃對胎兒有什么好處孕婦吃核桃的好處