劍指世界模型!商湯發多模態理解生成一體化架構,無需編碼器“玩轉”圖像

劍指世界模型!商湯發多模態理解生成一體化架構,無需編碼器“玩轉”圖像

文章圖片

劍指世界模型!商湯發多模態理解生成一體化架構,無需編碼器“玩轉”圖像

文章圖片

劍指世界模型!商湯發多模態理解生成一體化架構,無需編碼器“玩轉”圖像

智東西
作者 | 陳駿達
編輯 | 李水青
智東西3月6日報道 , 今天 , 商湯科技發布最新技術博客——《NEO-unify:原生架構打造端到端多模態理解與生成統一模型》 。 NEO-unify是一個從底層統一多模態理解與生成的端到端原生架構 , 在保留抽象語義與細粒度表征的同時 , 展現更高數據訓練效率 。
當前 , 多模態模型普遍采用“視覺編碼器(VE)用于理解 , 變分自編碼器(VAE)用于生成”的組合式設計 。 這套范式雖行之有效 , 卻也內在割裂了感知與創造 , 常面臨模塊協同與效率權衡的挑戰 。
能否更進一步 , 讓AI像人一樣 , 直接從最原始的像素和文字中 , 統一地進行學習、理解與生成?這正是NEO-unify嘗試回答的根本問題 。 它摒棄了傳統的VE與VAE , 首次構建了一個真正的端到端原生統一模型 , 在同一個架構內直接處理像素與文本 , 并在此基礎上協同完成理解與生成任務 。
初步研究成果顯示 , 該設計在保持強大語義理解與細節恢復能力的同時 , 顯著提升了訓練與計算效率 。
博客地址(英文):
https://huggingface.co/blog/sensenova/neo-unify
博客地址(中文):
https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

一、不需要VE也不需要VAE , 模型表現打平Qwen3-VL長期以來 , 多模態研究已形成一種默認范式:視覺編碼器(Vision Encoder VE)負責感知與理解 , 而變分自編碼器(Variational Autoencoder VAE)則用于內容生成 。 近期的一些工作嘗試構建共享編碼器 , 但這種折衷往往引入新的結構性設計權衡 。
由此回到第一性原理:構建一體化模型直接處理原生輸入 , 即像素本身與文字本身 。 商湯科技聯合南洋理工大學 , 提出一種全新的架構范式:NEO-unify(preview) , 一個原生、統一、端到端的多模態模型架構 。 它不僅越過了當前視覺表征的爭論 , 也擺脫了預訓練先驗和規模定律瓶頸的限制 。 最關鍵的是:不需要VE , 也不需要VAE 。
NEO-unify則是一個端到端統一框架 , 能夠直接從近乎無損的信息輸入中學習 , 并由模型自身塑造內部表征空間 。
它首先引入近似無損的視覺接口 , 用于統一圖像的輸入與輸出表示;其次 , 采用原生混合Transformer(Mixture-of-Transformer , MoT)架構 , 使理解與生成能夠在同一體系中協同進行 。
最終 , 通過統一學習框架實現跨模態訓練:文本采用自回歸交叉熵目標 , 視覺通過像素流匹配進行優化 。
實驗結果顯示 , 采用NEO-unify架構的模型在多項基準測試上的表現超過同尺寸的前沿視覺語言模型 , 排進了同尺寸模型的第一梯隊 , 基本與Qwen3-VL模型打了平手 。

二、無編碼器同時保留抽象語義與細粒度表征 , 展現更高數據訓練效率那么 , 這一模型背后究竟有哪些關鍵技術發現呢?
商湯此前的工作NEO(Diao et al. ICLR 2026)表明 , 原生端到端模型同樣能夠學習到豐富的語義表征 。 在此基礎上 , 商湯進一步觀察到一個有趣的現象:即使在凍結理解分支的情況下 , 獨立的生成分支仍然能夠從表示中抽取并恢復細粒度的視覺細節 。
基于這一發現 , 商湯訓練了NEO-unify(2B) 。 在初步9萬步預訓練后 , 模型在MS COCO 2017上取得31.56 PSNR和0.85 SSIM , 而Flux VAE的對應指標為32.65和0.91 。 這一結果表明 , 即使不依賴預訓練VE或VAE , 近似無損的原生輸入仍能夠同時支持高質量的語義理解與像素級細節保真 。
據此 , 商湯進一步開展探索:NEO-unify將所有全模態條件信息統一輸入到理解分支 , 而生成分支僅負責生成新的圖像 。
在凍結理解分支的情況下 , NEO-unify(2B)仍展現出較強的圖像編輯能力 , 同時顯著減少了輸入圖像token的數量 。 在使用開源生成與圖像編輯數據集并進行初步6萬步混合訓練后 , 模型在ImgEdit基準上取得3.32的成績 , 且理解分支在整個訓練過程中保持凍結 。
借助預訓練的理解分支與生成分支 , NEO-unify使用相同的中期訓練(MT)與監督微調(SFT)數據進行聯合訓練 。 即使在較低的數據比例和損失權重下 , 理解能力依然保持穩定 , 而生成能力則收斂很快 。 二者在MoT主干中協同提升 , 整體沖突極小 。
此外 , 商湯首先進行web-scale預訓練 , 隨后在多樣且高質量的數據語料上依次進行中期訓練(MT)和監督微調(SFT) 。 與7BBagel模型相比 , NEO-unify展現出更高的數據訓練效率 , 在使用更少訓練token的情況下取得了更優的性能 。

結語:多模態理解與生成一體化或成世界模型基礎NEO-unify團隊認為 , 隨著多模態理解生成一體化的模型出現 , 模型不再在模態之間進行轉換 , 而是能夠原生地跨模態思考 。 多模態AI不再只是連接不同系統 , 而是構建一個從未割裂的統一智能體 , 并讓所需能力從其內部自然涌現 。
【劍指世界模型!商湯發多模態理解生成一體化架構,無需編碼器“玩轉”圖像】理解生成一體化是AI大模型領域的前沿方向之一 , 被認為是更接近人類智能的一種模型形式 。 目前 , 業界已經基本完成文字理解生成一體化模型的探索 , 而多模態理解生成一體化模型 , 則有望成為全模態推理、視覺推理、空間智能乃至世界模型的重要基礎 。

    推薦閱讀