NextStep-1:一次在圖像生成上自回歸范式的探索

NextStep-1:一次在圖像生成上自回歸范式的探索

文章圖片

NextStep-1:一次在圖像生成上自回歸范式的探索

文章圖片

NextStep-1:一次在圖像生成上自回歸范式的探索

文章圖片

NextStep-1:一次在圖像生成上自回歸范式的探索

文章圖片

NextStep-1:一次在圖像生成上自回歸范式的探索

機器之心發布
機器之心編輯部
自回歸模型 , 是 AIGC 領域一塊迷人的基石 。 開發者們一直在探索它在視覺生成領域的邊界 , 從經典的離散序列生成 , 到結合強大擴散模型的混合范式 , 每一步都凝聚了社區的智慧 。
這些工作 , 比如 MAR、Fluid、LatentLM 等 , 為我們帶來了巨大的啟發 , 也讓我們看到了進一步優化的空間:比如 , 如何避免離散化帶來的信息損失?如何讓模型的架構更輕盈、更強大?
帶著這些問題 , 階躍星辰團隊進行了新的嘗試 , 并分享了階段性成果:NextStep-1 。
階躍星辰的初衷是探索一條新的自回歸圖像生成的路徑 。 NextStep-1 的核心思想是直接在連續的視覺空間中 , 以自回歸方式進行生成 。
為實現這一點 , 團隊采用了一個輕量的「流匹配頭」(Flow Matching Head) 。 它讓模型能夠:
學會在連續的視覺空間中直接生成單個圖像 Patch , 從根本上繞開了作為信息瓶頸的離散化步驟 。 模型以自回歸的方式 , 逐一生成所有 patches , 最終完成一幅完整的圖像 。這一設計帶來了另一個顯著優勢:架構的簡潔與純粹 。 由于不再需要外部大型擴散模型的 「輔助」 , NextStep-1 的整體架構變得高度統一 , 實現了真正意義上的端到端訓練 。
階躍星辰團隊認為 , NextStep-1 的探索指向了一個有趣且充滿潛力的方向 。 它證明了在不犧牲連續性的前提下 , 構建一個簡潔、高效的自回歸模型是完全可行的 。
這只是探索的第一步 。 階躍星辰選擇將 NextStep-1 開源 , 衷心期待它能引發更多有價值的討論 , 并希望能與社區的研究者一起 , 繼續推動生成技術的演進 。

論文鏈接:https://arxiv.org/abs/2508.10711 GitHub 鏈接:https://github.com/stepfun-ai/NextStep-1 Hugging Face 模型:https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc動因探究:背后的技術支撐
整體架構
NextStep-1 的架構如圖 1 所示 , 其核心是一個強大的 Transformer 骨干網絡(14B 參數) , 輔以一個輕量級的流匹配頭(Flow Matching Head , 157M 參數) , 用于直接生成連續的圖像 Patch 。

圖 1 NextStep-1 的架構圖
這一結構極其簡潔、純粹 , 它帶來了兩大解放:
解放了對離散化的依賴:不再需要圖像 Tokenizer 進行離散化 , 直接在連續空間操作 。 解放了對外部擴散模型的依賴:不再需要外接大型擴散模型作為 「解碼器」 , 實現了端到端的自回歸訓練 。核心發現
在探索 NextStep-1 的過程中 , 階躍星辰團隊獲得了兩個關鍵發現 , 它們不僅解釋了模型為何高效 , 也為未來的研究提供了新的思路 。
發現一:真正的「藝術家」 是 Transformer
在階躍星辰的框架中 , Transformer 是 「主創」 , 流匹配頭更像是「畫筆」 。 團隊通過實驗發現 , 流匹配頭的尺寸大?。 ?157M -528M) , 對最終圖像質量影響很小 。 這有力地證明了 , 核心的生成建模與邏輯推理等 「重活」 , 完全由 Transformer 承擔 。 流匹配頭則作為一個高效輕量的采樣器 , 忠實地將 Transformer 的潛在預測 「翻譯」 成圖像 Patch 。
發現二:Tokenizer 的「煉金術」—— 穩定與質量的關鍵
在連續視覺 Token 上的操作帶來了獨特的穩定性挑戰 , 團隊發現兩個關鍵 「煉金術」:
通道歸一化 (Channel-Wise Normalization) 是穩定性的「壓艙石」:通過引入簡單的通道歸一化 , 極其有效地穩定了 Token 的統計特性 , 即使在高 CFG 指導強度下 , 也能確保生成清晰、無偽影的圖像 。 「更多噪聲」 竟能帶來「更好質量」:一個反直覺的發現是 , 訓練 Tokenizer 時加入更多噪聲正則化 , 反而能顯著提升最終生成圖像的質量 。 階躍星辰團隊推斷 , 這有助于塑造一個更魯棒、分布更均勻的潛在空間 , 為自回歸主模型提供更理想的工作平臺 。眼見為實:高保真的視覺生成和編輯能力
NextStep-1 實現了高保真的文生圖的生成 , 同時具有強大的圖像編輯能力 , 覆蓋多種編輯操作(如物體增刪、背景修改、動作修改、風格遷移等) , 并能理解用戶的日常語言指令 , 實現形式自由的圖像編輯 。

圖 2 展示 NextStep-1 全面的圖像生成和編輯能力
硬核實力:權威 Benchmark 下的表現
除了直觀的視覺效果 , 階躍星辰團隊也在多個行業公認的 Benchmark 上對 NextStep-1 進行了嚴格的評估 。 結果表明 ,
綜合性能在自回歸模型中達到了新的 SOTA(State-of-the-Art)水平 在多個 benchmark 上已能與頂尖的擴散模型(Diffusion Models)直接競爭
表 1 NextStep-1 在 GenEval、GenAI-Bench 和 DPG-Bench 上的性能

表 2 NextStep-1 在 OneIG 上的性能

表 3 NextStep-1 在 WISE 上的性能

表 4 NextStep-1 在 GEdit-Bench 和 ImgEdit-Bench 上的性能
局限性與未來展望
NextStep-1 是階躍星辰團隊對構建簡潔的高保真生成模型的一次真誠探索 。 它證明了 , 在不犧牲連續性的前提下 , 構建一個純粹的端到端自回歸模型是完全可行的 。 階躍星辰相信 , 這條 「簡潔」 的道路 , 為多模態生成領域提供了有價值的新視角 。
階躍星辰團隊深知這只是探索的開始 , 前路依然廣闊 。 作為一個對新范式的初步探索 , NextStep-1 在展現出巨大潛力的同時 , 也讓團隊識別出了一些亟待解決的挑戰 。 我們在此坦誠地列出這些觀察 , 并視其為未來工作的重要方向 。
生成過程中不穩定
NextStep-1 成功證明了自回歸模型可以在高維連續潛在空間中運行 , 并達到媲美擴散模型的生成質量 , 但這條路徑也帶來了獨特的穩定性挑戰 。 觀察到 , 當模型的潛在空間從低維(如 4 通道)擴展到更高維(如 16 通道)時 , 盡管后者能表達更豐富的細節 , 但也偶發性地出現了一些生成 「翻車」的情況(如圖 3 所示) 。

圖 3 失敗的例子 , 展示圖像生成過程中一些暴露出的問題
雖然其根本原因仍有待進一步探究 , 但團隊推測可能存在以下因素:
局部噪聲 / 塊狀偽影: 可能源于生成后期出現的數值不穩定性 。 全局噪聲: 可能反映了模型尚未完全收斂 , 需要更多的訓練來優化 。 網格狀偽影: 可能揭示了當前一維位置編碼在精確捕捉二維空間關系上的局限性 。順序解碼帶來的推理延遲
自回歸模型的順序解碼特性 , 是其推理速度的主要瓶頸 。 研究團隊對單個 Token 在 H100 GPU 上的延遲進行了理論分析(如表 5 所示) , 結果表明:
主要瓶頸在于大模型(LLM)骨干網絡的順序解碼 流匹配頭(Flow Matching Head)的多步采樣過程也構成了不可忽視的開銷
表 5 H100 上生成每個 token 的理論延遲速度 ( batch size 為 1 )
這一觀察指明了兩個明確的加速方向:
優化流匹配頭:通過減小其參數量、應用模型蒸餾以實現少步生成 , 或采用更先進的少步采樣器 。 加速自回歸主干:借鑒大語言模型領域的最新進展 , 如將多 Token 預測等技術 , 適配到圖像 Token 的生成中 。高分辨率生成的挑戰
在擴展到高分辨率圖像生成方面 , 與技術生態已相當成熟的擴散模型相比 , 階躍星辰團隊的框架面臨兩大挑戰:
收斂效率:自回歸模型的嚴格順序生成特性 , 在更高分辨率下需要更多的訓練步數才能收斂 。 相比之下 , 擴散模型在每次迭代中并行地優化整張圖像 , 能更直接地利用二維空間歸納偏置 。 技術遷移難度:為高分辨率擴散模型開發的先進技術(如 timestep shift)難以直接遷移 。 其根本原因在于 , 流匹配頭主要扮演一個輕量級采樣器的角色 , 而核心的生成建模由 Transformer 骨干網絡完成 , 因此單純修改采樣過程對最終輸出的影響有限 。因此 , 基于 patch-wise 的圖像自回歸模型的高分辨率生成是一個重要探索方向 。
監督微調(SFT)的獨特挑戰
團隊觀察到 , 當使用小規模、高質量的數據集進行微調時 , 訓練動態會變得極不穩定 。
擴散模型通常僅需數千個樣本 , 就能穩定地適應目標數據分布 , 同時保持良好的泛化生成能力 。 相比之下 , 階躍星辰的 SFT 過程:
依賴大規模數據:只有在百萬樣本規模的數據集上訓練時 , 才能觀察到顯著且穩定的提升 。 在小數據集上表現脆弱:當使用小規模數據集時 , 模型會陷入一種 「岌岌可危」 的平衡狀態 。 它要么收效甚微 , 幾乎沒有變化;要么突然 「崩潰」 , 完全過擬合到目標數據分布上 , 喪失了原有的泛化能力 。因此 , 如何在一個小規模數據集上 , 找到一個既能對齊目標風格、又能保留通用生成能力的 「甜蜜點」(sweet spot)檢查點 , 對階躍星辰團隊而言仍然是一個重大的挑戰 。
階躍星辰團隊相信 , 坦誠地面對這些挑戰 , 是推動領域前進的第一步 。
【NextStep-1:一次在圖像生成上自回歸范式的探索】NextStep-1 的開源是團隊為此付出的努力 , 也希望能成為社區進一步研究的基石 。 階躍星辰團隊期待與全球的研究者和開發者交流與合作 , 共同推動自回歸生成技術向前發展 。

    推薦閱讀