字節發布擴散語言模型,2146tokens/s,比同規模自回歸快5.4倍

字節發布擴散語言模型,2146tokens/s,比同規模自回歸快5.4倍

文章圖片

字節發布擴散語言模型,2146tokens/s,比同規模自回歸快5.4倍

文章圖片

字節發布擴散語言模型,2146tokens/s,比同規模自回歸快5.4倍

文章圖片


聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
用擴散模型寫代碼 , 不僅像開了倍速 , 改起來還特別靈活!
字節Seed最新發布擴散語言模型Seed Diffusion Preview , 這款模型主要聚焦于代碼生成領域 , 它的特別之處在于采用了離散狀態擴散技術 , 在推理速度上表現出色 。

在H20上 , 它的代碼推理速度能達到2146tokens/s , 比同類的Mercury和Gemini Diffusion等模型快不少 , 同時比同等規模的自回歸模型快5.4倍 , 并且在代碼編輯任務中更具優勢 。

Seed Diffusion Preview以結構化的代碼生成為實驗領域 , 系統性地驗證離散擴散技術路線作為下一代語言模型基礎框架的可行性 。

下面介紹它的具體技術細節 。
核心是兩階段訓練學習自回歸模型存在串行解碼延遲瓶頸 , 理論上 , 擴散模型的并行生成潛力和整體性生成的優勢可以解決自回歸模型推理速度局限這一痛點 。
但理論優勢與實際效果還是有差距 , 離散擴散模型在語言任務中的大規模部署仍面臨兩大核心瓶頸:歸納偏置沖突和推理效率瓶頸 。
為解決上述問題 , Seed Diffusion Preview采用了四項關鍵的技術創新 。
兩階段訓練兩階段訓練是模型的核心訓練策略 。
這是針對離散擴散過程設計的漸進式訓練方案 , 兩個階段分別采用不同的corruption過程(即對原始數據的擾動方式) 。 通過分階段優化模型對token的理解與生成能力 , 平衡訓練效率與生成質量 。
第一個階段是基于掩碼的擴散訓練 , 學習上下文補全 , 占整個訓練步驟的80% 。
目標是將原始序列中的token替換為特殊的[MASK
標記 , 讓模型學習從部分被掩蓋的序列中恢復原始token , 以此奠定基礎的語言建模能力 。
第二個階段是基于編輯的擴散訓練 , 增強全局的合理性 。
【字節發布擴散語言模型,2146tokens/s,比同規模自回歸快5.4倍】掩碼訓練可能帶來“捷徑依賴”的問題——優先利用未掩碼token的局部關聯性進行恢復 , 而非理解整個序列的全局邏輯 。
此階段的目標就是通過插入、刪除、替換等編輯操作對原始序列進行擾動 , 并用編輯距離衡量擾動程度 , 編輯次數由特定函數控制在合理范圍內 , 打破模型對未掩碼token的錯誤認知 , 迫使模型重新評估所有token 。
實證表明 , 引入編輯階段后 , 模型在代碼修復基準CanItEdit上的pass@1對比自回歸模型(AR模型)提升了4.8%(54.3vs.50.5) , 明顯增強了模型的代碼邏輯理解與修復能力 。

約束順序擴散為解決離散擴散模型在代碼生成中“邏輯混亂”的問題 , 團隊設計引入代碼的結構化先驗 , 核心是讓模型遵循代碼固有的“規矩” 。
雖然代碼這類語言不像說話那樣又嚴格的從左到右邏輯 , 但它有很強的因果關系——比如變量要先聲明才能用等 。
為了讓模型懂這些規矩 , 團隊提出約束順序訓練:先讓模型通過內部的預訓練模型 , 大量模擬正確的代碼生成過程 , 然后像提煉公式一樣 , 把這些正確的生成順序濃縮成模型能夠學會的規律 。
這樣模型在生成代碼時就能自覺遵循這些結構化的邏輯 , 不再亂序生成 。
同策略學習范式在Seed Diffusion模型中 , 生成速度的優化通過多重策略協同實現 。
首先 , 采用同策略學習范式(on-policy) , 讓模型在訓練時直接使用當前策略生成的采樣軌跡進行參數更新 , 確保訓練數據與模型當前能力高度匹配 , 減少策略偏差帶來的效率損耗 , 加速采樣策略的迭代優化 , 從算法層面提升生成效率 。
簡單說就是模型邊生成代碼邊學習 。 模型用現在的本事生成一段代碼過程 , 然后就用這個過程的數據來改進自己 , 這樣學的東西就和自己當前的能力很匹配 , 不會因為用老數據而走彎路 , 能更快地把生成代碼的策略優化好 。
塊級并行擴散采樣為平衡計算資源與生成延遲 , 模型采用塊級并行擴散采樣方案 。 該方案將生成序列劃分為多個塊 , 在擴散采樣過程中對這些塊進行并行處理 , 而非逐token串行生成 。
這樣既能把電腦的計算能力充分用起來 , 又不會因為一次處理太長的內容而耽誤時間 , 能在計算量和生成速度之間找到合適的平衡 , 比如調整塊的大小 , 就能靈活控制速度和效率 。

此外 , 模型還依托內部基礎設施框架進行系統級優化 , 包括硬件資源調度、計算流程精簡等 , 進一步降低采樣過程中的冗余開銷 , 最終實現了推理速度的顯著提升 。
團隊通過一系列實驗驗證了模型在代碼生成領域的優勢 , 核心成果體現在推理速度的大幅提升、生成質量的競爭力以及關鍵技術的有效性三個方面:
在H20上可達每秒2146個token , 同時保持了代碼生成質量的競爭力 , 性能與優秀模型相當 , 尤其是在代碼編輯任務中優勢更明顯 。

Seed Diffusion Preview的測試結果驗證了了離散擴散路線在大語言模型推理上的潛力 。
一個小tip:Seed Diffusion項目組正在招募研究型實習生 , 如果你基礎能力過關、代碼能力優秀 , 并且對探索下一代大模型范式感興趣 , 可以一試~
技術報告:https://lf3-static.bytednsdoc.com/obj/eden-cn/hyvsmeh7uhobf/sdiff_updated.pdf項目地址:https://seed.bytedance.com/seed_diffusion體驗鏈接:https://studio.seed.ai/exp/seed_diffusion
— 完 —
量子位 QbitAI
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀