通用的dLLM開發(fā)框架，讓BERT掌握擴(kuò)散式對話_Google|游戲開發(fā)|瀏覽器|人工智

文章圖片

文章圖片

周展輝（https://zhziszz.github.io/）：加州大學(xué)伯克利分校計算機(jī)博士生；
陳凌杰（https://lingjiechen2.github.io/）：伊利諾伊大學(xué)厄巴納香檳分校計算機(jī)博士生
擴(kuò)散式語言模型（Diffusion Language Model DLM）雖近期受關(guān)注，但社區(qū)長期受限于（1）缺乏易用開發(fā)框架與（2）高昂訓(xùn)練成本，導(dǎo)致多數(shù) DLM 難以在合理預(yù)算下復(fù)現(xiàn) ，初學(xué)者也難以真正理解其訓(xùn)練與生成機(jī)制。
為此，伯克利與 UIUC 團(tuán)隊(duì)基于自研的擴(kuò)散語言模型工具 dLLM ，做了一個簡單的實(shí)驗(yàn)：讓 BERT 通過離散擴(kuò)散學(xué)會對話。結(jié)果遠(yuǎn)超預(yù)期 —— 無需生成式預(yù)訓(xùn)練，僅約 50 GPU?小時的監(jiān)督微調(diào) ， ModernBERT-large-chat-v0（0.4B 參數(shù)）在多項(xiàng)任務(wù)中的表現(xiàn)已逼近 Qwen1.5-0.5B ，證明「離散擴(kuò)散 + 輕量級指令微調(diào)」即可賦予經(jīng)典 BERT 強(qiáng)生成能力，為社區(qū)提供了真正高效、低成本的方案。
更重要的是，團(tuán)隊(duì)已將訓(xùn)練、推理與評測的全流程代碼完全開源，并封裝為可直接運(yùn)行的「Hello World」示例，使初學(xué)者也能輕松復(fù)現(xiàn)并理解擴(kuò)散式語言模型的關(guān)鍵步驟。同時團(tuán)隊(duì)也開源了其背后的支持框架 dllm ，兼容當(dāng)前主流開源擴(kuò)散模型且有極強(qiáng)的可擴(kuò)展性。

項(xiàng)目鏈接：https://github.com/ZHZisZZ/dllm 項(xiàng)目報告：https://wandb.ai/asap-zzhou/dllm/reports/dLLM-BERT-Chat--VmlldzoxNDg0MzExNg 項(xiàng)目模型：https://huggingface.co/collections/dllm-collection/bert-chatdLLM: 支撐 BERT Chat 的通用擴(kuò)散語言模型框架
BERT Chat 系列的訓(xùn)練、評測與可視化均基于團(tuán)隊(duì)自研的 dLLM—— 一個面向擴(kuò)散式語言模型的統(tǒng)一開發(fā)框架。 dLLM 不僅是工具庫，更是一體化的研究平臺，持續(xù)吸引研究者使用與貢獻(xiàn) 。
在設(shè)計上， dLLM 強(qiáng)調(diào)易用性與可復(fù)現(xiàn)性。框架結(jié)構(gòu)清晰、腳本完善，使 BERT Chat 等擴(kuò)散式訓(xùn)練實(shí)驗(yàn)?zāi)軌蛟趩慰ㄉ踔凉P記本環(huán)境復(fù)現(xiàn) ，非常適合初學(xué)者快速入門。同時，它兼容當(dāng)前主流的開源擴(kuò)散語言模型，包括 Dream、LLaDA、RND 等，提供靈活的模型基座選擇。
更重要的是， dLLM 還實(shí)現(xiàn)了多個缺乏公開實(shí)現(xiàn)的研究算法，如 Edit Flows ，使許多原本停留在論文中的擴(kuò)散式生成方法得以真正落地，為社區(qū)進(jìn)一步探索提供了堅實(shí)基礎(chǔ) 。
基座模型選擇：為何最終選擇 ModernBERT
在選擇基座模型之前，實(shí)驗(yàn)首先關(guān)注 ModernBERT 這一近期提出的 BERT 變體。相比原始 BERT 的 512-token 上下文窗口， ModernBERT 將上下文長度顯著擴(kuò)展至 8192 tokens ，并在多個非生成式基準(zhǔn)任務(wù)上表現(xiàn)更優(yōu) 。因此，實(shí)驗(yàn)的核心問題是：這些改進(jìn)是否能夠在生成式訓(xùn)練場景中帶來實(shí)際收益？為此，實(shí)驗(yàn)采用離散擴(kuò)散語言建模，在 Wikitext-103-v1 數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練測試。結(jié)果顯示，在一眾對比的模型中， ModernBERT 達(dá)到了最低的訓(xùn)練 loss ，表明它在生成式訓(xùn)練中同樣具備優(yōu)勢。基于這一表現(xiàn) ，我們選定 ModernBERT 為后續(xù)離散擴(kuò)散訓(xùn)練與指令微調(diào)的主要基座模型。
擴(kuò)散式預(yù)訓(xùn)練是否必要？
SFT 已足以激活生成能力
在探索擴(kuò)散式訓(xùn)練路徑時，實(shí)驗(yàn)首先嘗試在更大規(guī)模的語料庫（OpenWebText）上對 ModernBERT 進(jìn)行離散擴(kuò)散語言建模預(yù)訓(xùn)練。然而，與在 Wikitext-103-v1 上的訓(xùn)練效果不同，模型在 OpenWebText 上的訓(xùn)練 loss 并未出現(xiàn)顯著下降。這一結(jié)果表明， ModernBERT 的原始 MLM 預(yù)訓(xùn)練已經(jīng)提供了大量語言與世界知識，對相似語料進(jìn)行額外的 MDLM 預(yù)訓(xùn)練可能收益有限。
由此進(jìn)一步提出疑問：對于 ModernBERT 而言，持續(xù)的生成式預(yù)訓(xùn)練是否真的必要？為驗(yàn)證這一點(diǎn) ，實(shí)驗(yàn)分別對三種 ModernBERT-large 檢查點(diǎn)進(jìn)行指令微調(diào)（SFT）：
(1) 未經(jīng)任何生成式預(yù)訓(xùn)練的版本，
(2) 在 Wikitext-103-v1 上做過 MDLM 預(yù)訓(xùn)練的版本，
(3) 在 OpenWebText 上做過 MDLM 預(yù)訓(xùn)練的版本。
盡管經(jīng)過生成式預(yù)訓(xùn)練的模型（2 和 3）在 SFT 初期具有更低的訓(xùn)練 loss ，但三者最終在訓(xùn)練與評測 loss 上的收斂表現(xiàn)幾乎相同。該結(jié)果說明， ModernBERT 的原始 MLM 預(yù)訓(xùn)練已編碼了足夠的語言知識，在此基礎(chǔ)上進(jìn)行額外的離散擴(kuò)散語言建模預(yù)訓(xùn)練，對后續(xù)的指令微調(diào)帶來的收益非常有限。
在確認(rèn)預(yù)訓(xùn)練并非必要后，團(tuán)隊(duì)擴(kuò)大了 SFT 數(shù)據(jù)規(guī)模，將 allenai/tulu-3-sft-mixture 與 HuggingFaceTB/smoltalk 拼接，并分別在 ModernBERT-base 與 ModernBERT-large 上進(jìn)行離散擴(kuò)散微調(diào) ，最終得到兩個模型權(quán)重：ModernBERT-base-chat-v0（0.1B）與 ModernBERT-large-chat-v0（0.4B）。兩者均展現(xiàn)出穩(wěn)定的多輪對話能力。綜合這些結(jié)果可以得到結(jié)論：對于 BERT 而言，擴(kuò)散式 SFT 本身就足以激活生成能力；額外的生成式擴(kuò)散預(yù)訓(xùn)練帶來的收益極小，而決定最終性能的關(guān)鍵是指令微調(diào) 。

實(shí)驗(yàn)結(jié)果：超乎預(yù)期的小模型表現(xiàn)
在多項(xiàng)主流評測任務(wù)上，對 ModernBERT 系列模型進(jìn)行了系統(tǒng)測試，包括 LAMBADA（語言理解）、GSM8K（數(shù)學(xué)推理）以及 CEVAL-valid（中文知識測評）。結(jié)果顯示， ModernBERT-base-chat-v0（0.1B）與 ModernBERT-large-chat-v0（0.4B）在各項(xiàng)指標(biāo)上均表現(xiàn)穩(wěn)定，其中 large 版本的整體性能已接近 Qwen1.5-0.5B 。值得注意的是， ModernBERT-base-chat-v0 僅使用約四分之一規(guī)模的參數(shù)（0.1B），便能夠生成流暢自然的語言，這進(jìn)一步說明擴(kuò)散式訓(xùn)練在小模型規(guī)模下依然具備競爭力。

項(xiàng)目說明：一份為學(xué)習(xí)而生的擴(kuò)散模型示例
團(tuán)隊(duì)將 BERT Chat 系列定位為一項(xiàng)教學(xué)與研究實(shí)驗(yàn) ，而非商用系統(tǒng) 。在 0.1B 與 0.4B 這樣的小模型規(guī)模下，我們并不過多追求其在基準(zhǔn)測試集上的表現(xiàn) ，但它們足以作為入門示例，幫助研究者理解擴(kuò)散式語言模型的訓(xùn)練與生成機(jī)制。若希望進(jìn)一步探索模型潛力，也可以嘗試減少擴(kuò)散步數(shù)（例如將 T 減半），通常會帶來明顯的生成速度提升，因?yàn)閿U(kuò)散模型能夠在一次迭代中并行生成多個 token 。
為保持研究過程的透明與可復(fù)現(xiàn)性，團(tuán)隊(duì)不僅開放了完整的訓(xùn)練腳本，還公布了全部訓(xùn)練曲線、消融實(shí)驗(yàn)、參數(shù)設(shè)置與運(yùn)行指令。相關(guān)記錄可直接在 WB 報告中查看。我們相信，開放研究不應(yīng)只呈現(xiàn)成功的結(jié)果，而應(yīng)將完整的探索過程一并公開，幫助社區(qū)更全面地理解擴(kuò)散語言模型的研究路徑。
總結(jié)：BERT 的新潛力
【通用的dLLM開發(fā)框架，讓BERT掌握擴(kuò)散式對話】本研究展示了一個簡單卻關(guān)鍵的結(jié)論：僅依靠擴(kuò)散式 SFT 與少量指令數(shù)據(jù) ，就能夠賦予傳統(tǒng) BERT 實(shí)用級的對話生成能力。無需龐大的自回歸預(yù)訓(xùn)練，也無需 TB 級 token 的數(shù)據(jù)成本， BERT 仍然具備被「重新激活」的潛力。對于一直希望找到一個「能跑通、能看懂」的 Diffusion LM 教程的讀者而言， dLLM 正是一個從訓(xùn)練、推理到評測都能完整貫通的起點(diǎn) 。

通用的dLLM開發(fā)框架，讓BERT掌握擴(kuò)散式對話

推薦閱讀

無錫單位不給休年假怎么辦？

漆器的藝術(shù)本質(zhì)是什么

新鮮杜仲皮怎么處理

龍蝦怎樣處理才干凈

生姜什么時候種植合適種植時間和方法

夏天蘭花怎么養(yǎng)護(hù) 夏天如何養(yǎng)蘭花

怎樣下載個稅app

獸人必須死3陷阱推薦獸人必須死3實(shí)用陷阱種類分享

CAD中命令J為什么不能合并

市場利好開始增多豬價已經(jīng)迎來上漲機(jī)會

常州至滕州高鐵車次，騰州到常州要幾個小時

索尼vg1話筒怎么在索尼280上使用,全新9.7英寸iPad

ios測電池軟件哪個好,如果換電池的話哪家好點(diǎn)

高德地圖免費(fèi)手機(jī)導(dǎo)航下載下載高德新版手機(jī)導(dǎo)航

為什么臨沂到上海沒有直達(dá)高鐵，臨沂有直接到浦東新區(qū)的火車么

如何將月亮兩刀切成6份