
蘋果發布新型流匹配模型實現文本快速生成
要理解這項研究 , 首先需要了解幾種不同的模型類型 。 ChatGPT等大語言模型屬于自回歸模型 , 它們按順序生成文本 , 一次生成一個Token , 同時考慮用戶提示和之前生成的所有Token 。
與自回歸模型不同 , 擴散模型可以并行生成多個Token , 并通過多次迭代步驟進行優化 , 直到形成完整的響應 。
流匹配模型是擴散模型的一種變體 , 它基本上跳過了擴散模型的迭代過程 , 學會一次性生成最終結果 。
蘋果和俄亥俄州立大學的研究人員在今天發表的一項研究中 , 提出了一種名為\"少步離散流匹配\"(Few-Step Discrete Flow-Matching , 簡稱FS-DFM)的新模型 。
研究顯示 , FS-DFM能夠僅通過8輪快速優化就寫出完整的文章段落 , 達到了需要超過一千步才能實現類似效果的擴散模型的質量水平 。
為了實現這一目標 , 研究人員采用了一種有趣的三步方法:首先 , 訓練模型處理不同的優化迭代預算;然后 , 使用指導\"教師\"模型幫助它在每次迭代中進行更大、更準確的更新 , 而不會\"過度修正\"預期文本;最后 , 調整每次迭代的工作方式 , 使模型能夠以更少、更穩定的步驟達到最終結果 。
與更大的擴散模型相比 , FS-DFM在兩個重要指標上表現出色:困惑度和熵值 。
困惑度分數是語言模型文本質量的標準指標 。 困惑度越低 , 文本聽起來越準確和自然 。
至于熵值 , 它本質上衡量模型選擇每個詞的置信度 。 在實踐中 , 如果熵值太低 , 文本可能變得重復或可預測;但如果太高 , 文本可能開始聽起來隨機或不連貫 。
與擁有70億參數的Dream擴散模型和擁有80億參數的LLaDA擴散模型相比 , 參數分別為17億、13億和1.7億的FS-DFM變體在所有迭代次數下都持續實現了更低的困惑度并保持了更穩定的熵值 。
鑒于這些結果和該方法顯示的前景 , 以及缺乏類似的模型和研究 , 研究人員還表示他們\"計劃發布代碼和模型檢查點 , 以促進可重現性和進一步研究\" 。
如果您想深入了解蘋果的方法和模型的更多具體實現細節 , 請務必查看arXiv上的完整論文 。 該論文包含多個性能示例 , 例如用顏色編碼顯示每個詞最后更改的迭代輪次 。
論文顯示 , 許多Token被標記為黃色 , 表明它們在過程早期就被預測出來 。 這是由于累積標量的作用 。
Q&A
Q1:FS-DFM模型與傳統大語言模型有什么區別?
A:FS-DFM是一種流匹配模型 , 與ChatGPT等自回歸模型不同 。 自回歸模型按順序生成文本 , 一次生成一個Token , 而FS-DFM可以并行生成多個Token , 并通過少量迭代步驟進行優化 , 僅需8輪快速優化就能寫出完整文章 。
Q2:FS-DFM在性能上有什么優勢?
A:與擁有70億和80億參數的大型擴散模型相比 , 參數更少的FS-DFM變體(17億、13億和1.7億參數)在困惑度和熵值兩個重要指標上都表現更好 , 實現了更低的困惑度和更穩定的熵值 , 生成的文本更準確自然 。
Q3:困惑度和熵值在語言模型中代表什么意思?
A:困惑度是衡量語言模型文本質量的標準指標 , 困惑度越低 , 文本越準確自然 。 熵值衡量模型選擇每個詞的置信度 , 熵值太低文本會重復可預測 , 太高則會顯得隨機不連貫 , 需要保持適當平衡 。
【蘋果全新語言模型實現超快速長文本生成】
推薦閱讀
- 蘋果官宣 Pro 新品,12999 元起?
- 蘋果M5全家桶下周炸場!iPad Pro內存飆到12GB、Vision Pro減重,看完決定等不等
- 國產機被罵慘的設計,蘋果學到了精髓
- 蘋果今日官宣:新品即將發布!
- 蘋果智能家居新品曝光 將與比亞迪合作在越南生產
- 為什么蘋果不再關心iPad了?新一代iPad Pro連場發布會都不配
- 新版 iOS 26.1 發布,全新圖標來了
- 國產手機,集體對標蘋果背后
- 時隔6年,蘋果最貴的“刨絲器”顯示器要出二代了
- 蘋果發布 iOS 26.1 beta3 測試版,有新變化
