首個代碼世界模型引爆AI圈,能讓智能體學會「真推理」,Meta開源

首個代碼世界模型引爆AI圈,能讓智能體學會「真推理」,Meta開源

文章圖片

首個代碼世界模型引爆AI圈,能讓智能體學會「真推理」,Meta開源

文章圖片

首個代碼世界模型引爆AI圈,能讓智能體學會「真推理」,Meta開源

文章圖片

首個代碼世界模型引爆AI圈,能讓智能體學會「真推理」,Meta開源

文章圖片

首個代碼世界模型引爆AI圈,能讓智能體學會「真推理」,Meta開源

文章圖片

首個代碼世界模型引爆AI圈,能讓智能體學會「真推理」,Meta開源

文章圖片


機器之心報道
編輯:澤南、冷貓
大模型的架構 , 要徹底進化了?
【首個代碼世界模型引爆AI圈,能讓智能體學會「真推理」,Meta開源】昨晚開始 , AI 圈都在研究一個神奇的新物種 ——Code World Model(CWM) 。

Meta 重組后的 AI 部門推出的首個重磅研究 , 是一個世界模型 , 用來寫代碼的 。
它和「傳統」的大語言模型(LLM)思路不同 , 理論是這樣的:

視頻鏈接:https://mp.weixin.qq.com/s/YH7ExmqjIZ14QWaFOc_SeA
當人類進行計劃時 , 我們會在腦海中想象不同行動可能帶來的結果 。 當我們推理代碼時 , 我們會在心中模擬其部分執行過程 。 當前一代的大語言模型在這方面表現不佳 , 往往難以做到真正的推理和模擬 。 那么 , 一個經過顯式訓練的代碼世界模型(Code World Model)是不是能夠開啟新的研究方向呢?

Meta 剛發布的這個 CWM , 是一個 320 億參數的開放權重 LLM , 以推動基于世界模型的代碼生成研究 。
CWM 是一個稠密的、僅解碼器結構的 LLM , 支持最長 131k tokens 的上下文長度 。 獨立于其世界建模能力 , CWM 在通用編程與數學任務上表現出強大性能:
SWE-bench Verified(含測試時擴展):pass@1 65.8% LiveCodeBench:68.6% Math-500:96.6% AIME 2024:76.0%
可見 , 雖然 CWM 的絕對性能還不算太高 , 但它在 30B 級別模型的橫向對比上性能已算不錯 。

SWE-bench Verified pass@1 分數
為了提升代碼理解能力 , 而不僅僅局限于從靜態代碼訓練中學習 , Meta FAIR CodeGen 團隊在 Python 解釋器和智能體式 Docker 環境中使用了大量觀測 - 動作軌跡進行中間訓練(mid-train) , 并在可驗證編碼、數學和多輪軟件工程環境中進行了大規模多任務推理強化學習(RL) 。
為支持進一步的代碼世界建模研究 , Meta 開放了模型在 中間訓練(mid-training)、SFT 和 RL 階段的檢查點 。

論文標題:CWM: An Open-Weights LLM for Research on Code Generation with World Models 論文鏈接:https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/ 模型權重:https://ai.meta.com/resources/models-and-libraries/cwm-downloads/ HuggingFace:https://huggingface.co/facebook/cwm借助 CWM , Meta 提出了一個強大的測試平臺 , 以探索世界建模在改進代碼生成時的推理與規劃能力方面的機會 。
該研究展示了世界模型如何有益于智能體式編碼 , 使得 Python 代碼執行能夠逐步模擬 , 并展示了推理如何從這種模擬中受益的早期結果 。
在該研究中 , Meta 似乎從傳統開發的過程中汲取了靈感 。 優秀程序員會在上手寫代碼之前先在腦內推演 , 而現在基于大語言模型的代碼生成工具 , 是在基于海量數據生成對相關代碼的「模仿」 。 看起來像是對的 , 和真正理解寫出的代碼之間總會有點 gap 。
一個明確訓練的代碼世界模型 , 應該能夠預測自己行為的后果 , 進而作出判斷實現有效的決策 。
有一個很有意思的例子 , 大模型總是會犯些低級錯誤 , 比如數不清楚「strawberry」里有幾個「r」 。
而采用 CWM , 就可以對一段統計 \"strawberry\" 中字母 \"r\" 的代碼執行過程進行追蹤 。 可以將其類比為一個神經版的 pdb —— 你可以將其設置在任意初始幀狀態下 , 然后推理過程就能夠在 token 空間中調用這一工具來進行查詢 。

CWM 的 Python 跟蹤格式 。在給定源代碼上下文與跟蹤起始點標記的情況下 , CWM 預測一系列的調用棧幀 , 表示程序狀態及相應的執行動作 。
CWM 模型基于大量編碼數據和定制的 Python + Bash 世界建模數據進行訓練 , 使其能夠模擬 Python 函數的執行以及 Bash 環境中的智能體交互 。

在 Meta 進行的更多實驗中 , CWM 在有無測試時擴展(tts)的情況下均達到了同類最佳性能 , 分別取得了 65.8% 和 53.9% 的成績 。 需要注意的是 , GPT-oss 的分數是基于 500 道題中的 477 道子集計算得出的 。

CWM 與基線模型在 Aider Polyglot 上的結果 , 取自官方排行榜 。

在 SWE-bench Verified 上 , 結合本文提出的 best@k 方法與多數投票(majority voting)的測試時擴展(TTS) , 能夠顯著提升 CWM 的 pass@1 得分 , 如圖(a)所示 。
在 Aider Polyglot 基準上 , 采用整文件編輯格式(whole file edit format)時 , CWM 在不同編程語言上的準確率表現如圖(b)所示 。

Terminal-Bench 上 CWM 與各基線模型的結果 , 取自官方排行榜 。

BigOBench 結果
在時間與空間復雜度的預測和生成兩類任務上 , 將 CWM 與 Qwen3-32B(帶推理能力)、Qwen3-coder-30B 以及 Gemma-3-27B 進行了對比 。 在時間復雜度預測與生成的全部指標上 , CWM 均超越了基線模型 。 在空間復雜度生成方面 , CWM 在僅代碼模式下的 pass@1 上取得最佳成績 , 并在其余指標中排名第二 。
Meta 團隊的愿景是讓代碼世界模型彌合語言層面的推理與可執行語義之間的鴻溝 。
消融實驗已經表明 , 世界建模數據、Python 執行軌跡以及可執行的 Docker 環境 , 能夠直接提升下游任務表現 。 更廣泛地說 , CWM 提供了一個強有力的試驗平臺 , 支持未來在零樣本規劃、具身的鏈式思維、以及稀疏且可驗證獎勵的強化學習等方向的研究 。
世界模型應當能夠改進強化學習 , 因為那些已經熟悉環境動態的智能體 , 可以更專注于學習哪些動作能夠帶來獎勵 。 盡管如此 , 要在預訓練階段跨任務地持續發揮世界模型的優勢 , 仍需要進一步研究 。 最終 , 能夠推理自身動作后果的模型 , 將在與環境的交互中更為高效 , 并有望擴展其能夠處理的任務復雜度 。
更多細節 , 請參閱原論文 。

    推薦閱讀