不用任何人類語言訓練，大模型反而更強了？

2026-04-28

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心編輯部
如果有一天，大模型不再依賴人類語言訓練，會發生什么？
過去幾年，大模型能力的飛躍幾乎都建立在一個前提之上：海量文本數據。互聯網、書籍、代碼、論文，幾乎所有人類留下的語言痕跡，都被當作訓練數據。但隨著高質量文本逐漸逼近枯竭，研究者開始提出一個更激進的問題：
語言，真的必須是智能的起點嗎？
最新的一項研究給出了一個令人意外的答案：也許不需要。他們假設讓語言模型在學習語言之前，先在完全非語言的合成數據上進行訓練。
論文使用了一種完全不同的數據來源：在神經細胞自動機（Neural Cellular Automata NCA）生成的數據上對 Transformer 進行預預訓練（pre-pre-training）—— 這些數據完全是合成的，不包含任何語言內容。
結果顯示，這種方法能夠將語言建模性能提升最多 6% ，將訓練收斂速度加快 40% ，并增強模型在下游任務中的推理能力。
這種方式的效果甚至超過了在自然文本上進行預預訓練（pre-pre-training）的模型。

論文標題：Training Language Models via Neural Cellular Automata 論文地址：https://arxiv.org/pdf/2603.10055 博客：https://hanseungwook.github.io/blog/nca-pre-pre-training/自然語言，真的是通向智能的唯一道路嗎？
本文的核心假設是：語言之所以適合用于預訓練，關鍵并不在于它的語義，而在于它所具備的結構。如果這一點成立，那么那些同樣具有豐富結構、但并非語言形式的數據，理論上也可能被用來訓練智能系統。
在得出這一假設之后，本文提出利用 NCA 生成合成的、非語言數據，用于對大語言模型進行預預訓練（pre-pre-training），即先在合成數據上訓練，再在自然語言上繼續訓練。
值得一提的是，預預訓練是本文提出的一種訓練范式，模型先學習 NCA 序列，然后再在語料庫上預訓練，最后微調。

NCA 數據具有豐富的時空結構，其統計特性在某些方面與自然語言相似，同時又可控且易于大規模低成本生成。
另外， NCA 是對康威生命游戲（Conway’s Game of Life）（Gardner ， 1970）等系統的一種推廣：它通過用神經網絡替代固定的動力學規則，來定義系統的演化過程，并能夠在空間局部規則的基礎上生成多樣化的數據分布。
這種機制能夠產生任意規模的長程時空模式（見圖 1），并呈現出重尾（heavy-tailed）、齊夫定律的 token 分布，這一統計特性與自然數據十分相似。

在這種框架下，每一個隨機采樣得到的神經網絡都會對應一套獨特的狀態轉移規則，從而在網格上產生豐富多樣的時空動態演化。
當這些系統在較長時間尺度上不斷展開運行時，便會涌現出一系列復雜行為：從快速收斂到固定吸引子狀態的簡單模式，到隨著時間逐漸演化形成的復雜結構，呈現出極為豐富的動態形態譜系。

這些 NCA 的演化軌跡會被離散化為序列（通過 2×2 的圖塊 patch 進行分塊，類似視覺 Transformer 的處理方式），隨后輸入到一個標準 Transformer 模型中，并通過下一 token 預測進行訓練。
關鍵之處在于：由于每一條序列都對應著一條獨特的潛在演化規則（latent rule），模型要想正確預測接下來會發生什么，就必須在上下文中推斷出這條規則。
而這種在上下文中推斷規則的能力，正是語言模型中許多核心推理能力得以產生的基礎。
出人意料的結果
在相同的 token 預算（每種設置均為 1.64 億 tokens）下，使用 NCA 進行預預訓練（pre-pre-training）的模型優于以下幾種方案：
從零開始訓練；使用自然語言數據（C4）進行預預訓練；使用其他合成數據（如 Dyck）進行預預訓練。這種優勢在網頁文本、數學以及代碼任務上都得到很好的體現。
更重要的是，這種提升不僅僅體現在收斂速度更快，還體現在最終困惑度（perplexity）更低，也就是說模型在最終性能上同樣更強。

這些在語言建模上的性能提升，也能夠遷移到真實的推理基準測試中：

更令人驚訝的是，作者發現：在相同規模的數據條件下，這種非語言的 NCA 數據表現反而優于自然語言數據。
因此，作者進一步進行了測試：如果給 C4 大約 10 倍的數據會發生什么？
在新的實驗中，他們將 C4 的預預訓練（pre-pre-training）規模擴大到 16 億 tokens ，而 NCA 仍然保持在 1.64 億 tokens 。
即便在這種數據規模明顯占優的情況下， NCA 訓練的模型依然表現更好：
收斂速度快 1.4 倍；最終困惑度（perplexity）降低約 5% 。
1.64 億 tokens 的自動機數據，擊敗了 16 億 tokens 的自然語言。
作者認為，這種差異反映了不同數據源在不同規模下所教會模型的能力差異。
在 16 億 tokens 的規模下，這仍然遠低于計算最優規模（compute-optimal scale）， C4 數據主要讓模型學到的是淺層、局部的統計模式。
而每一條 NCA 序列都會迫使模型：在上下文中推斷出一個潛在規則（即 in-context learning），并在后續預測中持續一致地應用這一規則。
換句話說，相比于自然語言中大量重復的語言模式， NCA 數據在每個 token 上提供了更多樣的函數結構。
這種每個 token 所攜帶的高多樣性規則學習信號，似乎更高效地幫助模型構建能夠遷移到語言任務中的通用表示能力。
是什么驅動了這種遷移？
首先，作者發現注意力是核心載體。重新初始化實驗表明，注意力層承載了最具可遷移性的計算原語。而 MLP 層更多編碼的是領域特定的知識，只有在源任務與目標任務相匹配時，這些知識才具有可遷移性。
其次是復雜度需要匹配。最優的 NCA 復雜度會隨著應用領域而變化：代碼任務更受益于較簡單的動態規則，而數學和網頁文本任務則更偏好更復雜的動態結構。這為針對特定領域進行定制化訓練提供了一種新的調節手段。
接著是結構，而非語義。 NCA 數據完全不包含任何語言內容，卻依然能夠訓練模型去跟蹤長程依賴關系并推斷潛在規則，而這些能力正是語言理解與推理所需要的核心能力。
最后是效率優于規模。更多的合成數據并不一定帶來更好的效果。相比單純增加數據量，校準數據生成機制的復雜度更為關鍵，這使得在更少計算資源下實現更高效的訓練成為可能。
更純粹的訓練信號
在 token 規模較小的情況下，自然語言預訓練主要讓模型學到的是淺層的統計模式。模型往往依賴語義捷徑（semantic shortcuts）和詞語共現先驗（co-occurrence priors）來完成預測，而不是從結構本身學習推理能力。
相比之下， NCA 序列中完全不存在這樣的語義捷徑。
每一條 NCA 演化軌跡都由一條隱藏的狀態轉移規則生成，這條規則來自一個隨機采樣的神經網絡，模型必須僅通過上下文信息來推斷它。由于沒有任何語義內容可以依賴，每一個 token 都在迫使模型進行上下文規則推斷：觀察序列 → 假設潛在規則 → 在后續預測中持續應用該規則。
這一過程實際上復現了語言模型的一項核心能力：上下文學習。
此外， NCA 的規則來自可計算函數的一個通用類別，其中一些甚至可以實現圖靈完備系統。因此，這一規則分布的空間過于龐大，無法通過記憶來覆蓋。模型不得不學習一種通用的規則推斷機制，而不是簡單記住某些特定規則。
實驗結果也支持這一點：最具可遷移性的結構主要存在于注意力層，而不是 MLP 層。已有研究表明，上下文學習能力的出現與歸納頭（induction heads）的形成密切相關，這是一種注意力電路，可以從序列前部復制并應用模式到后續位置。
而 NCA 的預預訓練過程恰恰只獎勵這種行為，因此很可能在語言訓練開始之前，就更早且更穩固地促成這些注意力電路的形成。
超越「一刀切」的訓練方式
這項研究為語言模型訓練打開了一條全新的控制維度。過去，人們通常將訓練數據分布視為既定條件；而現在，可以通過調節合成數據的結構，使其更好地匹配特定目標領域。
例如：對于代碼任務，可以使用更簡單的 NCA 規則；而在基因序列建模等場景中，則可以設計具有更豐富長程動態結構的規則。
這一方向的長期愿景是：基礎模型先通過完全合成的數據獲得推理能力，再通過一小部分精心篩選的自然語言語料學習語義。
這樣一來，我們或許能夠構建出一種新的模型體系，能夠進行推理，卻不會在一開始就繼承人類文本中的各種偏見。
因此，問題已經不再是：合成預訓練是否可行，而是：它究竟能夠走多遠。
【不用任何人類語言訓練，大模型反而更強了？】參考鏈接：https://hanseungwook.github.io/blog/nca-pre-pre-training/

推薦閱讀

上一篇：iPhone Fold將采用寬屏設計對標iPad mini，蘋果以差異化設計切入折疊屏市場

下一篇：1個月暴跌50%！一克拉鉆石戒指跌至4000元正成為AI芯片散熱材料新貴