不用任何人類語言訓練,大模型反而更強了?

不用任何人類語言訓練,大模型反而更強了?

文章圖片

不用任何人類語言訓練,大模型反而更強了?

文章圖片

不用任何人類語言訓練,大模型反而更強了?

文章圖片

不用任何人類語言訓練,大模型反而更強了?

文章圖片

不用任何人類語言訓練,大模型反而更強了?

文章圖片



機器之心編輯部
如果有一天 , 大模型不再依賴人類語言訓練 , 會發生什么?
過去幾年 , 大模型能力的飛躍幾乎都建立在一個前提之上:海量文本數據 。 互聯網、書籍、代碼、論文 , 幾乎所有人類留下的語言痕跡 , 都被當作訓練數據 。 但隨著高質量文本逐漸逼近枯竭 , 研究者開始提出一個更激進的問題:
語言 , 真的必須是智能的起點嗎?
最新的一項研究給出了一個令人意外的答案:也許不需要 。 他們假設讓語言模型在學習語言之前 , 先在完全非語言的合成數據上進行訓練 。
論文使用了一種完全不同的數據來源:在神經細胞自動機(Neural Cellular Automata NCA)生成的數據上對 Transformer 進行預預訓練(pre-pre-training)—— 這些數據完全是合成的 , 不包含任何語言內容 。
結果顯示 , 這種方法能夠將語言建模性能提升最多 6% , 將訓練收斂速度加快 40% , 并增強模型在下游任務中的推理能力 。
這種方式的效果甚至超過了在自然文本上進行預預訓練(pre-pre-training)的模型 。


論文標題:Training Language Models via Neural Cellular Automata 論文地址:https://arxiv.org/pdf/2603.10055 博客:https://hanseungwook.github.io/blog/nca-pre-pre-training/自然語言 , 真的是通向智能的唯一道路嗎?
本文的核心假設是:語言之所以適合用于預訓練 , 關鍵并不在于它的語義 , 而在于它所具備的結構 。 如果這一點成立 , 那么那些同樣具有豐富結構、但并非語言形式的數據 , 理論上也可能被用來訓練智能系統 。
在得出這一假設之后 , 本文提出利用 NCA 生成合成的、非語言數據 , 用于對大語言模型進行預預訓練(pre-pre-training) , 即先在合成數據上訓練 , 再在自然語言上繼續訓練 。
值得一提的是 , 預預訓練是本文提出的一種訓練范式 , 模型先學習 NCA 序列 , 然后再在語料庫上預訓練 , 最后微調 。

NCA 數據具有豐富的時空結構 , 其統計特性在某些方面與自然語言相似 , 同時又可控且易于大規模低成本生成 。
另外 , NCA 是對康威生命游戲(Conway’s Game of Life)(Gardner , 1970)等系統的一種推廣:它通過用神經網絡替代固定的動力學規則 , 來定義系統的演化過程 , 并能夠在空間局部規則的基礎上生成多樣化的數據分布 。
這種機制能夠產生任意規模的長程時空模式(見圖 1) , 并呈現出重尾(heavy-tailed)、齊夫定律的 token 分布 , 這一統計特性與自然數據十分相似 。

在這種框架下 , 每一個隨機采樣得到的神經網絡都會對應一套獨特的狀態轉移規則 , 從而在網格上產生豐富多樣的時空動態演化 。
當這些系統在較長時間尺度上不斷展開運行時 , 便會涌現出一系列復雜行為:從快速收斂到固定吸引子狀態的簡單模式 , 到隨著時間逐漸演化形成的復雜結構 , 呈現出極為豐富的動態形態譜系 。

這些 NCA 的演化軌跡會被離散化為序列(通過 2×2 的圖塊 patch 進行分塊 , 類似視覺 Transformer 的處理方式) , 隨后輸入到一個標準 Transformer 模型中 , 并通過下一 token 預測進行訓練 。
關鍵之處在于:由于每一條序列都對應著一條獨特的潛在演化規則(latent rule) , 模型要想正確預測接下來會發生什么 , 就必須在上下文中推斷出這條規則 。
而這種在上下文中推斷規則的能力 , 正是語言模型中許多核心推理能力得以產生的基礎 。
出人意料的結果
在相同的 token 預算(每種設置均為 1.64 億 tokens) 下 , 使用 NCA 進行預預訓練(pre-pre-training) 的模型優于以下幾種方案:
從零開始訓練; 使用自然語言數據(C4)進行預預訓練; 使用其他合成數據(如 Dyck)進行預預訓練 。這種優勢在網頁文本、數學以及代碼任務上都得到很好的體現 。
更重要的是 , 這種提升不僅僅體現在收斂速度更快 , 還體現在最終困惑度(perplexity)更低 , 也就是說模型在最終性能上同樣更強 。


這些在語言建模上的性能提升 , 也能夠遷移到真實的推理基準測試中:

更令人驚訝的是 , 作者發現:在相同規模的數據條件下 , 這種非語言的 NCA 數據表現反而優于自然語言數據 。
因此 , 作者進一步進行了測試:如果給 C4 大約 10 倍的數據會發生什么?
在新的實驗中 , 他們將 C4 的預預訓練(pre-pre-training)規模擴大到 16 億 tokens , 而 NCA 仍然保持在 1.64 億 tokens 。
即便在這種數據規模明顯占優的情況下 , NCA 訓練的模型依然表現更好:
收斂速度快 1.4 倍; 最終困惑度(perplexity)降低約 5% 。
1.64 億 tokens 的自動機數據 , 擊敗了 16 億 tokens 的自然語言 。
作者認為 , 這種差異反映了不同數據源在不同規模下所教會模型的能力差異 。
在 16 億 tokens 的規模下 , 這仍然遠低于計算最優規模(compute-optimal scale) , C4 數據主要讓模型學到的是淺層、局部的統計模式 。
而每一條 NCA 序列都會迫使模型:在上下文中推斷出一個潛在規則(即 in-context learning) , 并在后續預測中持續一致地應用這一規則 。
換句話說 , 相比于自然語言中大量重復的語言模式 , NCA 數據在每個 token 上提供了更多樣的函數結構 。
這種每個 token 所攜帶的高多樣性規則學習信號 , 似乎更高效地幫助模型構建能夠遷移到語言任務中的通用表示能力 。
是什么驅動了這種遷移?
首先 , 作者發現注意力是核心載體 。 重新初始化實驗表明 , 注意力層承載了最具可遷移性的計算原語 。 而 MLP 層更多編碼的是領域特定的知識 , 只有在源任務與目標任務相匹配時 , 這些知識才具有可遷移性 。
其次是復雜度需要匹配 。 最優的 NCA 復雜度會隨著應用領域而變化:代碼任務更受益于較簡單的動態規則 , 而數學和網頁文本任務則更偏好更復雜的動態結構 。 這為針對特定領域進行定制化訓練提供了一種新的調節手段 。
接著是結構 , 而非語義 。 NCA 數據完全不包含任何語言內容 , 卻依然能夠訓練模型去跟蹤長程依賴關系并推斷潛在規則 , 而這些能力正是語言理解與推理所需要的核心能力 。
最后是效率優于規模 。 更多的合成數據并不一定帶來更好的效果 。 相比單純增加數據量 , 校準數據生成機制的復雜度更為關鍵 , 這使得在更少計算資源下實現更高效的訓練成為可能 。
更純粹的訓練信號
在 token 規模較小的情況下 , 自然語言預訓練主要讓模型學到的是淺層的統計模式 。 模型往往依賴語義捷徑(semantic shortcuts)和詞語共現先驗(co-occurrence priors)來完成預測 , 而不是從結構本身學習推理能力 。
相比之下 , NCA 序列中完全不存在這樣的語義捷徑 。
每一條 NCA 演化軌跡都由一條隱藏的狀態轉移規則生成 , 這條規則來自一個隨機采樣的神經網絡 , 模型必須僅通過上下文信息來推斷它 。 由于沒有任何語義內容可以依賴 , 每一個 token 都在迫使模型進行上下文規則推斷:觀察序列 → 假設潛在規則 → 在后續預測中持續應用該規則 。
這一過程實際上復現了語言模型的一項核心能力:上下文學習 。
此外 , NCA 的規則來自可計算函數的一個通用類別 , 其中一些甚至可以實現圖靈完備系統 。 因此 , 這一規則分布的空間過于龐大 , 無法通過記憶來覆蓋 。 模型不得不學習一種通用的規則推斷機制 , 而不是簡單記住某些特定規則 。
實驗結果也支持這一點:最具可遷移性的結構主要存在于注意力層 , 而不是 MLP 層 。 已有研究表明 , 上下文學習能力的出現與歸納頭(induction heads)的形成密切相關 , 這是一種注意力電路 , 可以從序列前部復制并應用模式到后續位置 。
而 NCA 的預預訓練過程恰恰只獎勵這種行為 , 因此很可能在語言訓練開始之前 , 就更早且更穩固地促成這些注意力電路的形成 。
超越「一刀切」的訓練方式
這項研究為語言模型訓練打開了一條全新的控制維度 。 過去 , 人們通常將訓練數據分布視為既定條件;而現在 , 可以通過調節合成數據的結構 , 使其更好地匹配特定目標領域 。
例如:對于代碼任務 , 可以使用更簡單的 NCA 規則;而在基因序列建模等場景中 , 則可以設計具有更豐富長程動態結構的規則 。
這一方向的長期愿景是:基礎模型先通過完全合成的數據獲得推理能力 , 再通過一小部分精心篩選的自然語言語料學習語義 。
這樣一來 , 我們或許能夠構建出一種新的模型體系 , 能夠進行推理 , 卻不會在一開始就繼承人類文本中的各種偏見 。
因此 , 問題已經不再是:合成預訓練是否可行 , 而是:它究竟能夠走多遠 。
【不用任何人類語言訓練,大模型反而更強了?】參考鏈接:https://hanseungwook.github.io/blog/nca-pre-pre-training/

    推薦閱讀