CMU與NYU聯(lián)合團隊提出“上褶度”，揭秘計算受限下的智能真相_ai|電商|浪潮

文章圖片

文章圖片

文章圖片

當(dāng)我們說一個 AI 模型“學(xué)到了東西” ，究竟是什么意思？這個問題聽起來有點哲學(xué) ，但它正在成為機器學(xué)習(xí)研究中一個越來越緊迫的技術(shù)命題。

2026 年 1 月初，來自美國卡內(nèi)基梅隆大學(xué)和紐約大學(xué)的聯(lián)合團隊發(fā)布了一篇題為《從熵到上褶度：為計算受限智能重新思考信息》（From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence）的論文，團隊耗時兩年進行研究，提出了一個名為“epiplexity”（上褶度，或可譯為“認知復(fù)雜度” ， epi 表“上層” ， plexity 與 complex／perplexity 同源，指向“復(fù)雜性”）的新概念，試圖從根本上回答這個問題，論文發(fā)布后迅速在設(shè)計媒體上引發(fā)了討論。

圖丨相關(guān)論文（來源：arXiv）

日前，相關(guān)論文發(fā)表于預(yù)印本平臺 arXiv ，卡內(nèi)基梅隆大學(xué)博士后 Marc Finzi、博士生 Yiding jiang 與紐約大學(xué)博士生裘釋凱（Shikai Qiu）共同擔(dān)任第一作者。

圖丨從左到右依次是：Marc Finzi、裘釋凱和 Yiding jiang（來源：GitHub）

這篇論文的核心論點是：我們長期以來用于衡量信息的經(jīng)典工具香農(nóng)熵（Shannon entropy）和柯爾莫哥洛夫復(fù)雜度（Kolmogorov complexity）在面對現(xiàn)代機器學(xué)習(xí)時表現(xiàn)得捉襟見肘。這些框架隱含地假設(shè)觀察者擁有無限的計算能力，但現(xiàn)實中的學(xué)習(xí)系統(tǒng) ，無論是人腦還是 GPU 集群，都在有限的計算預(yù)算下運作。當(dāng)我們忽視這一點時，理論與實踐之間就會出現(xiàn)令人困惑的裂痕。

圖丨隨機信息與結(jié)構(gòu)性信息示意圖（來源：arXiv）

研究團隊列舉了三個“信息論悖論” ，用以說明現(xiàn)有理論框架的局限性。

第一個悖論涉及信息守恒：根據(jù)數(shù)據(jù)處理不等式（Data Processing Inequality），確定性變換不能增加信息量。然而 AlphaZero 僅從圍棋規(guī)則這一極其簡短的程序出發(fā)就學(xué)會了超越人類的策略，最終模型參數(shù)規(guī)模卻相當(dāng)大。這些“額外的信息”從何而來？

第二個悖論關(guān)乎順序：香農(nóng)信息論告訴我們，先觀察 X 再觀察 Y 與先 Y 后 X 得到的總信息量相同，即 H（Y｜X）＋H（X）＝H（X｜Y）＋H（Y）。但大量實驗表明，大語言模型在正向閱讀英文時的壓縮效果明顯優(yōu)于逆向閱讀，數(shù)據(jù)的呈現(xiàn)順序確實影響學(xué)習(xí)效果。

第三個悖論則觸及似然建模的本質(zhì)：最大化似然被認為等同于匹配數(shù)據(jù)分布，因此模型不可能學(xué)到比數(shù)據(jù)生成過程更復(fù)雜的東西。但研究者們發(fā)現(xiàn) ，在康威生命游戲這樣的系統(tǒng)中，計算受限的模型為了做出預(yù)測，必須學(xué)習(xí)識別“滑翔機”“振蕩器”等涌現(xiàn)結(jié)構(gòu) ，而這些概念在原始的局部演化規(guī)則中根本不存在。

為了調(diào)和這些矛盾，研究者們引入了“時間受限熵”（time-bounded entropy）和“上褶度”（epiplexity）兩個概念。其核心定義建立在最小描述長度原則（Minimum Description Length ， MDL）之上。

給定一個隨機變量 X 和計算時間上界 T ，他們首先找到在該時間約束下能最優(yōu)壓縮數(shù)據(jù)的概率模型：

這里 P_T 表示所有能在時間 T 內(nèi)完成采樣和概率計算的程序集合，｜P｜是程序 P 的比特長度， E［log 1／P（X）］則是用該模型編碼數(shù)據(jù)所需的期望比特數(shù) 。找到這個最優(yōu)模型后，上褶度和時間受限熵分別定義為：

（上褶度，即在給定計算預(yù)算下，為了把數(shù)據(jù)壓縮到最好，模型必須“內(nèi)化”的結(jié)構(gòu)性規(guī)律總量）

（時間受限熵，即用最優(yōu)模型編碼數(shù)據(jù)的期望長度）

用更直白的話說：時間受限熵是“噪聲” ，上褶度是“信號” ，但這里的噪聲和信號是相對于特定計算能力而言的。一個密碼學(xué)安全的偽隨機數(shù)生成器（Cryptographically Secure Pseudo-Random Number Generator ， CSPRNG）對于只有多項式時間計算預(yù)算的模型來說就是純噪聲，盡管它在數(shù)學(xué)上是完全確定的。

圖丨如何估計上褶度（來源：arXiv）

論文中證明，對于任何 CSPRNG 輸出，其時間受限熵接近最大值 n 比特，而上褶度則接近常數(shù) ，這與我們的直覺完全吻合。

“信息取決于觀察者”這個想法在密碼學(xué)中其實早有根基。單向函數(shù)（正向計算容易、逆向計算難），正是現(xiàn)代密碼體系的基石。但將這一思想系統(tǒng)性地引入機器學(xué)習(xí)的理論框架，并給出可操作的度量方法，是這篇論文的貢獻所在。

研究者們提出了兩種估算上褶度的實用方法。第一種叫預(yù)序編碼（prequential coding），其核心思想可以用訓(xùn)練損失曲線來理解：

這個公式的含義是：用模型在第 i 步的損失減去最終收斂后的損失，然后對所有訓(xùn)練步驟求和。如果你畫出訓(xùn)練損失曲線，這就是曲線與最終水平線之間的面積。損失下降得越多、持續(xù)得越久，面積就越大，意味著模型“吸收”了越多的結(jié)構(gòu)性信息。

第二種方法叫請求編碼（requential coding），通過教師－學(xué)生蒸餾過程中的 KL 散度累積來給出更嚴(yán)格的上界，計算成本更高但理論上更可靠。

論文中的實驗涵蓋了從元胞自動機到國際象棋再到自然語言的多種數(shù)據(jù)類型。團隊首先用初等元胞自動機（Elementary Cellular Automaton ， ECA）做了一組對比實驗， ECA 的規(guī)則一共有 256 種，研究者挑了三種代表性的來測試。

規(guī)則 15 產(chǎn)生簡單周期圖案，模型很快學(xué)會預(yù)測，上褶度很低；規(guī)則 30 產(chǎn)生混沌輸出，模型永遠無法做出有效預(yù)測，時間受限熵極高但上褶度幾乎為零；規(guī)則 54 則處于“復(fù)雜性邊緣” ，產(chǎn)生部分可預(yù)測的涌現(xiàn)結(jié)構(gòu) ，上褶度隨計算預(yù)算增加而穩(wěn)步上升。這也和此前耶魯大學(xué)團隊提出的“混沌邊緣智能”（Intelligence at the Edge of Chaos）的研究方向形成了呼應(yīng) ，最有價值的學(xué)習(xí)信號，或許恰恰藏在有序與混沌的交界地帶。

圖丨用元胞自動機創(chuàng)建的信息（來源：arXiv）

在國際象棋數(shù)據(jù)上，研究者們比較了兩種格式：先給出棋步序列再給出最終局面，與先給出局面再給出棋步。前者類似于“正向”計算，從走法推導(dǎo)局面是簡單的規(guī)則應(yīng)用；后者則類似于“逆向”推理，從局面反推走法需要更復(fù)雜的理解。

實驗表明，后者雖然訓(xùn)練損失更高，但上褶度也更高，而且在下游任務(wù)（如國際象棋謎題求解和局面評估）上表現(xiàn)更好。這說明更難學(xué)習(xí)的數(shù)據(jù)呈現(xiàn)方式可能反而能迫使模型習(xí)得更豐富的局面表征，這些表征更容易遷移到需要理解局面的 OOD（Out-of-Distribution Generalization ，分布外泛化）任務(wù)上。

論文中可能最有現(xiàn)實啟發(fā)的一點，是它在同一算力條件下對比了不同數(shù)據(jù)模態(tài)的“可學(xué)結(jié)構(gòu)” 。在相同的計算預(yù)算下， OpenWebText 文本數(shù)據(jù)的上褶度顯著高于 Lichess 國際象棋數(shù)據(jù) ，而后者又高于 CIFAR－5M 圖像數(shù)據(jù) 。圖像數(shù)據(jù)的總信息量（按原始字節(jié)計）最大，但超過 99％都是“時間受限熵” ，即像素級的不可預(yù)測噪聲。

圖丨上褶度揭示了不同數(shù)據(jù)模態(tài)中的結(jié)構(gòu)信息差異（來源：arXiv）

這或許解釋了一個長期困擾研究者的現(xiàn)象：為什么在文本上預(yù)訓(xùn)練能帶來廣泛的能力遷移，而在圖像上預(yù)訓(xùn)練卻不然？因為文本包含更多可學(xué)習(xí)的結(jié)構(gòu)性信息，這些信息被編碼進模型權(quán)重后可以在新任務(wù)中復(fù)用。

論文還探討了“歸納”（induction）和“涌現(xiàn)”（emergence）兩類現(xiàn)象如何產(chǎn)生超出數(shù)據(jù)生成過程的上褶度。

關(guān)于歸納，研究者們援引了 Ilya Sutskever 的一個經(jīng)典思想實驗：當(dāng)你讀一本偵探小說，在某個時刻文本揭示了兇手的身份。如果模型能預(yù)測出這個名字，它就必須從前文的線索中推斷出答案。但小說作者并不需要做這種推理，她可能先決定誰是兇手，然后編織一個自圓其說的故事。因此，預(yù)測模型被迫學(xué)習(xí)的推理能力，可能根本不存在于數(shù)據(jù)的生成過程中。

圖丨通過上褶度研究歸納（來源：arXiv）

關(guān)于涌現(xiàn) ，康威生命游戲提供了一個很好的說明。游戲規(guī)則可以用幾十個字節(jié)描述，一個計算能力無限的觀察者只需逐步執(zhí)行規(guī)則就能完美預(yù)測。

但計算受限的觀察者無力進行這種暴力模擬，必須學(xué)習(xí)識別和追蹤涌現(xiàn)結(jié)構(gòu) ，比如滑翔機的運動軌跡、不同“物種”的碰撞規(guī)則等，才能做出有效預(yù)測。這種被迫習(xí)得的高層抽象，正是上褶度試圖捕捉的東西。
【CMU與NYU聯(lián)合團隊提出“上褶度”，揭秘計算受限下的智能真相】
論文中的一個實驗顯示，當(dāng)計算預(yù)算足夠大以至于模型可以“循環(huán)展開”（類似于思維鏈推理）來模擬游戲規(guī)則時，上褶度反而會驟降，因為此時簡單的暴力解法變得可行，復(fù)雜的涌現(xiàn)知識不再必要。

不過要注意的是，上褶度是一個理論上定義清晰、但實踐中只能近似估計的量。論文承認，由于只能在有限的超參數(shù)空間中搜索，估計值可能與真實值存在系統(tǒng)性偏差。此外，高上褶度并不保證在特定下游任務(wù)上表現(xiàn)更好，它度量的是結(jié)構(gòu)性信息的總量，而非與特定任務(wù)的相關(guān)性。一個模型可能學(xué)到了大量結(jié)構(gòu) ，但這些結(jié)構(gòu)未必對你關(guān)心的任務(wù)有用。

但總體而言，這篇論文代表了機器學(xué)習(xí)理論的一個轉(zhuǎn)向：從關(guān)注模型選擇轉(zhuǎn)向關(guān)注數(shù)據(jù)選擇。經(jīng)典學(xué)習(xí)理論將訓(xùn)練分布視為給定，優(yōu)化目標(biāo)放在模型架構(gòu)和正則化上。但在預(yù)訓(xùn)練時代，模型架構(gòu)趨于同質(zhì)化，數(shù)據(jù)質(zhì)量和組成反而成為決定性因素。上褶度提供了一個不依賴于特定下游任務(wù)的數(shù)據(jù)價值度量，這對于合成數(shù)據(jù)生成、數(shù)據(jù)配比優(yōu)化、課程學(xué)習(xí)等方向都有潛在的指導(dǎo)意義。

香農(nóng)信息論誕生于通信時代，其核心關(guān)切是信息的表征和傳輸，計算過程被抽象掉了。但學(xué)習(xí) ，無論是生物的還是人工的，本質(zhì)上是計算過程。什么能被學(xué)到，取決于可用的計算資源。上褶度的提出，是朝著將計算約束納入信息論框架的一次認真嘗試。它未必是最終答案，但它提出了正確的問題。

參考資料：
1.https://arxiv.org/pdf/2601.03220
2.https://x.com/m_finzi/status/2008934727156453661

運營/排版：何晨龍

CMU與NYU聯(lián)合團隊提出“上褶度”，揭秘計算受限下的智能真相

推薦閱讀

純凈水反復(fù)燒開有害嗎

版權(quán)登記的好處有哪些

正確更換手機屏幕教程 oppo r3怎么換屏幕

綏遠是現(xiàn)在的哪里

小天才z8能換z6的表帶嗎

古老的干塘方法

靠邊停車扣分標(biāo)準(zhǔn) 科目三靠邊停車扣分點

轉(zhuǎn)爐煤氣的密度是多少

維修水龍頭方法有哪些

吃什么肉可以不長胖?

比特幣官網(wǎng)是哪里做的,比特幣有哪些好的交易平臺嗎

心機要發(fā)布了，各位錘友吸取之前的教訓(xùn)了嗎？

比亞迪的小燈泡怎么更換視頻比亞迪的小燈泡怎么更換

手機好評排行榜,最新手機好評榜

小編教你幾何畫板坐標(biāo)軸刻度數(shù)字變大的方法步驟

哪里有支付寶口碑商家,支付寶口碑里有什么