詳細解讀DeepSeek新年的第一篇論文,他們就是這個時代的真神。

詳細解讀DeepSeek新年的第一篇論文,他們就是這個時代的真神。

文章圖片

詳細解讀DeepSeek新年的第一篇論文,他們就是這個時代的真神。

文章圖片

詳細解讀DeepSeek新年的第一篇論文,他們就是這個時代的真神。

文章圖片

詳細解讀DeepSeek新年的第一篇論文,他們就是這個時代的真神。

文章圖片

詳細解讀DeepSeek新年的第一篇論文,他們就是這個時代的真神。

文章圖片


2026年新年第一天 , DeepSeek又開卷了 。
發了他們新年的第一篇論文 。
《 mHC: Manifold-Constrained Hyper-Connections 》
感覺是DeepSeek-V4的鋪墊 , 當然一些小道消息 , 不保真 , 我也不懂 , 我只是拍腦袋預測一下 , 有問題別找我 。
就是V4 , 大概在1月中下旬或者1月底 , 然后呢 , 有多模態輸入 , 沒有多模態輸出 。
就醬 , 回到論文 。
這篇論文我是說實話 , 有點過于硬核了 。
但同時 , 傳遞出來的信息量和對AI界的改變 , 又是巨大的 。
在給自己放了一天假 , 然后啃了一天以后(這玩意比我想象的難啃多了 。。。 )我還是想 , 用最通俗易懂最有意思的方式 , 來跟你聊聊 , 這篇論文的有趣之處 , 以及 , 是如何對現在的生態進行一些新的輸入的 。
當然也給我自己疊個甲 , 我不是算法出身 , 我只是讀完以后覺得很棒想分享給大家看 , 我對這篇論文的理解和亂七八糟的各種名詞解釋 , 都是我自己民科瞎JB自學的 , 部分措辭也有為了能讓大家更好理解而做的部分簡化 , 如果有我理解的錯誤或者事實性錯誤的地方 , 歡迎大佬們在評論區指正討論 , 感謝 。
話不多說 , 我們 , 正是開始 。
在最開始之前 , 我想先問大家一個問題 , 就是大家認為 , 一個要處理圖片、聲音、文字這么多亂七八糟信息的新模型 , 它最需要的是什么?
是一塊更強的GPU嗎?是一個更大的內存嗎?
而DeepSeek這篇文章 , 給出的答案 , 其實 , 是一個極其穩定、高效的、模型內部的信息流轉系統 。
要理解這個玩意 , 我們先得穿越回去 , 穿越回2015年 , 也就是十年前 , 從一個男人和一個偉大的想法說起 。
這個故事 , 要從盤古開天 , 啊不 , 要從何愷明蓋樓開始聊 。
對 , 何愷明蓋樓 。
我們都知道 , 大模型是神經網絡對吧 , 現在 , 你可以把一個神經網絡 , 當成一家開在101大廈里的超級公司 。
數據 , 就像一份客戶需求 , 從一樓的前臺進去 , 然后呢 , 先交給銷售部分析 , 在傳給二樓的市場部包裝一些 , 接著送到三樓的產品部進行需求評審 。。。
客戶的需求 , 也就是數據 , 就這樣坐著樓梯 , 一層一層往上爬 , 每一層都對這份信息做一點點加工和提煉 。
最后 , 這份被層層解讀過的報告 , 會送到頂樓的CEO辦公室 , 由CEO拍板 , 給出最終決策 , 比如“沒問題咱就這么干!” 。
理論上 , 公司的樓層越多 , 部門分工越細 , 那這家公司專業度就越高 , 也越牛逼 , 處理復雜問題的能力就越強 , 對吧 。
但在2015年 , 全世界的AI大佬們 , 都碰到了一個鬼故事 , 就是 , 這棟樓 , 它特娘的蓋不高啊 。
最多蓋到二三十層 , 就到頭了 。
再往上蓋 , 整個公司就直接罷工了 。
因為信息在傳遞過程中會失真 。
不知道你們有沒有玩過類似于王牌對王牌里面那種傳聲筒游戲 。
就是第一個人接到信息以后 , 在有限時間內 , 往后傳 , 最后一個人復述出來 , 看看還能復述多少字 。
這個游戲巨搞笑 , 因為最后一個人說出來的跟第一個人往往風牛馬不相及 。
在這個101大廈的公司里 , 也是一樣的 。
就比如一樓銷售部明明說的是“老板想喝咖啡” , 傳到十樓就變成了“老板喜歡吃咖啡壺” , 傳到二十樓成了“老板去中國有嘻哈上唱了首咖啡壺我的Baby” , 等傳到三十樓CEO耳朵里 , 可能已經變成了“老板覺得自己是只屌炸天的咖啡壺” 。
這就完蛋了 。
CEO根據這個離譜的信息做出的決策 , 肯定是災難性的 。
在AI里 , 這個現象有個高大上的名字 , 叫梯度消失 。
說人話就是 , 信號在深層網絡里傳來傳去 , 衰減得一干二凈 , 腦子直接短路了 , 這破活干不了一點了 。
然后呢 , 就在整個AI界都對著這現象一籌莫展的時候 , 當時還在微軟的何愷明 , 就站了出來 。
他做了一個看似簡單 , 卻直接改變世界的決定 。
他在大樓里 , 修了一部VIP直達電梯 。
這部電梯 , 從一樓前臺 , 可以直達任何一個樓層 , 包括頂樓的CEO辦公室 。
于是 , 流程變成了這樣 。
客戶需求文件進來后 , 依然需要一層一層地坐樓梯往上爬 , 接受各個部門的加工 , 但與此同時 , 前臺會把這份文件的原件復印件 , 放進這部VIP電梯 , 直接嗖地一下 , 送到CEO的辦公桌上 。
這樣一來 , CEO在看下面部門交上來的那份可能已經被傳得面目全非的報告時 , 他可以隨時拿起旁邊那份原件復印件來對比一下 。
“哦 , 底下人說老板是咖啡壺 , 但原件說的是老板想喝咖啡 , 那肯定是底下人傳話傳錯了” 。
信息 , 就這樣被保真了 。
這部天才的電梯 , 就是殘差連接(Residual Connection) 。
它像一根定海神針 , 貫穿了整棟大樓 , 讓最原始的信息可以在不同樓層間無損穿梭 , 時刻校準著整個公司的前進方向 。
可雖然這部電梯很偉大 , 但它也有一個致命的毛病 。
就是 , 它太TM窄了 , 它是一部只能容納一個人的小電梯 , 一次只能送一份文件 。
時間快進到今天 , AI公司已經不是當年那個只處理文字需求的小作坊了 。
它成了一個要處理圖片、視頻、音頻、代碼的超級巨無霸 。
CEO每天要處理的信息 , 從一份文件 , 變成了一卡車的資料 。
只靠一部小小的VIP電梯來回送復印件 , 運力嚴重不足 。
這條曾經的VIP電梯 , 現在成了全公司最堵的羊腸小道 。
咋辦呢 。
于是 , 一群更激進更年輕的大佬 , 一拍桌子說 , 靠 , 一部電梯不夠 , 咱們把整面墻都砸了 , 修一個電梯井吧 , 把一條單行道 , 直接拓寬成雙向八車道 , 讓信息流淌起來不就完了?
這個狂野的想法 , 就是超連接(Hyper-Connections) 。
來自2024年字節Seed發的一篇論文 。
以前 , 信息是一條單線流動的信息流 。
現在 , 他們把這條信息流 , 強行擴容成了四條、八條并行的信息流VIP電梯 。 這就好比以前公司里只有一個信使 , 現在搞了一個8人信使送貨團 , 8個人一起拎著大包小包一起送信 。
這下牛逼壞了 , 信息通量瞬間指數級暴增 , 模型的性能也確實立竿見影 , 蹭蹭往上漲 。
你看 , 電梯多了 , 聰明的智商又占領高地了 , 對吧 。
但是 , 但是又來了 。
就像所有恐怖故事的開頭一樣 , 好景不長 。
這條寬闊的八車道VIP電梯 , 很快就開始鬧鬼了 。
你想啊 , 這個8兄弟 , 他們是人 , 不是機器 。
他們在路上會互相聊天 , 會交流情報 , 人多嘴雜 , 就導致他們不再是單純地傳遞信息 , 這幾個人 , 開始在信息流里自由發揮了 。
于是 , 各種詭異的事情發生了 。
就比如說 , 一樓前臺收到消息說市場部小王今天可能要請假 。
信使A聽了 , 覺得這事兒挺重要 , 告訴了信使B 。
信使B覺得可能這個詞不確定 , 就跟信使C說市場部小王今天要請假 。
信使C一琢磨 , 覺得得強調一下嚴重性 , 就跟信使D說市場部整個組今天都要罷工 。
最后傳到CEO耳朵里 , 就變成了:
市場部全體員工已經卷款跑路了?。。 ?
CEO:????????
一個無關緊要的小信息 , 在多條信道里被反復共振、放大 , 最后釀成了一場災難 。
這就是 , 信號爆炸 。
再比如 , 一份十萬火急的服務器著火了的文件 , 被分成了八份 , 交給八個信使 , 讓每個信使都去送信 。
但是呢 , 每個信使都覺得 , 這么重要的事 , 其他七個人肯定會送到的 , 我不如出去掙個外快先去送個外賣 。
結果 , 誰都沒送 。 公司直接燒成了灰 。
這就是信號消失 。
整個公司的信息系統 , 陷入了一片混亂 。
這就導致 , 模型訓練到12000步的時候 , 突然性能就斷崖式下跌 , 跟跳樓似的 , 比心電圖還心電圖 。
這模型就算廢了 , 直接訓崩了 。
這就是HC技術最大的命門 。
它為了追求信息通量 , 犧牲了信息的保真度和穩定性 。
好了 , 鋪墊了這么久 , DeepSeek的mHC終于要登場了 。
對 , 我們今天的主角 , 是mHC 。
只不過為了讓大家理解 , mHC到底為了解決什么問題 , 所以 , 花了這么大的篇幅 , 給大家講了背景故事 。
mHC , 全稱Manifold-Constrained Hyper-Connections , 流形約束超連接 。
注意這個詞 , 約束 。
DeepSeek他們干了個啥事呢 , 他們沒有開掉那幾個信使 , 也沒有砸掉電梯說勞資要用火箭送用個鬼的電梯 。
他們只是給這個8人送信小隊 , 制定了一套極其嚴格、甚至有點變態的信息傳遞紀律 。
這套紀律的核心 , 在論文里叫雙重隨機矩陣約束 。
咱們還是說人話 , 舉例子 。
你可以理解為 , 他們設立了一個叫做內部審計部 , 由一個究極不近人情的德國老太太領導 , 權力大到嚇人 。
這個審計部咧 , 給每個信使都發了一本小冊子 , 上面印著兩條鐵律 。
第一條鐵律 , 我們稱為信息能量守恒定律: 作為一個信使 , 你從上一站收到的所有信息 , 其信息能量總和為100% 。 那么在你把信息傳遞給下一站的隊友時 , 你傳遞出去的所有信息的信息能量總和 , 也必須不多不少 , 正好是100% 。
回到上面信息爆炸那個案例 。 就比如說 , 信使A收到了小王請假這個信息 , 我們假設它的信息能量是10個單位 。
這時候 , 信使A想添油加醋告訴信使B一個更夸張的版本 。
但審計部的系統會立刻報警 , 因為信使A私自加信息了 , 導致他的輸出能量(比如20個單位)大于了他的輸入能量(10個單位) 。
他這是在無中生有暗度陳倉順手牽羊 , 嚴重違反了信息能量守恒定律 , 結果就會是 , 信使A當場被開除 。
在這套鐵律下 , 信使們依然可以交流 , 但任何放大和夸張的行為 , 都會在數學上被立刻識別并禁止 。
謠言的傳播鏈 , 從根上就被斬斷了 , 信號爆炸的問題 , 就此解決 。
第二條鐵律 , 我們稱為團隊責任綁定定律:對于任何一個需要被送達的信息 , 比如服務器著火這份文件 , 最終抵達目的地的信息能量總和 , 必須不多不少 , 正好等于它出發時的信息能量總和 。
就比如還是剛剛的那個服務器著火的事 。
信使A想:“這么多人呢 , 我不送也沒事吧?” 于是他選擇了摸魚 , 他貢獻的信息能量是0 。
信使B也想:“總有傻子會送的 。 ” 他的貢獻也是0 。。。
如果八個人都這么想 , 那么最終抵達CEO辦公室的 , 關于服務器著火的信息能量總和就是0 。
審計部的系統立刻就會拉響最高級別的警報 , 因為它發現出發時明明是100單位的能量 , 抵達時卻變成了0 。 根據團隊責任綁定定律 , 整個信使團隊都將面臨重罰 。
為了避免這種情況 , 信使們就必須互相補位 。 如果A不干 , B、C、D……就必須分攤他的工作 , 因為最終的那個總和是死命令 , 必須湊夠 。
責任擴散的可能性 , 在數學上就被杜絕了 。
信息 , 必須被送達 。
信號消失的問題 , 也就此解決 。
這兩條鐵律合在一起 , 就是所謂的雙重隨機矩陣約束 。
它沒有禁止信使們交流 , 八車道高速公路依然車水馬龍 , 信息依然可以在其間自由組合 。
但所有的自由 , 都被約束在了一個能量守恒的流形之內 。
這就是mHC的精髓 。
在這約束之下 , 給你自由 。
那最后的終極問題來了 , 這玩意 , 解決了HC的不穩定問題之后 , 到底有什么用?
我先說兩個數字 。
第一個 , 就是這套所謂的審計系統 , 會帶來大概6.7%的額外訓練開銷 。
第二個 , 就是在能力上 , 確實有部分提升 , 相對HC額外多出約2個點 。
看著是不是好像有點投入產出不成正比?這生意聽起來 , 好像有點虧啊 。
但是 , 別被表面騙了 。
在模型訓練里 , 還有一個很核心的詞 , 叫穩定性 。
比如之前HC架構的那個公司 , 會有各種信息爆炸的問題 , 如果我原來的信息能量初始值是1 , 在信息傳遞過程中 , 最高的時候 , 信息能量到CEO辦公室的時候 , 能干到3000 。
你就能想象到 , 有多失真 。
這個恐怖的失真 , 有時候就直接變成了摧毀模型訓練的一場風暴 。
而DeepSeek的mHC 。
在鐵律之下 , 幾乎全部做到了100%保真 , 最高也不過才1.6 。
3000:1.6 。
直接降低了3個數量級 , 對 , 不是3倍 , 是3個 , 數量級 。
這就是mHC , 最牛逼的地方 , 太尼瑪嚇人了 。
而這個穩定性 , 帶來的好處 , 顯而易見 。
它用額外6.7%的開銷成本 , 讓你模型訓練瞬間崩盤的3000倍的系統性風險 , 直接摁死到了可以忽略不計的1.6倍 。
要知道 , 模型訓練 , 太貴了 , 對于一家AI公司來說 , 訓模型每一秒燒掉的錢都是觸目驚心的 。
任何一次過程中訓練的崩盤 , 那損失的 , 就不只是6.7%的額外開銷了 , 那是100%的建造成本 , 所有的一切 , 全特么重頭再來 。
有可能就是數千萬的成本 , 還有好幾周的時間 。
這就是HC系統那個心電圖背后 , 極高的、不可預測的、災難性的失敗風險 。
他確實提高了模型的效率 , 但是這個不穩定性 , 幾乎很難接受 。
現在 , 我們再回來看mHC那6.7%的額外開銷 。
你現在還覺得它貴嗎?
你把他當一份保險看 , 你就覺得 , 一丁點也不貴了 。
僅僅6.7%的額外開銷 , 就能為一項千萬美元級別的投資提供近乎百分之百的安全保障 , 這在任何一個金融模型里 , 都是一筆劃算到笑出聲的買賣 。
而且 , 性能還是更強的 , 這買賣 , 好到離譜好吧 。
穩定、高效、還更強 。
這三者通常是一個不可能三角 , 你只能取其二 。
而mHC , 用一個精巧的數學設計和極致的工程優化 , 把這三者全占了 。
這就是為什么我說 , 這篇論文雖然低調 , 但意義重大 。
DeepSeek 。
真的就是我們這個AI時代的真神 。
每一篇論文 , 都能給行業 , 一些小小的震撼 。
贊美真神 。
以上 , 既然看到這里了 , 如果覺得不錯 , 隨手點個贊、在看、轉發三連吧 , 如果想第一時間收到推送 , 也可以給我個星標?~謝謝你看我的文章 , 我們 , 下次再見 。
/ 作者:卡茲克
【詳細解讀DeepSeek新年的第一篇論文,他們就是這個時代的真神。】/ 投稿或爆料 , 請聯系郵箱:wzglyay@virxact.com

    推薦閱讀