詳細解讀DeepSeek新年的第一篇論文，他們就是這個時代的真神。_量子計算機

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

2026年新年第一天， DeepSeek又開卷了。
發了他們新年的第一篇論文。
《 mHC: Manifold-Constrained Hyper-Connections 》
感覺是DeepSeek-V4的鋪墊，當然一些小道消息，不保真，我也不懂，我只是拍腦袋預測一下，有問題別找我。
就是V4 ，大概在1月中下旬或者1月底，然后呢，有多模態輸入，沒有多模態輸出。
就醬，回到論文。
這篇論文我是說實話，有點過于硬核了。
但同時，傳遞出來的信息量和對AI界的改變，又是巨大的。
在給自己放了一天假，然后啃了一天以后（這玩意比我想象的難啃多了。。。）我還是想，用最通俗易懂最有意思的方式，來跟你聊聊，這篇論文的有趣之處，以及，是如何對現在的生態進行一些新的輸入的。
當然也給我自己疊個甲，我不是算法出身，我只是讀完以后覺得很棒想分享給大家看，我對這篇論文的理解和亂七八糟的各種名詞解釋，都是我自己民科瞎JB自學的，部分措辭也有為了能讓大家更好理解而做的部分簡化，如果有我理解的錯誤或者事實性錯誤的地方，歡迎大佬們在評論區指正討論，感謝。
話不多說，我們，正是開始。
在最開始之前，我想先問大家一個問題，就是大家認為，一個要處理圖片、聲音、文字這么多亂七八糟信息的新模型，它最需要的是什么？
是一塊更強的GPU嗎？是一個更大的內存嗎？
而DeepSeek這篇文章，給出的答案，其實，是一個極其穩定、高效的、模型內部的信息流轉系統。
要理解這個玩意，我們先得穿越回去，穿越回2015年，也就是十年前，從一個男人和一個偉大的想法說起。
這個故事，要從盤古開天，啊不，要從何愷明蓋樓開始聊。
對，何愷明蓋樓。
我們都知道，大模型是神經網絡對吧，現在，你可以把一個神經網絡，當成一家開在101大廈里的超級公司。
數據，就像一份客戶需求，從一樓的前臺進去，然后呢，先交給銷售部分析，在傳給二樓的市場部包裝一些，接著送到三樓的產品部進行需求評審。。。
客戶的需求，也就是數據，就這樣坐著樓梯，一層一層往上爬，每一層都對這份信息做一點點加工和提煉。
最后，這份被層層解讀過的報告，會送到頂樓的CEO辦公室，由CEO拍板，給出最終決策，比如“沒問題咱就這么干！” 。
理論上，公司的樓層越多，部門分工越細，那這家公司專業度就越高，也越牛逼，處理復雜問題的能力就越強，對吧。
但在2015年，全世界的AI大佬們，都碰到了一個鬼故事，就是，這棟樓，它特娘的蓋不高啊。
最多蓋到二三十層，就到頭了。
再往上蓋，整個公司就直接罷工了。
因為信息在傳遞過程中會失真。
不知道你們有沒有玩過類似于王牌對王牌里面那種傳聲筒游戲。
就是第一個人接到信息以后，在有限時間內，往后傳，最后一個人復述出來，看看還能復述多少字。
這個游戲巨搞笑，因為最后一個人說出來的跟第一個人往往風牛馬不相及。
在這個101大廈的公司里，也是一樣的。
就比如一樓銷售部明明說的是“老板想喝咖啡” ，傳到十樓就變成了“老板喜歡吃咖啡壺” ，傳到二十樓成了“老板去中國有嘻哈上唱了首咖啡壺我的Baby” ，等傳到三十樓CEO耳朵里，可能已經變成了“老板覺得自己是只屌炸天的咖啡壺” 。
這就完蛋了。
CEO根據這個離譜的信息做出的決策，肯定是災難性的。
在AI里，這個現象有個高大上的名字，叫梯度消失。
說人話就是，信號在深層網絡里傳來傳去，衰減得一干二凈，腦子直接短路了，這破活干不了一點了。
然后呢，就在整個AI界都對著這現象一籌莫展的時候，當時還在微軟的何愷明，就站了出來。
他做了一個看似簡單，卻直接改變世界的決定。
他在大樓里，修了一部VIP直達電梯。
這部電梯，從一樓前臺，可以直達任何一個樓層，包括頂樓的CEO辦公室。
于是，流程變成了這樣。
客戶需求文件進來后，依然需要一層一層地坐樓梯往上爬，接受各個部門的加工，但與此同時，前臺會把這份文件的原件復印件，放進這部VIP電梯，直接嗖地一下，送到CEO的辦公桌上。
這樣一來， CEO在看下面部門交上來的那份可能已經被傳得面目全非的報告時，他可以隨時拿起旁邊那份原件復印件來對比一下。
“哦，底下人說老板是咖啡壺，但原件說的是老板想喝咖啡，那肯定是底下人傳話傳錯了” 。
信息，就這樣被保真了。
這部天才的電梯，就是殘差連接（Residual Connection）。
它像一根定海神針，貫穿了整棟大樓，讓最原始的信息可以在不同樓層間無損穿梭，時刻校準著整個公司的前進方向。
可雖然這部電梯很偉大，但它也有一個致命的毛病。
就是，它太TM窄了，它是一部只能容納一個人的小電梯，一次只能送一份文件。
時間快進到今天， AI公司已經不是當年那個只處理文字需求的小作坊了。
它成了一個要處理圖片、視頻、音頻、代碼的超級巨無霸。
CEO每天要處理的信息，從一份文件，變成了一卡車的資料。
只靠一部小小的VIP電梯來回送復印件，運力嚴重不足。
這條曾經的VIP電梯，現在成了全公司最堵的羊腸小道。
咋辦呢。
于是，一群更激進更年輕的大佬，一拍桌子說，靠，一部電梯不夠，咱們把整面墻都砸了，修一個電梯井吧，把一條單行道，直接拓寬成雙向八車道，讓信息流淌起來不就完了？
這個狂野的想法，就是超連接（Hyper-Connections）。
來自2024年字節Seed發的一篇論文。
以前，信息是一條單線流動的信息流。
現在，他們把這條信息流，強行擴容成了四條、八條并行的信息流VIP電梯。這就好比以前公司里只有一個信使，現在搞了一個8人信使送貨團， 8個人一起拎著大包小包一起送信。
這下牛逼壞了，信息通量瞬間指數級暴增，模型的性能也確實立竿見影，蹭蹭往上漲。
你看，電梯多了，聰明的智商又占領高地了，對吧。
但是，但是又來了。
就像所有恐怖故事的開頭一樣，好景不長。
這條寬闊的八車道VIP電梯，很快就開始鬧鬼了。
你想啊，這個8兄弟，他們是人，不是機器。
他們在路上會互相聊天，會交流情報，人多嘴雜，就導致他們不再是單純地傳遞信息，這幾個人，開始在信息流里自由發揮了。
于是，各種詭異的事情發生了。
就比如說，一樓前臺收到消息說市場部小王今天可能要請假。
信使A聽了，覺得這事兒挺重要，告訴了信使B 。
信使B覺得可能這個詞不確定，就跟信使C說市場部小王今天要請假。
信使C一琢磨，覺得得強調一下嚴重性，就跟信使D說市場部整個組今天都要罷工。
最后傳到CEO耳朵里，就變成了：
市場部全體員工已經卷款跑路了?。。 ?
CEO：？？？？？？？？
一個無關緊要的小信息，在多條信道里被反復共振、放大，最后釀成了一場災難。
這就是，信號爆炸。
再比如，一份十萬火急的服務器著火了的文件，被分成了八份，交給八個信使，讓每個信使都去送信。
但是呢，每個信使都覺得，這么重要的事，其他七個人肯定會送到的，我不如出去掙個外快先去送個外賣。
結果，誰都沒送。公司直接燒成了灰。
這就是信號消失。
整個公司的信息系統，陷入了一片混亂。
這就導致，模型訓練到12000步的時候，突然性能就斷崖式下跌，跟跳樓似的，比心電圖還心電圖。
這模型就算廢了，直接訓崩了。
這就是HC技術最大的命門。
它為了追求信息通量，犧牲了信息的保真度和穩定性。
好了，鋪墊了這么久， DeepSeek的mHC終于要登場了。
對，我們今天的主角，是mHC 。
只不過為了讓大家理解， mHC到底為了解決什么問題，所以，花了這么大的篇幅，給大家講了背景故事。
mHC ，全稱Manifold-Constrained Hyper-Connections ，流形約束超連接。
注意這個詞，約束。
DeepSeek他們干了個啥事呢，他們沒有開掉那幾個信使，也沒有砸掉電梯說勞資要用火箭送用個鬼的電梯。
他們只是給這個8人送信小隊，制定了一套極其嚴格、甚至有點變態的信息傳遞紀律。
這套紀律的核心，在論文里叫雙重隨機矩陣約束。
咱們還是說人話，舉例子。
你可以理解為，他們設立了一個叫做內部審計部，由一個究極不近人情的德國老太太領導，權力大到嚇人。
這個審計部咧，給每個信使都發了一本小冊子，上面印著兩條鐵律。
第一條鐵律，我們稱為信息能量守恒定律：作為一個信使，你從上一站收到的所有信息，其信息能量總和為100% 。那么在你把信息傳遞給下一站的隊友時，你傳遞出去的所有信息的信息能量總和，也必須不多不少，正好是100% 。
回到上面信息爆炸那個案例。就比如說，信使A收到了小王請假這個信息，我們假設它的信息能量是10個單位。
這時候，信使A想添油加醋告訴信使B一個更夸張的版本。
但審計部的系統會立刻報警，因為信使A私自加信息了，導致他的輸出能量（比如20個單位）大于了他的輸入能量（10個單位）。
他這是在無中生有暗度陳倉順手牽羊，嚴重違反了信息能量守恒定律，結果就會是，信使A當場被開除。
在這套鐵律下，信使們依然可以交流，但任何放大和夸張的行為，都會在數學上被立刻識別并禁止。
謠言的傳播鏈，從根上就被斬斷了，信號爆炸的問題，就此解決。
第二條鐵律，我們稱為團隊責任綁定定律：對于任何一個需要被送達的信息，比如服務器著火這份文件，最終抵達目的地的信息能量總和，必須不多不少，正好等于它出發時的信息能量總和。
就比如還是剛剛的那個服務器著火的事。
信使A想：“這么多人呢，我不送也沒事吧？” 于是他選擇了摸魚，他貢獻的信息能量是0 。
信使B也想：“總有傻子會送的。 ” 他的貢獻也是0 。。。
如果八個人都這么想，那么最終抵達CEO辦公室的，關于服務器著火的信息能量總和就是0 。
審計部的系統立刻就會拉響最高級別的警報，因為它發現出發時明明是100單位的能量，抵達時卻變成了0 。根據團隊責任綁定定律，整個信使團隊都將面臨重罰。
為了避免這種情況，信使們就必須互相補位。如果A不干， B、C、D……就必須分攤他的工作，因為最終的那個總和是死命令，必須湊夠。
責任擴散的可能性，在數學上就被杜絕了。
信息，必須被送達。
信號消失的問題，也就此解決。
這兩條鐵律合在一起，就是所謂的雙重隨機矩陣約束。
它沒有禁止信使們交流，八車道高速公路依然車水馬龍，信息依然可以在其間自由組合。
但所有的自由，都被約束在了一個能量守恒的流形之內。
這就是mHC的精髓。
在這約束之下，給你自由。
那最后的終極問題來了，這玩意，解決了HC的不穩定問題之后，到底有什么用？
我先說兩個數字。
第一個，就是這套所謂的審計系統，會帶來大概6.7%的額外訓練開銷。
第二個，就是在能力上，確實有部分提升，相對HC額外多出約2個點。
看著是不是好像有點投入產出不成正比？這生意聽起來，好像有點虧啊。
但是，別被表面騙了。
在模型訓練里，還有一個很核心的詞，叫穩定性。
比如之前HC架構的那個公司，會有各種信息爆炸的問題，如果我原來的信息能量初始值是1 ，在信息傳遞過程中，最高的時候，信息能量到CEO辦公室的時候，能干到3000 。
你就能想象到，有多失真。
這個恐怖的失真，有時候就直接變成了摧毀模型訓練的一場風暴。
而DeepSeek的mHC 。
在鐵律之下，幾乎全部做到了100%保真，最高也不過才1.6 。
3000:1.6 。
直接降低了3個數量級，對，不是3倍，是3個，數量級。
這就是mHC ，最牛逼的地方，太尼瑪嚇人了。
而這個穩定性，帶來的好處，顯而易見。
它用額外6.7%的開銷成本，讓你模型訓練瞬間崩盤的3000倍的系統性風險，直接摁死到了可以忽略不計的1.6倍。
要知道，模型訓練，太貴了，對于一家AI公司來說，訓模型每一秒燒掉的錢都是觸目驚心的。
任何一次過程中訓練的崩盤，那損失的，就不只是6.7%的額外開銷了，那是100%的建造成本，所有的一切，全特么重頭再來。
有可能就是數千萬的成本，還有好幾周的時間。
這就是HC系統那個心電圖背后，極高的、不可預測的、災難性的失敗風險。
他確實提高了模型的效率，但是這個不穩定性，幾乎很難接受。
現在，我們再回來看mHC那6.7%的額外開銷。
你現在還覺得它貴嗎？
你把他當一份保險看，你就覺得，一丁點也不貴了。
僅僅6.7%的額外開銷，就能為一項千萬美元級別的投資提供近乎百分之百的安全保障，這在任何一個金融模型里，都是一筆劃算到笑出聲的買賣。
而且，性能還是更強的，這買賣，好到離譜好吧。
穩定、高效、還更強。
這三者通常是一個不可能三角，你只能取其二。
而mHC ，用一個精巧的數學設計和極致的工程優化，把這三者全占了。
這就是為什么我說，這篇論文雖然低調，但意義重大。
DeepSeek 。
真的就是我們這個AI時代的真神。
每一篇論文，都能給行業，一些小小的震撼。
贊美真神。
以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉發三連吧，如果想第一時間收到推送，也可以給我個星標?～謝謝你看我的文章，我們，下次再見。
/ 作者：卡茲克
【詳細解讀DeepSeek新年的第一篇論文，他們就是這個時代的真神。】/ 投稿或爆料，請聯系郵箱：wzglyay@virxact.com

詳細解讀DeepSeek新年的第一篇論文，他們就是這個時代的真神。

推薦閱讀

小狗名字大全可愛女狗

怎么去除霉味

100種仙女燙發型,最近很火的仙女燙發

無論和什么是關聯詞語

工行信用卡能綁定微信嗎

上飛機雙肩包尺寸規定上飛機雙肩包尺寸規定是什么

關于同心共抗疫手抄報關于同心共抗疫畫報

馬的組詞馬怎么組詞

進氣門積碳什么情況?

武庚紀小說大結局十刑還活著嗎

為什么英國的駕駛座在右邊

日月天地房價為什么便宜，為什么樓盤最低價比均價低了1000多

消防香爐應該使用什么制作

闌姐與高廠長好是哪一集

電鰻為什么能電暈鱷魚,自己卻不會電暈

武裝風暴游戲為什么不能玩了,四川易學文化網