DeepSeek發(fā)布最新論文，破解大模型訓練擁堵難題_梁文鋒|字節(jié)跳動|網絡安全

文章圖片

【DeepSeek發(fā)布最新論文，破解大模型訓練擁堵難題】北京時間2026年1月1日， DeepSeek團隊在arXiv（預印本）網站和Hugging Face上同步發(fā)布了最新論文，名為《mHC: Manifold-Constrained Hyper-Connections》，論文的核心觀點是提出一種名為“mHC”（直譯為“流形約束超連接”）的框架，該框架改進了此前大模型訓練中一種名為“HC（Hyper-Connections ，超連接）”的范式，對大規(guī)模模型訓練提供了切實的性能改進。
貝殼財經記者注意到， DeepSeek創(chuàng)始人梁文鋒的名字出現(xiàn)在了這篇論文署名作者的最后一位上。事實上，雖然DeepSeek在2025年春節(jié)因為R1模型的開源發(fā)布而全球爆火，但在梁文鋒的帶領下，這家公司極其低調，團隊一直潛心學術，未做過多的商業(yè)化嘗試，一心撲在基礎模型理論研發(fā)之上，梁文鋒還在近期入選了《自然》2025年影響科學發(fā)展十大人物。
梁文鋒的名字出現(xiàn)在論文作者最后一位。 Hugging Face網站截圖
論文重點講了什么？
破解大模型訓練擁堵難題
貝殼財經記者梳理發(fā)現(xiàn) ， DeepSeek團隊本次發(fā)布的論文瞄準了大模型訓練的“地基”——殘差連接范式，以及為了升級殘差連接范式提出的HC（超連接）范式，是不折不扣的一次基礎理論創(chuàng)新。
DeepSeek團隊在論文中以嚴謹?shù)臄?shù)學公式解釋了mHC ，若以簡單的語言來類比，大致可以理解為，殘差連接是AI模型訓練的“生命線”——它像一條單車道高速公路，讓數(shù)據(jù)信號可以跳過某些層直接連接，從而解決了在此之前神經網絡越大訓練越困難的問題。
但隨著大模型參數(shù)突破千億，這條“單車道”越來越不夠用，此時超連接（HC）范式登場，其把單車道擴建成多車道，從而顯著提升了模型性能。但與此同時，過多的數(shù)據(jù)信號也導致了“堵車撞車” ，就像多車道中沒裝 “交通信號燈”一樣，使模型訓練變得更加不穩(wěn)定，容易崩潰。
此時， DeepSeek提出了一種新算法，給“多車道”增加了一套智能調度系統(tǒng)（即mHC“流行約束”），其要求每個路口的車必須全部分流出去，每個車道接收的車數(shù)量固定，從而大大增加了模型訓練的穩(wěn)定性。
論文配圖HC與mHC的訓練損失差距，其中淡藍色線為HC ，藍色線為mHC 。論文截圖
最終， DeepSeek在論文中以直觀的測試展示了mHC方法相對于HC的穩(wěn)定性。
理論創(chuàng)新
站在何凱明團隊和字節(jié)跳動的肩膀上
值得注意的是，本次DeepSeek的論文，是站在了AI“大神”何凱明以及字節(jié)跳動的肩膀上。
這是因為，殘差連接正是2015年由何凱明等人在微軟亞洲研究院所提出的，何愷明還因此獲得了CVPR 2016最佳論文獎，殘差連接之后也成了幾乎所有主流大模型的“標配” 。
直到2024年，為了解決殘差連接信號通道不夠“寬闊”的問題，字節(jié)跳動旗下團隊提出了HC（超連接）范式，但由此也帶來了穩(wěn)定性不夠的問題。而DeepSeek正是在前人的基礎上進一步進行了優(yōu)化。
2026年的第一天，在諸多大模型公司聚焦商業(yè)化和變現(xiàn)之際， DeepSeek此舉進一步證實了自己在基礎模型領域的戰(zhàn)略定力。
在本次發(fā)布論文的文末， DeepSeek團隊寫道， “我們希望mHC能重振社區(qū)對宏觀架構設計的興趣。通過加深對拓撲結構如何影響優(yōu)化和表示學習的理解， mHC將有助于解決當前的限制，并有可能為下一代基礎架構的發(fā)展指明新途徑。 ”
新京報貝殼財經記者羅亦丹
編輯岳彩周
校對柳寶慶

DeepSeek發(fā)布最新論文，破解大模型訓練擁堵難題

推薦閱讀

瓜田李下是什么意思瓜田李下是什么意思解釋

破壁機打不熟豆?jié){怎么回事-破壁機打豆?jié){沒熟怎么辦

心理健康手抄報內容心理健康手抄報小學生

水燒開了但是涼了還可以喝嗎

刷6.43出現(xiàn)錯誤信息解決辦法

地線有電怎么回事

高中+中職 2022武漢中考錄取資格線

門過梁拆除后如何加固

一眼看穿：十招教您防范網絡欺詐

描寫兔子的作文三年級【通用8篇】

vivo10手機，vivo 10手機有多大

三國殺現(xiàn)在銅幣什么時候不能換銀兩了,《三國殺十周年》資料片

我來分享vivox60人像構圖怎樣開啟

紅日東升指什么動物

格林豪泰高鐵南站，杭州高鐵站到南山路146號一1格林豪泰酒店

6s和se的區(qū)別哪個好,買哪個比較好