日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

DeepSeek發(fā)布最新論文,破解大模型訓練擁堵難題

DeepSeek發(fā)布最新論文,破解大模型訓練擁堵難題

文章圖片


【DeepSeek發(fā)布最新論文,破解大模型訓練擁堵難題】北京時間2026年1月1日 , DeepSeek團隊在arXiv(預印本)網站和Hugging Face上同步發(fā)布了最新論文 , 名為《mHC: Manifold-Constrained Hyper-Connections》 , 論文的核心觀點是提出一種名為“mHC”(直譯為“流形約束超連接”)的框架 , 該框架改進了此前大模型訓練中一種名為“HC(Hyper-Connections , 超連接)”的范式 , 對大規(guī)模模型訓練提供了切實的性能改進 。
貝殼財經記者注意到 , DeepSeek創(chuàng)始人梁文鋒的名字出現(xiàn)在了這篇論文署名作者的最后一位上 。 事實上 , 雖然DeepSeek在2025年春節(jié)因為R1模型的開源發(fā)布而全球爆火 , 但在梁文鋒的帶領下 , 這家公司極其低調 , 團隊一直潛心學術 , 未做過多的商業(yè)化嘗試 , 一心撲在基礎模型理論研發(fā)之上 , 梁文鋒還在近期入選了《自然》2025年影響科學發(fā)展十大人物 。
梁文鋒的名字出現(xiàn)在論文作者最后一位 。 Hugging Face網站截圖
論文重點講了什么?
破解大模型訓練擁堵難題
貝殼財經記者梳理發(fā)現(xiàn) , DeepSeek團隊本次發(fā)布的論文瞄準了大模型訓練的“地基”——殘差連接范式 , 以及為了升級殘差連接范式提出的HC(超連接)范式 , 是不折不扣的一次基礎理論創(chuàng)新 。
DeepSeek團隊在論文中以嚴謹?shù)臄?shù)學公式解釋了mHC , 若以簡單的語言來類比 , 大致可以理解為 , 殘差連接是AI模型訓練的“生命線”——它像一條單車道高速公路 , 讓數(shù)據(jù)信號可以跳過某些層直接連接 , 從而解決了在此之前神經網絡越大訓練越困難的問題 。
但隨著大模型參數(shù)突破千億 , 這條“單車道”越來越不夠用 , 此時超連接(HC)范式登場 , 其把單車道擴建成多車道 , 從而顯著提升了模型性能 。 但與此同時 , 過多的數(shù)據(jù)信號也導致了“堵車撞車” , 就像多車道中沒裝 “交通信號燈”一樣 , 使模型訓練變得更加不穩(wěn)定 , 容易崩潰 。
此時 , DeepSeek提出了一種新算法 , 給“多車道”增加了一套智能調度系統(tǒng)(即mHC“流行約束”) , 其要求每個路口的車必須全部分流出去 , 每個車道接收的車數(shù)量固定 , 從而大大增加了模型訓練的穩(wěn)定性 。
論文配圖HC與mHC的訓練損失差距 , 其中淡藍色線為HC , 藍色線為mHC 。 論文截圖
最終 , DeepSeek在論文中以直觀的測試展示了mHC方法相對于HC的穩(wěn)定性 。
理論創(chuàng)新
站在何凱明團隊和字節(jié)跳動的肩膀上
值得注意的是 , 本次DeepSeek的論文 , 是站在了AI“大神”何凱明以及字節(jié)跳動的肩膀上 。
這是因為 , 殘差連接正是2015年由何凱明等人在微軟亞洲研究院所提出的 , 何愷明還因此獲得了CVPR 2016最佳論文獎 , 殘差連接之后也成了幾乎所有主流大模型的“標配” 。
直到2024年 , 為了解決殘差連接信號通道不夠“寬闊”的問題 , 字節(jié)跳動旗下團隊提出了HC(超連接)范式 , 但由此也帶來了穩(wěn)定性不夠的問題 。 而DeepSeek正是在前人的基礎上進一步進行了優(yōu)化 。
2026年的第一天 , 在諸多大模型公司聚焦商業(yè)化和變現(xiàn)之際 , DeepSeek此舉進一步證實了自己在基礎模型領域的戰(zhàn)略定力 。
在本次發(fā)布論文的文末 , DeepSeek團隊寫道 , “我們希望mHC能重振社區(qū)對宏觀架構設計的興趣 。 通過加深對拓撲結構如何影響優(yōu)化和表示學習的理解 , mHC將有助于解決當前的限制 , 并有可能為下一代基礎架構的發(fā)展指明新途徑 。 ”
新京報貝殼財經記者 羅亦丹
編輯 岳彩周
校對 柳寶慶

    推薦閱讀