GPT-5之后,奧特曼向左,梁文鋒向右

GPT-5之后,奧特曼向左,梁文鋒向右

文章圖片

GPT-5之后,奧特曼向左,梁文鋒向右

文章圖片

"multi_version":false
GPT-5正式發布 , 雖然在測試集上登頂 , 但用戶反饋卻褒貶不一 , 不少用戶希望能保留GPT-4o 。 OpenAI希望通過增加模型路由功能 , 來達到以不同模型 , 不同算力成本滿足不同用戶需求的目標 。
就目前的體驗來看 , OpenAI想要的“統一模型”的努力還任重道遠 。 而GPT-5沒有出現模型能力的顯著突破和技術范式的更新 , OpenAI做的更多是產品化創新——GPT-5是一個幻覺更少 , 更易用 , 能幫用戶解決更多具體問題的模型 , 但是沒有新能力 , 也沒有徹底解決大模型的某個結構性缺陷 。
而近日 , 有外媒報道DeepSeek正在用國產芯片訓練最新的模型 , 但是新模型的發布日期依然不定 。
GPT-5的發布似乎表明 , 大模型能力上限疑似撞墻 。 在這堵“Transformer能力邊界之墻”面前 , OpenAI選擇了將現有能力產品化到極致 , 將“超級APP”的敘事進行到底 。 而DeepSeek在追求模型上限的競爭壓力變緩時 , 正在開啟“自給自足”的支線任務 。
一心要用AGI將人類社會帶入“極度富足”狀態的OpenAI在做超級APP的路上漸行漸遠 , 營收和估值一路飆升;而希望探索AI能力上限 , 搭建開源生態推進技術普惠的DeepSeek , 需要解的可能是不同的題目 。
也許多年后 , 當人們回顧大模型行業發展的時間線時會發現 , 多條線路相交于DeepSeek R1和GPT-4o發布 , 分化于GPT-5之后 。
01
性能霸榜卻未達預期的GPT-5 , 加速產品化
市場期待的是一次范式轉移 , 一次足以重新定義人機交互的時刻 。 但最終的結果 , 更像是一次常規的升級 。 它的模型參數更多 , 訓練數據更廣 , 在一些基準測試中得分更高 , 但它在核心的智能層面 , 并未展現出革命性的進步 。 紐約大學名譽教授加里·馬庫斯曾用三個詞來概括GPT-5的表現:“姍姍來遲、過度炒作、平庸無奇” 。
他的分析指出 , GPT-5未能根除大型語言模型固有的缺陷 。 它仍然會在某些時候編造事實 , 即所謂的“幻覺”問題 。 在面對需要多步邏輯推理的任務時 , 它仍然會犯錯 。 在提供現實世界的理解的多模態性能上 , 也沒有什么質的提升 。
這些問題在GPT-4時代就存在 , 業界曾希望GPT-5能提供解決方案 , 但現實是OpenAI選擇了對現有框架進行修補和優化 。 然后在此能力基礎之上提供一個產品化更好 , 更加易用的模型工具 。

如果說核心智能的停滯是技術專家和深度用戶的感受 , 那么其在多模態能力上有限的進步 , 則讓技術愛好者感到失望 。 在GPT-5發布之前 , 一個普遍的共識是 , 下一代人工智能的決勝場將是多模態 。 人們想象中的GPT-5應該能像人類一樣 , 無縫地接收、理解和融合處理來自文本、圖像、音頻、視頻等多種渠道的信息 。 然而 , 現實中的GPT-5在多模態交互上的表現 , 更像是一個經過優化的GPT-4V 。 它能精準地完成描述性任務 , 比如識別照片中的物體 , 但一旦任務轉向理解 , 它的能力邊界就顯現出來 。
作為將Transformer算法能力和語言最早進行結合 , 用ChatGPT開創了大模型時代 , 又將強化學習有機地融入大模型的訓練過程中 , 捅破了大模型推理能力天花板的OpenAI , 一直以來都是業界的標桿 。 但是GPT-5發布之后 , 除去性能上的“未達預期”之外 , 獲得獲得外界關注的特性似乎都是產品級別的變化 。
OpenAI希望通過“模型路由”功能來讓用戶避免在眾多模型中進行選擇 , 降低新用戶的使用門檻 , 同時也能合理化算力分配 , 使得OpenAI能夠在有限的算力資源下為更多的用戶提供更加高質量的服務 。
按照OpenAI的說法 , 雖然GPT-5大幅降低了模型的幻覺 , 但是對于一些基礎的數理問題和對現實世界的理解上 , 表現難以說得上令人滿意 , 依然會出現很多明顯的錯誤 。 相反 , 可能由于訓練數據中用了更多的生產力相關內容 , 在情商上還有很大的退步 , 引得普通聊天用戶用取關來威脅GPT-4o的“返場” 。
GPT-5表現出OpenAI在大模型能力突破的“躺平” , 幾乎間接宣布了“大模型能力墻”已經到來 , 或者至少是大模型技術突破暫時進入了平緩期 。 未來模型能力能否重新回到“GPT-3到GPT-4o”這樣的“蒙眼狂奔”的快車道 , 依賴于研究人員在底層技術上的突破和創新 。
OpenAI前首席科學家Ilya曾經在2023年底的“Why next-token prediction is enough for AGI”訪談中對于AI技術發展趨勢的總結似乎某種程度上預言了這一刻的到來 。

“不同的研究人員和項目會在一個時間段內有不同的方向 , 然后當人們發現了一個技術有效之后 , 研究會向那個方向快速收斂 , 之后可能又會回歸到之前百花爭鳴的狀態”
02
梁文鋒能否抓住時機 , 完成國產大模型的“自給自足”
如果Transformer技術墻真的已經到來 , 我們對DeepSeek還能有什么合理的期待?縱觀DeepSeek的產品發布歷史 , 每一個重量級的發布 , 都在它自己的時間線上解決了大模型技術上某個重要問題 。
2024年5月的DeepSeek-V2系列則革命性地處理了長上下文處理的效率問題 , 首創多頭潛注意力(MLA)機制 , 支持高達128K token的處理 , 同時以極低的API定價(每百萬token 2元人民幣)引發了中國AI巨頭的價格戰 , 顯著提升了大模型的可負擔性和實際部署潛力 。
2024年12月的DeepSeek-V3以671B參數的MoE架構登場 , 針對推理速度的痛點實現了每秒60token的3倍加速 , 性能達到GPT-4o的同時保持資源高效 , 以一己之力幾乎拉平了開源模型和閉源模型性能上的差距 。
2025年1月的DeepSeek-R1專注于推理能力的提升 , 在AIME和MATH任務上匹敵或超越OpenAI的o1模型 , 成本遠遠低于當時的所有模型 , 通過App登頂美國App Store , 解決了高端AI的訪問壁壘問題 , 加速了開源AI的全球普及與民主化 。
而在V3和R1讓DeepSeek徹底出圈之后 , 它似乎也從一家發源于量化 , 成名于大模型 , 變成了一家肩負起了更多使命的科技公司 。
根據外媒報道 ,  DeepSeek目前正在將最先進大模型的訓練轉移到國產芯片之上 。 大模型的國產化之路 , 遠比普通人想象的要困難 。 但是在不穩定的地緣政治等各種因素的影響之下 , 如果沒有辦法擺脫對英偉達GPU的依賴 , 所有中國AI公司的頭上 , 永遠懸掛著一把達摩克里斯之劍 。
而此時OpenAI發布的GPT-5 , 暗示了以Transformer為核心的大模型技術 , 發展曲線暫時變緩 。 這給了包括DeepSeek在內的所有科技公司一個信號——可以在不斷穩定提升模型性能的主線任務之外 , 放心地點開其他支線了 。
而要實現前沿性能大模型從訓練到推理的國產化 , 即便對于一家已經將大模型研發從“原子彈變成茶葉蛋”的頂尖AI公司來說 , 難度不亞于再研發一種全新的原子彈 。 這個過程中需要解決的技術問題 , 可能比訓練DeepSeek之前發布的所有模型需要攻克的難題加起來還要多得多 。
首先是國產GPU本身性能和英偉達的GPU的單卡性能相比依然還有接近代際的差距 。 即便是國產GPU已經能通過更密集的互聯技術將單卡的性能差距盡力彌補 。 但是要和硅谷大模型采用的英偉達“10萬卡集群”競爭 , 采用國產GPU訓練性能最頂尖的模型 , 需要面對難以想象的工程難題 。

大模型研發離不開像PyTorch或TensorFlow這樣的開源框架 , 這些框架原本是為國際主流硬件優化的 。 如果DeepSeek要國產化 , 就得把整個軟件棧遷移到本土硬件上 , 這意味著要重寫或修改大量的代碼來兼容本土的計算架構 。 和發展了多年的成熟主流開源框架和CUDA生態相比 , 重構的國產軟件棧要在性能和穩定性上接近已經發展近10年的主流解決方案 , 難度也相當大 。
但如果DeepSeek能和國產硬件廠商持續密切配合 , 像DeepSeek將大模型的研發一樣 , 從零開始一步步行至行業最前沿 , 才有希望徹底解下頭頂那柄達摩克里斯之劍 。
在持續改進大模型訓練和推理效率這個方向上 , DeepSeek也依然在持續探索 , 取得了令人矚目的成績 。
今年7月底 , 由DeepSeek團隊和北京大學等機構發表 , 梁文鋒作為通訊作者的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》獲得ACL 2025最佳論文獎 。

https://arxiv.org/abs/2502.11089
這篇論文首次將稀疏注意力從理論推理帶進了完整訓練流程 , 在保持模型性能 , 提高訓練效率的同時 , 還帶來了高達 11 倍的推理加速 。 在自然語言處理頂會ACL上獲得最佳論文獎 , 足以說明業界對于這項技術含金量的認可 。
愿意將這樣在商業競爭中起到關鍵作用的創新公開 , 也體現了DeepSeek不斷推進大模型技術普惠的決心和能力 。
【GPT-5之后,奧特曼向左,梁文鋒向右】讓我們拭目以待 , 融合了更多像“原生稀疏注意力”這樣的DeepSeek新模型將會在能力和效率上帶給業界多大驚喜 , 又能將大模型研發的國產化程度 , 推動到哪里 。

    推薦閱讀