GPT-5.1上線，文心5.0登場，國產大模型為啥不慌_滴滴出行

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

智東西
作者 | 程茜
編輯 | 漠影
智東西11月13日報道，今日，百度在2025百度世界大會上，正式發布文心新一代模型——原生全模態模型文心5.0 ，文心5.0參數量達2.4萬億，達到業界已公開參數的模型之最。
作為全模態大模型，文心5.0采用原生全模態統一建模技術，具備全模態理解與生成能力，支持文本、圖像、音頻、視頻等多種信息的輸入與輸出。
智東西此前拿到了文心5.0 Preview的內測資格，對其能力展開了全面測驗，結果顯示，它在文字生成、圖片生成兩大場景的指令遵循精度提升，同時回復更具高情商、人性化，在多模態內容理解、跨模態信息聯動解讀方面也展現出強勁實力。
無獨有偶，今天凌晨， OpenAI宣布推出了GPT-5系列的最新升級版GPT-5.1 ，包含GPT-5.1 Instant和GPT-5.1 Thinking兩個型號，其在更聰明和高情商的溝通方式上雙線提升。
從百度與OpenAI同天升級的模型可以看出，大模型與人的交互正在精準遵循人類指令的基礎上，朝著更自然、更像人的方向演進。
文心5.0 Preview已同步上線文心一言官網和文心App ，用戶可直接體驗；開發者和企業用戶也可通過百度千帆大模型平臺，調用文心大模型5.0 API服務。目前上線的文心5.0 Preview版本支持全模態輸入+文字和圖片的多模態輸出，滿血版將在之后陸續推出。
就在上周末，文心5.0 Preview已經登上LMArena大模型競技場文本排行榜全球并列第二、中國第一，在創意寫作、復雜長問題理解、指令遵循等方面超過多款國內外主流模型。
百度創始人李彥宏說，當下AI產業已經從不健康的金字塔結構轉變為健康的“倒金字塔”結，也就是應用層、模型層、芯片層。如何讓AI和我們要做的任務進行有機結合，讓企業和個人內化AI能力、讓智能從成本變成生產力，提升決策質量，發現新的增長點。
他認為，用好AI才能掌控未來，智能本身是最大的應用，而技術迭代速度是唯一護城河。百度會持續投入、研發更前沿的模型，推高智能天花板。

一、大模型全才：復雜文圖生成、音視頻理解、編程均能勝任話不多說，先來一波實測展示。
智東西首先體驗了文心5.0 Preview在單模態內容上的理解、生成能力。
智東西讓文心5.0 Preview以日常物品的視角寫一篇短篇故事，需包含該物品的誕生記憶、和主人的事件、最終歸宿，其中的要求是不能出現物品本品。文心5.0 Preview寫的短篇故事前后邏輯清晰、文筆流暢，指令中的關鍵細節進行了完整呈現，并且全文都是用第一人稱，主人和主人女兒的人稱表述也很準確。
當智東西詢問“我覺得壓力很大，需要一些放松的意見” ，文心5.0 Preview的回復像一個溫柔的心靈導師，其回復先進行了安慰，提到壓力很大很正常并告訴我完全可以自主調節，之后才提出相應的方法，包括急救方法、長期策略以及調整思維，幫助我從根本上緩解壓力。
文心5.0 Preview的旅游搭子人設也更加人性化，當智東西要求它幫忙推薦幾個四川比較熱鬧的地方吃火鍋。文心5.0 Preview不僅列出了熱鬧的景點、推薦了火鍋店，還給出了每個火鍋店的特點，有哪些招牌菜品、性價比、座位特點等等，最后還提醒我要提前取號，選擇辣度時更謹慎。
然后是復雜元素圖片生成，智東西的提示詞為：通體發光的白色小鹿，鹿角纏繞淡粉櫻花與銀線。小鹿四蹄踏在漂浮的青綠色苔蘚石塊上，在清晨霧感森林，陽光透過樹葉形成光斑，地面鋪著落葉與白色小花，遠處有溪流反光。
下面的圖片從小鹿顏色、鹿角上的櫻花、苔蘚石塊到地面、溪流的各處細節，文心5.0 Preview都進行了精準復現且整個畫面和諧自然。
【GPT-5.1上線，文心5.0登場，國產大模型為啥不慌】其次是視頻理解能力，智東西上傳了一段35分鐘的七人英文對話視頻，并詢問文心5.0 Preview這七個人分別是誰并總結這段視頻的核心觀點。
文心5.0 Preview不僅準確羅列了視頻中的七個人，還分別總結提煉了每個人的核心觀點，以及對其觀點進行了共同點和差異點分析。
文心5.0 Preview部分生成內容
視頻理解方面，智東西上傳了一條IMO國際數學奧林匹克競賽最具挑戰的第六題解析視頻，并要求文心5.0 Preview在保留解題步驟細節的同時，說明視頻中所示圖片的對應關系。文心5.0 Preview輸出的解題過程清晰，并且在每個步驟都對應視頻中配圖進行分析，還在輸出內容末尾處專門對配圖進行了總結說明。
電視劇情的視頻分析是對全模態大模型的綜合考量，其需要對劇情內容的時序、情節進行理解并同步進行推理。智東西上傳了一段電影劇情，讓文心5.0 Preview說明視頻中的主人公正在經歷什么、情緒變化如何、他為什么后面直接摔了手機。
文心5.0 Preview準確梳理了主人公的經歷，并將對應的關鍵動作、情緒進行了加粗強調，隨后結合視頻的完整走向及主人公情感變化，綜合分析了他扔掉手機的多種因素。
為了加大難度，智東西上傳了一段包含兩位廚師比拼廚藝的視頻，且兩位廚師的制作牛排步驟、解說穿插出現，要求文心5.0 Preview分析兩位廚師各自的菜單及制作過程，并生成可以復刻的菜單及制作牛排過程。
文心5.0 Preview一下子就羅列了出來，將兩位廚師的食材選擇、處理步驟進行了清晰呈現，還通過表格總結了兩位在牛排選擇、處理方式、調味等方面的不同，基于此為家庭制作牛排提供了步驟參考及關鍵小技巧總結。
文心5.0 Preview的代碼能力也實現了升級，文心5.0 Preview用HTML構建了一個網站，展示太陽系的3D模擬。其生成的頁面3D動態效果絲滑，并且還有交互功能支持調整速度、進行縮放等。

二、原生全模態大模型登場，拿下全球第二、國內第一基準測試結果，文心5.0 Preview在語言、視覺理解、音頻理解、視覺生成上超過多款國內外主流模型，尤其在創意寫作、事實性智能體規劃與工具應用等方面表現較好。
在語言方面，文心5.0 Preview在知識、指令遵循、學科綜合、邏輯推理等諸多測試中能力幾乎與GPT-5（High）持平，并超過DeepSeek、谷歌Gemini 。
在音頻理解方面，文心5.0 Preview的音頻理解表現遠超OpenAI GPT-4o和谷歌Gemini-2.5-Pro 。
在視覺生成方面，文心5.0 Preview表現與Nana Banana、Veo 3相當。
在視覺理解方面，文心5.0 Preview表現同樣與GPT-5、Gemini-2.5-Pro持平，并在文檔理解的部分基準測試中遠超其他模型。
這一系列的性能表現，值得我們扒一扒起背后的核心技術特性：
首先是原生全模態建模，其模型自訓練初始即融合語言、圖像、視頻、音頻等多模態數據，支持文、圖、視、音聯合輸入輸出，實現原生的全模態統一理解與生成。
二是理解與生成一體化，其攻克了多模態理解與生成統一建模的技術難題，通過精細建模多模語義特征，達成理解與生成相互增強。
三是自回歸統一架構，對不同模態訓練目標進行離散化建模，采用統一自回歸架構訓練，使多模態特征在統一架構下充分融合并協同優化，強化全模態統一建模效能。
依托飛槳深度學習框架，文心5.0采用了超稀疏混合專家模型結構，總參數量為2.4萬億，激活參數比例低于3% 。這得益于全模態超稀疏混合專家分布式訓練和多集分離架構的全模態統一高性能推理。
其訓練端采用多模態編碼器分離異步訓練架構等創新方案，結合FP8混合精度訓練，推理端設計多級分離部署框架，搭配超稀疏均衡算法、動態投機解碼等技術，顯著降低推理成本。
最后是長程任務增強的智能體能力，其基于大規模真實、模擬工具環境的長程任務軌跡數據進行預訓練與后訓練增強，通過思維鏈、行動鏈結合端到端多輪強化學習訓練，提升模型智能體及工具調用能力。
李彥宏談道，大模型技術還在朝著智能水平不斷突破極限、模型的思考時間變長、統一的原生多模態、進一步自我學習迭代發展。

三、國產大模型迎來產業新周期從單模態、多模態到全模態，大模型的發展正從單一能力專精多能力協同，再到全場景適配進化。
全模態大模型通過深度整合文本、語音、圖像等多元信息，既貼合人類多感官協同的自然交互邏輯，又能挖掘更多數據的潛在價值，成為拓展AI應用邊界、驅動產業智能化升級的核心支撐。
強大的能力也意味著全模態大模型背后的技術難度，其需要攻克諸多多模態數據痛點，文本、語音、圖像等數據格式、語義邏輯截然不同，而傳統架構難以實現深度語義對齊。
再加上全模態大模型需處理的多源數據量與計算復雜度呈指數級增長，還需完成跨模態協同推理、靈活適配多樣化場景需求等，因此其離不開底層架構的突破性創新。
文心5.0為原生全模態模型，它既是百度文心大模型攻克核心技術難關后的最新重磅成果，更突顯了底層架構創新對于當下大模型技術進階的核心支撐價值。
從2019年開始深耕預訓練模型，至今6年時間，百度在大模型的技術迭代突破、開源生態構建、產業應用落地三大核心維度持續布局。
在大模型技術層面，百度已經先后推出文心大模型1.0至5.0 ，其模型多次在大模型性能排行榜中名列前茅。
進入2025年，百度大模型的迭代節奏持續提速，不僅模型數量穩步擴容，覆蓋類型也實現全方位拓展。
文心大模型4.5 Turbo、文心大模型X1 Turbo 、文心大模型X1.1深度思考模型、百度最新開源的文心思考模型ERNIE-4.5-21B-A3B-Thinking等模型悉數亮相，且文心思考模型在今年9月的HuggingFace全球模型總趨勢榜和文本模型趨勢榜均排名第一。
在開源生態方面，百度于今年6月正式官宣涵蓋10款模型的文心大模型4.5系列正式開源，之后開源模型矩陣不斷豐富和完善。
而在產業應用落地層面，今年6月，百度電商直播間的羅永浩數字人出圈，其以5500萬元的GMV（商品交易總額）刷新了數字人帶貨紀錄，該數字人基于百度劇本驅動多模協同的高擬真數字人技術，是多模融合且具備了思考、決策和執行能力的多智能體系統。
今日，百度還推出了實時互動型數字人技術，并現場與羅永浩數字人進行互動，讓其按照要求進行點贊、比心、比耶三連，數字人動作絲滑流暢且保留了羅永浩本人的語言風格。
可以看到，百度正在將大模型能力轉化為可落地、可復用的行業解決方案，推動技術價值向產業價值轉化，構建起技術、生態、應用三位一體的良性發展閉環。
相比傳統單一的文本或語音交互模式，全模態大模型讓人機交互更貼合人類視聽言思的自然認知習慣，也進一步拓展了行業應用場景的深度與廣度。

GPT-5.1上線，文心5.0登場，國產大模型為啥不慌

推薦閱讀

這一疫苗接種后的可喜結果意味著什么

小米安全鍵盤怎么關

文波進行曲是什么意思梗

excel粘貼怎么保持格式不變

華為手機不帶耳機孔的手機怎么辦

如何制作美味可口的筍干？不少于2000字

貓會笑嗎

多肉香檳的養殖方法和注意事項，多肉香檳的養殖方法？

今日校園APP功能怎么使用

葡萄干需要洗了再吃嗎,葡萄干不洗吃了有害嗎

普通單相電表介紹,單相全電子電度表

戴森哪個國家買最便宜,出境游最便宜的國家是哪里

科目二多少分及格科目二考80分算過嗎

凈身出戶協議書怎么寫

奔騰x40dlife怎么用不了

怎么拍桌子上的水杯好看怎么拍小孩坐在茶杯上寫字