實測GPT-5:界面更簡潔回答更高效,但“不夠驚艷”

實測GPT-5:界面更簡潔回答更高效,但“不夠驚艷”

文章圖片

實測GPT-5:界面更簡潔回答更高效,但“不夠驚艷”

文章圖片

實測GPT-5:界面更簡潔回答更高效,但“不夠驚艷”

北京時間8月8日 , “跳票”多次的GPT-5終于“千呼萬喚始出來” , OpenAI首席執行官山姆·奧特曼以一個77分鐘的發布視頻揭開了這個繼兩年前GPT-4發布震撼業界后 , 就被不斷寄予厚望的大模型 。
新京報AI研究院第一時間對GPT-5進行了實測 , 發現接入GPT-5的能力后 , ChatGPT的對話界面更加簡潔 , 完全踐行了此前奧特曼曾表示的將多模態、深度思考、聯網搜索等集成化的思路 , 在對話中 , 該款大模型也確實可以做到依據問題 , 絲滑切換不同的回答方式 , 讓用戶的使用體驗“更上一層樓” 。 但對一些較為復雜問題的回復 , 依然有錯誤出現 , 總體來看其模型能力并未與市面上其他模型拉開顯著差距 。
ChatGPT最新界面截圖
事實上 , 由于OpenAI在近幾年發布的GPT-4 , 甚至o1模型的表現都做到了大幅領先同行 , GPT-5也被不少業界人士期待能夠再度復制此前的輝煌 , 甚至成為實現AGI(通用人工智能)的標志 。 此次發布后 , GPT-5的能力依然在各項跑分測試中做到了領先 , 但其所帶來的“驚艷程度”顯然不及GPT-4和o1 。
在AI大模型行業“以月為單位”的迭代速度 , 以及國產優秀AI大模型不斷涌現的背景下 , 山姆·奧特曼要想繼續譜寫OpenAI一枝獨秀的敘事 , GPT-5現在的表現仍然不夠 。 不過這也不能否認GPT-5在工程化和商業化層面的優秀之處 。 下面 , 新京報AI研究院將主要結合GPT-5在創意寫作、編程這兩個奧特曼在發布會中特別強調的優秀能力進行實測 , 觀察其C端產品表現 。
創意寫作:中文能力中規中矩 , 提示詞和跨界作圖切換“絲滑”
本次發布 , GPT-5在關于編程、數學、長文本等多個維度的測評中奪得榜首 , 但在當前此類榜單時刻“攻守易形”的前提下 , 新京報AI研究院更加關注其在實操中的表現 。
對于具體的亮點能力 , OpenAI官網特意放出了創意寫作、編程設計和藥物研究三個視頻切片 。 其中 , 創意寫作是普通人最容易理解的大模型能力 。 奧特曼也表示“GPT-5的寫作能力比GPT-4o要好得多 。 ”此外 , 他還表示 , “GPT-5采用集成模型 , 這意味著不再需要模型切換器 , 它將自己決定何時需要深度思考 , 它非常智能、直觀且快速 , 適用于所有人 , 包括免費用戶 。 ”
對此 , 新京報AI研究院以最近網上討論較為熱烈的《明末:淵虛之羽》中涉及的歷史問題為背景 , 對GPT-5輸入提示詞“你是一個明末 , 1647年住在四川的農民 , 請在這個歷史背景下 , 寫出這個農民在一年里可能的遭遇 , 要求寫實 。 ”
【實測GPT-5:界面更簡潔回答更高效,但“不夠驚艷”】面對該提示詞 , 在不使用GPT-5模型時 , ChatGPT主要描述了該農民在“春夏秋冬”四季的遭遇 , 描寫了農民身處亂世的情景 。 而GPT-5的回答則不止描述出了該農民的名字、住址 , 還具體撰寫了他從1月到12月的生活情景 , 背景則包括了明軍、大西軍、清軍 , 這和當時的歷史史實相符 。
回答完畢后 , GPT-5還提示是否“在這個基礎上幫你補充更多當時四川的社會背景細節 , 比如‘湖廣填四川’的人口損失數據、兵亂的路線、南明與清軍的攻防形勢 , 讓這個農民的故事更真實可考 。 ”當我們選擇讓其繼續回答后 , GPT-5生成了一份包含農民故事與旁注史料的完整回答 , 其回復質量顯然比前代模型提高了不少 。
GPT-5的部分回答截圖
不過 , 當我們以同樣的提示詞讓DeepSeek以及Kimi生成回答時 , 這兩個國產大模型也給出了不錯的回復 , 其中DeepSeek的文采更好 , Kimi則展示出了更多細節 , 與ChatGPT使用GPT-5生成的回復相比 , 三者的差距并沒有特別明顯 。
但ChatGPT在引導用戶繼續提問上更勝一籌 , 在兩次回答我們提出的問題后 , ChatGPT表示 , “我還可以幫你把這個農民的一年經歷 , 配上一張1647年四川兵亂形勢圖 , 標出清軍、南明軍、白號軍(注:白號軍歷史上在清代咸豐及同治年間出現 , 此處應為大模型幻覺導致生成了錯誤內容)的活動路線 , 這樣讀起來會更直觀 。 你要我幫你畫出來嗎?”這一回復顯示搭載GPT-5的ChatGPT不僅已經做到了多模態能力在對話中的隨時調用 , 還能依據上下文主動提供這一能力 , 可以更大幅度地提升用戶體驗 。
不過 , GPT-5隨后生成出來的圖片較為粗陋且與圖片說明存在矛盾 , 并不能直觀表述“四川兵亂形勢圖” , 顯示其能力依然有局限 。
GPT-5生成的圖片 , 雖然文字回復優秀但圖片與圖片說明文字存在矛盾
編程能力:速度提升明顯 , 錯誤依然存在
OpenAI在本次發布會中花費最多時間介紹的能力是編程 , 整個圍繞AI編程的介紹幾乎占到了發布會時間的一半 。 AI編程也是當前各個大模型在落地上最為成熟的能力 , 最受企業歡迎 , 商業化上也已經走通 。
在發布會的演示中 , OpenAI展示了GPT-5的種種神奇能力 , 如使用SVG動圖解釋伯努利效應、制作學習法語的web程序、制作老鼠吃奶酪的游戲等等 。 但相比發布會中的演示 , 現實情況如何呢?
對此 , 新京報AI研究院也進行了實測 。 當輸入“請你做一個學英語的web應用程序 , 要生動有趣”時 , GPT-5僅花費了約10秒鐘就生成出了一個名為“趣味英語學習”的程序 , 當輸入英文單詞 , 其會生成出關于該單詞的“一個趣味事實” , 例如當輸入“apple(蘋果)” , 其回復該單詞來自古英語“?ppel” 。
GPT-5生成的英語學習游戲
當要求升級 , 輸入“以二戰主題制作一款華容道游戲”時 , GPT-5的思考時間顯著變長 , 但最后還是生成了一款以“盟軍俘虜德軍將領”為主題的華容道游戲 , 并以隆美爾代替了曹操的位置 。
GPT-5生成的二戰背景華容道游戲
值得注意的是 , 雖然GPT-5的編程速度很快 , 生成的結果往往也可以實現初步交互 , 但一旦深入體驗其生成的程序 , 就會發現很多錯誤 。 如英語學習游戲雖然以極快速度生成 , 但其只能對較為簡單的單詞有反應 , 稍微復雜一點的單詞就會報錯 。 華容道游戲也是一樣 , 雖然可以通過點擊鼠標移動方塊 , 但最為關鍵的“隆美爾”方塊出現了無法移動的BUG 。
總體而言 , 新京報AI研究院發現 , GPT-5確實做到了奧特曼提及的“智能、直觀且快速” , 在產品水平和用戶體驗上都有進步 , 但其依然沒有擺脫大模型固有的幻覺問題 , 并且該問題在面對復雜問題時更為明顯 。
不過 , 相比市面上的其他模型 , GPT-5雖然沒有做到斷崖式領先 , 但其能力也優于同類模型 , 如GPT-5編程能力較o3和GPT-4o模型顯著提升 , 在SWE-bench Verified測試得分74.9%(o3為69.1% , GPT-4o為30.8%) , 略超Anthropic本周發布的新模型Claude Opus4.1的74.5% 。
值得注意的是 , GPT-5雖然免費向所有用戶開放 , 但依然維持了使用次數限制 。 本次實測 , 新京報AI研究院一共進行了9輪對話 , 就觸及了次數限制的天花板 , 要想真正在工作生活中使用GPT-5的能力 , 還需要“充值” 。
API價格方面 , GPT-5每百萬token輸入1.25美元 , 輸出10美元 。 該價格低于GPT-4o和Gemini 2.5 Pro , 僅為Claude Opus 4.1的1/15 。 開源證券發布的研報認為 , 此次價格下探展現了頭部廠商搶占市場份額的決心 , 有望加速應用端落地 。
新京報AI研究院 羅亦丹
編輯 岳彩周
校對 付春愔

    推薦閱讀