OpenAI 3萬億美元測試,AI首戰44個行業人類專家!

OpenAI 3萬億美元測試,AI首戰44個行業人類專家!

文章圖片

OpenAI 3萬億美元測試,AI首戰44個行業人類專家!

文章圖片

OpenAI 3萬億美元測試,AI首戰44個行業人類專家!

文章圖片

OpenAI 3萬億美元測試,AI首戰44個行業人類專家!

文章圖片

OpenAI 3萬億美元測試,AI首戰44個行業人類專家!

文章圖片

OpenAI 3萬億美元測試,AI首戰44個行業人類專家!

文章圖片

OpenAI 3萬億美元測試,AI首戰44個行業人類專家!

文章圖片

OpenAI 3萬億美元測試,AI首戰44個行業人類專家!

文章圖片

OpenAI 3萬億美元測試,AI首戰44個行業人類專家!

文章圖片

OpenAI 3萬億美元測試,AI首戰44個行業人類專家!

文章圖片

編輯:KingHZ
【新智元導讀】AI下半場 , AGI已成過去式 , ASI正引領新智能革命!OpenAI推出的GDPval評估體系 , 通過真實工作任務審視大模型潛力 , 揭示AI如何從實驗室走向3萬億經濟戰場 , 助力人類從日常瑣事中解放 , 擁抱創造性未來 。
AI下半場真來了!
AGI都過時了 , 現在AI業內討論的是超級人工智能ASI:
AGI能把人類從80%的日常工作中解放出來;


而ASI則全面超越人類智能的系統 。
剛剛 , 在a16z訪談中 , OpenAI首席科學家Jakub Pachocki , 透露OpenAI的研究路線圖的下一步是推理 , 下一個5年的重點目標是打造自動化研究人員:
AI自動發現新想法 , 自動化研究人員的工作 , 自動化機器學習研究 。
但理解AI潛力最清晰的方式 , 并不是預測未來 , 而是看看模型現在已經能做什么 。
歷史經驗告訴我們 , 從互聯網到智能手機 , 每一項重大技術從誕生到普及都需要十年以上 。
OpenAI希望以更透明的方式 , 展示大模型如何真正服務于現實世界 。
因此 , 他們推出了一項全新的評估體系GDPval , 在有據可依的基礎上審視AI進步軌跡 , 而不是憑空臆測 。

論文地址:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf
數據集:https://huggingface.co/datasets/openai/gdpval
在GDPval 上 , 專家評審員將頂尖模型的輸出與人類專家的工作進行了比較 。
哈佛大學教授、名譽校長Lawrence H. Summers——同時任OpenAI的董事會成員 , 認為新研究令人興奮:
在多項實際任務上 , 即使只有有限的指導 , AI的表現與人類相當甚至更好;


人類與人·工智能結合 , 可以更高效;


AI具有令人驚訝的能力 , 可用來評估并隨后改進其性能 。

OpenAI坦承:Claude Opus 4.1表現最佳 , 在接近一半的任務上與專家工作相當或更好 , 明顯優于GPT-5 。

但OpenAI的進步速度引人注目:在一年內 , GPT系列模型勝率幾乎翻了一番 。


GDPVal
衡量AI的3萬億美元影響
過去 , 大模型評估往往集中在學術測試或編程挑戰上 。
這些評估雖然在推動模型推理能力方面起到了重要作用 , 但與現實工作場景仍有一定距離 。
為了填補這道鴻溝 , OpenAI逐步開發出一系列更貼近實際、更具經濟意義的評估方法——
從傳統的MMLU(涵蓋多學科的考試型題目) ,
到更具實戰意味的SWE-Bench(軟件工程Bug修復任務)、MLE-Bench(機器學習工程任務 , 如模型訓練與分析)、Paper-Bench(科研論文的邏輯推理與評議) ,
再到基于市場項目的SWE-Lancer(源于真實交易的自由職業軟件開發任務) 。
GDPval正是在這一演進路徑上的下一個關鍵節點 。

這項評估直接來源于現實工作中的任務 , 覆蓋了9大行業、44種職業、每年共計3萬億美元經濟價值 。

整個任務集共包含1320個高度專業化任務(其中220為金標任務子集 , 已開源) 。
這些任務源于真實工作產出 , 比如法律意見書、工程圖紙、客服對話記錄或護理計劃等 。

每一項任務都需通過多輪嚴格審核流程 , 確保其具備三點 , 即:高度貼近實際工作場景;可由同領域的專業人士獨立完成;具備明確的評估標準 。
每項任務平均經歷5輪專家評審 , 評審團隊包括其他任務撰寫者、獨立職業評審專家 , 并輔以模型可行性與清晰度校驗 。
GDPval的獨特之處在于 , 不僅任務內容貼近現實、形式多樣 , 還具備極高的專業性和代表性 。
與傳統評估相比 , GDPval并非簡單的文本提示任務 。 它要求模型處理完整的參考材料與工作背景 , 輸出形式也不僅限于文字 , 還包括文檔、PPT、圖表、電子表格 , 甚至多媒體內容 。
當然 , GDPval目前還只是一個起點 , 尚未完全覆蓋現實知識工作中任務的復雜性 。
它幫助我們清晰地認識到 , 大模型不僅僅能在實驗室中解題 , 更可能在千千萬萬人的日常工作中 , 扮演可靠的輔助角色 。
請再讀一遍:AI不再只是「通過考試」 , 而是開始接受文明體系本身的考核標準:GDP 。
獨立研究員Shanaka Anslem Perera表示:
這不僅僅是一套評估體系 , 更像是某種經濟生命體的誕生。
GDPval , 是「后人類經濟時代」的第一套會計體系 。
【OpenAI 3萬億美元測試,AI首戰44個行業人類專家!】

今天 , 它是一個「基準」;明天 , 它將成為新物種的記分牌 。

當AI的產出開始計入GDP , 它就不再是工具 , 而是超越「土地、勞動與資本」的第四種生產要素

半數任務
AI已逼近專業水平
早期測試結果顯示 , 當前領先的大模型在某些任務上 , 表現已接近甚至媲美行業專家 。
在220項金標任務中 , 行業專家盲測了多款主流模型:
GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4 。
結果顯示:

  • Claude Opus 4.1在美學表現方面表現最強(如文檔排版、PPT布局等);
  • GPT-5則在準確性方面領先 , 尤其擅長定位專業知識點 。
當前最先進的大模型 , 輸出質量已接近業內專家水平 。 其中 , Claude Opus 4.1表現尤為突出——
在接近一半的任務中 , 其產出被評為「與人類一樣好」甚至「優于人類」 。

從GPT-4o(2024年春發布)到GPT-5(2025年夏發布) , 模型在GDPval任務上的平均表現幾乎翻倍 , 呈現出明顯的線性進步趨勢 。

OpenAI還發現 , 頂尖模型完成GDPval任務的速度和成本 , 平均是人類的1%——約快100倍、便宜100倍 。

不過 , 這一數據僅統計了模型推理時間與API調用成本 , 并未包含人類監督、迭代修改與實際集成等現實工作流程所需的資源投入 。
盡管如此 , 在模型表現尤為出色的任務類型上 , 先用AI試一輪 , 再交由人類介入 , 可能成為節省時間與成本的理想策略 。

如何優化模型以提升GDPval表現
為了驗證是否可以提升GPT-5在GDPval任務中的表現 , OpenAI增量訓練了實驗性的內部特定版GPT-5 。
結果證實 , 經過該訓練流程后 , 模型性能確實得到了實質性提升 , 展現了進一步優化的潛力 。
下圖的多項受控實驗結果 , 進一步印證了這一點:擴大模型規模、引導模型進行更多推理步驟、提供更豐富的任務背景信息 , 都會帶來可衡量的性能增益 。

OpenAI設計了一條通用提示詞 , 要求模型在提交結果前進行嚴謹的自檢 , 可適用于各類多模態經濟類任務 , 并未針對具體問題進行過擬合 。


最豪評分員
頂尖機構的14年行業專家
在GDPval任務中 , 為了評估模型的實際表現 , OpenAI依賴資深從業者作為「評分員」 。
專家入選標準包括:至少4年行業從業經驗 , 且簡歷中需體現專業認可度、晉升軌跡及管理職責 。 參與本項目的專家平均擁有14年從業經驗 。
行業專家團隊曾任職于以下代表性機構:
Meta、微軟、摩根士丹利、谷歌、甲骨文、蘋果、通用電氣、高盛、HBO、IBM、摩根大通、領英、洛克希德·馬丁、美國銀行、巴克萊銀行、波音、美國疾控中心、花旗集團、美國國防部、美國聯邦貿易委員會、美國國家公園管理局、NFL網絡、雷神、Sally Beauty、《科學美國人》、蘇富比、英國電訊報集團、賽默飛世爾、《時代》雜志、美國司法部、美國空軍、美國郵政總局……
這些評分員來自與任務相同的職業背景 , 并在不知曉「人類 vs AI」身份的前提下 , 盲評由模型與人類任務撰寫者完成的任務成果 。

他們不僅會給出評價 , 還會對比排名 , 最終判斷每個AI生成結果是「優于」、「相當于」或「劣于」人類結果 。
為了確保評分過程透明一致 , 每位任務撰寫者還為其職業領域制定了詳細評分標準(rubric) , 涵蓋各類評價維度 。
OpenAI還開發了「自動評分器」——一個用于預測人類專家偏好的AI系統 , 模仿行業專家的對比評估方式 。
自動評估工具比專家評估更快、成本更低 , 且與人類專家評估的一致性達到66% , 僅比人類評估者之間71%的一致性低5% 。

由于其局限性 , OpenAI沒有使用自動評分器取代人類打分員 。

AI與工作的未來圖景
隨著AI能力不斷提升 , 勞動力市場勢必將發生結構性變化 。
GDPval的早期結果已經表明 , 大模型在處理那些重復性強、結構清晰的任務時 , 效率遠超人類專家 , 不僅更快也更便宜 。
但也要看到 , 大多數工作不僅僅是可拆解的任務清單 。
GDPval的意義在于:它揭示了AI可以承接哪些日常性事務型任務 , 從而為人類騰出時間專注更具創造力、判斷力的復雜工作 。
當AI能夠以這種方式補充而非替代人類時 , 將為經濟增長釋放巨大潛力 。
OpenAI希望借助GDPval與相關工具 , 推動AI工具的普及平民化 , 支持勞動者順利適應時代變革 , 并打造能鼓勵廣泛參與與共享成果的激勵機制 。
同時 , OpenAI也開放了GDPval金標任務子集以及一個公共評分平臺 , 希望能為更多研究者提供基礎設施 , 持續推動該方向的發展 。
愿每個人都能搭上AI時代的「上行電梯」 。

    推薦閱讀