OpenAI 3萬億美元測試，AI首戰44個行業人類專家！_人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：KingHZ
【新智元導讀】AI下半場， AGI已成過去式， ASI正引領新智能革命！OpenAI推出的GDPval評估體系，通過真實工作任務審視大模型潛力，揭示AI如何從實驗室走向3萬億經濟戰場，助力人類從日常瑣事中解放，擁抱創造性未來。
AI下半場真來了！
AGI都過時了，現在AI業內討論的是超級人工智能ASI：
AGI能把人類從80%的日常工作中解放出來；

而ASI則全面超越人類智能的系統。
剛剛，在a16z訪談中， OpenAI首席科學家Jakub Pachocki ，透露OpenAI的研究路線圖的下一步是推理，下一個5年的重點目標是打造自動化研究人員：
AI自動發現新想法，自動化研究人員的工作，自動化機器學習研究。
但理解AI潛力最清晰的方式，并不是預測未來，而是看看模型現在已經能做什么。
歷史經驗告訴我們，從互聯網到智能手機，每一項重大技術從誕生到普及都需要十年以上。
OpenAI希望以更透明的方式，展示大模型如何真正服務于現實世界。
因此，他們推出了一項全新的評估體系GDPval ，在有據可依的基礎上審視AI進步軌跡，而不是憑空臆測。

論文地址：https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf
數據集：https://huggingface.co/datasets/openai/gdpval
在GDPval 上，專家評審員將頂尖模型的輸出與人類專家的工作進行了比較。
哈佛大學教授、名譽校長Lawrence H. Summers——同時任OpenAI的董事會成員，認為新研究令人興奮：
在多項實際任務上，即使只有有限的指導， AI的表現與人類相當甚至更好;

人類與人·工智能結合，可以更高效;

AI具有令人驚訝的能力，可用來評估并隨后改進其性能。

OpenAI坦承：Claude Opus 4.1表現最佳，在接近一半的任務上與專家工作相當或更好，明顯優于GPT-5 。

但OpenAI的進步速度引人注目：在一年內， GPT系列模型勝率幾乎翻了一番。

GDPVal
衡量AI的3萬億美元影響
過去，大模型評估往往集中在學術測試或編程挑戰上。
這些評估雖然在推動模型推理能力方面起到了重要作用，但與現實工作場景仍有一定距離。
為了填補這道鴻溝， OpenAI逐步開發出一系列更貼近實際、更具經濟意義的評估方法——
從傳統的MMLU（涵蓋多學科的考試型題目），
到更具實戰意味的SWE-Bench（軟件工程Bug修復任務）、MLE-Bench（機器學習工程任務，如模型訓練與分析）、Paper-Bench（科研論文的邏輯推理與評議），
再到基于市場項目的SWE-Lancer（源于真實交易的自由職業軟件開發任務）。
GDPval正是在這一演進路徑上的下一個關鍵節點。

這項評估直接來源于現實工作中的任務，覆蓋了9大行業、44種職業、每年共計3萬億美元經濟價值。

整個任務集共包含1320個高度專業化任務（其中220為金標任務子集，已開源）。
這些任務源于真實工作產出，比如法律意見書、工程圖紙、客服對話記錄或護理計劃等。

每一項任務都需通過多輪嚴格審核流程，確保其具備三點，即：高度貼近實際工作場景；可由同領域的專業人士獨立完成；具備明確的評估標準。
每項任務平均經歷5輪專家評審，評審團隊包括其他任務撰寫者、獨立職業評審專家，并輔以模型可行性與清晰度校驗。
GDPval的獨特之處在于，不僅任務內容貼近現實、形式多樣，還具備極高的專業性和代表性。
與傳統評估相比， GDPval并非簡單的文本提示任務。它要求模型處理完整的參考材料與工作背景，輸出形式也不僅限于文字，還包括文檔、PPT、圖表、電子表格，甚至多媒體內容。
當然， GDPval目前還只是一個起點，尚未完全覆蓋現實知識工作中任務的復雜性。
它幫助我們清晰地認識到，大模型不僅僅能在實驗室中解題，更可能在千千萬萬人的日常工作中，扮演可靠的輔助角色。
請再讀一遍：AI不再只是「通過考試」，而是開始接受文明體系本身的考核標準：GDP 。
獨立研究員Shanaka Anslem Perera表示：
這不僅僅是一套評估體系，更像是某種經濟生命體的誕生。
GDPval ，是「后人類經濟時代」的第一套會計體系。
【OpenAI 3萬億美元測試，AI首戰44個行業人類專家！】

今天，它是一個「基準」；明天，它將成為新物種的記分牌。

當AI的產出開始計入GDP ，它就不再是工具，而是超越「土地、勞動與資本」的第四種生產要素

半數任務
AI已逼近專業水平
早期測試結果顯示，當前領先的大模型在某些任務上，表現已接近甚至媲美行業專家。
在220項金標任務中，行業專家盲測了多款主流模型：
GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4 。
結果顯示：

Claude Opus 4.1在美學表現方面表現最強（如文檔排版、PPT布局等）；
GPT-5則在準確性方面領先，尤其擅長定位專業知識點。

當前最先進的大模型，輸出質量已接近業內專家水平。其中， Claude Opus 4.1表現尤為突出——
在接近一半的任務中，其產出被評為「與人類一樣好」甚至「優于人類」。

從GPT-4o（2024年春發布）到GPT-5（2025年夏發布），模型在GDPval任務上的平均表現幾乎翻倍，呈現出明顯的線性進步趨勢。

OpenAI還發現，頂尖模型完成GDPval任務的速度和成本，平均是人類的1%——約快100倍、便宜100倍。

不過，這一數據僅統計了模型推理時間與API調用成本，并未包含人類監督、迭代修改與實際集成等現實工作流程所需的資源投入。
盡管如此，在模型表現尤為出色的任務類型上，先用AI試一輪，再交由人類介入，可能成為節省時間與成本的理想策略。

如何優化模型以提升GDPval表現
為了驗證是否可以提升GPT-5在GDPval任務中的表現， OpenAI增量訓練了實驗性的內部特定版GPT-5 。
結果證實，經過該訓練流程后，模型性能確實得到了實質性提升，展現了進一步優化的潛力。
下圖的多項受控實驗結果，進一步印證了這一點：擴大模型規模、引導模型進行更多推理步驟、提供更豐富的任務背景信息，都會帶來可衡量的性能增益。

OpenAI設計了一條通用提示詞，要求模型在提交結果前進行嚴謹的自檢，可適用于各類多模態經濟類任務，并未針對具體問題進行過擬合。

最豪評分員
頂尖機構的14年行業專家
在GDPval任務中，為了評估模型的實際表現， OpenAI依賴資深從業者作為「評分員」。
專家入選標準包括：至少4年行業從業經驗，且簡歷中需體現專業認可度、晉升軌跡及管理職責。參與本項目的專家平均擁有14年從業經驗。
行業專家團隊曾任職于以下代表性機構：
Meta、微軟、摩根士丹利、谷歌、甲骨文、蘋果、通用電氣、高盛、HBO、IBM、摩根大通、領英、洛克希德·馬丁、美國銀行、巴克萊銀行、波音、美國疾控中心、花旗集團、美國國防部、美國聯邦貿易委員會、美國國家公園管理局、NFL網絡、雷神、Sally Beauty、《科學美國人》、蘇富比、英國電訊報集團、賽默飛世爾、《時代》雜志、美國司法部、美國空軍、美國郵政總局……
這些評分員來自與任務相同的職業背景，并在不知曉「人類 vs AI」身份的前提下，盲評由模型與人類任務撰寫者完成的任務成果。

他們不僅會給出評價，還會對比排名，最終判斷每個AI生成結果是「優于」、「相當于」或「劣于」人類結果。
為了確保評分過程透明一致，每位任務撰寫者還為其職業領域制定了詳細評分標準（rubric），涵蓋各類評價維度。
OpenAI還開發了「自動評分器」——一個用于預測人類專家偏好的AI系統，模仿行業專家的對比評估方式。
自動評估工具比專家評估更快、成本更低，且與人類專家評估的一致性達到66% ，僅比人類評估者之間71%的一致性低5% 。

由于其局限性， OpenAI沒有使用自動評分器取代人類打分員。

AI與工作的未來圖景
隨著AI能力不斷提升，勞動力市場勢必將發生結構性變化。
GDPval的早期結果已經表明，大模型在處理那些重復性強、結構清晰的任務時，效率遠超人類專家，不僅更快也更便宜。
但也要看到，大多數工作不僅僅是可拆解的任務清單。
GDPval的意義在于：它揭示了AI可以承接哪些日常性事務型任務，從而為人類騰出時間專注更具創造力、判斷力的復雜工作。
當AI能夠以這種方式補充而非替代人類時，將為經濟增長釋放巨大潛力。
OpenAI希望借助GDPval與相關工具，推動AI工具的普及平民化，支持勞動者順利適應時代變革，并打造能鼓勵廣泛參與與共享成果的激勵機制。
同時， OpenAI也開放了GDPval金標任務子集以及一個公共評分平臺，希望能為更多研究者提供基礎設施，持續推動該方向的發展。
愿每個人都能搭上AI時代的「上行電梯」。