吳恩達:圖靈測試不夠用了,我會設計一個AGI專用版

吳恩達:圖靈測試不夠用了,我會設計一個AGI專用版

文章圖片

吳恩達:圖靈測試不夠用了,我會設計一個AGI專用版

文章圖片

吳恩達:圖靈測試不夠用了,我會設計一個AGI專用版

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
新年新氣象!AI大神吳恩達2026年目標公開:
要做一個新的圖靈測試 , 他稱之為圖靈-AGI測試 。
光看名字就知道 , 這個測試專為AGI而生 。

去年是AGI水漲船高的一年 , 吳恩達在其年度總結中也曾表示:
2025年或許會被銘記為人工智能工業時代的開端 。
創新推動模型性能到達新的高度 , AI驅動的應用變得不可或缺 , 頂尖企業人才爭奪激烈 , 基礎設施建設推動社會生產總值增長 。
學術界和工業界頻繁提及AGI概念 , 硅谷的公司也會為搶先AGI定下季度目標 。
但關于AGI的定義至今還沒有統一標準 , 現有基準測試還常常誤導大眾 , 使其高估當前的AI水平 。
吳恩達注意到該趨勢 , 于是新的圖靈測試將試圖彌補這一空白 。

正如網友所言:
要衡量智能首先要定義智能 。

圖靈-AGI測試設想傳統的圖靈測試在AGI時代顯然不夠用 。
它由艾倫·圖靈在上世紀五十年代提出 , 提出用人機對話來測試機器的智能水平 。
在測試過程中 , 人類評估者需要確定他們是在與人還是與機器交談 。 如果機器能夠成功騙過評估者 , 那么就算通過了測試 。
但現在的AI顯然不再滿足于簡單的對話交互 , 而是要構建起經濟有用的系統 , 所以亟需一個能夠衡量AI工作能力的測試 。
而這就是圖靈-AGI測試的核心 , 要讓AI像人類一樣智能 , 并完成大部分的知識型工作 。
測試對象將會是AI系統或專業人士 , 他們將會被提供一臺可以訪問互聯網并配備瀏覽器和Zoom等軟件的計算機 。

裁判將通過計算機為測試對象設計一個多日的體驗任務 , 比如作為客服 , 會先被培訓一段時間 , 然后要求執行接聽電話的任務 , 并需要提供持續的反饋 。
只要AI能夠像人類一樣熟練完成工作任務 , 就會被認為通過測試 。
該測試將聚焦AGI的經濟性和實際產出 , 更接近普世意義下對AGI的初始定義——可用于工作和生產場景的智能 。
它也會比基準測試更考驗AI的通用能力 。
現在幾乎所有的AI基準測試 , 如GPQA、AIME、SWE-bench等 , 都會預先確定一個測試集 。 這意味著AI團隊都會直接針對已發布的測試集來調整他們的模型 。
這就導致很多AI模型榜單排名靠前 , 但真實物理世界中又能力不夠 。
去年鬧得沸沸揚揚的Llama 4刷榜丑聞就是其中一個典型 , 明明數據看起來都很不錯 , 但用戶真正上手后卻傻眼了 。

此外 , 固定測試集只能衡量AI在某一狹窄領域的能力 。 相比之下 , 圖靈測試可以由評委自由提出任意問題 , 沒有提前限定范圍 , 更能判斷系統在通用任務上的表現 。
在改進的圖靈-AGI測試中 , 延續了這一設定 , 裁判可以任意設計體驗任務 , 而受測試的AI或人類測試者均不會事先知道任務內容 , 這將比基準測試更能判斷AGI水平 。
同時為了校準社會對AI的期望 , 吳恩達表示 , 或許他將舉辦一場圖靈-AGI測試 , 讓所有AI參與其中 。
即便最后的結果會是所有AI系統均未能達到標準 , 但也能平息長期以來對AGI的過度炒作 。
這種降溫將會為AI領域創造更穩健的環境 , 讓行業重新聚焦于非AGI級別的實際進步 , 比如開發有實用價值的應用 , 而不是沉迷于實現AGI的營銷噱頭 。
從長期來說 , 圖靈-AGI測試也會為AI團隊設定一個具體的努力目標 , 而非模糊地實現人類級智能 。
倘若真有某一家公司能夠通過測試 , 其成果也必定具備真實價值 , 圖靈-AGI測試將會為真正的AGI突破提供可信的判定依據 。
所以接下來 , 只需拭目以待 。
參考鏈接:[1
https://x.com/AndrewYNg/status/2008578741312836009?s=20[2
https://www.deeplearning.ai/the-batch/issue-334/
— 完 —
量子位 QbitAI · 頭條號簽約
【吳恩達:圖靈測試不夠用了,我會設計一個AGI專用版】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀