吳恩達：圖靈測試不夠用了，我會設計一個AGI專用版_ai

文章圖片

文章圖片

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI
新年新氣象！AI大神吳恩達2026年目標公開：
要做一個新的圖靈測試，他稱之為圖靈-AGI測試。
光看名字就知道，這個測試專為AGI而生。

去年是AGI水漲船高的一年，吳恩達在其年度總結中也曾表示：
2025年或許會被銘記為人工智能工業時代的開端。
創新推動模型性能到達新的高度， AI驅動的應用變得不可或缺，頂尖企業人才爭奪激烈，基礎設施建設推動社會生產總值增長。
學術界和工業界頻繁提及AGI概念，硅谷的公司也會為搶先AGI定下季度目標。
但關于AGI的定義至今還沒有統一標準，現有基準測試還常常誤導大眾，使其高估當前的AI水平。
吳恩達注意到該趨勢，于是新的圖靈測試將試圖彌補這一空白。

正如網友所言：
要衡量智能首先要定義智能。

圖靈-AGI測試設想傳統的圖靈測試在AGI時代顯然不夠用。
它由艾倫·圖靈在上世紀五十年代提出，提出用人機對話來測試機器的智能水平。
在測試過程中，人類評估者需要確定他們是在與人還是與機器交談。如果機器能夠成功騙過評估者，那么就算通過了測試。
但現在的AI顯然不再滿足于簡單的對話交互，而是要構建起經濟有用的系統，所以亟需一個能夠衡量AI工作能力的測試。
而這就是圖靈-AGI測試的核心，要讓AI像人類一樣智能，并完成大部分的知識型工作。
測試對象將會是AI系統或專業人士，他們將會被提供一臺可以訪問互聯網并配備瀏覽器和Zoom等軟件的計算機。

裁判將通過計算機為測試對象設計一個多日的體驗任務，比如作為客服，會先被培訓一段時間，然后要求執行接聽電話的任務，并需要提供持續的反饋。
只要AI能夠像人類一樣熟練完成工作任務，就會被認為通過測試。
該測試將聚焦AGI的經濟性和實際產出，更接近普世意義下對AGI的初始定義——可用于工作和生產場景的智能。
它也會比基準測試更考驗AI的通用能力。
現在幾乎所有的AI基準測試，如GPQA、AIME、SWE-bench等，都會預先確定一個測試集。這意味著AI團隊都會直接針對已發布的測試集來調整他們的模型。
這就導致很多AI模型榜單排名靠前，但真實物理世界中又能力不夠。
去年鬧得沸沸揚揚的Llama 4刷榜丑聞就是其中一個典型，明明數據看起來都很不錯，但用戶真正上手后卻傻眼了。

此外，固定測試集只能衡量AI在某一狹窄領域的能力。相比之下，圖靈測試可以由評委自由提出任意問題，沒有提前限定范圍，更能判斷系統在通用任務上的表現。
在改進的圖靈-AGI測試中，延續了這一設定，裁判可以任意設計體驗任務，而受測試的AI或人類測試者均不會事先知道任務內容，這將比基準測試更能判斷AGI水平。
同時為了校準社會對AI的期望，吳恩達表示，或許他將舉辦一場圖靈-AGI測試，讓所有AI參與其中。
即便最后的結果會是所有AI系統均未能達到標準，但也能平息長期以來對AGI的過度炒作。
這種降溫將會為AI領域創造更穩健的環境，讓行業重新聚焦于非AGI級別的實際進步，比如開發有實用價值的應用，而不是沉迷于實現AGI的營銷噱頭。
從長期來說，圖靈-AGI測試也會為AI團隊設定一個具體的努力目標，而非模糊地實現人類級智能。
倘若真有某一家公司能夠通過測試，其成果也必定具備真實價值，圖靈-AGI測試將會為真正的AGI突破提供可信的判定依據。
所以接下來，只需拭目以待。
參考鏈接：[1
https://x.com/AndrewYNg/status/2008578741312836009?s=20[2
https://www.deeplearning.ai/the-batch/issue-334/
— 完 —
量子位 QbitAI · 頭條號簽約
【吳恩達：圖靈測試不夠用了，我會設計一個AGI專用版】關注我們，第一時間獲知前沿科技動態

吳恩達：圖靈測試不夠用了，我會設計一個AGI專用版

推薦閱讀

王者榮耀馬可波羅動作怎么獲得?王者榮耀五周年祈愿馬可波羅動作獲得攻略

口味重的家常菜有哪些

我的世界盾牌怎么做方法一點不復雜

布谷鳥的特點

小池的作者是誰是哪代詩人小池原文及翻譯

夢見去廟里拜菩薩夢見去廟里拜菩薩什么意思

少女前線春節裝扮怎么樣 cz75春節換裝金蓮花開獲取方式

做眼袋吸脂有什么危害

2022國慶來重慶旅游要不要提供核酸證明？

美圖秀秀如何給圖片加邊框

天津南開電話區號多少，天津的電話區號是多少

狗子發燒會自己好嗎

分享在華為Mate20中開啟一鍵省電的方法。

提高顧客滿意度的途徑

秋雨綿綿思萬千秋雨綿綿的唯美句子

變圓的胖妞……更可愛啦又胖又萌又可愛的圖片