Dwarkesh最新播客:AI 進展年終總結

Dwarkesh最新播客:AI 進展年終總結

Dwarkesh 這個名字 , 可能很多人有點陌生 。 但關注AI的朋友 , 一定在最近一段時間里 , 看到過Ilya Sutskever跟Andrej Karpathy的播客采訪 。他們上的就是Dwarkesh的播客 。
這兩人上播客的次數屈指可數 , 能采訪到這兩個人 , 大概能說明 Dwarkesh 在美國AI圈的地位 。
這篇文章基于他最新一期播客 , 匯總了一些他關于 AI 進展的想法 。
在這之前 , 他其實已經在個人網站上更新過相關內容 , 所以我在文章最后還從那里精選了幾個評論 。
因為關于 AI 進展 , 乃至AGI的時間線 , 都是非常主觀的話題 , 所以除了作者的看法 , 評論區的反饋也很有價值 。

Dwarkesh 的一些核心判斷:
1.以強化學習為核心的“中訓練” , 正在成為LLM的重點突破方向 。 前沿科技公司正通過所謂的“中訓練”(mid-training)把大量具體技能預先塞進模型里 。
Dwarkesh 認為這恰恰是AGI還很遠的證據 , 因為如果模型泛化能力很強 , 那就不需要單獨構建那么多強化學習環境 , 教它操作瀏覽器或者Excel 。
2.預置技能的想法是很奇怪的 , 人類勞動力之所以有價值 , 恰恰是因為訓練成本并不笨重 。
可以根據需要 , 靈活掌握一些新的技能 。 每天你都要做上百件需要判斷力、情境感知、以及在工作中習得的技能和背景知識的事情 。 如果全部依賴預置技能 , 很可能的結果是我們連最簡單的工作都無法完全自動化 。
3.AI 經濟擴散滯后 , 本質是為能力不足找借口 。 企業招聘這個過程其實非常tricky , 因為涉及對人的能力和品格等做估計 。
而 AI 員工完全不存在這個問題 , 經過驗證的AI員工可以無損無限復制 。
換句話說 , 企業有很強的動機去雇傭 AI 勞動力 。 現在這事沒有發生 , 只能證明模型能力差得太遠 。
4.回應對 AI 空頭的批評 。 過去發生過的事情是 , 經常有人說 AI 現在這不行那不行 , 比如通用理解、少樣本能力、推理能力 。
但隨著技術發展 , 這些問題 AI 都能解決了 。 但是空頭還是會提出新的標準 , 論證AI的能力不限 。
作者認為這種標準調整是有道理的 , 因為我們對于 AGI 的理解在深化 , 智能和勞動比我們曾經的理解要復雜得多 。
5.預訓練階段的 scaling law 非常清晰 , 只要算力數量級提升 , 損失函數就會穩定下降 。
但現在大家正在把這種在預訓練上獲得的經驗 , 轉移到圍繞強化學習(RLVR)的中訓練上 。
這種技術樂觀并沒有依據 , 有人根據 o 系列做了研究 , 結論是:要獲得類似GPT級別的提升 , 強化學習的總算力規??赡苄枰嵘揭话偃f倍 。
6.與人類分布的對比 , 會先讓我們高估 AI , 然后再低估它 。
由于知識工作中相當大一部分價值來自最頂尖的那一小撮人 , 如果我們把 AI 模型的智能水平與“中位數人類”相比 , 就會系統性地高估它們能創造的價值 。
但反過來說 , 一旦模型真正達到了頂級人類的水平 , 其影響力可能會是爆炸式的 。
7.持續學習(continual learning)會是AGI之后 , 模型能力提升的主要驅動力 。
他預估明年前沿團隊就會發布一些持續學習的雛形功能 , 但要達到人類水平的持續學習 , 可能還需要 5 到10年 。 持續學習的解決不會是一蹴而就的 , 所以不會有模型因為在這點上取得突破后就獲得失控式的領先優勢 。
以下為原文:
我們在Scaling什么?
我一直很困惑:為什么有些人一方面認為 AGI 的時間線很短 , 另一方面卻又對當前在大語言模型之上大規模擴展強化學習持極度樂觀態度 。
如果我們真的已經接近一種類人學習者 , 那么這種基于“可驗證結果”的訓練路徑 , 從根本上就是走不通的 。
目前 , 各家正試圖通過所謂的“中訓練”(mid-training)把大量具體技能預先塞進模型里 。
圍繞這一點 , 甚至已經形成了一整條產業鏈:有公司專門構建強化學習環境 , 教模型如何操作網頁瀏覽器 , 或者使用 Excel 來搭建財務模型 。
要么 , 這些模型很快就能以自我驅動的方式在工作中學習 , 那所有這些“預烘焙”技能就毫無意義;要么它們做不到 , 那就說明AGI并非近在咫尺 。
人類并不需要經歷一個特殊的訓練階段 , 把未來可能用到的每一個軟件都提前練一遍 。
Beren Millidge 在最近的一篇博客中對這一點提出了很有意思的看法:

當我們看到前沿模型在各種基準測試上取得進步時 , 不應該只想到算力規模的提升或巧妙的機器學習研究思路 , 還應該意識到:背后是數十億美元的投入 , 用來支付博士、醫生以及其他專家 , 讓他們圍繞這些特定能力編寫問題、給出示例答案和推理過程 。 從某種意義上說 , 這就像是專家系統時代的一次大規模重演 , 只不過這一次不是讓專家把思維直接寫成代碼 , 而是讓他們提供大量被形式化、被追蹤的推理樣本 , 然后我們通過行為克隆把這些蒸餾進模型里 。 這讓我對 AI 時間線略微傾向于更長 , 因為如此巨大的努力才能為前沿系統設計出高質量的人類軌跡和環境 , 恰恰說明它們仍然缺乏一個真正AGI所必須具備的關鍵學習核心 。
這種張力在機器人領域表現得尤為明顯 。 從根本上說 , 機器人是一個算法問題 , 而不是硬件或數據問題 。
人類只需要很少的訓練 , 就能學會遠程操控現有硬件去完成有用的工作 。 所以 , 如果我們真的擁有一種類人的學習者 , 機器人問題在很大程度上就已經解決了 。
但正因為我們沒有這樣的學習者 , 才不得不跑到成千上萬戶家庭里 , 去學習如何端盤子、如何疊衣服 。
我聽過一個來自“五年內起飛”陣營(極度技術樂觀派)的反駁觀點:我們之所以要搞這些笨拙的強化學習 , 是為了先造出一個超人類的AI研究員 , 然后讓一百萬個自動化的Ilya去想辦法解決如何從經驗中進行穩健而高效的學習 。
這讓我想起那個老笑話:我們每賣一單都在虧錢 , 但可以靠走量把錢賺回來 。 一個連兒童都具備的基本學習能力都沒有的自動化研究員 , 卻要解決人類花了將近一個世紀都沒解決的 AGI 算法問題?我覺得這極其不可信 。
此外 , 即便你認為 RLVR 的規模化很快就能幫助我們自動化AI研究 , 實驗室的實際行動卻表明它們并不相信這一點 。
要自動化 Ilya , 并不需要提前把做PowerPoint的咨詢顧問技能塞進模型里 。 而現在它們這么做 , 清楚地暗示了這樣一種看法:這些模型在泛化能力和在崗學習(on-the-job learning)方面仍然表現糟糕 , 因此才必須提前內置那些他們希望在經濟上有價值的技能 。
RLVR:Reinforcement Learning with Verifiable Rewards , 指帶可驗證獎勵的強化學習
另一種反駁是 , 即使模型能夠在工作中學會這些技能 , 把它們一次性在訓練階段學好 , 總比為每個用戶或每家公司反復學習要高效得多 。
確實 , 把對瀏覽器、終端等常用工具的熟練度預先內置進去是很合理的 。 AGI 的一個關鍵優勢 , 本來就是不同實例之間可以共享知識 。
但人們嚴重低估了大多數工作對公司特定、情境特定技能的依賴程度 , 而目前 AI 并不存在一種穩健且高效的方法來習得這些技能 。
人類勞動力之所以有價值 , 恰恰是因為訓練成本并不笨重
有一次我和一位 AI 研究員以及一位生物學家一起吃飯 。 那位生物學家說她認為AI的時間線很長 。 我們問她覺得AI會在哪些地方遇到困難 。
【Dwarkesh最新播客:AI 進展年終總結】她說她最近的工作加入了看切片的部分 , 判斷某個小點到底是真正的巨噬細胞 , 還是只是看起來像 。 AI 研究員則回應說:圖像分類是深度學習的教科書級問題 , 這個很容易訓練 。
我覺得這段對話非常有意思 , 因為它揭示了我和那些期待未來幾年出現顛覆性經濟影響的人之間的一個關鍵分歧 。 人類工作者之所以有價值 , 正是因為我們不需要為他們工作的每一個小環節都搭建笨重的訓練閉環 。
針對某個實驗室特定的切片制備方式 , 單獨訓練一個模型來識別巨噬細胞 , 然后再為下一個實驗室、下一個微任務重復一遍 , 這在整體上是得不償失的 。 真正需要的是一種 AI , 能夠像人類一樣 , 從語義反饋或自我驅動的經驗中學習 , 并且實現泛化 。
每天 , 你都要做上百件需要判斷力、情境感知 , 以及在工作中習得的技能和背景知識的事情 。 這些任務不僅在不同人之間不同 , 甚至同一個人前后兩天做的事情都不一樣 。
僅靠預先內置一組固定技能 , 連一份工作都無法完全自動化 , 更不用說所有工作了 。
事實上 , 我認為人們嚴重低估了真正 AGI 的沖擊力 , 因為他們只是把現在這一套無限延展 。 他們沒有意識到 , 真正的AGI意味著服務器上運行著數十億個類人智能體 , 能夠復制、融合彼此的全部學習成果 。
說清楚一點 , 我確實預計這種意義上的 AGI 會在未來一二十年內出現 。 這實在是太瘋狂了 。
所謂經濟擴散滯后 , 其實是在為能力不足找借口
有時候人們會說 , AI 之所以還沒有在企業中廣泛部署、在編程之外創造大量價值 , 是因為技術擴散本來就需要很長時間 。
我認為這是一種自我安慰 , 是在掩蓋一個事實:這些模型根本就缺乏創造廣泛經濟價值所必需的能力 。
Steven Byrnes 就這一點以及許多相關問題寫過一篇非常出色的文章:
新技術需要很長時間才能融入經濟體系?那你不妨問問自己:那些高技能、有經驗、有創業精神的移民 , 為什么能夠立刻融入經濟體系?想清楚這個問題之后你就會發現 , AGI 也能做到同樣的事情 。
如果這些模型真的相當于“服務器上的人類” , 它們的擴散速度會快得驚人 。 事實上 , 它們比普通人類員工更容易整合和入職 , 可以在幾分鐘內讀完你的Slack和Drive , 并立刻提煉出你其他AI員工掌握的全部技能 。
而且 , 招聘本身就很像一個檸檬市場 , 很難判斷誰是好員工 , 招錯人的成本也非常高 。 但當你只是啟動另一個已經驗證過的 AGI 實例時 , 這種問題根本不存在 。
檸檬市場是指在信息不對稱條件下 , 消費者難以辨別商品質量而傾向壓低支付價格 , 結果優質商品退出、市場逐步被劣質商品主導的現象 。
因此 , 我預計把 AI 勞動力引入企業會比招聘人類容易得多 。 而企業一直在不斷招人 。
如果能力真的達到了 AGI 水平 , 人們完全愿意每年花費數萬億美元購買token , 因為知識工作者每年的總薪酬本身就高達數十萬億美元 。
實驗室當前收入差了四個數量級 , 原因只有一個:模型距離人類知識工作者的能力還差得太遠 。
調整目標標準是合理的
AI 多頭經常批評AI空頭不斷調整目標標準 。 這種批評在很多時候是成立的 。 過去十年 , AI確實取得了巨大的進展 , 人們很容易忽視這一點 。
但在某種程度上 , 調整目標標準是合理的 。 如果你在 2020 年給我看Gemini 3 , 我一定會確信它能夠自動化一半的知識工作 。
我們不斷攻克那些曾被認為是通往 AGI 的關鍵瓶頸 , 比如通用理解、少樣本學習、推理能力 , 但我們依然沒有AGI 。 如果把AGI定義為能夠自動化95%的知識工作崗位 , 那理性的反應是什么?
一個完全合理的結論是:原來智能和勞動比我以前理解的要復雜得多 。 盡管我們已經非常接近 , 甚至在很多方面已經超過了我過去對 AGI 的定義 , 但模型公司并沒有賺到數萬億美元這一事實 , 清楚地說明了我之前對AGI的定義過于狹隘 。
我預計這種情況在未來還會不斷發生 。 我預計到 2030 年 , 前沿實驗室會在我一直關注的持續學習問題上取得顯著進展 , 模型的年收入將達到數千億美元 , 但它們仍然無法自動化全部知識工作 。
到那時我可能會說:我們取得了很大進步 , 但還沒到 AGI 。 要實現萬億美元級別的收入 , 我們還需要X、Y、Z這些東西 。
模型在“看起來很厲害”這件事上的進步速度 , 符合短時間線派的預測;但在“真正變得有用”這件事上的進展速度 , 卻更符合長時間線派的判斷 。
預訓練規模化的經驗不一定使用于強化學習
在預訓練階段 , 我們看到的是一種極其干凈、普適的趨勢:隨著算力跨越多個數量級 , 損失函數穩定下降 , 盡管這是一個冪律關系 , 是指數增長的反面(albeit on a power law which is as weak as exponential growth is strong) 。
人們正試圖把這種幾乎像物理定律一樣可預測的預訓練規?;涷灴捶?, 轉移到 RLVR 上 , 用來支撐對后者的樂觀預測 。
但事實上 , RLVR 并不存在任何擬合良好的公開趨勢 。 當一些勇敢的研究者試圖從零星的公開數據中拼湊結論時 , 得到的結果往往相當悲觀 。
比如 Toby Ord 寫過一篇文章 , 巧妙地把不同o系列基準圖表聯系起來 , 得出的結論是:要獲得類似GPT級別的提升 , 強化學習的總算力規模可能需要提升到一百萬倍 。
與人類分布的對比 , 會先讓我們高估 AI , 然后再低估它
不同人類能夠創造的價值差異巨大 , 尤其是在存在 O-ring 理論描述的白領工作中 。
一個“村里的傻子”對知識工作幾乎沒有價值 , 而頂級AI研究員對馬克·扎克伯格來說可能價值數十億美元 。
O-ring理論:在由多個關鍵環節構成的高價值工作中 , 整體產出是“乘法關系” , 任何一個環節出錯都會讓全部價值大幅歸零 , 因此頂級能力的價值會被極端放大 。
但在任何一個時間截面上 , AI 模型的能力基本是齊平的 。 人類存在巨大差異 , 而模型沒有 。
由于知識工作中相當大一部分價值來自最頂尖的那一小撮人 , 如果我們把 AI 模型的智能水平與“中位數人類”相比 , 就會系統性地高估它們能創造的價值 。 但反過來說 , 一旦模型真正達到了頂級人類的水平 , 其影響力可能會是爆炸式的 。
廣泛部署帶來的智能爆炸
人們花了大量時間討論純軟件奇點、軟硬件結合的奇點 , 以及各種變體 。
但這些設想都忽視了我認為 AGI 之后能力繼續提升的主要驅動力:持續學習 。 再想想人類是如何在任何領域變得更強的 , 主要來源就是相關領域的經驗 。
在一次交流中 , Beren Millidge 提出了一個很有意思的設想:未來可能是持續學習的智能體走出去做具體工作、創造價值 , 然后把所有學習成果帶回一個蜂群心智模型 , 由它對所有智能體進行某種批量蒸餾 。
這些智能體本身可以高度專門化 , 包含 Karpathy 所說的“認知核心” , 再加上與其具體工作相關的知識和技能 。
持續學習的“解決”不會是一蹴而就的成就 , 而更像是上下文學習的解決過程 。
GPT-3 展示了上下文學習的巨大潛力 。 但我們并沒有在GPT-3出現時就“解決”上下文學習 , 從理解能力到上下文長度 , 仍然有大量改進空間 。
我預計持續學習也會經歷類似的演進過程 。
實驗室很可能在明年發布一些他們稱之為持續學習的功能 , 這確實算是向持續學習邁進了一步 , 但要達到人類水平的持續學習 , 可能還需要 5 到10年的進一步發展 。
這也是為什么我不認為第一個在持續學習上取得突破的模型會立刻獲得失控式的領先優勢 。
從部署中學習(learning-from-deployment)的收益也很可能存在邊際遞減 。 前一千個咨詢型智能體會從部署中學到很多 , 接下來的一千個就少一些 。 至于第一百萬個實例 , 真的還有可能看到前面999999個都沒看到的重要東西嗎?
此外 , 我有一種主觀判斷:競爭仍將保持激烈 。 過去那些被寄予厚望的飛輪機制 , 幾乎都沒能削弱模型公司之間的競爭 。
幾乎每個月 , 頭部三家都會在領獎臺上輪換位置 , 其他競爭者也并沒有落后太遠 。 似乎存在某種力量 , 一直在消解任何一家實驗室可能獲得的失控式優勢 。
精選評論
Will Michaels:似乎人類能夠快速學習的原因之一是 , 人類可能產生的誤解空間受到嚴格限制 , 并且在很大程度上是可預測的 。 例如 , 在學習微積分時 , 大多數容易出錯或產生混淆的點都非常常見 , 因此在教授他人時可以直接指出 。
而 AI 所犯的錯誤既不可預測(同一個AI在不同情況下會犯不同的錯誤) , 又不直觀(我們無法準確判斷AI什么時候可靠 , 什么時候不可靠) 。
這就導致要創建一個能夠既識別所有可能錯誤 , 又對其進行正確懲罰的學習環境 , 變得異常困難 。
這當然和你關于持續學習的更廣泛觀點相關 。 如果我們能夠設計出一種模型架構 , 使 AI 的失敗方式變得可預測 , 那么這似乎將是邁向持續學習的一大步 。
Argos:文章寫得不錯 , 但我覺得你可能有些過于自信 。 我感覺你引用的那些報告對你所作出的強烈論斷支持力度很弱 , 而且也可以有其他解讀 。
OpenAI 在其強化學習訓練流程中使用了大量高度專業化的技能 , 這表明強化學習訓練并不真正具備泛化能力 。
實際上 , 被引用的文章只是說 OpenAI 雇了一些華爾街人士來生成數據 。 我覺得更可能的情況是 , OpenAI想利用這些數據在短期內為高付費客戶提供專業化模型 , 而不是作為他們通向AGI的通用方法 。 相反的證據可能是OpenAI從經濟的更多不同領域獲取類似數據 。
AI 還沒有被廣泛部署 , 這表明我們還沒有達到AGI 。
確實如此 , 但那些更合理、預期短時間內會出現 AGI 的人并沒有說我們已經達到了AGI 。 如果你有一些表現不錯但不夠可靠、無法完全匹配人類能力的智能體 , 那么擴散緩慢是一個合理的論據 。 據許多觀點來看 , Claude Code非常有用 , 但如果讓它作為自主員工 , 它就毫無用處 。
注意 , Claude Code(CC)釋放了模型的價值:使用Claude的聊天界面來編程會大幅減少價值增益 , 而且使CC達到目前水平也需要大量工程努力 。 如果CC和其他編程智能體不存在 , 你就會錯誤地認為最前沿的模型在編程上用處沒那么大 。 目前很可能 , 模型在許多其他具有經濟價值的任務上的價值增益 , 也正受制于有人投入大量資源來搭建這種“支撐體系” 。
Daniel Kokotajlo:精彩的文章!一些想法:(1)在 《AI 2027》 的設想中 , 持續學習會逐漸被解決 。 在2027年初之前 , 它只是對現有范式的增量改進——例如找到讓模型更頻繁更新的方法 , 比如每月、每周更新 , 而不是每幾個月更新 。 然后在2027年中期 , 由于研發自動化帶來的加速效應 , 它們會變得更加系統可靠、實現范式迭代并且更像人類 。
我仍然預計類似的事情會發生 , 盡管我認為可能需要更長時間 。 你在上文中說過“這些愚蠢、不具備持續學習能力的LLM智能體怎么可能學會持續學習呢?”我認為答案很簡單:它們只需要顯著加速通常的AI研發過程 。 舉個例子 , 如果你覺得以當前算法進展的速度 , 持續學習還需要10-20年 , 那么如果你也覺得Claude Opus 7.7基本上能夠自動完成所有編碼工作 , 并且還可以很好地分析實驗結果、提出消融建議等 , 那么合理的結論是:幾年后 , 原本剩下的5-15年時間可能會被壓縮到剩下的1-3年 。
(2)現有范式確實似乎需要比人類更多的RLVR訓練數據才能在某項任務上表現良好 。 確實如此 。 然而一旦足夠強大 , 上下文學習(in-context learning)也可能基本上成為一種持續學習形式?也許 , 通過足夠多樣化的RL環境 , 你可以實現類似預訓練在常識理解上達成的效果 , 但用于智能體的自主能力 。 你可以獲得通用型智能體 , 它們可以被直接投放到新環境中 , 并在執行過程中自行摸索 , 同時在它們的草稿板/鏈式思維(CoT)記憶庫文件系統中做筆記 。
也可以考慮集體而非單個 LLM 智能體 , 就像“公司中的公司”(由智能體集體構成的集體) 。 未來 , 這個集體可能會自主管理一個龐大的包含數據收集、問題識別、RLVR環境生成等各方面的處理流程 , 這個流程本身就像是集體的持續學習機制 。 例如 , 集體可能自主決定學習某項技能XYZ很重要(可能是因為分析軌跡、與客戶交流并了解有限的XYZ技能如何阻礙它們的工作) , 然后它們可以調動相當于數千名工程師的勞動力來搭建相關環境、進行訓練、更新模型等 。
集體仍然可能需要例如比人類多 1000 倍的數據才能在某項任務上表現良好 , 但因為它擁有數萬份復制在外收集數據 , 并且智能地管理數據收集過程 , 它總體上能夠比人類更快速地學習新技能和完成工作 。 (至少對于那些可以通過這種方式解決的技能和工作而言 。 但是其他的 , 比如贏得一場戰爭的技能 , 它無法通過這種方式學習 , 因為它不能把1000個副本投入到1000場不同的戰爭中去 。 )

    推薦閱讀