Karpathy戳破強化學習神話，首提AI復盤式進化，暴力試錯將死_集邦咨詢

文章圖片

文章圖片

文章圖片

文章圖片

強化學習，或許并不能通往AGI終點。 Karpathy最新發文提出另一種Scaling范式，像人類一樣反思回顧，通過復盤學習取得突破，更多的S形進步曲線等待發現。
Grok 4能站在大模型之巔，全是Scaling強化學習立了大功。
如今， AI大神Karpathy站出來急潑一盆冷水：
RL只是把最終成敗的單一數值回傳，效率隨任務時長急劇下降。
而且， RL與人類「反思-提煉-再應用」迭代機制存在巨大差異。

RL短期有效，真正突破在于「復盤學習」強化學習的本質是，某次行動表現良好（糟糕），就略微提升（降低）未來類似行動的概率。
這種方法通過驗證函數，比顯示監督取得了更大的杠桿效應，無疑是其強大之處。
然而，在Karpathy看來，從長遠角度來講，強化學習或許并不是最優策略。

長時程任務， RL局限顯現首先，一旦任務交互時間增加到幾分鐘乃至幾小時， RL就遇到了挑戰。
想象一下，一個數小時交互的任務，最終卻只得到一個單一的標量獎勵，來調整整個過程的梯度。
這樣的反饋，能否足以支撐高效學習？

RL機制與人類差異顯著其次，對于大多數智能任務而言，這感覺并不像人類的進步機制。
簡言之， RL的機制與人類智能提升方式，存在著顯著的差異。
人類會通過一個復盤/反思階段，從每一次推演中能提取到多得多的監督信息，比如「哪里做得好？哪里不太行？下次該試試什么？」等等。
從這個階段得到的教訓感覺是明確的，就像一個新字符串，可以直接添加到未來的系統提示詞里，也可以選擇性地在之后被「蒸餾」成權重/直覺，有點像睡眠的作用。
在英語里，我們說通過這個過程，某件事會成為人的「第二天性」，而我們目前正缺少這樣的學習范式。
這里， Karpathy提到了ChatGPT「記憶」功能，或許就是這種機制概念的一個雛形，盡管它目前只用于個性化，而非解決問題。
值得注意的是，在Atari游戲這類RL場景中也不存在類似的機制，因為那些領域里沒有大語言模型，也沒有上下文學習。

算法新設想：回顧-反思范式為此， Karpathy提出了一個算法框架——
給定一個任務，先跑幾次推演，然后把所有推演過程（包括每次的獎勵）都塞進一個上下文，再用一個元提示詞來復盤/反思哪些地方做得好或不好，從而提煉出一個字符串形式的「教訓」，并將其添加到系統提示詞中（或者更通用地，更新當前的教訓數據庫）。
不過，他表示，這里面有很多細節要填充，有很多地方可以調整，具體怎么做并不簡單。
舉個栗子，大模型計數問題。
我們知道，由于分詞（tokenization）的原因，大模型不太容易識別單個字母，也不太容易在殘差流里計數。
所以，眾所周知，模型很難識別出「strawberry」里的「r」字母。
Claude的系統提示詞里就加入了一個「快速修復」patch——添加了一段話，大意是：「如果用戶讓你數字母，你得先用逗號把字母隔開，每隔一個就給一個顯式計數器加一，照這樣做完任務」。
這段話就是「教訓」，它明確地指導模型如何完成計數任務。
但問題在于，這種教訓要如何從智能體的實踐中自發產生，而不是由工程師硬編碼進去？它該如何被泛化？
以及，這些教訓如何隨著時間推移被蒸餾，從而避免讓上下文窗口無限膨脹？
最后，他總結道， RL會帶來更多收益，如果應用得當，它的杠桿效應巨大。
并且，深受「慘痛教訓」（bitter lesson）理論的啟發， RL優于監督微調（SFT）。
但它并不是完整的答案，尤其是隨著推演的流程越來越長。
在這之后，還有更多的S型增長曲線等待發現，這些曲線可能專屬于大語言模型，在游戲/機器人這類環境中沒有先例，而這，正是我覺得激動人心的地方。
OpenAI研究科學家Noam Brown對此深表贊同，「確實，未來仍有許多研究工作有待完成」。
AI初創公司聯創Yuchen Jin提出了一個有趣的觀點，全新訓練范式——課程學習，是一個自監督記憶+檢索+反思的反饋循環，無需任何外部獎勵信號。
一位網友很有見地稱，強化學習實際上是暴力試錯的一種方法，并非是明智的策略。

放棄無效RL研究最近，關于強化學習的討論，成為了AI圈的一大熱點。
除了Karpathy本人下場，上周前OpenAI研究員Kevin Lu發長文稱， Transformer只是配角，放棄無效RL研究！
他直言，真正推動AI規模躍遷的技術是互聯網，而非Transformer ，這也是你應該停止RL研究，轉投產品開發的原因。
眾所周知數據才是AI最重要的要素，但研究者們卻往往選擇回避這個領域...
究竟什么才是規模化地做數據？
互聯網提供了天然的數據寶庫：海量且多樣化的數據源、自然形成的學習路徑、反映人類真實需求的能力維度，以及可經濟高效規模化部署的技術特性——
它成為下一個token預測的完美搭檔，構成了AI爆發的原始湯池。
沒有Transformer ，我們本可以用CNN或狀態空間模型達到GPT-4.5的水平。
但自GPT-4之后，基礎模型再未出現突破性進展。
專用推理模型在垂直領域表現優異，卻遠不及2023年3月GPT-4帶來的震撼級跨越（距今已兩年多...）。
RL確實成就斐然，但Kevin Lu對此深切擔憂，研究者會重蹈2015-2020年間RL研究的覆轍——沉迷于無關緊要的學術游戲。
如果說互聯網是監督預訓練的時代搭檔，那么什么才能成為強化學習的「共生體」，催生出GPT-1到GPT-4量級的飛躍？
Kevin Lu認為答案在于：研究-產品協同設計。

參考資料 【Karpathy戳破強化學習神話，首提AI復盤式進化，暴力試錯將死】https://x.com/karpathy/status/1944435412489171119

Karpathy戳破強化學習神話，首提AI復盤式進化，暴力試錯將死

推薦閱讀

黑芝麻餡料怎么做

順風局和逆風局什么意思

ppt能放視頻嗎

男生抽條是什么意思

天貓同意換貨會預留庫存嗎商家同意換貨時有留庫存嗎

微信收不到公眾號的紅包

不是武漢戶口可以在武漢買房嗎

夢見洞房洞房花燭

開齋2021年是哪一天開齋2021年是幾月幾日

鍵盤怎么切換中文輸入法鍵盤如何切換中文輸入法

建成房屋如何挖地下室

麥昆小白鞋黃斑怎么去

保定在哪里捐獻血小板,他又沖回機采室捐獻血小板

公共營養師成績查詢，國家公共營養師好考么公共的和私人的有什么區別

我買了堅果手機，感覺系統好像沒有過度動畫

去盧旺達旅游花多少錢，去迪拜旅游一次要多少錢