卡帕西：強化學習很糟糕，但其他所有方法都更糟_中國移動全球合作伙伴大會

文章圖片

文章圖片

文章圖片

文章圖片

時令發自凹非寺
量子位 | 公眾號 QbitAI
卡帕西大神的最新專訪來了！
作為特斯拉前AI總監、OpenAI創始成員，卡帕西在近兩個半小時的訪談中，深入回答了一系列引人深思的問題：
為何強化學習表現糟糕（但其他方法更糟糕）？為何通用人工智能會延續2%的GDP增長率？為何自動駕駛技術歷經漫長攻堅期？
解答問題之余，由于卡帕西早已宣布全職搞教育，那不得不提的還有他對未來教育發展的見解。
網友表示：知識點實在太密集了，卡帕西訪談的兩個小時等于別人的四個小時。

干貨要來了，請系好安全帶，別被轟暈了！
AGI起碼還要十年訪談一開始，主持人就先對卡帕西提出了一個人令許多人都很好奇的問題：
為什么說未來將是“智能體的十年” ，而不是“智能體的一年”？
卡帕西解答道，現在確實有一些非常早期的智能體，比如他每天都在使用的Claude、Codex等，它們已經展現出令人驚嘆的能力。
但不可否認的是，這些系統還需要不斷進化，最終達到理想狀態，而十年正是實現這一蛻變所需要的時間跨度。
那這個時間節點為什么是十年呢？
卡帕西接著舉了個例子，他認為，當智能體能夠像員工或實習生一樣與人協作時，才是它真正發揮作用的時候。
顯然，目前智能體還做不到這樣。那么，為了讓它們做到，需要什么條件呢？為什么人們今天還沒用它們來做呢？
原因很簡單，就是現有系統尚未成熟。智能水平尚未達標、多模態能力存在局限、也缺乏操作計算機完成復雜任務的能力。

此外，它們也沒有持續學習能力——你無法通過單次告知就讓系統永久掌握知識。在認知架構層面仍存在顯著缺陷，導致現有方案完全不可行。
憑借卡帕西15年做AI的經驗，要系統性解決這些難題，大約還需要十年。
LLM認知缺陷之后，卡帕西還講了自己構建代碼倉庫的一些事情。
他認為目前人們與代碼交互的方式主要有三類：
完全拒絕所有大語言模型（LLM），堅持手動編寫所有代碼。中間派系（也是卡帕西所屬的陣營）仍然會親自編寫大量代碼，但會利用現有的自動補全功能。氛圍編程，直接輸入“請實現某某功能” ，然后讓模型完成。卡帕西承認，現有的智能體在做模塊化代碼方面確實很有效，但他做的NanoChat是一個很獨特的倉庫，幾乎每行都需要深度思考，所有細節都必須精確安排。

然而，現有的模型存在太多認知缺陷。由于它們在訓練中吸收了網絡上常見的編程范式，所以它們總是無法突破思維定勢，執意要將代碼改造成生產級標準。
但卡帕西的代碼本身已包含若干假設，根本不需要那些冗余內容。它們不僅膨脹了代碼庫規模，增加了復雜度，還頻繁使用已棄用的API ，最終搞得一團糟。
總的來說，卡帕西認為現在的模型還沒有達到理想狀態，業界對它們的能力有些過度夸大，其實它們仍需要大量改進。
強化學習很糟糕接著，主持人聊到了現在大火的強化學習。
卡帕西表示：
強化學習遠比普通人想象的還要糟糕，它確實很差，但其他方法更差。
以解數學題為例，在強化學習中，你會首先生成大量嘗試方案：針對同一問題產出數百種解法，可能涉及不同思路的探索與調整，最終某個答案恰好正確。
這時強化學習的做法是：對最終正確的解題路徑上的每個步驟都進行權重強化，仿佛在說“請多做這類操作” 。
但問題在于這種做法充滿噪聲。它默認正確解法的每個環節都完美無缺，但現實中人們常會繞彎路，只是最終誤打誤撞找到答案。只要結果正確，所有錯誤步驟反而都被強化了——這顯然不合理。
人們投入大量計算資源，最終僅獲得“正確/錯誤”的二元判斷，并據此對整個軌跡進行加權，卡帕西認為， “這實在荒謬” 。

真正的人類絕不會這么干。第一，人類不會做數百次嘗試；第二，當人類找到答案時，會進行復雜的復盤：“哪些做得好，哪些沒做好” 。他們會思考，而當前LLM完全沒有這種機制。
以閱讀為例，當LLM“閱讀”時，只是在做下一個詞預測并從中獲取知識。但人類閱讀時，書本更像是激發思考的提示集——人們會通過信息重組來內化知識。
對此，卡帕西期待在預訓練階段加入“思考消化”環節，讓模型能真正整合新信息與既有認知。
AGI將延續2%的GDP增長趨勢接著，主持人還提到了衡量AGI的標尺，以教育水平為例， AGI是從高中生水平通過強化學習達到大學生水平，最終取得博士學位。
卡帕西可不認同上述標準，他認同的是OpenAI初創時對AGI的定義：能完成任何具有經濟價值任務且達到或超越人類水平的系統。
這就涉及到現有工作被替代的程度，卡帕西認為，即使是如客服中心員工這種更易自動化的職業， AGI也不能瞬間完全替代，而是實現“自主性滑塊”——AI處理80%常規工作，剩下20%留給人類監督。

那如果有AGI替代人類工作，它的并行復制會顯著加速AI進步嗎？會出現智力爆炸嗎？
卡帕西回答道：智力爆炸已經在發生了，通過歷史GDP的指數增長就能體現出來。這是漸進的自動化趨勢：工業革命是物理自動化，早期軟件是數字自動化。
他認為：
這種增長模式大體保持不變。就像互聯網讓我們維持2%的增長一樣， AGI也只是延續這種模式，不會突然產生巨大的跳躍。
自動駕駛為何耗時如此之長主持人還提到了卡帕西在特斯拉的經歷，問道：“你曾在2017年到2022年領導特斯拉自動駕駛項目，為什么這個項目耗時如此之長？”
首先，卡帕西澄清了一點：自動駕駛還遠未完成。
對于某些任務或工作來說，演示到產品的差距非常大。演示可能很容易，但做成真正的產品非常難。自動駕駛尤其如此，因為失敗代價太高。
軟件工程也有類似特性。比如普通編程可能沒那么嚴格，但如果你寫的是生產級代碼，任何小錯誤都可能導致安全漏洞，泄露數百萬人的個人信息。
自動駕駛如果出錯可能有人受傷，但軟件出錯可能帶來的后果幾乎是無限的。
其中的關鍵在于所謂的“9的進度” 。每增加一位9（比如從90%到99%的可靠性），都需要大量工作。卡帕西在特斯拉的五年里，他們可能達到了三位或兩位9 ，但還有更多9等著去完成。
畢竟真正的產品要面對現實中的各種挑戰，需要不斷修補各種邊緣情況。
教育的未來最后，卡帕西作為一名全職教育家，不得不提的還有教育。
卡帕西表示：
我們在嘗試建立一所技術知識方面的頂尖學府，一所非常現代化、領先的學校。我想做的是一種真正的“導師體驗” 。

以他學韓語為例，一開始是自學，然后加入韓國的一個小班，和十來個學生一起上課。后來他換成了一對一導師。他發現這位導師的教學非常棒，可以迅速判斷他的知識水平，提出合適的問題來理解他的認知模型。
目前，即使是優秀的LLM也做不到這一點，但好的導師可以做到。一旦導師了解自己，就能提供給學生最需要的知識——適度的挑戰，既不太難也不太簡單。
此外，卡帕西還想做一門非常優秀的課程，讓學生學習AI時能有頂尖的體驗。這個課程就是LLM101N ， Nanochat是其中的經典項目。之后他還需要構建中間內容，招募助教團隊，完善整門課程。
最后的最后，有的網友也是狠狠附議了卡帕西訪談中的一些觀點。
比如LLM的“健忘癥” 。

但有的人也表示：
完全不同意，現在的編碼智能體已經很可靠了。

【卡帕西：強化學習很糟糕，但其他所有方法都更糟】對此，你怎么看呢？歡迎在評論區分享你的觀點～
參考鏈接：https://www.dwarkesh.com/p/andrej-karpathy
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們，第一時間獲知前沿科技動態

卡帕西：強化學習很糟糕，但其他所有方法都更糟

推薦閱讀

北京冬奧會2月16日賽程北京冬奧會賽程安排表2.16

熱水器插頭壞了怎么換

山姆可以線上退卡嗎山姆退卡規則流程退卡退錢嗎

upsoab衣服是什么牌子 upsoab是什么品牌

推薦以下3大方法 qq空間怎樣升級為公眾空間

海邊挖花蛤技巧

騎馬與砍殺秘籍

如何清除杯子上貼紙的痕跡視頻如何清除杯子上貼紙的痕跡

卡西歐是哪個國家的卡西歐是哪個國家的品牌

許昌旅游攻略

風云競技是什么，上海風云電競館的介紹

航天服有多重

宏基筆記本售后服務電話，宏基筆記本電腦為什么關不了機也不能重啟是怎么回事

抽脂為什么要穿塑身衣

怎樣腌臘豬腳農家怎么腌制臘豬腳

教你注冊家長通的步驟講解。