無需外部數據！AI自問自答實現推理能力進化_加州大學伯克利分校|卡內基梅

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

時令發自凹非寺
量子位 | 公眾號 QbitAI
AI通過自問自答就能提升推理能力？！
這正是卡內基梅隆大學團隊提出的新框架SQLM——一種無需外部數據的自我提問模型。

該框架包含提問者（proposer）和解答者（solver）兩個角色，提問者生成與給定主題相關的問題，解答者旨在解決問題。
網友們神評， “簡直是帶有RL的GAN” 。

值得一提的是，此團隊中又雙現華人身影～
通過強化學習最大化期望獎勵當前大語言模型的訓練很大程度上仍依賴人工整理數據集，堪稱費時費力。
為了減輕這一負擔，研究人員開發了用于強化學習的無監督獎勵函數。然而，這些函數仍然依賴于預先提供的高質量輸入提示。
因此，問題的難點從“生成答案”轉移到了“生成高質量問題” 。
這凸顯出當前方法的一個關鍵不足：
缺乏一種可擴展且自我維持的流程，能夠在無人干預的情況下自動生成有意義的問題和答案。

為此，研究者提出了SQLM框架
，一種非對稱的自我博弈框架，其中提問者

，解答者

回答該問題，兩者均通過強化學習進行訓練，以最大化期望獎勵。

其中，提問者生成問題會對解答者形成條件影響，而解答者的表現又反過來為提問者提供獎勵，從而不斷優化提問者。
由于缺乏真實答案，研究者設計了基于“生成者–驗證者差距”的自監督獎勵函數。
若生成器-驗證器差距?。 ɡ縊閌侍猓?，則采用多數投票作為代理獎勵。

若生成器-驗證器差距大（例如編程問題），先由提問者生成測試用例，獎勵則基于通過測試的比例。

這種極小極大式的訓練框架通過自博弈實現了穩定訓練，并使獎勵機制能夠針對具體問題進行自適應調整。
為了評估模型的不同能力，研究者進行了三部分任務，并使用Qwen2.5-3B-Instruct運行實驗。
算術任務
研究人員讓提問者生成一個三位數的算數問題，并將其作為解答器的輸入。他們按照TinyZero的設置，構建了一組包含4096個三位數乘法問題的測試集。
代數任務
研究者讓模型生成最多包含兩個變量的線性方程，并在OMEGA基準中的100道線性方程測試題上進行評估。
編程問題
他們讓模型生成類似LeetCode中簡單題的問題，輸入為整數列表，輸出為單個整數或另一個列表，并在Codeforces測試集的一個子集上進行評估。

實驗結果顯示， SQLM將Qwen2.5-3B-Instruct在算術任務上的準確率提高了14% ，在代數任務上提高了16%；在編程任務上的準確率提高了7% 。
此外，上表還顯示出SQLM顯著優于格式獎勵基線（用于穩定訓練和規范輸出格式的參考值），表明推理能力的真正提升。
團隊介紹
Lili Chen ，本科畢業于加州大學伯克利分校，現博士就讀于卡內基梅隆大學。

Katerina Fragkiadaki ，卡內基梅隆大學機器學習系計算機科學副教授，博士畢業于賓夕法尼亞大，曾在加州大學伯克利分校擔任博士后研究員，并于谷歌研究院工作。

Hao Liu ，博士畢業于加州大學伯克利分校，曾任谷歌DeepMind研究員，即將出任卡內基梅隆大學機器學習系的助理教授。

Deepak Pathak ， Skild AI創始人，本科就讀于印度理工學院坎普爾分校，博士畢業于加州大學伯克利分校，曾在Meta擔任了一年的研究員，現任卡內基梅隆大學計算機科學學院的助理教授。
參考鏈接：[1
https://x.com/iScienceLuvr/status/1953052817012474353[2
https://arxiv.org/abs/2508.03682
— 完 —
量子位 QbitAI · 頭條號簽約
【無需外部數據！AI自問自答實現推理能力進化】關注我們，第一時間獲知前沿科技動態

無需外部數據！AI自問自答實現推理能力進化

推薦閱讀

FreeBSD命令 lastcomm介紹 3.實際操作

oppor17pro將聯系人找回詳細操作步驟

beats無線耳機使用教程

怎樣腌制脆雞胗?

日產Qashqai是什么車

漳州是廈門的嗎漳州屬于哪個省

婚姻期間房產怎么更名

電視監控怎么調出來看，電視監控怎么調出來看視頻

孩子必須跟父母姓嗎

惠秦保參保入口在哪里

濕疹在家里怎么解癢濕疹怎么在家治好的快些

內蒙古師范大學鴻德學院，急救湖南師范大學樹達學院與湖南農業大學東方科技學院哪個比

海馬玩模擬器安裝本地apk的操作步驟。

葡萄長時間保存有訣竅

新手機揚聲器無聲音

oppo最高端手機是哪款，OPPO現在最高配置的手機是哪款