卡帕西大模型橫評方法太好玩!四大AI匿名參賽評分,最強出乎意料

卡帕西大模型橫評方法太好玩!四大AI匿名參賽評分,最強出乎意料

文章圖片

卡帕西大模型橫評方法太好玩!四大AI匿名參賽評分,最強出乎意料

文章圖片

卡帕西大模型橫評方法太好玩!四大AI匿名參賽評分,最強出乎意料

文章圖片

卡帕西大模型橫評方法太好玩!四大AI匿名參賽評分,最強出乎意料

文章圖片


鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
卡帕西又來發布趣味編程項目了~
這次直接整了一個“大模型議會”(LLM Council)web app 。
界面看起來和ChatGPT的聊天形式別無二致 , 但實際上當用戶輸入問題后 , 系統會通過OpenRouter調起多個大模型開會商議 。
有意思的是 , 它們不僅會一起答題 , 而且還會互相評分、排序 , 最終將由主席模型給出一個統一答案 。

卡帕西剛把這個應用的安裝部署教程分享出來 , 就立馬被不少網友碼?。 ?

更有甚者表示 , 或許以后模型自己評價模型本身就能變成一種新的“自動benchmark”:

暢銷書《Python機器學習》作者也很看好這個思路:

LLM議會怎么玩具體來說 , 卡帕西的這個LLM議會系統 , 主要可分為三步流程:
Step 1:讓多個模型同時回答一個問題 。
首先使用中間層OpenRouter同時調用多個大模型 , 包括:
GPT-5.1 Gemini 3 Pro Preview Claude Sonnet 4.5 Grok-4然后在同一問題下逐個收集它們的回復 , 并以標簽視圖的形式展示 , 以便用戶進行檢查 。
Step 2:所有模型進行匿名互評 。
這時 , 每個LLM都會收到其他LLM的回復 。
為避免偏袒 , 對它們的身份都做了匿名化處理 。
然后要求模型根據準確性和洞察力對其他模型的回答質量進行評估 , 需要給出評分和詳細理由 。

Step 3:主席模型匯總最終回答 。
LLM委員會將指定一名主席 , 將所有模型的回復匯總 , 并形成一個最終的答案 , 再轉交給用戶 。
于是通過這個過程 , 就能直接對比不同模型 , 在處理同一個問題時的風格差異 , 而且能夠直觀地看到模型之間互相評價的過程 。
這套系統 , 其實是延續了卡帕西最近分享的用LLM分階段深度閱讀的項目 。

PS:在GitHub上也收獲了1.8k Stars 。

該項目將傳統的閱讀流程重塑為與LLM協作的流程 , 通常閱讀一篇文章內容也分為三個階段:
1、先人工自己通讀一次 , 獲得整體感知和直覺理解 。 2、然后將內容交給大模型處理 , 讓它理解重難點、提取結構、總結內容等 。 3、對文章細節進行深度追問 , 例如“為什么作者這里會這樣寫?”
最終就是將寫作對象從人類讀者轉變為LLM讀者 , 讓LLM作為中介理解內容 , 再個性化翻譯給不同的讀者聽 。
當將大模型議會融入其中后 , 大模型們的商議結果也很有意思 。
卡帕西發現 , 大模型一致認為最強、最有洞見的答案來自GPT-5.1 , 而Claude被公認為最弱 , Gemini 3和Grok-4則排名位于中間 。

但顯然他對這個答案并不認同 , 在卡帕西的個人主觀評價中 , GPT-5.1內容豐富但是結構不夠緊湊;Gemini 3答案更簡潔凝練、信息處理得更好;而Claude答案過于簡略 。
此外 , 令人出乎意料的是 , 模型幾乎很少出現明顯的偏見 , 它們通常會愿意承認自己的答案不如另一個模型好 。
總的來說 , 卡帕西認為雖然模型內部自評不一定與人類主觀一致 , 但類似的多模型集成或許將成為一個巨大的可探索空間 , 甚至可能成為未來LLM產品的一個突破點 。
參考鏈接:[1
https://x.com/karpathy/status/1992381094667411768?s=20[2
https://github.com/karpathy/llm-council[3
https://x.com/karpathy/status/1990577951671509438
— 完 —
量子位 QbitAI
【卡帕西大模型橫評方法太好玩!四大AI匿名參賽評分,最強出乎意料】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀