卡帕西大模型橫評方法太好玩！四大AI匿名參賽評分，最強出乎意料_長沙|飛行器|物流

文章圖片

文章圖片

文章圖片

文章圖片

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI
卡帕西又來發布趣味編程項目了～
這次直接整了一個“大模型議會”（LLM Council）web app 。
界面看起來和ChatGPT的聊天形式別無二致，但實際上當用戶輸入問題后，系統會通過OpenRouter調起多個大模型開會商議。
有意思的是，它們不僅會一起答題，而且還會互相評分、排序，最終將由主席模型給出一個統一答案。

卡帕西剛把這個應用的安裝部署教程分享出來，就立馬被不少網友碼?。 ?

更有甚者表示，或許以后模型自己評價模型本身就能變成一種新的“自動benchmark”：

暢銷書《Python機器學習》作者也很看好這個思路：

LLM議會怎么玩具體來說，卡帕西的這個LLM議會系統，主要可分為三步流程：
Step 1：讓多個模型同時回答一個問題。
首先使用中間層OpenRouter同時調用多個大模型，包括：
GPT-5.1 Gemini 3 Pro Preview Claude Sonnet 4.5 Grok-4然后在同一問題下逐個收集它們的回復，并以標簽視圖的形式展示，以便用戶進行檢查。
Step 2：所有模型進行匿名互評。
這時，每個LLM都會收到其他LLM的回復。
為避免偏袒，對它們的身份都做了匿名化處理。
然后要求模型根據準確性和洞察力對其他模型的回答質量進行評估，需要給出評分和詳細理由。

Step 3：主席模型匯總最終回答。
LLM委員會將指定一名主席，將所有模型的回復匯總，并形成一個最終的答案，再轉交給用戶。
于是通過這個過程，就能直接對比不同模型，在處理同一個問題時的風格差異，而且能夠直觀地看到模型之間互相評價的過程。
這套系統，其實是延續了卡帕西最近分享的用LLM分階段深度閱讀的項目。

PS：在GitHub上也收獲了1.8k Stars 。

該項目將傳統的閱讀流程重塑為與LLM協作的流程，通常閱讀一篇文章內容也分為三個階段：
1、先人工自己通讀一次，獲得整體感知和直覺理解。 2、然后將內容交給大模型處理，讓它理解重難點、提取結構、總結內容等。 3、對文章細節進行深度追問，例如“為什么作者這里會這樣寫？”
最終就是將寫作對象從人類讀者轉變為LLM讀者，讓LLM作為中介理解內容，再個性化翻譯給不同的讀者聽。
當將大模型議會融入其中后，大模型們的商議結果也很有意思。
卡帕西發現，大模型一致認為最強、最有洞見的答案來自GPT-5.1 ，而Claude被公認為最弱， Gemini 3和Grok-4則排名位于中間。

但顯然他對這個答案并不認同，在卡帕西的個人主觀評價中， GPT-5.1內容豐富但是結構不夠緊湊；Gemini 3答案更簡潔凝練、信息處理得更好；而Claude答案過于簡略。
此外，令人出乎意料的是，模型幾乎很少出現明顯的偏見，它們通常會愿意承認自己的答案不如另一個模型好。
總的來說，卡帕西認為雖然模型內部自評不一定與人類主觀一致，但類似的多模型集成或許將成為一個巨大的可探索空間，甚至可能成為未來LLM產品的一個突破點。
參考鏈接：[1
https://x.com/karpathy/status/1992381094667411768?s=20[2
https://github.com/karpathy/llm-council[3
https://x.com/karpathy/status/1990577951671509438
— 完 —
量子位 QbitAI
【卡帕西大模型橫評方法太好玩！四大AI匿名參賽評分，最強出乎意料】關注我們，第一時間獲知前沿科技動態

卡帕西大模型橫評方法太好玩！四大AI匿名參賽評分，最強出乎意料

推薦閱讀

古劍奇譚系列主角實力排名及個人分析三代主角誰最強

拘役和有期徒刑的區別

如何評價花樣滑冰運動員張昊

如何查詢手機wifi密碼手機wifi密碼如何查看

腈綸面料童裝耐曬嗎

懶人提拉米蘇蛋糕的做法

如何做檸檬素

孕婦能吃苦瓜嗎孕婦能吃苦瓜嗎

11月5日：江民播報--謹防QQ大盜竊取QQ隱私

什么梯形叫做等腰梯形

死神有什么網頁游戲,火影和死神的網頁游戲手機版

人妖犯了罪，該關進男監獄還是女監獄

木頭上油用什么油，木頭表面打磨用什么工具好

辛集招聘，辛集哪些地方招工

公路邊的芒果可以吃嗎

52歲的斯琴格日樂無夫無子斯琴格日樂老公