
文章圖片

文章圖片

文章圖片

文章圖片
鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
卡帕西又來發布趣味編程項目了~
這次直接整了一個“大模型議會”(LLM Council)web app 。
界面看起來和ChatGPT的聊天形式別無二致 , 但實際上當用戶輸入問題后 , 系統會通過OpenRouter調起多個大模型開會商議 。
有意思的是 , 它們不僅會一起答題 , 而且還會互相評分、排序 , 最終將由主席模型給出一個統一答案 。
卡帕西剛把這個應用的安裝部署教程分享出來 , 就立馬被不少網友碼?。 ?
更有甚者表示 , 或許以后模型自己評價模型本身就能變成一種新的“自動benchmark”:
暢銷書《Python機器學習》作者也很看好這個思路:
LLM議會怎么玩具體來說 , 卡帕西的這個LLM議會系統 , 主要可分為三步流程:
Step 1:讓多個模型同時回答一個問題 。
首先使用中間層OpenRouter同時調用多個大模型 , 包括:
GPT-5.1 Gemini 3 Pro Preview Claude Sonnet 4.5 Grok-4然后在同一問題下逐個收集它們的回復 , 并以標簽視圖的形式展示 , 以便用戶進行檢查 。
Step 2:所有模型進行匿名互評 。
這時 , 每個LLM都會收到其他LLM的回復 。
為避免偏袒 , 對它們的身份都做了匿名化處理 。
然后要求模型根據準確性和洞察力對其他模型的回答質量進行評估 , 需要給出評分和詳細理由 。
Step 3:主席模型匯總最終回答 。
LLM委員會將指定一名主席 , 將所有模型的回復匯總 , 并形成一個最終的答案 , 再轉交給用戶 。
于是通過這個過程 , 就能直接對比不同模型 , 在處理同一個問題時的風格差異 , 而且能夠直觀地看到模型之間互相評價的過程 。
這套系統 , 其實是延續了卡帕西最近分享的用LLM分階段深度閱讀的項目 。
PS:在GitHub上也收獲了1.8k Stars 。
該項目將傳統的閱讀流程重塑為與LLM協作的流程 , 通常閱讀一篇文章內容也分為三個階段:
1、先人工自己通讀一次 , 獲得整體感知和直覺理解 。 2、然后將內容交給大模型處理 , 讓它理解重難點、提取結構、總結內容等 。 3、對文章細節進行深度追問 , 例如“為什么作者這里會這樣寫?”
最終就是將寫作對象從人類讀者轉變為LLM讀者 , 讓LLM作為中介理解內容 , 再個性化翻譯給不同的讀者聽 。
當將大模型議會融入其中后 , 大模型們的商議結果也很有意思 。
卡帕西發現 , 大模型一致認為最強、最有洞見的答案來自GPT-5.1 , 而Claude被公認為最弱 , Gemini 3和Grok-4則排名位于中間 。
但顯然他對這個答案并不認同 , 在卡帕西的個人主觀評價中 , GPT-5.1內容豐富但是結構不夠緊湊;Gemini 3答案更簡潔凝練、信息處理得更好;而Claude答案過于簡略 。
此外 , 令人出乎意料的是 , 模型幾乎很少出現明顯的偏見 , 它們通常會愿意承認自己的答案不如另一個模型好 。
總的來說 , 卡帕西認為雖然模型內部自評不一定與人類主觀一致 , 但類似的多模型集成或許將成為一個巨大的可探索空間 , 甚至可能成為未來LLM產品的一個突破點 。
參考鏈接:[1
https://x.com/karpathy/status/1992381094667411768?s=20[2
https://github.com/karpathy/llm-council[3
https://x.com/karpathy/status/1990577951671509438
— 完 —
量子位 QbitAI
【卡帕西大模型橫評方法太好玩!四大AI匿名參賽評分,最強出乎意料】關注我們 , 第一時間獲知前沿科技動態
推薦閱讀
- 大模型瘦身術:上交大團隊創新異構計算,實現GPU計算零等待
- AI安全新漏洞:一首詩就能攻破頂級大模型?
- 毫無預兆的,Gartner給大模型開發平臺排了座次
- 首發驍龍 8 Gen5 + 8400mAh,這新機有點東西!
- 火山引擎多媒體實驗室提出VQ-Insight,AIGC視頻畫質理解大模型
- DTS框架讓大模型推理準確率提升6%,推理長度縮短23%
- 第三方電容筆推薦評測:京東京造,西圣,吉瑪仕三大知名電容筆PK
- 適配大模型訓練,華為245TB SSD讓“存儲即算力”成為現實
- Gartner首次發布大模型報告:火山引擎排名中國廠商第一
- 平替電容筆哪款值得入手?西圣、wiwu、倍思三款熱門產品實測對比
