6小時復刻AI IMO金牌成果,螞蟻多智能體新進展已開源

6小時復刻AI IMO金牌成果,螞蟻多智能體新進展已開源

文章圖片


AWorld項目團隊 投稿
量子位 | 公眾號 QbitAI
2025年的IMO , 好戲不斷 。
7月19日 , 全世界頂尖大模型在2025年的IMO賽場上幾乎全軍覆沒 。 時隔1天 , OpenAI、DeepMind等頂尖實驗室就在IMO 2025賽場斬獲5/6題 , 震驚數學圈 。
有意思的是 , 7月23日——兩位來自Harvard和UCLA的學生 , 用Gemini 2.5 Pro+自研多輪驗證框架 , 在arXiv扔下一篇論文 , 首次系統性拆解了「解題+驗證」的IMO解題方法論 。 48小時后 , 他們開源了完整代碼 。
來自螞蟻的多智能體框架AWorld項目團隊也加入了這場卷王之爭:
7月24日啟動 , 僅僅6小時 , 采用AWorld智能體框架 , 復現并開源了DeepMind的5/6道解題結果 , 并直接給出了可一鍵運行的多智能體IMO系統 。

果然 , 大家好奇的點還是跟傳統長思維鏈LangChain等框架有什么不一樣 。 作者給出的回復 , 核心就是一個詞 , 自我進化 。 即 , 多智能體能夠超越單個智能體 , 能夠用于復雜問題協同 , 以及強化學習的獎勵模型等 , 最終實現AGI 。

IMO 2025 , 把復雜推理模型推向了一種新的高度(盡管還處在實驗室階段 , 但DeepMind透露會對外) 。
不過 , 能解IMO級別數學題的超級單智能體實屬稀有 。 AWorld的實驗也首次用工程系統證明:多智能體協同的智力上限 , 有可能超越其依賴的單個模型 。
單模的「不可能三角」:為什么必須上多智能體?單個裸模型 , 包括Gemini 2.5 pro , 幾乎無法一次推理答對IMO賽題:level 1的第1 , 第4題在小概率下一次推理能答對(背景:IMO包括六道競賽題目 , 分為兩天進行 , 參賽者每天需完成3道題目 , 因此第一題難度相對較低) , 但是其余4題 , 一定需要多智能體協同才能完成 , 這揭露了一個殘酷現實:IMO級問題=單模的不可達之地 。
【6小時復刻AI IMO金牌成果,螞蟻多智能體新進展已開源】AWorld的實測數據更扎心:
單模嘗試第3題:連續10次推理全部失敗 。 多智能體協同:通過「解題者+驗證者」雙角色對話 , 第3題在第5輪迭代就生成了完整的解答 。 “多智能體協同的智力上限 , 有可能超越其依賴的單個模型”的本質是什么呢?為此 , AWorld團隊嘗試提出了幾種解釋視角:
構建最優輸入:從“好問題”到“完美上下文”多智能體協同的核心優勢在于它能動態地構造出一個遠超初始提問的、高質量的輸入信息 。
基本原理(y = f(x)):我們可以將大模型視為一個固定的函數f , 其輸出y的質量完全取決于輸入x的質量 。
初始輸入的局限:對于如IMO競賽題這類復雜任務 , 最初的提問(x_0)信息稀疏 , 缺乏足夠的引導“腳手架” 。 這使得模型難以在其龐大的能力空間中 , 僅憑一次嘗試就找到通往正確答案的路徑 。
協同的價值:多智能體系統并非提升模型f本身 , 而是設計了一個“智能流程”:通過生成和整合中間思想(如解題草稿、批判性反饋、改進建議) , 共同構建出一個信息極其豐富的“超級上下文” 。 這最終解鎖了模型早已具備、但通過簡單提問難以觸達的深層能力 。
實現“元認知”:為系統外掛一個“反思模塊”元認知 , 即“關于思考的思考” , 是高級智能的核心標志 。 它包括自我監控、自我評估和自我修正的能力 。 單個LLM本身不具備真正的元認知 , 但可以通過角色定義(Role-Play)來執行元認知功能 。
它不解決問題 , 而是評估解決方案的合理性、尋找邏輯漏洞、提出改進建議 , 從而避免了單模型容易陷入的思維定式和錯誤 。
通過交互降低“信息熵”(Reducing Information Entropy)一個復雜的IMO問題 , 其解空間的不確定性(信息熵)非常高 。 每一次有效的多智能體交互都在為系統提供新的約束 , 從而降低這種不確定性 。
例如 , 審閱者指出“你的第一步假設A是無證據的” , 這個反饋極大地減少了后續需要探索的可能性 , 使計算資源能更集中地探索更有希望的路徑 , 從而顯著提升了求解的效率和準確性 。
綜上 , 多智能體協同的優越性源于其智能化的流程 , 而非個體能力的提升 。 該流程通過協作分解與迭代修正 , 能有效解鎖基礎模型的深層潛力 , 最終涌現出超越個體能力之和的系統級智能 。
AWorld的「六小時魔法」:把論文變成可運行系統面對地獄級難度的IMO , 相比模型頂流拿下成績秀肌肉 , 能夠復現的解題過程可能更加有利于技術的演進 , 所以我們更希望看到有一些開源的工作 。 AWorld的復現方式 , 提供了一些思路:
核心結構:采用了”做題家”和”驗證者”的雙智能體對話機制 , 兩者均依賴于相同的基礎模型(如Gemini 2.5 pro)來構建 。 其中 , 做題家負責生成數學解答 , 驗證者扮演IMO考官角色進行嚴格驗證 , 兩者通過多輪對話迭代優化解答質量 。 核心要素:設計了完整的對話循環機制 , 包括自動檢測終止條件、最終答案、記錄完整對話歷史 , 以及基于驗證者反饋的解答重構策略 , 有效挖掘了基礎模型的潛在能力 。 身份設定與上下文工程:做題家采用嚴格的數學證明格式要求 , 驗證者則具備詳細的錯誤分類體系和標準化的驗證流程 , 這種專業化的角色分工顯著提升了問題解決的質量和準確性 。目前 , AWorld在著名的GAIA Test榜單(即通過增加工具支持、更高效的提示、接入搜索等手段獲得增強能力的新一代大語言模型的基準)上達到了77.08分 , 在所有署名的智能體中排名第三 , 在所有開源工作中排名第一 。
為多智能體協同而生作為一個為構建生產級、可擴展多智能體系統而設計的下一代框架 , AWorld核心優勢是采用事件驅動的群體智能架構 , 徹底超越了傳統LangChain等框架的局限 。
智能體之間通過事件總線進行異步通信與協作 , 而非簡單的順序調用 。 這使得復雜的實時交互成為可能 。
強大的工具與模型生態
模型即插即用:通過統一接口 , 可在30秒內輕松切換OpenAI、Gemini、Claude等任意大語言模型 , 方便對比測試與成本優化 。 MCP協議支持:將MCP作為核心能力 , 允許智能體將其他模型或智能體作為工具調用 , 極大拓展了能力邊界 。 所有工具均在安全沙箱中執行 , 保障企業級安全 。生產級的穩健性與可觀測性
全鏈路可觀測性:提供覆蓋智能體決策、工具調用全過程的追蹤、指標與日志 , 讓復雜的系統行為清晰透明 , 易于調試 。 精密的上下文與內存管理:支持長短期記憶和復雜編排 , 確保智能體在執行長周期任務時能保持狀態、不“失憶” 。支持模型持續進化的學習閉環
開放訓練接口:AWorld不僅是執行框架 , 更是進化平臺 。 它提供開放接口 , 可與主流訓練框架結合 , 利用智能體在真實任務中產生的交互數據對底層模型進行訓練 。 實現智能體自我進化:通過“數據-訓練-部署”的閉環 , 讓智能體在特定領域變得越來越“聰明” , 構建真正的專家智能體系統 。 如何體驗「IMO級多智能體」?3步運行(詳見README.md):
一鍵準備環境進入項目目錄AWorld/examples/imo , 然后直接運行腳本./setup_env.sh 。 自動創建獨立的Conda環境并安裝所有必需的依賴 。
配置API密鑰復制模板文件cp.env_template.env , 然后編輯新生成的.env文件 , 填入你自己的大模型API密鑰(LLM_API_KEY)、模型名稱(LLM_MODEL_NAME)和接口地址(LLM_BASE_URL) 。
激活環境并運行首先激活環境 , 然后執行主程序來解決指定的數學問題 , 例如運行python run.py —q imo4來解決IMO2025第4題 。
寫在最后:IMO只是開始AWorld的復現實驗 , 拋出了一個激進結論:當前多智能體系統的數學能力 , 已超越99%人類選手(雖然測試集有限) 。
當單模在IMO折戟時 , 多智能體系統已經證明:AI的智能上限 , 可能不只在于模型有多大 , 更在于我們如何組織它們工作 。
多智能體協作 , 可能是一條通往更高群體智能的有效路徑 。 更震撼的是未來潛力:這套系統正在作為reward model訓練下一代模型——用多智能體生成的「高階推理軌跡」作為訓練數據 , 相當于讓模型從IMO金牌選手的草稿紙里學習 。
下一站 , AWorld團隊透露正在測試「多智能體+形式化驗證」組合 , 目標直指Lean4形式化證明 。
IMO 2026 , 可能將是人類最后一次有機會戰勝AI的數學競賽 。

Gemini 2.5 Pro+:論文地址:https://arxiv.org/pdf/2507.15855
AWorld:GitHub:https://github.com/inclusionAI/AWorld
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀