硬剛OpenAI!中國團隊殺入Agentic AI全球前二,一戰封神

硬剛OpenAI!中國團隊殺入Agentic AI全球前二,一戰封神

文章圖片

硬剛OpenAI!中國團隊殺入Agentic AI全球前二,一戰封神

文章圖片

硬剛OpenAI!中國團隊殺入Agentic AI全球前二,一戰封神
編輯:犀牛
【新智元導讀】Feeling AI憑借CodeBrain-1在權威榜單Terminal-Bench 2.0中強勢突圍 , 僅次于OpenAI最新旗艦 , 位居全球第二 。 不僅打破了美系巨頭的絕對壟斷 , 更標志著中國AI在Agentic AI(智能體)復雜任務規劃與自主編碼領域的工程化能力已達到世界頂尖水平 。


在中國農歷春節的前夜 , 全球科技界的空氣中不僅彌漫著辭舊迎新的氣息 , 更夾雜著一股前所未有的硝煙味 。
Anthropic祭出了Claude Opus 4.6 , OpenAI則以GPT-5.3-Codex強勢回應 。
雙方在技術之巔的對決看似是老生常談的「王座之爭」 , 但在平靜的水面之下 , 競爭的底層邏輯已然悄然改寫 。
全球大模型競賽已正式從實驗室里的「參數博弈」突變為殘酷的「實戰進化」 。
這一次 , 巨頭們不再沉迷于跑分數據的虛幻繁榮 , 而是將目光死死鎖定了架構的嚴謹性與自主工作流的長效續航——
能否在真實商業世界中「破局」 , 成為了唯一的度量衡 。
在硬核指標的正面交鋒中 , OpenAI和Anthropic兩家巨頭均選擇Terminal-Bench 2.0作為實力背書:Opus 4.6在Agentic Terminal Coding Task上以 65.4%的勝率展現了卓越的智能體編碼能力;而Sam Altman憑借5.3-Codex+ Simple Codex的組合創下的 77.3%(75.1%)高分 , 宣稱其登頂全球編碼性能之巔 。
正如NVIDIA首席科學家Jim Fan所言:真實的終端環境是AI的「魔鬼訓練場」 。
在閉環環境中自我進化 , 已成為衡量模型工程能力的終極標尺 。
令人振奮的是 , 在這一權威賽道上 , 中國的AI初創團隊Feeling AI異軍突起——其自研的CodeBrain-1在GPT-5.3-Codex底座模型的加持下 , 以 72.9%(70.3%)的驚艷戰績躍升全球榜單第二 , 成為前十強中唯一的中國新銳 。




剛拿下Agentic Memory SOTA
Feeling AI又上大分


5天前 , Feeling AI團隊在深夜發布MemBrain1.0 , LoCoMo / LongMemEval / PersonaMem-v2等多項主流記憶基準評測中拿下全新SOTA , 反超MemOS、Zep和EverMemOS等記憶系統和全上下文模型 。
在KnowMeBench Level III兩個難度等級最高的評測中更是比現有評測結果大幅提升超300% 。
在AI技術圈和資本押注的新風口——Agentic Memory方向先打出了第一張牌 。
強大的記憶能力以及適配模型原生的層級化記憶系統 , 意味著Agentic AI正從模型能力逐步走向用戶體驗層面的范式躍遷 。
緊隨MemBrain 1.0的余熱 , Feeling AI昨晚又打出了第二張牌——CodeBrain 。
作為具備動態規劃與策略調整能力的「進化大腦」 , CodeBrain-1迅速躋身權威基準Terminal-Bench2.0榜單全球第二 , 僅次于OpenAI 5.3-Codex的官配Simple Codex 。
在Feeling AI的官方媒體中 , 其一直在強調動態交互是世界模型通向AGI的終極拼圖 。
【硬剛OpenAI!中國團隊殺入Agentic AI全球前二,一戰封神】其原創的跨模態分層架構提出了三層核心能力——負責理解、記憶與規劃的 InteractBrain , 負責能力執行的 InteractSkill , 以及負責渲染呈現的 InteractRender , 共同構成了其技術護城河 。
目前已經亮劍的MemBrain與CodeBrain 都屬于InteractBrain核心層 , 精準定位在復雜動態交互場景下的深度理解與長程規劃 。
如此看來 , 這兩項在全球拿下極具說服力成績的工作應該并非偶然 , 而是早有布局 。
這也進一步解釋了無論是用于Agentic Memory的MemBrain1.0還是用于確保模型任務規劃和執行成功率的CodeBrain-1 , 其算法核心關注點也集中在服務于在復雜「動態交互」場景下的能力 。
OpenAI在其官網技術博客中明確將Simple Codex 定義為 「針對長程軟件工程任務的最優解」 。
模型和Agent 框架的良好組合也許將成為未來大模型商業落地的標準形態 。
Agentic Memory的記憶能力未來也許會成為Agent 框架的一部分 , 就像是一個外掛的記憶大腦 , 通過系統化的能力讓模型更強 。
一個能駕馭全球頂尖模型的中國框架 , 正是AI時代最核心的智能中樞 。
對頂尖模型的深度驅動能力 , 意味著中國團隊已在 AI 時代的「戰術調度中心」占據高點 , 正在參與定義未來大模型的工程標準 。



CodeBrain-1
會動態調整計劃與策略的「大腦」
在Terminal-Bench官方評測網站的最新排名顯示 , CodeBrain-1僅次于Open AI的Simple Codex(GPT-5.3-Codex) , Factory的Droid使用Anthropic最新基模Claude Opus 4.6排名第三 。
榜單上還有一些大家熟悉的Agent或機構 , 如Warp、Coder、Google、Princeton等 。

(官網截圖)
Terminal Bench覆蓋的任務類型非常廣泛 , 其中既包括復雜的系統操作 , 也包含大量需要在真實終端環境中完成的編碼任務 。
CodeBrain-1的核心關注點 , 是「代碼能否被正確寫出并運行」 。
在技術實現上 , CodeBrain-1 專注打磨了兩個直接影響「能否成功且高效地完成任務」的環節 。

  • Useful Context Searching:只用「真正有用」的上下文 。 在復雜任務中 , 信息不是越多越好 , 而是是否相關 , 減少噪音可以有效避免LLM的幻覺問題CodeBrain-1會根據當前任務需求和已有Code Base索引 , 充分利用LSP (Language Server Protocol) 的功能 , 提高關聯信息的檢索效率 , 有效輔助Code Generation的過程 。 比如當我們需要為一個游戲Bot規劃任務時 , 需要先了解如何使用該Bot的API 。 CodeBrain-1在Coding過程中 , 借助LSP Search準確獲取了move_to(target)、do(action)等相關方法的簽名、文檔和已有Code Base內的使用實例等信息 , 有效降低了關聯信息檢索的損耗和上下文干擾 。
  • Validation Feedback:讓失敗真正變成信息 。 CodeBrain-1可以從LSP Diagnostics當中高效定位 , 并補充錯誤相關的代碼和文檔 , 有效縮減Generate -> Validate的循環過程 。 比如CodeBrain-1編寫的代碼中出現了調用 on(observation exec)(一個定義Bot Reaction的方法)時 , 出現了參數exec類型錯誤的問題 , 這時 , LSP除報錯argument type mismatch之外 , 還會額外提供該方法的caller示例、錯誤參數相關文檔、以及exec這個參數在實現中如何被使用等輔助信息 。
  • 團隊從Terminal Bench中篩選出了一個更聚焦的子集 , 共47條任務 , 均可以使用單一程序語言(Python)完成 。 在這一子集中 , CodeBrain-1也表現出了穩定而一致的完成能力:關聯代碼和文檔檢索更高效;在代碼檢查和驗證失敗時 , 能更快定位問題 。
Rank  Agent                Model                Py Tasks     Coding Tasks   All Tasks   -----------------------------------------------------------------------------------------------1     Simple Codex         GPT-5.3-Codex        73.9%        72.7%          74.9%       2     CodeBrain-1          GPT-5.3-Codex        72.3%        70.2%          70.3%       3     Droid                Claude Opus 4.6      70.2%        66.8%          69.9%       4     Mux                  GPT-5.3-Codex        71.9%        69.2%          68.5%       5     Droid                GPT-5.2              66.0%        61.6%          65.1%       6     Ante                 Gemini 3 Pro         66.8%        62.7%          64.9%       7     Terminus 2           GPT-5.3-Codex        64.7%        61.4%          64.7%       8     Junie CLI            Gemini 3 Flash       68.9%        62.7%          64.3%       9     Droid                Claude Opus 4.5      62.1%        58.3%          63.1%       10    Terminus 2           Claude Opus 4.6      67.2%        63.1%          62.9%此外 , 在Token的消耗方面 , CodeBrain-1也展現出了不俗的表現 , 可持續降低用戶成本 。
對比Anthropic發布的技術文檔 , 當基模均使用claude opus 4.6時 , 使用CodeBrain-1和Claude Code在兩者均成功的Py Tasks子任務上所消耗的總Token大幅縮減了超15% 。
CodeBrain-1在Terminal-Bench 2.0上的強勢表現還不僅僅體現在真實命令行終端(CLI)環境下的端到端任務執行能力 。
更重要的 , 團隊進一步的賦予了它更高階的能力——會動態調整計劃與策略的「大腦」 , 它通過優化任務的執行邏輯和錯誤反饋機制 , 顯著提升了模型在真實終端環境下的操作成功率 。
CodeBrain-1提出了一種不同的解決方式 。 并非讓 AI 直接「隨意發揮」 , 而是反過來調整分工方式 。
CodeBrain-1 負責在這些約束條件內 , 動態生成「智能」所對應的可執行程序 , 并根據實際反饋不斷調整 。
這里的「計劃和策略」既可以作用在個體層面 , 也可以作用在群體層面 。
對個體而言 , 它意味著角色可以根據自身目標、記憶和觀察結果 , 持續調整日程、行為選擇和對他人的態度對群體而言 , 它意味著一個組織可以形成共享記憶 , 并基于外部條件變化 , 調整整體規劃和響應規則 。
為了更直觀地展示CodeBrain-1的能力 , 團隊將它放入游戲場景中 , 作為一種行為與策略生成引擎 。
#Case 1:游戲bot的實時驅動
在一些開放世界游戲中 , 它可以承擔游戲伙伴的角色 。 玩家可以用自然語言表達意圖 , 讓bot執行 。 從理解自然語言中的需求——「幫我建個房子」、「造一把鎬子」 , 到規劃行動方案——「收集資源」、「清理工作環境」、「建造/制作」 , 最終生成并執行完整的行動腳本以實現目標 , 他可以有條不紊地應對任務 , 豐富玩家的游戲體驗 。


#Case 2:群體記憶驅動的戰術演化
在「搜打撤」類游戲中 , 如果玩家長期走一條習慣性路線 , 并被多次觀察到 , 敵對群體可以逐步強化這一「群體記憶」 。
在后續地圖構建與部署階段 , 系統會據此調整整體策略 , 例如:
distribute  in area = { calculate_area_by_player_hotspots   with count = { 70% of total 同時 , 還可以疊加行為表達規則 , 增強沉浸感 , 在熱點區域成功發現玩家時高喊「抓到你了!」或者是在非預期區域遭遇時高喊「預判失誤!」更進一步 , 可以配置簡單的小隊作戰策略 , 比如前排沖鋒 , 后排掩護 。
這類行為并非單點腳本 , 而是由群體策略動態生成的結果 。





為什么AI巨頭都在
Terminal-Bench 2.0 上較量?
Terminal-Bench 是由斯坦福大學與 Laude Institute 聯合打造的開源基準 , 被公認為 AI 智能體在真實命令行(CLI)環境下端到端執行能力的「金標準」 。
與紙上談兵的代碼生成測試不同 , 它的嚴苛在于:
  • 閉環實戰環境: 在隔離的 Docker 容器中 , AI 必須像人類專家一樣 , 在真實的 Linux 生態中完成編譯、調試、訓練及部署 。
  • 高壓長程任務: 89 個深度場景橫跨軟件工程與科學計算 , 不僅要求極高的邏輯跨度 , 更徹底杜絕了簡單的「模式匹配」 。
  • 零容忍驗證: 采用 0/1 判定準則 , 唯有產出符合預期的交付物(如修復的代碼或運行的服務)才算通關 , 沒有任何「模糊分」 。
  • 2.0 的「天花板」效應: 升級后的 2.0 版本大幅拉高了門檻 。 目前全球頂尖模型的解決率普遍難以突破 65% , 這已成為大模型處理系統級復雜任務的「深水區」 。
CodeBrain-1首次亮相便一舉奪得全球第二 , 其含金量不言而喻 。
以GPT系列為例 , 頂尖模型雖具備極強的邏輯推理鏈(Reasoning Chain) , 但常因「過度思考」導致執行鏈路冗長 。
CodeBrain-1并不是一個「更會說話」的AI , 而是一個由Code組成、能夠持續調整計劃與策略的執行型大腦 , 它巧妙地扮演了「調度中樞」與「效率校準器」的角色:它引導模型在常規操作中保持極速響應 , 僅在遭遇關鍵報錯時激活深層思考 。
這種對底座模型的精準駕馭 , 正是拉開商業化落地差距的核心變量 。
魯棒的閉環糾錯(Error Recovery) , 高效的任務分解(Sub-goal Decomposition)和對環境感知的精確理解 , 在AGI的商業版圖中 , 強大的Agent依然是「模型落地的必經之路」 。
它不僅關乎任務分解的精度 , 更關乎在閉環環境中糾錯與生存的韌性 。
Sam Altman在GPT-5.3-Codex發布后的宣言也佐證了這一趨勢:Codex已從單一的代碼審查工具 , 蛻變為能橫跨全生命周期、執行專業人士所有計算機操作的「全能代理」 。
在OpenAI的藍圖中 , 模型與框架正進化為深度綁定的「智能全家桶」 。
即便巨頭環伺 , 垂直行業的深水區依然為優秀的工程框架留下了巨大的商業紅利 。
無論是系統級的Agent框架 , 還是精悍的開發者效能工具 , 這些「離用戶更近」的觸點都潛藏著爆發式增長的可能 。
作為一家中國初創團隊 , Feeling AI能在OpenAI尖端模型發布的瞬間完成深度整合 , 并跑出全球領先的戰績 , 這不僅是工程響應速度的勝利 , 更是中國AI團隊在全球工程化協同中占據制高點的有力證明 。
在Terminal-Bench 2.0這種以「真實環境、長程進化」著稱的硬核賽道上 , 緊隨OpenAI之后摘得全球榜眼 , 其標志性意義不言而喻:中國創業團隊已率先跨越了Agent從「對話玩具」到「生產力工具」的鴻溝 , 在「重塑工作流」這一戰略高地上占據了領先身位 。
在OpenAI與Anthropic構建的巨頭生態中 , 中國團隊選擇以「框架定義者」的角色切入 , 展現了中國AI創新路徑的獨特性與韌性 。
在全球底座模型的上半場較量之余 , 面向模型商業落地的下半場的競爭只會更加殘酷 。
這注定是一條沒有捷徑的拓荒之路 , 每一寸領地的攻克都需實打實的工程硬功 , 但這正是中國創業者在AI時代必須回答的「硬核命題」:不走捷徑 , 方能定義未來 。

    推薦閱讀