硬剛OpenAI！中國團隊殺入Agentic AI全球前二，一戰封神

2026-03-03 人工智能 Google 斯坦福大學 openai anthropic

文章圖片

文章圖片

編輯：犀牛
【新智元導讀】Feeling AI憑借CodeBrain-1在權威榜單Terminal-Bench 2.0中強勢突圍，僅次于OpenAI最新旗艦，位居全球第二。不僅打破了美系巨頭的絕對壟斷，更標志著中國AI在Agentic AI（智能體）復雜任務規劃與自主編碼領域的工程化能力已達到世界頂尖水平。

在中國農歷春節的前夜，全球科技界的空氣中不僅彌漫著辭舊迎新的氣息，更夾雜著一股前所未有的硝煙味。
Anthropic祭出了Claude Opus 4.6 ， OpenAI則以GPT-5.3-Codex強勢回應。
雙方在技術之巔的對決看似是老生常談的「王座之爭」，但在平靜的水面之下，競爭的底層邏輯已然悄然改寫。
全球大模型競賽已正式從實驗室里的「參數博弈」突變為殘酷的「實戰進化」。
這一次，巨頭們不再沉迷于跑分數據的虛幻繁榮，而是將目光死死鎖定了架構的嚴謹性與自主工作流的長效續航——
能否在真實商業世界中「破局」，成為了唯一的度量衡。
在硬核指標的正面交鋒中， OpenAI和Anthropic兩家巨頭均選擇Terminal-Bench 2.0作為實力背書：Opus 4.6在Agentic Terminal Coding Task上以 65.4%的勝率展現了卓越的智能體編碼能力；而Sam Altman憑借5.3-Codex+ Simple Codex的組合創下的 77.3%（75.1%）高分，宣稱其登頂全球編碼性能之巔。
正如NVIDIA首席科學家Jim Fan所言：真實的終端環境是AI的「魔鬼訓練場」。
在閉環環境中自我進化，已成為衡量模型工程能力的終極標尺。
令人振奮的是，在這一權威賽道上，中國的AI初創團隊Feeling AI異軍突起——其自研的CodeBrain-1在GPT-5.3-Codex底座模型的加持下，以 72.9%（70.3%）的驚艷戰績躍升全球榜單第二，成為前十強中唯一的中國新銳。

剛拿下Agentic Memory SOTA
Feeling AI又上大分

5天前， Feeling AI團隊在深夜發布MemBrain1.0 ， LoCoMo / LongMemEval / PersonaMem-v2等多項主流記憶基準評測中拿下全新SOTA ，反超MemOS、Zep和EverMemOS等記憶系統和全上下文模型。
在KnowMeBench Level III兩個難度等級最高的評測中更是比現有評測結果大幅提升超300% 。
在AI技術圈和資本押注的新風口——Agentic Memory方向先打出了第一張牌。
強大的記憶能力以及適配模型原生的層級化記憶系統，意味著Agentic AI正從模型能力逐步走向用戶體驗層面的范式躍遷。
緊隨MemBrain 1.0的余熱， Feeling AI昨晚又打出了第二張牌——CodeBrain 。
作為具備動態規劃與策略調整能力的「進化大腦」， CodeBrain-1迅速躋身權威基準Terminal-Bench2.0榜單全球第二，僅次于OpenAI 5.3-Codex的官配Simple Codex 。
在Feeling AI的官方媒體中，其一直在強調動態交互是世界模型通向AGI的終極拼圖。
【硬剛OpenAI！中國團隊殺入Agentic AI全球前二，一戰封神】其原創的跨模態分層架構提出了三層核心能力——負責理解、記憶與規劃的 InteractBrain ，負責能力執行的 InteractSkill ，以及負責渲染呈現的 InteractRender ，共同構成了其技術護城河。
目前已經亮劍的MemBrain與CodeBrain 都屬于InteractBrain核心層，精準定位在復雜動態交互場景下的深度理解與長程規劃。
如此看來，這兩項在全球拿下極具說服力成績的工作應該并非偶然，而是早有布局。
這也進一步解釋了無論是用于Agentic Memory的MemBrain1.0還是用于確保模型任務規劃和執行成功率的CodeBrain-1 ，其算法核心關注點也集中在服務于在復雜「動態交互」場景下的能力。
OpenAI在其官網技術博客中明確將Simple Codex 定義為「針對長程軟件工程任務的最優解」。
模型和Agent 框架的良好組合也許將成為未來大模型商業落地的標準形態。
Agentic Memory的記憶能力未來也許會成為Agent 框架的一部分，就像是一個外掛的記憶大腦，通過系統化的能力讓模型更強。
一個能駕馭全球頂尖模型的中國框架，正是AI時代最核心的智能中樞。
對頂尖模型的深度驅動能力，意味著中國團隊已在 AI 時代的「戰術調度中心」占據高點，正在參與定義未來大模型的工程標準。

CodeBrain-1
會動態調整計劃與策略的「大腦」
在Terminal-Bench官方評測網站的最新排名顯示， CodeBrain-1僅次于Open AI的Simple Codex（GPT-5.3-Codex）， Factory的Droid使用Anthropic最新基模Claude Opus 4.6排名第三。
榜單上還有一些大家熟悉的Agent或機構，如Warp、Coder、Google、Princeton等。

（官網截圖）
Terminal Bench覆蓋的任務類型非常廣泛，其中既包括復雜的系統操作，也包含大量需要在真實終端環境中完成的編碼任務。
CodeBrain-1的核心關注點，是「代碼能否被正確寫出并運行」。
在技術實現上， CodeBrain-1 專注打磨了兩個直接影響「能否成功且高效地完成任務」的環節。

Useful Context Searching：只用「真正有用」的上下文。在復雜任務中，信息不是越多越好，而是是否相關，減少噪音可以有效避免LLM的幻覺問題CodeBrain-1會根據當前任務需求和已有Code Base索引，充分利用LSP (Language Server Protocol) 的功能，提高關聯信息的檢索效率，有效輔助Code Generation的過程。比如當我們需要為一個游戲Bot規劃任務時，需要先了解如何使用該Bot的API 。 CodeBrain-1在Coding過程中，借助LSP Search準確獲取了move_to(target)、do(action)等相關方法的簽名、文檔和已有Code Base內的使用實例等信息，有效降低了關聯信息檢索的損耗和上下文干擾。
Validation Feedback：讓失敗真正變成信息。 CodeBrain-1可以從LSP Diagnostics當中高效定位，并補充錯誤相關的代碼和文檔，有效縮減Generate -> Validate的循環過程。比如CodeBrain-1編寫的代碼中出現了調用 on(observation exec)（一個定義Bot Reaction的方法）時，出現了參數exec類型錯誤的問題，這時， LSP除報錯argument type mismatch之外，還會額外提供該方法的caller示例、錯誤參數相關文檔、以及exec這個參數在實現中如何被使用等輔助信息。
團隊從Terminal Bench中篩選出了一個更聚焦的子集，共47條任務，均可以使用單一程序語言（Python）完成。在這一子集中， CodeBrain-1也表現出了穩定而一致的完成能力：關聯代碼和文檔檢索更高效；在代碼檢查和驗證失敗時，能更快定位問題。

Rank  Agent                Model                Py Tasks     Coding Tasks   All Tasks   -----------------------------------------------------------------------------------------------1     Simple Codex         GPT-5.3-Codex        73.9%        72.7%          74.9%       2     CodeBrain-1          GPT-5.3-Codex        72.3%        70.2%          70.3%       3     Droid                Claude Opus 4.6      70.2%        66.8%          69.9%       4     Mux                  GPT-5.3-Codex        71.9%        69.2%          68.5%       5     Droid                GPT-5.2              66.0%        61.6%          65.1%       6     Ante                 Gemini 3 Pro         66.8%        62.7%          64.9%       7     Terminus 2           GPT-5.3-Codex        64.7%        61.4%          64.7%       8     Junie CLI            Gemini 3 Flash       68.9%        62.7%          64.3%       9     Droid                Claude Opus 4.5      62.1%        58.3%          63.1%       10    Terminus 2           Claude Opus 4.6      67.2%        63.1%          62.9%

此外，在Token的消耗方面， CodeBrain-1也展現出了不俗的表現，可持續降低用戶成本。
對比Anthropic發布的技術文檔，當基模均使用claude opus 4.6時，使用CodeBrain-1和Claude Code在兩者均成功的Py Tasks子任務上所消耗的總Token大幅縮減了超15% 。
CodeBrain-1在Terminal-Bench 2.0上的強勢表現還不僅僅體現在真實命令行終端（CLI）環境下的端到端任務執行能力。
更重要的，團隊進一步的賦予了它更高階的能力——會動態調整計劃與策略的「大腦」，它通過優化任務的執行邏輯和錯誤反饋機制，顯著提升了模型在真實終端環境下的操作成功率。
CodeBrain-1提出了一種不同的解決方式。并非讓 AI 直接「隨意發揮」，而是反過來調整分工方式。
CodeBrain-1 負責在這些約束條件內，動態生成「智能」所對應的可執行程序，并根據實際反饋不斷調整。
這里的「計劃和策略」既可以作用在個體層面，也可以作用在群體層面。
對個體而言，它意味著角色可以根據自身目標、記憶和觀察結果，持續調整日程、行為選擇和對他人的態度對群體而言，它意味著一個組織可以形成共享記憶，并基于外部條件變化，調整整體規劃和響應規則。
為了更直觀地展示CodeBrain-1的能力，團隊將它放入游戲場景中，作為一種行為與策略生成引擎。
#Case 1：游戲bot的實時驅動
在一些開放世界游戲中，它可以承擔游戲伙伴的角色。玩家可以用自然語言表達意圖，讓bot執行。從理解自然語言中的需求——「幫我建個房子」、「造一把鎬子」，到規劃行動方案——「收集資源」、「清理工作環境」、「建造/制作」，最終生成并執行完整的行動腳本以實現目標，他可以有條不紊地應對任務，豐富玩家的游戲體驗。

#Case 2：群體記憶驅動的戰術演化
在「搜打撤」類游戲中，如果玩家長期走一條習慣性路線，并被多次觀察到，敵對群體可以逐步強化這一「群體記憶」。
在后續地圖構建與部署階段，系統會據此調整整體策略，例如：
distribute in area = { calculate_area_by_player_hotspots with count = { 70% of total 同時，還可以疊加行為表達規則，增強沉浸感，在熱點區域成功發現玩家時高喊「抓到你了！」或者是在非預期區域遭遇時高喊「預判失誤！」更進一步，可以配置簡單的小隊作戰策略，比如前排沖鋒，后排掩護。
這類行為并非單點腳本，而是由群體策略動態生成的結果。

為什么AI巨頭都在
Terminal-Bench 2.0 上較量？
Terminal-Bench 是由斯坦福大學與 Laude Institute 聯合打造的開源基準，被公認為 AI 智能體在真實命令行（CLI）環境下端到端執行能力的「金標準」。
與紙上談兵的代碼生成測試不同，它的嚴苛在于：

閉環實戰環境：在隔離的 Docker 容器中， AI 必須像人類專家一樣，在真實的 Linux 生態中完成編譯、調試、訓練及部署。
高壓長程任務： 89 個深度場景橫跨軟件工程與科學計算，不僅要求極高的邏輯跨度，更徹底杜絕了簡單的「模式匹配」。
零容忍驗證：采用 0/1 判定準則，唯有產出符合預期的交付物（如修復的代碼或運行的服務）才算通關，沒有任何「模糊分」。
2.0 的「天花板」效應：升級后的 2.0 版本大幅拉高了門檻。目前全球頂尖模型的解決率普遍難以突破 65% ，這已成為大模型處理系統級復雜任務的「深水區」。

CodeBrain-1首次亮相便一舉奪得全球第二，其含金量不言而喻。
以GPT系列為例，頂尖模型雖具備極強的邏輯推理鏈（Reasoning Chain），但常因「過度思考」導致執行鏈路冗長。
CodeBrain-1并不是一個「更會說話」的AI ，而是一個由Code組成、能夠持續調整計劃與策略的執行型大腦，它巧妙地扮演了「調度中樞」與「效率校準器」的角色：它引導模型在常規操作中保持極速響應，僅在遭遇關鍵報錯時激活深層思考。
這種對底座模型的精準駕馭，正是拉開商業化落地差距的核心變量。
魯棒的閉環糾錯（Error Recovery），高效的任務分解（Sub-goal Decomposition）和對環境感知的精確理解，在AGI的商業版圖中，強大的Agent依然是「模型落地的必經之路」。
它不僅關乎任務分解的精度，更關乎在閉環環境中糾錯與生存的韌性。
Sam Altman在GPT-5.3-Codex發布后的宣言也佐證了這一趨勢：Codex已從單一的代碼審查工具，蛻變為能橫跨全生命周期、執行專業人士所有計算機操作的「全能代理」。
在OpenAI的藍圖中，模型與框架正進化為深度綁定的「智能全家桶」。
即便巨頭環伺，垂直行業的深水區依然為優秀的工程框架留下了巨大的商業紅利。
無論是系統級的Agent框架，還是精悍的開發者效能工具，這些「離用戶更近」的觸點都潛藏著爆發式增長的可能。
作為一家中國初創團隊， Feeling AI能在OpenAI尖端模型發布的瞬間完成深度整合，并跑出全球領先的戰績，這不僅是工程響應速度的勝利，更是中國AI團隊在全球工程化協同中占據制高點的有力證明。
在Terminal-Bench 2.0這種以「真實環境、長程進化」著稱的硬核賽道上，緊隨OpenAI之后摘得全球榜眼，其標志性意義不言而喻：中國創業團隊已率先跨越了Agent從「對話玩具」到「生產力工具」的鴻溝，在「重塑工作流」這一戰略高地上占據了領先身位。
在OpenAI與Anthropic構建的巨頭生態中，中國團隊選擇以「框架定義者」的角色切入，展現了中國AI創新路徑的獨特性與韌性。
在全球底座模型的上半場較量之余，面向模型商業落地的下半場的競爭只會更加殘酷。
這注定是一條沒有捷徑的拓荒之路，每一寸領地的攻克都需實打實的工程硬功，但這正是中國創業者在AI時代必須回答的「硬核命題」：不走捷徑，方能定義未來。

推薦閱讀

上一篇：2000元一加太穩了，一加Turbo6深度體驗，送人自用都全能

下一篇：48歲GitHub前CEO殺入AI編程創業，創下領域內規模最大種子輪紀錄