
文章圖片

文章圖片
九坤投資旗下的至知創新研究院發布了開源編程Agent模型IQuest-Coder-V1 。 至知研究院在AI領域名氣不大 , 但這個模型的benchmark數據直接對標了行業頂尖水平 。
母公司是量化私募 , 發布時間是1月 , 這兩個特征組合在一起 , 很容易讓人想起去年同期的DeepSeek R1 。
事實上 , 去年DeepSeek R1發布的時候也是相同的情況 , 一個知名度不高的公司 , 發布了一個行業頂尖的模型 。
那么IQuest-Coder-V1會是下一個“DeepSeek時刻”嗎?
暫時還不好下結論 。
根據JetBrains的《2025 開發者生態系統現狀報告》 , 全球85%的開發者已經在使用AI工具 , 全球41%的代碼由AI生成 , 但這些工具大多停留在輔助層面 。
從OpenAI到Anthropic , 各家在2025年底密集推出的agent產品 , 都將代碼作為突破口 。
所以至少可以肯定 , 編程Agent就是下一個風口 。
01
IQuest-Coder-V1不是一個簡單的代碼補全工具 , 而是一個能夠自主完成軟件工程全流程的代碼大語言模型 。
過去的AI編程助手的作用是自動補全 , 你寫一半代碼 , 它幫你接下去 。 而IQuest-Coder-V1則是能夠從零開始理解需求、設計架構、編寫代碼、測試調試 , 甚至進行多輪迭代優化 。
IQuest-Coder-V1有三個很關鍵的技術點 。
第一是40B的參數規模 。 相比GPT-5和Gemini 3等動輒數千億參數的模型 , 40B只是它們的幾十分之一左右 。
也就是說 , IQuest-Coder-V1可以在性能稍好的消費級硬件上運行 , 而不需要專業的數據中心級別算力 。
第二個特點是Loop架構 。
這個名字很直白 , 模型會循環迭代自己的輸出 。 就像程序員寫完代碼會回過頭檢查、修改、重構一樣 , Loop架構讓模型在生成代碼后能夠反思和改進 。
但Loop架構不是簡單的多次調用 , 而是將迭代優化的過程內化到模型架構中 。 簡單概括就是IQuest-Coder-V1會超額完成任務 , 以確保最終輸出的結果覆蓋用戶的需求 。
Loop版本讓模型“走兩遍”相同的神經網絡 , 就像你讀文章時會回頭重讀關鍵段落 , 第二遍往往能發現第一遍沒注意到的問題 。
第三個特點是code-flow訓練范式 。
傳統的代碼模型學習的是代碼片段 , 學習的是靜態的語法和API調用模式 。 用大白話來解釋 , AI可以完美復刻它所學習的代碼 , 卻不理解為什么要這么寫 。
但IQuest-Coder-V1學習的是軟件如何一步步演化出來的 , 學習的是動態的邏輯演進 。 這讓模型不僅理解“這段代碼是什么” , 還理解“這段代碼為什么這樣寫”、“下一步應該怎么改” 。
IQuest-Coder-V1使用32k高質量軌跡數據進行強化學習訓練 , 這些軌跡通過multi-agent role-playing自動生成 。
系統會模擬用戶、Agent、Server三方交互 , 用戶提出需求 , Agent編寫代碼 , Server返回執行結果 , 整個過程無需人工標注 。 訓練目標不是單次代碼生成 , 而是完整的軟件演化過程 。
這些技術設計在benchmark上得到了驗證 。 在SWE-Bench Verified這個衡量真實軟件工程能力的測試中 , IQuest-Coder-V1達到了81.4%的準確率 , 超過了Claude Sonnet 4.5的77.2% 。 在LiveCodeBench v6上的表現是81.1% , 在BigCodeBench上是49.9% 。
IQuest-Coder-V1來自九坤投資創始團隊發起設立的至知創新研究院 。 這個研究院獨立于九坤的量化投研體系 , 其職能是研究多個AI應用方向 。
九坤投資本身是中國最早一批量化私募之一 , 成立于2012年 , 目前管理規模超過600億人民幣 , 和明汯、幻方、靈均并稱量化“四大天王” 。
創始人王琛擁有清華大學數學物理學士和計算機博士學位 , 師從圖靈獎唯一華人得主姚期智院士 。 聯合創始人姚齊聰是北京大學數學學士、金融數學碩士 。
兩人都來自華爾街頂級對沖基金千禧年(Millennium) , 2010年看準中國股指期貨上市的機遇回國創業 。
九坤從2020年開始建設名為\"北溟\"的超算集群 , 內部設有AI Lab、Data Lab和水滴實驗室 。
這些基礎設施原本服務于量化投資業務 , 現在也為大模型研發提供了算力支持 。
量化機構擁有大規模算力集群和數據處理能力 , 這與大模型訓練的資源需求相匹配 。 同時在人才結構上 , 量化投資和AI研究都需要數學、計算機背景的研究人員 , 這使得量化機構進入大模型領域時有一定的基礎 。
從量化投資到開源大模型 , 這條路徑并不突兀 。
量化機構本身就擁有大規模算力集群和海量數據處理能力 , 這與大模型訓練的需求高度契合 。 更重要的是 , 量化投資和AI研究在人才結構上有很大重疊 , 都需要數學、計算機、物理背景的研究型人才 。
【又是量化基金,第二個DeepSeek時刻到來了?】因此從發展角度看 , IQuest-Coder-V1更像是九坤在AI方面的自然延伸 , 并非簡單跟風 。
02
但不可否認的是 , IQuest和DeepSeek , 兩者有著驚人的相似性 。
它們都來自中國量化基金 , 都展示了在資源受限情況下通過工程創新實現技術突破的能力 。 但仔細觀察會發現 , 兩者選擇了完全相反的方向 。
DeepSeek追求的是“廣度” 。 從DeepSeek-V3到R1 , 梁文鋒團隊的目標是打造通用對話能力 , 要做中國的GPT 。
它要回答各種領域的問題 , 要能寫詩、講故事、分析時事、解決數學題 。 這是一個橫向擴張的路徑 , 覆蓋盡可能多的應用場景 。
IQuest-Coder-V1追求的是“精度” 。 它專注在代碼這個垂直領域 , 在SWE-Bench這樣的專業測試上做到極致 。 它不關心能不能寫詩 , 只關心能不能像真正的程序員一樣理解需求、設計系統、解決bug 。
有意思的是 , 就在IQuest-Coder-V1發布的同一天 , DeepSeek團隊也有新動作 。
包括創始人梁文鋒在內的19位研究者發布了關于mHC(manifold-constrained hyperconnection , 流形約束超連接)架構的論文 。 這篇論文解決的是超連接網絡在大規模訓練中的不穩定性問題 。
雖然DeepSeek團隊在研究工作上保持一定的更新頻率 , 然而在產品方面 , 他們卻顯得有些落后 , 至今仍然沒有拿出R2和V4 。
2025年 , AI領域的競爭焦點是對話能力和推理能力 , 各家比的是誰能更好地回答問題 , 誰的推理過程更清晰 。 到了2026年 , 這個焦點已經轉向Agent能力 , 比的是AI能否自主完成復雜的多步驟任務 。
Agent能力的核心是“執行” , 而不僅僅是“理解”和“回答” 。
就拿代碼舉例 , 一個對話型AI可以告訴你如何修復代碼中的bug , 但Agent能直接幫你改好代碼、運行測試、提交修改 。 這是完全不同的能力層級 。
DeepSeek團隊在研究層面確實很活躍 , 不斷發表論文推進底層技術 。 可一旦落實到產品就會發現 , DeepSeek仍然主要是一個對話型AI 。 用戶提問 , 它給答案 , 這是它的主要使用場景 。
DeepSeek目前還沒有推出真正的Agent產品 , 沒有像IQuest-Coder那樣能自主完成整個軟件開發流程的能力 。
誠然 , DeepSeek在Alpha Arena這樣的AI炒幣/炒股比賽中表現很亮眼 , 證明了量化基金訓練出的模型“真的懂市場” , 能讀懂K線、解析新聞、做出交易決策 。
而量化投資的本質是用算法理解市場規律 , 尋找價格波動中的模式 。 進一步說明DeepSeek具有“理解復雜系統”的能力 。
但需要指出的是 , 即使在金融市場表現出色 , 這種能力仍停留在“理解”和“分析”層面 。 DeepSeek可以分析市場、給出建議 , 但它作為產品還沒有發展出完整的自主交易能力 。
從炒股到寫代碼 , 幻方和九坤的AI都在展示同一種傾向 , 就是更強的執行導向 。 這或許能解釋為什么量化基金能在AI領域做出成果 , 因為他們的基因就是“讓算法自主決策” , 而不是“讓算法回答問題” 。
現在關于AI的競爭不只是比誰的論文更多 , 更重要的是落地 , 是誰能把技術轉化成用戶可以直接使用的工具 。
市場已經等了太久 , 梁文鋒該發新產品了 。
03
IQuest-Coder-V1對標的是Claude Opus 4.5 。 這個定位很明確 , 81.4%對80.9%的benchmark數據也確實亮眼 。
再加上Anthropic對華態度的強硬 , 也讓人們對Quest-Coder-V1投入了更多的希望 。 但“取代Claude Opus 4.5”這個問題需要更冷靜的分析 。
Claude Opus 4.5的優勢不只在模型能力 , 更在于完整的產品生態 。 它有原生的VS Code擴展 , 有Claude Code這樣面向終端的交互式開發工具 , 支持MCP協議的工具生態 , 有企業級的安全合規標準 , 還有無數真實項目打磨出的用戶體驗 。 這些都不是一個剛發布的模型能夠在短期內復制的 。
更重要的是用戶習慣 。 Claude發布得早 , 程序員群體已經習慣了它的“工作方式” , 知道什么時候該信任它 , 什么時候該介入 , 如何高效協作 。
這種使用習慣的養成需要時間 , 需要在無數次試錯中建立起來 。 一個新模型即使benchmark數據更好 , 也需要相當長的時間來培養用戶信任 。
benchmark和實際應用之間確實存在差距 。
雖說SWE-Bench Verified測試的是在真實代碼倉庫中解決issue的能力 , 這比簡單的代碼補全要復雜得多 。 然而即使在這樣的測試中表現出色 , 也不等于在日常開發中就能無縫替代人類程序員 。
實際工作中的需求往往是模糊的 , 在產品經理與開發者的溝通過程中 , 需求往往會改變很多 , 而這些都是benchmark上沒有的 。
不過IQuest-Coder-V1的機遇在于另一些維度 。 它是開源的 , 這意味著企業可以自己部署 , 可以根據需要調整和優化 , 不需要擔心數據被第三方服務商獲取 。 對于金融、醫療、國防等對數據安全有嚴格要求的行業 , 這是實實在在的價值 。
這種開源代碼大模型的體驗 , 完全區別于Claude用戶 。 Claude的用戶更多是習慣了云服務、愿意為便利性付費、對數據隱私沒有極端要求的開發者 。 IQuest-Coder-V1的潛在用戶應該是需要數據自主可控的企業、想要深度定制的技術團隊、或者就是喜歡折騰開源工具的開發者 。
就比如做像九坤和幻方這樣做量化的 , 他們的算法就是企業的命脈 , 不可能上傳到公有云 。
當然 , 開源也有開源的問題 。 沒有專門的產品團隊來打磨用戶體驗 , 沒有客服來解決使用中的問題 , 遇到bug只能自己想辦法或者等社區修復 。 這些都是開源模型相比商業產品的劣勢 。
有一種觀點認為 , 像是IQuest-Coder-V1這樣帶有一定agent功能的代碼大模型 , 可能是通向通用agent以及AGI的第一步 。
這個觀點的邏輯在于 , 代碼是結構化的、邏輯清晰的任務 , 相比其他開放性任務更容易驗證對錯 。 測試通過與否 , 這種二元反饋為agent提供了明確的學習信號 。
更重要的是 , 編程任務本身需要的能力是通用agent所需的核心能力 。
從SWE-Bench這樣的benchmark來看 , 它測試的不只是代碼生成 , 而是理解需求、規劃步驟、調試錯誤、迭代改進等能力 。 這個過程和解決其他復雜任務的模式是相通的 。
代碼環境提供了一個相對可控的訓練場 , 一旦在這里證明了它的Agent能力 , 擴展到其他領域的技術路徑就會更清晰 。
所以 , 九坤可能也在下一盤大棋 。
推薦閱讀
- 安卓手機12月性能榜出爐:驍龍與天璣芯片差距量化,還能追趕嗎?
- Linux基金會推出自主式AI基金會
- 又是華人CEO立功:intel要翻身了,拿下AMD、蘋果、英偉達訂單?
- A2A協議與AAIF基金會競相制定AI智能體互通標準
- Linux基金會成立智能體AI基金會統一管理行業標準
- MCP協議被捐給了一個基金會,Anthropic是發起方
- 剛剛,神秘模型登頂視頻生成榜,又是個中國模型?
- 又是一機難求!Mate80熱度不輸iPhone17,部分機型發貨排到明年
- Utopai聯手LG、中東主權基金加碼韓娛,新模型顛覆AI視頻格局!
- 又是一年雙11,你還記得十年前HiFi耳機+音頻設備研發的水月雨嗎?
