斯坦福MIT天團出手!1美元養龍蝦,圖文視頻全包,打工人神外掛

斯坦福MIT天團出手!1美元養龍蝦,圖文視頻全包,打工人神外掛

文章圖片

斯坦福MIT天團出手!1美元養龍蝦,圖文視頻全包,打工人神外掛

文章圖片

斯坦福MIT天團出手!1美元養龍蝦,圖文視頻全包,打工人神外掛

文章圖片

斯坦福MIT天團出手!1美元養龍蝦,圖文視頻全包,打工人神外掛

文章圖片

斯坦福MIT天團出手!1美元養龍蝦,圖文視頻全包,打工人神外掛

文章圖片

斯坦福MIT天團出手!1美元養龍蝦,圖文視頻全包,打工人神外掛
編輯:元宇
【新智元導讀】別人還在卷單點能力 , Agnes已經把文本Agent、圖像、視頻和辦公自動化打包進開發者工具箱:1美元「養龍蝦」 , 外加圖像、視頻、PPT一條龍 , 給出的不是零散的能力點 , 而是一整套AI生產力 。


近日 , Agnes旗下核心模型矩陣正式上線Zenmux平臺(https://zenmux.ai/models?sort=newest) , 一口氣開放四款主力模型調用 , 覆蓋文本Agent與多模態生成兩大核心方向 。
其中包括Claw系列的Agnes-1.5-Lite與Agnes-1.5-Pro , 以及多模態方向的Agnes-Image-1.2與Agnes-Video-V1.2 , 直接把「文本+圖像+視頻」的整套能力打包上線 。
更值得關注的是 , 上線首周模型調用量即快速攀升 , 已超過多家頭部模型公司同類產品表現 , 顯示出強勁的市場接受度與開發者活躍度 , 成為近期開發者側增長最為迅猛的一組模型組合之一 。

Agnes模型矩陣在Zenmux正式上線
在行業普遍進入「性能+成本」雙重競爭階段的背景下 , Agnes通過高性價比模型與完整工具鏈的組合 , 正在迅速打開開發者生態入口 。





AgnesClaw
低至1美元的「養蝦」入門神器
在OpenClaw熱度持續攀升之際 , Agnes將「Claw」接入自家App , AgnesClaw一鍵部署 。
用戶通過訂閱會員(部分地區Starter新用戶最低可低至1美元/月)即可免費部署并使用AgnesClaw , 同時解鎖平臺全部高級功能 , 性價比極高 。
AgnesClaw的入口前置到首頁 , 用戶一鍵部署完成后 , 在對話框中切換至AgnesClaw模式 , 即可體驗「養龍蝦」 , 整體學習體驗成本極低 。
AgnesClaw目前支持與Telegram綁定 , 后續接入更多平臺 , 提供定時任務、長期記憶和skills庫 , 包括Agnes預置常用skills(如PPT生成、表格處理、圖像/視頻生成、AI搜索、深度研究等)和開源skills 。
部分AI應用由于底層模型能力的限制 , 可能存在無法安裝或流暢運行特定skill組件的問題 。
而Agnes官方表示 , AgnesClaw憑借自研的「龍蝦」基座模型與強大的工具調用適配能力 , 幾乎可以無縫安裝并使用絕大多數熱門skills 。
用戶可以利用它創建定時任務、處理文件并整理為結構化文檔、實現辦公自動化等 。
同時 , AgnesClaw具備自我進化能力 , 通過上下文理解和記憶能力 , 在使用過程中能更好地理解用戶習慣 , 從而更有效地協助完成任務 。

一鍵部署AgnesClaw
AgnesClaw的最大亮點在于自研的「龍蝦」基座模型 , 這是賦予Agnes版本「龍蝦」具備更強的理解力和skill適配能力的核心 。
Agnes為用戶高性價比「養龍蝦」 , 專門推出了兩款不同參數規?;贚LM優化的Agent模型 , 分別是120B的Agnes-1.5-Pro模型和35B的Agnes-1.5-Lite模型 。

PinchBench榜單中Agnes-1.5 系列模型在準確性維度表現突出
AgnesClaw定位「下一代極速多模態混合專家模型」 , 架構上融合了隱式MoE(Latent MoE)、Mamba-2狀態空間模型與原生多模態早融合技術 , 旨在同時解決超長上下文、高頻工具調用、復雜Multi-Agent協作三大痛點 , 打破傳統「規模-延遲-記憶」三元悖論 。
根據全球權威「養蝦」AI評測榜單PinchBench , Agnes-1.5-Pro模型在準確性維度表現突出 , 已躋身榜單前列 , 成為開發者「最佳養蝦模型」選擇之一 。


PinchBench榜單

Agnes-Image-1.2
開源第一 , 閉源第二
本次發布中 , Agnes 20B全新圖像編輯模型Agnes-Image-1.2的表現超出預期 。
根據官方公布的測試數據 , 該模型綜合評分達到4.25分(滿分5分) , 在閉源模型中僅次于NanoBananaPro的4.48分 , 超越了Seedream4.0和Seedream4.5 , 在開源模型中排名第一 。

全新圖像模型綜合評分達到4.25分(滿分5分)
在單項指標上 , Agnes-Image-1.2模型在人像維度提升尤為顯著 , 針對人像場景的定向微調有效增強了面部細節保真、局部編輯可控性以及與背景的自然融合能力 , Portrait從3.98提升至4.30(+0.32) 。
同時 , Extract(2.47→3.05+0.58)與Viewpoint(2.82→3.17+0.35)也有進一步提升 , 表明模型在目標區域分離與結構/幾何穩定性方面更可靠 , 有助于復雜編輯任務的一致性表現 。





完整模型家族
覆蓋多模態全鏈路
除了Agnes-1.5-Pro與Agnes-1.5-Lite兩款模型和Agnes-Image-1.2圖像編輯模型 , Agnes這次還亮出了更加完整的模型矩陣 , 包括搜索與研究模型、AI Slides模型、圖片與視頻生成模型 。
在圖片和視頻生成領域 , Agnes構建了完整模型體系 , 包括圖像和視頻模型 。 除了之前介紹的Agnes-Image-1.2(20B)模型 , Agnes另外還有一款19B的Agnes-Video-V1.2視頻生成模型 。
據了解 , Agnes-Video-V1.2可實現原生音畫同步生成 , 支持圖生視頻和特定風格/角色的生成 , 可適配多種業務場景 。
該模型采用雙流音視頻Transformer架構 , 能在同一模型中同時生成音頻與視頻 , 從而實現人物口型、動作與聲音天然同步 。 模型經測試可在有限顯存環境下運行 , 方便企業級規模化部署和個人開發者的本地實驗 。
在語言模型方面 , Agnes針對自己的主推市場東南亞地區 , 推出了8B參數的東南亞小語種模型Agnes-SeaLLM , 目前已成為該地區小語種理解與生成任務SOTA模型 。

東南亞小語種模型Agnes-SeaLLM
在信息處理和研究能力方面 , Agnes發布了Agnes-Search(30B)模型和面向復雜研究任務的Agnes-DeepResearch(30B)模型 。
前者在內部測試中實現78.6%的推理成本下降 , 生成速度提升18.6%;后者測試引用準確率為100% , 基準測試準確率平均提升14.3% 。
在辦公自動化場景中 , Agnes-Slides(30B)模型可以將網頁或文檔內容自動生成為PPT , 通常1分鐘即可生成15—20頁演示文稿 , 平均生成成本低至約每頁幾美分 。





模型后訓練為主
RLAF框架減少人工依賴
在底層訓練范式上 , Agnes采用的是一整套連續演進的技術路徑:從CPT(continuous pre-training , 持續預訓練)到PT(post-training , 后訓練) , 再到以自建RL(reinforcement learning)為核心的強化階段 , 使模型能力可以持續迭代 , 而非一次性收斂 。
更關鍵的是 , 他們把「進化」這件事 , 從模型層擴展到了Agent層 。
在AgnesClaw體系中 , Agent不僅調用skills , 還可以在任務執行過程中通過反饋不斷優化自身策略 , 實現智能體與skills的協同自進化 。
這意味著 , 系統能力不再完全依賴預訓練 , 而是在真實使用中持續變強 。
支撐這套體系的 , 是一支高度國際化的研究團隊——成員來自斯坦福、伯克利、MIT、NUS、NTU , 以及清華、浙大、南大、東大等頂尖高校 , 核心科研帶頭人包括來自微軟亞研院、英特爾研究院的首席科學家 , 以及高校教授與圖靈獎得主門下研究者 。
他們提出了一套名為RLAF(Reinforcement Learning with Agentic Feedback)的帶智能反饋的新的強化學習框架 , 以減少對人工標注的依賴 。 該框架包含兩個自研核心組件:

  1. DSPO(Dynamic-filter Sequence-level Policy Optimization):動態過濾序列級策略優化算法 。
  2. 官方數據顯示 , 在同規模模型對比中 , 相比DeepSeek Search-R1 (GRPO7B)實現34.1%的性能提升 。
  1. UV(Universal Verifier):通用驗證器 , 用智能評估器替換人工標注數據和人工定義的獎勵機制 。
在RLAF框架中 , 多個AI Agent會對模型輸出進行自動評估 , 從邏輯一致性、事實準確性和任務完成度等多個維度生成反饋信號 。
這種「AI訓練AI」的方式 , 可以減少大量人工標注 , 從而降低訓練成本并提升效率 。
隨著AI行業進入新一輪競爭階段 , 成本效率正逐漸成為商業化成敗的關鍵因素 。 而此次登陸Zenmux(https://zenmux.ai/models?sort=newest) , 某種程度上也是Agnes一個關鍵分水嶺——
模型不再只是「榜單表現」 , 而是直接進入開發者真實調用與對比的第一線 。
從上線一周的調用表現來看 , 這套Claw+多模態組合已經開始改寫一部分開發者的選擇 。
當越來越多模型走向平臺化分發 , 真正能留下來的 , 或許不只是更強的參數規模 , 而是誰更便宜、誰更好用、誰更能被快速接入真實世界 。
【斯坦福MIT天團出手!1美元養龍蝦,圖文視頻全包,打工人神外掛】Agnes , 顯然正在把答案往這個方向推 。

    推薦閱讀