
位于舊金山的AI研究初創公司Deep Cogito由前谷歌員工創立 , 近日發布了四款新的開源大語言模型 , 這些模型在一個關鍵方面與眾不同:它們能夠學會如何更有效地推理 , 并且能夠自主改進 。
這四款模型屬于Cogito v2系列 , 參數規模從700億到6710億不等 , 面向AI開發者和企業用戶開放使用 。 具體包括:
- Cogito v2-70B(密集型)
- Cogito v2-109B(專家混合型)
- Cogito v2-405B(密集型)
- Cogito v2-671B(專家混合型)
密集型模型在每次前向傳播中激活所有參數 , 更適合低延遲應用和GPU容量有限的環境 。 專家混合型(MoE)模型采用稀疏路由機制 , 每次只激活少數專業化的\"專家\"子網絡 , 在不成比例增加計算成本的情況下實現更大的模型規模 。
所有四款Cogito v2模型都設計為混合推理系統:它們既可以立即響應查詢 , 也可以在需要時進行內部反思后再回答 。 關鍵在于 , 這種反思不僅僅是運行時行為 , 而是融合到訓練過程本身中 。
這些模型被訓練來內化自己的推理過程 。 這意味著它們得出答案的路徑——可以說是思維步驟——被提煉回模型的權重中 。 隨著時間推移 , 它們學會識別哪些思路真正重要 , 哪些不重要 。
Deep Cogito的CEO兼聯合創始人Drishan Arora此前是谷歌的首席大語言模型工程師 , 他將公司的長期目標描述為構建能夠推理并在每次迭代中改進的模型 , 類似于AlphaGo通過自我對弈完善策略的方式 。
在推理任務中 , 旗艦版671B MoE模型超越了DeepSeek R1 , 在使用60%更短推理鏈的情況下達到或超過其最新0528模型的性能 。 在MMLU、GSM8K和MGSM等基準測試中 , Cogito 671B MoE的表現與Qwen1.5-72B和DeepSeek v3等頂級開源模型相當 , 接近Claude 4 Opus和o3等閉源模型的性能水平 。
盡管模型規模龐大 , Deep Cogito聲稱其訓練所有八個Cogito模型(包括較小的v1檢查點)的總成本不到350萬美元 , 相比之下 , 據報道OpenAI一些領先模型的成本超過1億美元 。
這些模型現已在Hugging Face上提供下載 , 企業用戶可通過Together AI、Baseten和RunPod的API接口使用 。 對于開發者、研究人員和企業團隊來說 , 這些模型提供了一種不同的構建智能的方法:不是更努力地思考 , 而是學習如何更好地思考 。
Q&A
Q1:Deep Cogito的混合推理模型有什么特別之處?
A:Deep Cogito的模型具備自我改進的\"直覺\"能力 , 它們將推理過程融合到訓練中 , 能夠學會哪些思路重要哪些不重要 , 從而實現更快、更高效的推理 , 即使在標準模式下也能提升性能 。
Q2:Cogito v2模型的性能表現如何?
A:旗艦版671B MoE模型在推理任務中超越DeepSeek R1 , 使用60%更短的推理鏈達到相同性能 。 在MMLU、GSM8K等基準測試中表現與頂級開源模型相當 , 接近閉源模型性能水平 。
Q3:如何使用這些Cogito v2模型?
【Deep Cogito發布四款開源混合推理大語言模型】A:開發者可以在Hugging Face上下載這些模型 , 通過Unsloth進行本地使用 , 或者通過Together AI、Baseten和RunPod的API接口使用 。 模型支持立即響應和內部反思兩種模式 。
推薦閱讀
- 曝百度最快8月底發布新版推理模型 部分能力將超越OpenAI o3滿血版
- 全新360安全云重磅發布:AI智能體驅動「安全即服務」新未來
- 華為Mate 80將在10月發布 最強鴻蒙手機
- 華為Mate XTs硬剛iPhone17:同日發布,誰會更勝一籌?
- iPhone 17發布時間泄露!相機5大升級曝光 8倍光學變焦能拍更遠
- 傅利葉發布全新人形機器人“Care-bot”GR-3,定義“有愛的”交互新范式
- DeepMind掌門告誡馬斯克:如果AI出問題,去火星也沒用
- 外媒:谷歌DeepMind宣布推出新一代世界模型Genie 3
- 剛剛,蘋果發布會定檔9月,iPhone 17終于不擠牙膏了?
- 就是阻擊OpenAI,Claude搶先數十分鐘發布Claude Opus 4.1
