Deep Cogito發布四款開源混合推理大語言模型_家電|it芯片

位于舊金山的AI研究初創公司Deep Cogito由前谷歌員工創立，近日發布了四款新的開源大語言模型，這些模型在一個關鍵方面與眾不同：它們能夠學會如何更有效地推理，并且能夠自主改進。
這四款模型屬于Cogito v2系列，參數規模從700億到6710億不等，面向AI開發者和企業用戶開放使用。具體包括：
- Cogito v2-70B（密集型）
- Cogito v2-109B（專家混合型）
- Cogito v2-405B（密集型）
- Cogito v2-671B（專家混合型）
密集型模型在每次前向傳播中激活所有參數，更適合低延遲應用和GPU容量有限的環境。專家混合型（MoE）模型采用稀疏路由機制，每次只激活少數專業化的\"專家\"子網絡，在不成比例增加計算成本的情況下實現更大的模型規模。
所有四款Cogito v2模型都設計為混合推理系統：它們既可以立即響應查詢，也可以在需要時進行內部反思后再回答。關鍵在于，這種反思不僅僅是運行時行為，而是融合到訓練過程本身中。
這些模型被訓練來內化自己的推理過程。這意味著它們得出答案的路徑——可以說是思維步驟——被提煉回模型的權重中。隨著時間推移，它們學會識別哪些思路真正重要，哪些不重要。
Deep Cogito的CEO兼聯合創始人Drishan Arora此前是谷歌的首席大語言模型工程師，他將公司的長期目標描述為構建能夠推理并在每次迭代中改進的模型，類似于AlphaGo通過自我對弈完善策略的方式。
在推理任務中，旗艦版671B MoE模型超越了DeepSeek R1 ，在使用60%更短推理鏈的情況下達到或超過其最新0528模型的性能。在MMLU、GSM8K和MGSM等基準測試中， Cogito 671B MoE的表現與Qwen1.5-72B和DeepSeek v3等頂級開源模型相當，接近Claude 4 Opus和o3等閉源模型的性能水平。
盡管模型規模龐大， Deep Cogito聲稱其訓練所有八個Cogito模型（包括較小的v1檢查點）的總成本不到350萬美元，相比之下，據報道OpenAI一些領先模型的成本超過1億美元。
這些模型現已在Hugging Face上提供下載，企業用戶可通過Together AI、Baseten和RunPod的API接口使用。對于開發者、研究人員和企業團隊來說，這些模型提供了一種不同的構建智能的方法：不是更努力地思考，而是學習如何更好地思考。
Q&A
Q1：Deep Cogito的混合推理模型有什么特別之處？
A：Deep Cogito的模型具備自我改進的\"直覺\"能力，它們將推理過程融合到訓練中，能夠學會哪些思路重要哪些不重要，從而實現更快、更高效的推理，即使在標準模式下也能提升性能。
Q2：Cogito v2模型的性能表現如何？
A：旗艦版671B MoE模型在推理任務中超越DeepSeek R1 ，使用60%更短的推理鏈達到相同性能。在MMLU、GSM8K等基準測試中表現與頂級開源模型相當，接近閉源模型性能水平。
Q3：如何使用這些Cogito v2模型？
【Deep Cogito發布四款開源混合推理大語言模型】A：開發者可以在Hugging Face上下載這些模型，通過Unsloth進行本地使用，或者通過Together AI、Baseten和RunPod的API接口使用。模型支持立即響應和內部反思兩種模式。

Deep Cogito發布四款開源混合推理大語言模型

推薦閱讀

馬桶有多高

羅非魚批發從哪里進貨最便宜

香辣甲魚怎么做才好吃

陳情令第幾集知道金丹真相

日本酒粕面膜功效日本酒粕面膜有什么功效

附委托流程 2023年度廈門城鄉醫保一卡通代扣繳費時間

江湖求生怎么匹配隊友江湖求生怎么匹配隊友位置

臨川菜梗的制作方法

哪些植物怎樣傳播種子

Marianne怎么讀 anne怎么讀

剖腹產后用束腹帶嗎加上這些腹部更快恢復

夜跑最佳時間

哪家的車險比較好,車險哪家公司的好

教你華為手機怎么恢復備份數據

教你手機QQ名片免費怎么設置

攻城掠地170有什么,2021年170科技