
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
【商湯「日日新6.5」全新升級,讓AI完成從“工具”到“人”的躍遷】
多模態信息感知與處理的能力 , 是AGI的核心要求 , 也是從語言模型邁向AGI的必由之路 。
從多模態感知、推理 , 再到交互 , 多模態智能的演進將驅動AI下一階段的發展 。
2025年7月27日 , 由全國工商聯人工智能委員會傾力主辦 , 商湯科技承辦的【大愛無疆·模塑未來】WAIC 2025大模型論壇上 , 商湯科技發布全新「日日新SenseNova V6.5」(簡稱“日日新V6.5”)大模型體系 , 多模態基座大模型迎來突破性升級 , 帶來AI從“生產力工具”到“生產力”的跨越 。 商湯旗下核心產品商湯小浣熊也完成智能體升級 。
1950年 , 圖靈通過“模仿游戲”將AI定義為“類人能力” , 但實際的AI一直未能擺脫“工具”的范疇 , 一度陷入發展低谷 。 而在大模型時代 , AI 憑借多模態融合能力的突破 , 逐步觸達 AGI 邊界 , 真正開始向“類人”標準靠近 。
全國工商聯人工智能委員會主席團首任輪值主席、商湯科技董事長兼首席執行官徐立表示:“商湯科技始終探尋人工智能本質 , 以技術創新激發最大智能 , 推動AI完成從“工具”到‘人’的躍遷 , 成為真正的生產力 。 ”
日日新V6.5煥新:突破性升級觸碰“理解的深度”商湯「日日新V6.5」多模態基座大模型帶來三大突破性升級:
強推理:圖文交錯多模態思維鏈 , 推理性能比肩 Gemini 2.5 Pro、Claude 4-Sonnet;
高效率:多模態架構優化 , 性價比提升3倍以上;
智能體:數據分析大幅領先 , 支持端到端的場景落地 , 實現價值閉環 。
通過多模態思維鏈數據進階圖文交錯思維鏈數據合成 , 商湯「日日新V6.5」多模態推理與交互性能實現了大幅提升:
商湯「日日新V6.5」率先突破圖文交錯思維鏈技術 , 在大模型中引入形象思維 , 成為國內首個實現圖文交錯思維的商業級大模型 。
在人類的思考中 , 形象思維和邏輯思維同等重要 , 兩者有機結合才能形成全面的思維能力 。 所謂“一圖勝千言” , 一幅圖往往比大段文字更能引發有效思考 。 當前 , 主流的多模態模型雖然已經實現了在輸入端融合多種模態 , 但思考推理過程依然主要依賴語言推理 , 圖形和空間推理仍存在短板 。
多模態思維鏈構造的關鍵在于信息的圖形化表達 , 相比純文本思維鏈更具挑戰 , 不僅要呈現文字思考過程 , 還需生成作為思考節點的圖像 , 難以通過純人工方式大規模實現 。 商湯研發團隊先基于對思維過程的理解構造種子數據 , 經監督微調(SFT)訓練讓模型初步具備圖文交錯思考能力 , 再通過多輪強化學習顯著提升多模態推理能力 。
同時 , 商湯還改進了多模態模型的融合架構 , 促進跨模態早期融合 。 新的架構采用了顯著變輕的視覺編碼器 , 以及深而窄的主干模型 , 使得視覺表征在前饋計算早期就與語言進行對齊和交融 , 從而使感知更高效 , 模態融合更深 。
得益于模型架構的改進 , 商湯「日日新V6.5」在實現成本優化的同時 , 預訓練吞吐量提升了20%以上 , 強化學習效率提升了40% , 推理吞吐量提升了35%以上 , 取得性能和成本的完美平衡 。 相較「日日新V6.0」 , 「日日新V6.5」將性價比提升了3倍 。
AI是生產力:商湯小浣熊 , 辦公最強智能體登場大語言模型已成為當下不少人的工作輔助工具 , 但僅靠大語言模型 , 不足以讓AI完成從“工具”向“人”的躍升 。
人類的日常任務活動 , 天然涉及對文本、圖像、視頻、網頁等多模態信息的處理 。 從生產力工具到生產力 , 關鍵就在于多模態信息的輸入、處理與輸出能力 。
基于「日日新V6.5」強大的多模態數據分析能力 , 商湯小浣熊全面升級:能夠勝任多模態復雜輸入 , 進行多模態融合深入分析 , 給出多模態結果輸出 , 實現專業的可視化呈現 , 打造“辦公場景的AI生產力” , 讓AI實現從「生產力工具」到「生產力」的跨越 。
同時 , 商湯小浣熊始終保持世界領先的復雜數據分析能力 。 在客戶場景的綜合測試中 , 小浣熊達到在數據分析和智能體領域的國際標桿 Claude 4 Opus 的水平 , 大幅領先OpenAI o3等模型 。 其中 , 在時序計算、數據匹配、數理計算和異常檢測等任務中 , 準確率均可接近 100% 。
現實辦公場景中 , 數據輸入形式極為復雜 。 在數據分析場景中 , 截圖、文檔和PDF等各類樣式的文檔屢見不鮮 , 而其中結構化信息及表格僅占約70% 。 即便是看似基礎的 Excel 表格 , 也常包含合并單元格、缺失值、嵌套子表格及內嵌圖表等復雜元素 , 大幅提升處理難度 。
商湯小浣熊能夠以多模態思維實現全局分析 , 通過思維鏈構造進行多步思考與反思 , 最終輸出結構化的結果 。
事實上一個表格看著簡單 , 背后的邏輯因果卻非常復雜 , 如今商湯小浣熊可以讓復雜表格簡單化 。
用戶上傳包含合并單元格、缺失值、子表格、內嵌圖表及外部圖片的復雜 Excel 表格 。 商湯小浣熊能夠精準解析表格內容 , 建立子表格間的邏輯關聯 , 最終生成完整的分析報告 。
另一個復雜輸入的用戶案例 , 小商戶在抖音等視頻平臺刷到有用的表格內容 , 截圖后上傳 。 商湯小浣熊可以通過圖片信息分解任務并去除干擾 , 提取表格信息 , 一鍵導出可編輯的Excel 表格供用戶填寫 , 輸入、分析、輸出全程都有多模態能力支持順暢進行 。
傳統AI工具多扮演輔助角色 , 核心工作仍依賴用戶主導完成;而商湯小浣熊實現了交互范式的升級——由AI主動承擔核心任務 , 并通過精準提問和用戶確認關鍵信息 , 交互邏輯如同同事協作 。
由AI主動承擔核心任務 , 并通過精準提問和用戶確認關鍵信息 , 交互邏輯如同同事協作 。
商湯小浣熊如今推出的任務規劃功能 , 其新穎的交互模式更利于用戶理解 , 以前段時間大火的“蘇超”為例 。
用戶上傳圖像表格 , 要求分析“蘇超”TOP球員 。 商湯小浣熊會自動抓取網上信息 , 并依托專家知識生成任務清單(如確定 “TOP5” 標準 , 分析青訓成績等)進行系統性分析 , 最終生成高質量分析文檔 , 還可導出為 Excel、PPT、HTML 等可編輯格式 。 整體流程如下↓↓↓
我們來看下分解步驟:當接收任務后 , 小浣熊會主動梳理任務細節 , 就關鍵節點向用戶提出明確問題(如 “是否需要按以下 1、2、3 點推進?”) , 以確保任務方向準確 , 真正實現 “AI 主導干活、用戶決策把關” 的高效模式↓↓↓
接下來就能依據專家知識生成任務清單(如確定 “TOP5” 標準 , 分析青訓成績等)進行系統性分析 , 下一步該做什么、可以怎么商量著做一目了然↓↓↓
專業數據+工具調用 , 實現高質量內容過程↓↓↓
最終生成高質量分析文檔 , 還可導出為 Excel、PPT、HTML 等可編輯格式↓↓↓
憑借強大的復雜任務處理能力 , 商湯小浣熊加速向行業滲透 , 此次推出了面向兩大具體場景的特制版本——教育版和金融版 。
商湯小浣熊教育版可智能分析學生學習表現、課程效果、學習行為模式分析 , 目前已覆蓋500+院校、10余種教育場景、25萬+教師和學生 , 幫助學生提升學習效率15~30% , 并已在多所學校協助教研團隊 , 降低學業焦慮發生率 40% , 課堂參與度提高 2.1倍 , 資源錯配率降低30% , 心理健康干預及時性提升了50% 。
商湯小浣熊金融版可為金融業提供知識助手、智能問數、多模態智能理賠產品與解決方案 , 構建金融領域的“人機協同”智能決策新范式 。
截至目前 , “商湯小浣熊家族”產品矩陣廣泛服務多行業企業 , 用戶數量實現1000萬+ 。
以多模態技術激活AI生產力 , 商湯日日新大模型將持續進化 , 與行業共同奔赴下一階段AI進化的新征程 , 加速通往AGI時代 。
*本文系量子位獲授權刊載 , 觀點僅為作者所有
推薦閱讀
- 商湯大裝置亮相WAIC 2025,多項標志性成果打造AI基礎設施新范式
- 7月31日,網信辦傳來消息,中企搶購的H20芯片,存在安全問題
- 醫療支付改革走向深水區,鎂信健康探索AI「破壁實驗」
- Arm CEO:我們將制造自己的芯片!
- 從數字人到有溫度的機器人,京東把 AI 深度應用的路線圖「摸透」了
- SPIRAL:零和游戲自對弈成為語言模型推理訓練的「免費午餐」
- WAIC 2025大黑馬,一個「謝耳朵AI」如何用分子式超越Grok-4
- WAIC 2025前探:AI硬件如何改變我們的日常生活
- 強化學習的兩個「大坑」,終于被兩篇ICLR論文給解決了
- 硬核「吵」了30分鐘:這場大模型圓桌,把AI行業的分歧說透了
