
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
WAIC 2025大模型論壇上 , 商湯科技正式發布了「悟能」具身智能平臺 , 官宣入局具身智能 。
以此為出發點 , 商湯科技在具身智能領域的布局也開始浮出水面 。
站在這個具身智能的風口之上 , 商湯選擇此時入局 , 體現了怎樣的思考 , 其背后又有著怎樣的積淀?
吸引AI頭部企業、初創公司和投資者們紛紛踏足 , 具身智能又究竟發展到了哪一步?
在這場論壇上 , 這些問題的答案被一一揭開 。
新型多模態模型亮相WAIC先來看商湯發布的日日新V6.5多模態推理大模型 。
日日新6.5獨創了圖文交錯思維鏈 , 跨模態推理精度顯著提升 。
傳統的多模態推理模型 , 在推理之前會將圖像轉變成文本解讀 , 后續的推理過程就變成了純文本 。
而在圖文交錯思維鏈當中 , 圖像會以本體的形式參與到整個推理過程 。
在這種圖文混合的思考模式下 , 日日新6.5的多媒體推理能力在多個數據集上都超越了Gemini 2.5 Pro 。
同時依托輕量Vision?Encoder?+和縱深LLM架構 , 日日新6.5相比6.0表現提升了6.99% , 但推理成本只有日日新6.0的30% , 綜合算下來性價比提升了5倍 。
隨著模型能力提升 , 商湯在大模型落地上 , 就不止做“賣軟件”的生意 , 還做“賣大腦”的生意 。
從多模態模型到具身智能大腦其實 , 商湯能夠高調切入具身智能 , 是其從感知視覺、多模態 , 走向物理世界交互的必然結果 。
商湯科技聯合創始人、執行董事、首席科學家林達華認為 , 多模態是邁向AGI的必經之路 。 因此 , 只有能夠同時“讀文本、看世界、動手腳” , AI才可能真正理解并改造物理環境 。
而且超過十年的行業落地經驗 , 包括在自動駕駛領域的成功實踐 , 也讓商湯在感知、定位、軌跡規劃和安全冗余等方面累積了大量真實數據與世界模型經驗 。
這些能力遷移到機器人等具身形態——相當于先在“會開車的大機器人”身上練兵 , 再擴展到泛化的移動與操作場景 。
因此 , 商湯繼「開悟」世界模型之后 , 發布全新「悟能」具身智能平臺 。 一端承接日日新多模態大模型的通用能力 , 一端擁有打造和使用世界模型進行訓練的經驗 , 進而打造生態體系 。
「開悟」世界模型背后包括商湯積累的10萬3D資產 , 支持多視角視頻生成 , 最多可以同時生成11個攝像頭角度視頻 , 并在長達150s的時間保持時空一致 。
空間上 , 它可以理解遮擋、前后層級 , 讓同一物體在不同視角下呈現一致外觀 。
時間上 , 它能夠理解時序和運動規律 , 讓物體在時間推移中保持自然連貫的變化 。
并且支持參數化編輯 , 天氣、光照、道路 , 以及路上的車輛 , 都支持一鍵變換 。
在具身智能場景中 , 還可以同時處理人、物、場 , 構建4D的真實世界 。
并且這種世界同時包含了第一和第三視角 。
這樣做的目的 , 是同時滿足“機器人自己看到什么”與“人類示范動作長什么樣”這兩類信息的互補需求 。
第一視角是機器人在真實運行時唯一能獲取的感知流 , 它決定了模型推理時的輸入分布;第三視角則能完整捕捉人類或機器人全身的姿態骨骼和環境關系 , 為動作意圖、路徑規劃提供清晰標簽 。
將兩種視角對齊訓練 , 可以讓模型學會把外部示范映射成自身可用的感覺?動作對 , 一方面顯著減少昂貴的遙操作數據量 , 另一方面提高跨機器人、跨場景的泛化能力 , 使同一個“大腦”既能看懂人類演示 , 也能在自己的相機視角下執行 , 從而加速具身智能落地 。
基于「開悟」世界模型 , 商湯科技推出了「悟能」具身智能平臺架構 , 包含感知、決策與行動等多個層次:
感知層:視覺/語音/觸覺多傳感輸入; 決策層:LLM+世界模型協同規劃; 行動層:VLA端到端控制機械臂、移動底盤 。這一大腦 , 能夠支持自動駕駛、機器人、機器狗等具身場景中的感知、導航、交互等功能 。
在具身智能落地上 , 商湯選擇“軟硬協同”路線 。 目前已與眾多人形機器人、物流搬運底盤廠商、家用陪伴平臺等伙伴達成合作 , 將T模型預裝進不同形態的機器人 , 讓硬件天然具備多模態感知和推理能力 。
未來 , 隨著硬件越賣越多 , 回流的視覺、語音和操作數據也越豐富 , 進一步反哺模型迭代 , 形成正向的數據飛輪 。
破解具身智能行業難題除了發布新產品 , 商湯還在這次論壇上組織具身智能行業從業者以及學術界人士 , 一起探討了具身世界模型發展的關鍵問題 。
圓桌討論首先聚焦的問題 , 依然是數據稀缺——一個具身智能從業者面臨的共同痛點 。
北京大學助理教授、智源學者、銀河通用創始人兼CTO王鶴介紹了他的解決方案——先在虛擬環境把pick?and?place做到幾乎與現實一致 , 再用少量真機樣本校正長尾場景 。
【具身智能實力派!十年多模態打底,世界模型開路,商湯悟能來了】而商湯“開悟”世界模型恰好承接了“99%”的合成任務 , 能夠批量生成長時多攝像一致的視頻 。
商湯與傅利葉等伙伴合作推出的超千萬數量級的機器人 , 則源源不斷回流那關鍵“1%”的真實視覺、語音和操作日志 , 二者形成互補閉環 , 解決了數據從量到質的難題 。
當然 , 數據只有“量”還遠遠不夠 , 商湯聯合創始人、執行董事、CTO王曉剛認為 , 僅有機器人本身攝像頭的第一視角并不夠 , 上帝俯瞰的第三視角能補全肢體骨骼與全局語義;只有把兩種視角對齊 , 端到端訓練才能兼顧感知與動作 。
澳大利亞科學院院士、南洋理工大學教授陶大程進一步指出 , 第一視角不僅要看圖像 , 還要疊加深度、慣性、力覺等多傳感器流 , 才能完整地捕捉“感知—意圖—行動”閉環 。
為此 , 商湯在世界模型中同步生成并標定第一和第三視角數據 , 確保時空一致 , 再映射回端側傳感器 , 讓機器人既“看自己”也“學別人” , 從而縮短仿真與現實之間的落差 。
這一做法也契合圓桌嘉賓關于“視角一致性決定遷移效果”形成的共識 。
關于模型路線的取舍 , 同樣引發了熱議 。
上海交通大學人工智能學院副院長、上海穹徹智能科技創始人盧策吾認為 , 必須兼顧通用與場景閉環 。
上海市信息投資股份有限公司副總裁、庫帕斯科技董事長山棟明則從投資與供應鏈角度呼應這一觀點 。 他認為當下只要能把設備鋪出去 , 真實數據自然會涌回 。
商湯正在驗證這條“雙輪”路徑——多模態大模型日日新V6.5提供跨領域能力 , 垂直應用不斷把真實反饋注入基座 , 驅動模型滾動升級 。
綜合來看 , 商湯通過世界模型的大規模仿真、合作硬件的真實數據回流、第一與第三視角的融合標注 , 以及“通用大腦 + 場景閉環”的協同演進 , 把數據、算法與硬件生態織成了一條自循環鏈 。
商湯的數據飛輪已起步 , 正全速領跑未來賽道 , 將通過多模態與硬件協同 , 共筑具身智能護城河 。
從工業到家庭 , 千萬數量級機器人將承載這顆具身大腦 。
— 完 —
量子位 QbitAI · 頭條號
關注我們 , 第一時間獲知前沿科技動態
推薦閱讀
- 這家國內公司,在給具身智能技術棧做「通解」
- 扎克伯格用\超級智能\概念為AI巨額投資辯護
- 6小時復刻AI IMO金牌成果,螞蟻多智能體新進展已開源
- 2025上半年智能門鎖小米銷量奪冠 華為把持線上高端市場
- 馴服復雜表格:九天重磅開源,開啟「人與表格對話」智能新時代
- 全球首款通用AI科研智能體:我用它寫了份CRISPR基因編輯報告
- 扎克伯格親自撰文描繪的“個人超級智能”,到底是個啥?
- Manus大升級,100多個智能體并發給你做任務
- 全國產智能體MasterAgent:一句話造專屬AI團隊,專業協同交付
- 辛頓學生從杭州到硅谷,創業做智能體操作系統,融資數千萬美元
