具身智能實力派！十年多模態打底，世界模型開路，商湯悟能來了_商湯科技

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

克雷西發自凹非寺
量子位 | 公眾號 QbitAI
WAIC 2025大模型論壇上，商湯科技正式發布了「悟能」具身智能平臺，官宣入局具身智能。
以此為出發點，商湯科技在具身智能領域的布局也開始浮出水面。

站在這個具身智能的風口之上，商湯選擇此時入局，體現了怎樣的思考，其背后又有著怎樣的積淀？
吸引AI頭部企業、初創公司和投資者們紛紛踏足，具身智能又究竟發展到了哪一步？
在這場論壇上，這些問題的答案被一一揭開。
新型多模態模型亮相WAIC先來看商湯發布的日日新V6.5多模態推理大模型。
日日新6.5獨創了圖文交錯思維鏈，跨模態推理精度顯著提升。
傳統的多模態推理模型，在推理之前會將圖像轉變成文本解讀，后續的推理過程就變成了純文本。
而在圖文交錯思維鏈當中，圖像會以本體的形式參與到整個推理過程。

在這種圖文混合的思考模式下，日日新6.5的多媒體推理能力在多個數據集上都超越了Gemini 2.5 Pro 。

同時依托輕量Vision?Encoder?+和縱深LLM架構，日日新6.5相比6.0表現提升了6.99% ，但推理成本只有日日新6.0的30% ，綜合算下來性價比提升了5倍。

隨著模型能力提升，商湯在大模型落地上，就不止做“賣軟件”的生意，還做“賣大腦”的生意。
從多模態模型到具身智能大腦其實，商湯能夠高調切入具身智能，是其從感知視覺、多模態，走向物理世界交互的必然結果。
商湯科技聯合創始人、執行董事、首席科學家林達華認為，多模態是邁向AGI的必經之路。因此，只有能夠同時“讀文本、看世界、動手腳” ， AI才可能真正理解并改造物理環境。
而且超過十年的行業落地經驗，包括在自動駕駛領域的成功實踐，也讓商湯在感知、定位、軌跡規劃和安全冗余等方面累積了大量真實數據與世界模型經驗。
這些能力遷移到機器人等具身形態——相當于先在“會開車的大機器人”身上練兵，再擴展到泛化的移動與操作場景。
因此，商湯繼「開悟」世界模型之后，發布全新「悟能」具身智能平臺。一端承接日日新多模態大模型的通用能力，一端擁有打造和使用世界模型進行訓練的經驗，進而打造生態體系。

「開悟」世界模型背后包括商湯積累的10萬3D資產，支持多視角視頻生成，最多可以同時生成11個攝像頭角度視頻，并在長達150s的時間保持時空一致。
空間上，它可以理解遮擋、前后層級，讓同一物體在不同視角下呈現一致外觀。
時間上，它能夠理解時序和運動規律，讓物體在時間推移中保持自然連貫的變化。

并且支持參數化編輯，天氣、光照、道路，以及路上的車輛，都支持一鍵變換。

在具身智能場景中，還可以同時處理人、物、場，構建4D的真實世界。

并且這種世界同時包含了第一和第三視角。

這樣做的目的，是同時滿足“機器人自己看到什么”與“人類示范動作長什么樣”這兩類信息的互補需求。
第一視角是機器人在真實運行時唯一能獲取的感知流，它決定了模型推理時的輸入分布；第三視角則能完整捕捉人類或機器人全身的姿態骨骼和環境關系，為動作意圖、路徑規劃提供清晰標簽。
將兩種視角對齊訓練，可以讓模型學會把外部示范映射成自身可用的感覺?動作對，一方面顯著減少昂貴的遙操作數據量，另一方面提高跨機器人、跨場景的泛化能力，使同一個“大腦”既能看懂人類演示，也能在自己的相機視角下執行，從而加速具身智能落地。
基于「開悟」世界模型，商湯科技推出了「悟能」具身智能平臺架構，包含感知、決策與行動等多個層次：
感知層：視覺/語音/觸覺多傳感輸入；決策層：LLM+世界模型協同規劃；行動層：VLA端到端控制機械臂、移動底盤。這一大腦，能夠支持自動駕駛、機器人、機器狗等具身場景中的感知、導航、交互等功能。

在具身智能落地上，商湯選擇“軟硬協同”路線。目前已與眾多人形機器人、物流搬運底盤廠商、家用陪伴平臺等伙伴達成合作，將T模型預裝進不同形態的機器人，讓硬件天然具備多模態感知和推理能力。
未來，隨著硬件越賣越多，回流的視覺、語音和操作數據也越豐富，進一步反哺模型迭代，形成正向的數據飛輪。
破解具身智能行業難題除了發布新產品，商湯還在這次論壇上組織具身智能行業從業者以及學術界人士，一起探討了具身世界模型發展的關鍵問題。

圓桌討論首先聚焦的問題，依然是數據稀缺——一個具身智能從業者面臨的共同痛點。
北京大學助理教授、智源學者、銀河通用創始人兼CTO王鶴介紹了他的解決方案——先在虛擬環境把pick?and?place做到幾乎與現實一致，再用少量真機樣本校正長尾場景。
【具身智能實力派！十年多模態打底，世界模型開路，商湯悟能來了】而商湯“開悟”世界模型恰好承接了“99%”的合成任務，能夠批量生成長時多攝像一致的視頻。
商湯與傅利葉等伙伴合作推出的超千萬數量級的機器人，則源源不斷回流那關鍵“1%”的真實視覺、語音和操作日志，二者形成互補閉環，解決了數據從量到質的難題。
當然，數據只有“量”還遠遠不夠，商湯聯合創始人、執行董事、CTO王曉剛認為，僅有機器人本身攝像頭的第一視角并不夠，上帝俯瞰的第三視角能補全肢體骨骼與全局語義；只有把兩種視角對齊，端到端訓練才能兼顧感知與動作。
澳大利亞科學院院士、南洋理工大學教授陶大程進一步指出，第一視角不僅要看圖像，還要疊加深度、慣性、力覺等多傳感器流，才能完整地捕捉“感知—意圖—行動”閉環。
為此，商湯在世界模型中同步生成并標定第一和第三視角數據，確保時空一致，再映射回端側傳感器，讓機器人既“看自己”也“學別人” ，從而縮短仿真與現實之間的落差。
這一做法也契合圓桌嘉賓關于“視角一致性決定遷移效果”形成的共識。
關于模型路線的取舍，同樣引發了熱議。
上海交通大學人工智能學院副院長、上海穹徹智能科技創始人盧策吾認為，必須兼顧通用與場景閉環。
上海市信息投資股份有限公司副總裁、庫帕斯科技董事長山棟明則從投資與供應鏈角度呼應這一觀點。他認為當下只要能把設備鋪出去，真實數據自然會涌回。
商湯正在驗證這條“雙輪”路徑——多模態大模型日日新V6.5提供跨領域能力，垂直應用不斷把真實反饋注入基座，驅動模型滾動升級。
綜合來看，商湯通過世界模型的大規模仿真、合作硬件的真實數據回流、第一與第三視角的融合標注，以及“通用大腦 + 場景閉環”的協同演進，把數據、算法與硬件生態織成了一條自循環鏈。
商湯的數據飛輪已起步，正全速領跑未來賽道，將通過多模態與硬件協同，共筑具身智能護城河。
從工業到家庭，千萬數量級機器人將承載這顆具身大腦。
— 完 —
量子位 QbitAI · 頭條號
關注我們，第一時間獲知前沿科技動態

具身智能實力派！十年多模態打底，世界模型開路，商湯悟能來了

推薦閱讀

鐵鍋邊上的黑垢怎么去鐵鍋邊上的黑垢怎樣去除

土耳其比中國富裕嗎土耳其是不是比中國富裕

龍舟簡筆畫畫法龍舟簡筆畫步驟

空調缺少制冷劑的表現

MOTOT720i的游戲和鈴聲

白茶對胃好不好

PUA男是什么意思？

賣水果用什么燈

養號期間可以發作品嗎

西瓜汁冰沙做法圖解冰爽消暑的夏日飲品

一歲孩子的輔食食譜及做法

細胞工程，為什么基因工程中當受體細胞是植物細胞時一般用體

縮水的牛仔褲怎么拉回去

通信地址是什么意思

2017中國縣城房價走勢,小縣城房價6千左右

瘋狂聯盟戰爭之王怎么解鎖,戰錘3》恐虐戰役機制介紹