深度機智「情境數采」殺手锏,具身智能的通用性天花板要被捅破了?ai

文章圖片

機器之心發布

具身智能通往通用性的征途，正被 “數據荒漠” 所阻隔。當模型在模擬器中刷出高分，卻在現實復雜場景中頻頻 “炸機” 時，行業開始反思：我們喂給機器人的數據，是否真的包含人類操作的精髓？近日，深度機智在以人類第一視角為代表的真實情境數據，筑牢物理智能基座，解決具身智能通用性難題的道路上又有重要舉措。

具身智能的 “數據之困”：從機械模仿到邏輯理解的鴻溝
具身智能的通用性突破，始終受限于物理世界交互數據的極度稀缺。盡管合成數據與離線遙操作提供了初步養料，但采集效率低、場景單一化、任務真實性弱等瓶頸，導致模型極易陷入過擬合的泥潭 —— 機器人往往只是學會了死記硬背特定的軌跡，而非習得舉一反三的操作邏輯。
這一行業痛點，正被深度機智一直倡導的 “第一視角人類經驗” 的情境數采（In-Context Data Collection）模式所破解。這種模式主張：數據不應是孤立的動作切片，而應是帶有豐富環境語境與因果關系的邏輯流。
2025 年 12 月 17 日，一場關于數據范式的創新實踐在北京落地：深度機智（DeepCybo）與北京高校正式宣布聯合成立 “具身智能數據采集示范中心” 。該中心旨在通過以人類第一視角（Egocentric View）為主、多視角輔助的真實情境多模態數據采集，為通用具身智能筑牢 “永不過時” 的數據根基。

情境數采：讓數據帶著 “場景記憶” 與 “遷移能力” 而來
這是本次合作最核心的技術增量。傳統的數采往往關注 “動作軌跡” ，而情境數采（In-Context Data Collection）則更強調動作發生時的 “前因后果” 。
示范中心依托自研的 DeepAct 數據引擎，在實驗教學、工程實踐等真實工業 / 生活場景中搭建了標準化采集體系。

多維感知融合：以佩戴式第一視角設備為核心，協同環境中的多角度觀測位，同步采集各類模態信息。
場景記憶植入：每一幀數據不再是冰冷的坐標變換，而是通過 “情境標簽” 自帶場景背景與交互邏輯。例如，在實驗室抓取燒杯，數據會記錄環境光影、桌面材質以及人類為了避開障礙物而刻意調整的路徑細節。這種帶有場景記憶的數據，能讓模型理解動作背后的物理約束，實現真實物理世界的 World Context as Prompt 。

從數據到智能：解鎖機器人技能涌現的關鍵
這一數采范式的轉變，背后隱藏著 “全面向人類看齊” 的技術邏輯：要讓模型習得人類與物理世界交互的高效邏輯，核心在于高質量、多樣化數據的規模化供給。
【深度機智「情境數采」殺手锏,具身智能的通用性天花板要被捅破了?】深度機智的內部實驗結果表明：以大規模精細標注的第一視角人類經驗數據來增強基座模型的物理智能，可以實現向機器人異構執行器的高效遷移。這一結論，與 Physical Intelligence (Pi) 在 12 月 17 日同步公布的最新研究發現不謀而合，雙方在不同地域、不同維度上共同驗證了 “人類經驗數據驅動通用智能” 的可行性。

作為北京中關村學院和中關村人工智能研究院（以下簡稱中關村兩院）孵化的第一家高科技企業，深度機智自去年底籌辦伊始，就在中關村兩院支持下深入開展以人類第一視角數據為核心的物理智能增強研究，目前已經基本趟通人類數據驅動通用智能的技術全鏈路。此次共建的數采示范中心，正是這一邏輯的標準化實踐模板。深度機智團隊正通過其自研的 DeepAct 數據引擎，在全國十多個城市，數百個場景，大范圍采集真實情境人類數據，持續擴大數據規模，為統一物理智能筑牢永不過時的數據基座。
結語
當帶著場景記憶的第一視角多模態數據持續積累，當全鏈路處理和模型創新讓數據價值最大化，具身智能的通用性突破將不再遙遠。機器人終將從 “機械模仿” 的桎梏中解脫，在 “情境數采” 的賦能下實現真正的技能涌現，走向能夠舉一反三的通用物理智能新時代。