探訪|人形機器人智能化的核心密碼,藏在這座數據工廠里

探訪|人形機器人智能化的核心密碼,藏在這座數據工廠里

文章圖片


高質量、規?;恼鏅C實采數據 , 是驅動人形機器人算法迭代與商業落地的重要資源 。
3月19日 , 新京報貝殼財經記者實地走訪了北京人形機器人創新中心(以下簡稱“北京人形”)具身智能機器人數據采集與訓練基地 。 記者了解到 , 該基地自建成投運不到半年 , 已成為國內場景覆蓋最齊全、機器人構型最豐富、數據產能及質量最高的專業化具身智能數據采集平臺之一 。
此外 , 依托基地的規?;a能與標準化體系 , 北京人形不僅牽頭制定了國內首個具身智能數據集行業標準《人工智能具身智能數據采集規范》 , 更已對外市場化交付超數萬小時高質量真機實采數據 , 開源數據集累計下載次數超200萬次 , 正向著“全球首個百萬小時高質量具身智能數據”的目標推進 。
北京人形標準化打造具身智能“數據工廠”
不同于仿真數據 , 真機采集的多模態數據能夠精準還原力覺反饋、觸覺信息、環境干擾等虛擬場景難以復刻的細節 , 完整復刻真實環境中的任務閉環 , 解決模型訓練中的“分布偏移”難題 , 推動機器人智能從虛擬走向現實 。
在北京人形近5000平方米的具身智能機器人數據采集與訓練基地 , 新京報貝殼財經記者看到 , 該基地復刻了家居、商超、辦公、工業、醫藥、康養六大領域 , 搭建了30多個典型應用場景 , 同時配套建設了約200平方米的專業光學動作捕捉場地 , 可通過高精度動捕技術實現擬人化動作的采集 。
北京人形的工作人員正在遙操機器人拿取物體 。 新京報貝殼財經記者 韋博雅 攝
現場的工作人員告訴記者 , 基地內所有場景可以動態配置與重組 , 可根據需要對光照、物體擺放、人員動線進行調整 , 確保采集數據具備充分的泛化能力 , 覆蓋算法訓練所需的邊緣案例與長尾場景 。
硬件配置上 , 基地目前擁有各類機器人設備120余臺 , 既包含北京人形自主研發的“天工”“天軼”系列機器人 , 也涵蓋了Aloha、宇樹、優必選、Franka、UR等國內外機器人或專業設備 。 同時 , 基地配備了頭環式、夾爪式輕量化采集設備等采集裝備 , 實現了真機遙操作、開放環境采集、動作捕捉采集三大核心采集能力 。
“這種多品牌、多構型、多形態的編隊模式 , 可以打破單一機器人采集的數據孤島效應 , 產出覆蓋不同運動控制邏輯、不同感知方式、不同交互模式的多源異構數據 。 ”現場工作人員表示 , 基地還建立起標準化數據生產體系 , 覆蓋數據采集、標注、質檢全流程 , 保證從任務下發到最終交付的全流程質量可控 。
北京人形的工作人員正在遙操機器人拿取物體 。 新京報貝殼財經記者 韋博雅 攝
破解數據采集痛點 , 北京人形前后端發力
在走訪過程中 , 北京人形具身智能機器人數據與訓練基地負責人蔣未來就行業關注的數據質量、標準統一、產業趨勢與商業落地等核心問題 , 接受了新京報貝殼財經等媒體的采訪 。
數據質量是具身智能模型訓練的生命線 , 也是當前行業普遍面臨的核心挑戰 。 蔣未來坦言 , 人形機器人數據采集與地圖數據、大語言模型數據標注有著本質區別 , 涉及大量現場管理與全流程管控 , 影響數據質量的因素貫穿采集全鏈路 。
如采集前的場景描述與任務設計是否合理 , 長時任務的變量設置是否充分;采集過程中的畫面曝光、運動軌跡不流暢、環境反光等各類干擾;采集后標注平臺的自動化能力、處理效率 , 都會直接影響最終的數據質量 。
蔣未來透露 , 基地運營初期 , 數據驗收合格率僅為50% , 大量不合格數據造成了成本的浪費 。 為破解這一難題 , 基地從前期現場管理與后期后臺處理兩端發力 , 前期建立嚴格的工藝管理流程與專業的人員培訓體系 , 從源頭減少采集失誤;后期依托自研的數據平臺 , 實現單臺設備采集質量的監控、數據標準歸類與錯誤溯源 , 形成了采集-質檢-反饋-優化的閉環管理 。
經過四個月的持續打磨 , 基地內部質檢合格率已提升至95%左右 , 超70%的產能用于服務行業研發型客戶 。
目前行業普遍存在的數據異構難題 , 不同廠商的機器人硬件與傳感器布局、控制接口各不相同 , 形成了機器人“方言”壁壘 , 導致數據復用效率低、企業間數據難以流通 。
“目前行業主要有兩大解決思路 , 一是探索不與特定機器人綁定的采集方案 , 二是推進世界模型的技術路線 , 我們也在同步開展相關探索 。 ”蔣未來坦言 , 當前真機實采數據已進入量產階段 , 能夠穩定支撐實際場景的模型訓練 , 而數據異構的解決方案仍處于研發與落地嘗試階段 , 需要全行業的技術能力提升與資源投入 。
談及2026年的行業發展趨勢 , 蔣未來表示 , 市場對具身智能數據的需求已出現爆發式增長 , 基本都達到十萬甚至幾十萬小時的量級 , 較2025年需求規模增長至少10倍 。 而行業的核心趨勢 , 將是新的采集方式的持續落地與優化 , 行業將在真機實采與仿真采集之間找到更優的平衡 , 同時數據采集的標準化、智能化程度將進一步提升 。
新京報貝殼財經記者 韋博雅
編輯 楊娟娟
【探訪|人形機器人智能化的核心密碼,藏在這座數據工廠里】校對 趙琳

    推薦閱讀