
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
第一作者崔巍 , 北京人形機器人創新中心感知算法負責人;共同一作王浩宇 , 極佳科技算法工程師 , 項目負責人;通訊作者張強 , 北京人形機器人創新中心學術委員會主任 。
憑借類人化的結構設計與運動模式 , 人形機器人被公認為最具潛力融入人類環境的通用型機器人 。 其核心任務涵蓋操作 (manipulation)、移動 (locomotion) 與導航 (navigation) 三大領域 , 而這些任務的高效完成 , 均以機器人對自身所處環境的全面精準理解為前提 。
然而 , 傳統感知系統存在明顯局限:有些僅能適配特定場景 , 難以應對復雜多變的真實環境;有些無法有效融合多種傳感器信息 , 導致數據利用率低下 。 這直接造成機器人在實際應用中頻繁出現感知失效問題 , 嚴重制約了任務執行效率 。
為此 , 北京人形機器人創新中心推出 Humanoid Occupancy 感知系統 , 為破解這一行業難題提供了革命性方案 。 該系統通過創新性融合多模態傳感器信息 , 構建起基于語義占用 (occupancy) 表征的通用感知框架 , 能夠精準捕捉環境中的語義屬性與幾何特征 , 為機器人的任務規劃和導航決策奠定堅實基礎 , 也為人形機器人向實際場景大規模部署邁出了關鍵的一步 。
論文標題:Humanoid Occupancy: Enabling A Generalized Multimodal Occupancy Perception System on Humanoid Robots 論文地址:https://arxiv.org/abs/2507.20217 項目主頁:https://humanoid-occupancy.github.io/ 聯系郵箱:jony.zhang@x-humanoid.com
突破傳統感知局限 , 占用表征具有核心優勢
人形機器人面臨三大核心任務:操作、移動和導航 。 操作需要豐富的紋理和幾何信息 , 移動依賴地形幾何感知 , 導航則要求全局環境語義和空間幾何理解 。 這些多樣化需求對感知系統設計提出了巨大挑戰 , 而傳統的感知表示方法往往只能反映部分信息 , 無法滿足復雜任務需求 。
因此 , Humanoid Occupancy 系統選擇語義占用表征作為人形機器人感知的核心范式 , 其具備兩大顯著優勢:
三維空間全面編碼:通過體素直接編碼環境中每個空間單元的占據狀態與語義類別 , 不僅能精準捕捉二維平面分布特征 , 更能完整呈現垂直維度的精細結構及語義屬性 , 其表征能力顯著優于傳統的 BEV (鳥瞰圖) 表征方式 。
天然適配多模態融合:相較于點云、網格等其他三維表示方法 , 語義占用可將 RGB 圖像、深度信息、LiDAR 點云等多類傳感器數據方便地統一整合至空間體素中 , 使得該系統在數據結構規范性、語義標注便捷性及下游任務接口兼容性上更具通用性與可擴展性 , 能夠直接為路徑規劃、障礙規避及操作執行等任務提供支撐 。
三大關鍵技術 , 構建完整感知體系
Humanoid Occupancy 系統構建了一套覆蓋硬件布局、數據集構建及多模態融合網絡設計的全鏈條解決方案 , 為人形機器人提供了通用化的感知技術路線 。
優化傳感器布局 , 最大化感知能力:為兼顧操作、移動和導航任務的感知需求 , 系統采用了創新的傳感器布局策略:配備6個RGB相機和1個激光雷達 , 其中6個相機前后各1個、兩側各2個 , 激光雷達的水平視場角為360度 。 同時針對人形機器人的特性 , 設計了科學合理的安裝方案 , 有效避免了設備遮擋問題 , 保證了360度感知范圍 , 并確保兼容不同場景和未來迭代升級 。
構建首個人形機器人全景占用感知數據集 , 助力社區研究:為解決人形機器人領域數據稀缺問題 , 團隊構建了首個針對人形機器人的占用感知數據集 。 數據集涵蓋家居、工業等多種場景 , 針對不同場景定義了差異化的語義標注類別(如家居場景包括行人、椅子、桌子等 , 工業場景包括傳送帶、靜態物體等) 。 標注采用了精心設計的動靜態解耦標注方法 , 分別針對動態目標(如行人)進行 bounding box 標注 , 靜態點云進行逐點語義標注 , 最終逐幀合并生成占用真值 。
設計多模態融合感知網絡 , 實現精準環境感知:為了實現精確且高效的三維占用感知 , 我們設計了輕量化的多模態時序融合占用感知網絡 。 該網絡首先使用各模態專用的編碼器分別提取圖像和點云特征 。 然后通過Transformer 解碼器實現跨模態的可變形注意力融合 。 為了進一步提高感知性能 , 我們記錄歷史BEV特征 , 并將其對齊到當前時刻自車坐標系中 , 然后融合跨時序多尺度BEV特征 。 最終 , 我們將BEV特征拉升到三維空間預測最終結果 。
實驗結果優異 , 實現性能和效率的平衡
基于采集的多樣化場景數據 , 團隊同步構建了數據集與 Benchmark 。 我們使用 mIoU 和 rayIoU 來衡量三維空間語義分割精度 , 同時統計模型參數量衡量模型規模 。
對比試驗
我們在該數據集上 , 將我們的方法與具有代表性的 BEV 感知模型進行了訓練和測試 。 所有模型均采用相同的訓練配置 , 包括輸入圖像分辨率、骨干網絡結構、特征維度和訓練策略 。 結果顯示 , 我們的模型在取得更優指標的同時 , 還保持了輕量化架構 , 參數數量更少 。
消融實驗
我們通過消融實驗驗證了每一個設計的有效性 。 具體來說 , 我們分析了相機畸變修正策略、時序信息聚合和輸入模態數據的影響 。
相機畸變:我們針對輸入圖像和投影方法進行實驗 , 實驗結果表明 , 在輸入原始圖像 , 并使用考慮畸變的投影方法進行視角變換能夠實現最優的性能 。
時序聚合:我們對所聚合的 BEV 特征數量進行實驗 。 實驗結果表明 , 我們提出的時序融合模塊能夠有效聚合歷史特征 , 相比單幀模型獲得顯著提升 。
模態融合:多模態模型相比只有相機和只有激光雷達的模型具有顯著性能優勢 。 這印證了圖像和點云的互補特性——點云提供深度等幾何信息而圖像提供豐富的語義信息 。
可視化結果我們展示了典型感知結果 , 可以發現得益于圖像和點云的深度融合 , 該方法能夠實現精準的語義占用感知 。
推動人形機器人邁向通用化感知時代
Humanoid Occupancy 系統的推出 , 不僅為人形機器人提供了強大的環境感知能力 , 更解決了傳感器布局、數據標注和多模態融合等關鍵挑戰 , 奠定了通用感知模塊標準化的技術基礎 。 此外 , 我們構建了首個人形機器人的全景占用感知數據集 , 并在天工機器人上驗證了該系統的有效性 。
【Humanoid Occupancy建立多模態環境理解新范式】
未來 , 團隊計劃進一步擴展數據集、優化時序融合策略 , 并探索在更多人形機器人平臺上的應用 。 隨著技術的不斷成熟 , 人形機器人有望在家庭服務、工業協作、戶外救援等多個領域發揮重要作用 , 為人類生活帶來更多便利 。
想了解更多關于 Humanoid Occupancy 的詳細信息 , 可參考項目主頁以及技術報告 。
推薦閱讀
- 圖靈獎得主斯發基斯:中國應建立強大的工業AI應用基礎
- 芯片巨頭恩智浦將為中國客戶建立芯片供應鏈
- 利用Excel函數建立動態的工作表目錄
- 如何建立高績效團隊,如何加強團隊建設?
- 如何建立好安全生產教育和培訓檔案,企業對從業人員安全生產教育和培訓應當做到哪些?
- 信任是建立在什么基礎上的,信任是建立在什么基礎上的?
- 影響師生關系的核心因素是,在教育過程中新型師生關系的建立主要取決于
- 第一次導入ISO9001質量體系的步驟,建立ISO質量管理體系的步驟是什么?
- 建立長期護理保險制度能否讓老人真正老有所依,長期護理保險政策解讀
- 如何建立和諧宿舍,如何構建和諧的大學生宿舍人際關系
