Humanoid Occupancy建立多模態環境理解新范式聯想集團

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

第一作者崔巍，北京人形機器人創新中心感知算法負責人；共同一作王浩宇，極佳科技算法工程師，項目負責人；通訊作者張強，北京人形機器人創新中心學術委員會主任。

憑借類人化的結構設計與運動模式，人形機器人被公認為最具潛力融入人類環境的通用型機器人。其核心任務涵蓋操作 (manipulation)、移動 (locomotion) 與導航 (navigation) 三大領域，而這些任務的高效完成，均以機器人對自身所處環境的全面精準理解為前提。

然而，傳統感知系統存在明顯局限：有些僅能適配特定場景，難以應對復雜多變的真實環境；有些無法有效融合多種傳感器信息，導致數據利用率低下。這直接造成機器人在實際應用中頻繁出現感知失效問題，嚴重制約了任務執行效率。

為此，北京人形機器人創新中心推出 Humanoid Occupancy 感知系統，為破解這一行業難題提供了革命性方案。該系統通過創新性融合多模態傳感器信息，構建起基于語義占用 (occupancy) 表征的通用感知框架，能夠精準捕捉環境中的語義屬性與幾何特征，為機器人的任務規劃和導航決策奠定堅實基礎，也為人形機器人向實際場景大規模部署邁出了關鍵的一步。

論文標題：Humanoid Occupancy: Enabling A Generalized Multimodal Occupancy Perception System on Humanoid Robots 論文地址：https://arxiv.org/abs/2507.20217 項目主頁：https://humanoid-occupancy.github.io/ 聯系郵箱：jony.zhang@x-humanoid.com

突破傳統感知局限，占用表征具有核心優勢
人形機器人面臨三大核心任務：操作、移動和導航。操作需要豐富的紋理和幾何信息，移動依賴地形幾何感知，導航則要求全局環境語義和空間幾何理解。這些多樣化需求對感知系統設計提出了巨大挑戰，而傳統的感知表示方法往往只能反映部分信息，無法滿足復雜任務需求。

因此， Humanoid Occupancy 系統選擇語義占用表征作為人形機器人感知的核心范式，其具備兩大顯著優勢：

三維空間全面編碼：通過體素直接編碼環境中每個空間單元的占據狀態與語義類別，不僅能精準捕捉二維平面分布特征，更能完整呈現垂直維度的精細結構及語義屬性，其表征能力顯著優于傳統的 BEV (鳥瞰圖) 表征方式。
天然適配多模態融合：相較于點云、網格等其他三維表示方法，語義占用可將 RGB 圖像、深度信息、LiDAR 點云等多類傳感器數據方便地統一整合至空間體素中，使得該系統在數據結構規范性、語義標注便捷性及下游任務接口兼容性上更具通用性與可擴展性，能夠直接為路徑規劃、障礙規避及操作執行等任務提供支撐。
三大關鍵技術，構建完整感知體系
Humanoid Occupancy 系統構建了一套覆蓋硬件布局、數據集構建及多模態融合網絡設計的全鏈條解決方案，為人形機器人提供了通用化的感知技術路線。

優化傳感器布局，最大化感知能力：為兼顧操作、移動和導航任務的感知需求，系統采用了創新的傳感器布局策略：配備6個RGB相機和1個激光雷達，其中6個相機前后各1個、兩側各2個，激光雷達的水平視場角為360度。同時針對人形機器人的特性，設計了科學合理的安裝方案，有效避免了設備遮擋問題，保證了360度感知范圍，并確保兼容不同場景和未來迭代升級。

構建首個人形機器人全景占用感知數據集，助力社區研究：為解決人形機器人領域數據稀缺問題，團隊構建了首個針對人形機器人的占用感知數據集。數據集涵蓋家居、工業等多種場景，針對不同場景定義了差異化的語義標注類別（如家居場景包括行人、椅子、桌子等，工業場景包括傳送帶、靜態物體等）。標注采用了精心設計的動靜態解耦標注方法，分別針對動態目標（如行人）進行 bounding box 標注，靜態點云進行逐點語義標注，最終逐幀合并生成占用真值。
設計多模態融合感知網絡，實現精準環境感知：為了實現精確且高效的三維占用感知，我們設計了輕量化的多模態時序融合占用感知網絡。該網絡首先使用各模態專用的編碼器分別提取圖像和點云特征。然后通過Transformer 解碼器實現跨模態的可變形注意力融合。為了進一步提高感知性能，我們記錄歷史BEV特征，并將其對齊到當前時刻自車坐標系中，然后融合跨時序多尺度BEV特征。最終，我們將BEV特征拉升到三維空間預測最終結果。

實驗結果優異，實現性能和效率的平衡
基于采集的多樣化場景數據，團隊同步構建了數據集與 Benchmark 。我們使用 mIoU 和 rayIoU 來衡量三維空間語義分割精度，同時統計模型參數量衡量模型規模。

對比試驗
我們在該數據集上，將我們的方法與具有代表性的 BEV 感知模型進行了訓練和測試。所有模型均采用相同的訓練配置，包括輸入圖像分辨率、骨干網絡結構、特征維度和訓練策略。結果顯示，我們的模型在取得更優指標的同時，還保持了輕量化架構，參數數量更少。

消融實驗
我們通過消融實驗驗證了每一個設計的有效性。具體來說，我們分析了相機畸變修正策略、時序信息聚合和輸入模態數據的影響。

相機畸變：我們針對輸入圖像和投影方法進行實驗，實驗結果表明，在輸入原始圖像，并使用考慮畸變的投影方法進行視角變換能夠實現最優的性能。

時序聚合：我們對所聚合的 BEV 特征數量進行實驗。實驗結果表明，我們提出的時序融合模塊能夠有效聚合歷史特征，相比單幀模型獲得顯著提升。

模態融合：多模態模型相比只有相機和只有激光雷達的模型具有顯著性能優勢。這印證了圖像和點云的互補特性——點云提供深度等幾何信息而圖像提供豐富的語義信息。
可視化結果我們展示了典型感知結果，可以發現得益于圖像和點云的深度融合，該方法能夠實現精準的語義占用感知。

推動人形機器人邁向通用化感知時代
Humanoid Occupancy 系統的推出，不僅為人形機器人提供了強大的環境感知能力，更解決了傳感器布局、數據標注和多模態融合等關鍵挑戰，奠定了通用感知模塊標準化的技術基礎。此外，我們構建了首個人形機器人的全景占用感知數據集，并在天工機器人上驗證了該系統的有效性。
【Humanoid Occupancy建立多模態環境理解新范式】
未來，團隊計劃進一步擴展數據集、優化時序融合策略，并探索在更多人形機器人平臺上的應用。隨著技術的不斷成熟，人形機器人有望在家庭服務、工業協作、戶外救援等多個領域發揮重要作用，為人類生活帶來更多便利。

想了解更多關于 Humanoid Occupancy 的詳細信息，可參考項目主頁以及技術報告。

Humanoid Occupancy建立多模態環境理解新范式

推薦閱讀

黑芝麻餡料怎么做

順風局和逆風局什么意思

ppt能放視頻嗎

男生抽條是什么意思

天貓同意換貨會預留庫存嗎商家同意換貨時有留庫存嗎

微信收不到公眾號的紅包

不是武漢戶口可以在武漢買房嗎

夢見洞房洞房花燭

開齋2021年是哪一天開齋2021年是幾月幾日

鍵盤怎么切換中文輸入法鍵盤如何切換中文輸入法

助人為樂手抄報我是小天使幫助他人手抄報怎么畫

其實我不在乎初三作文

西餐擺盤怎么擺s型

特斯拉充電樁安裝有哪些條件

怎樣調出一杯好喝的咖啡

python考勤管理系統 Python上課點名系統附源碼