Insta360推出DAP，200萬數據打造全場景360°空間智能新高度

2026-04-02 北京市深圳市機器人具身智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

在空間智能（Spatial Intelligence）飛速發展的今天，全景視角因其 360° 的環繞覆蓋能力，成為了機器人導航、自動駕駛及虛擬現實的核心基石。然而，全景深度估計長期面臨 “數據荒” 與 “模型泛化差” 的瓶頸。
近日，來自 Insta360 研究團隊、加州大學圣地亞哥分校 (UCSD)、武漢大學以及加州大學默塞德分校的研究者共同推出了 Depth Any Panoramas (DAP) 。這是首個在大規模多樣化數據集上訓練的全景度量深度（Metric Depth）基礎模型，不僅統一了室內外場景，更通過 200 萬量級的數據引擎與創新的幾何一致性設計，刷新了多項 benchmark 紀錄，在多種 open-world 場景下保持優異的效果。

論文標題：Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation 項目主頁：https://insta360-research-team.github.io/DAP_website/ 論文鏈接：https://insta360-research-team.github.io/DAP_website/assets/paper.pdf Demo：https://huggingface.co/spaces/Insta360-Research/DAP模型對由 Gemini 或 DiT-360 等合成的全景圖同樣展現出了極佳的預測效果，生成的深度圖邊緣銳利、邏輯自洽，是空間 AIGC 鏈路中理想的幾何基石。除了靜態圖像， DAP 在處理全景視頻流時同樣展現出了極佳的預測效果，具備優秀的幀間一致性與穩定性。

【Insta360推出DAP，200萬數據打造全場景360°空間智能新高度】破局：從「貧礦」到 200 萬量級的「數據海洋」
在深度學習時代，數據的規模決定了模型的上限。然而，獲取帶高精度深度標注的全景數據成本極高，導致學術界長期依賴于幾萬張規模的小型數據集，如 Stanford2D3D 或 Matterport3D 。
為了打破這一僵局， DAP 團隊構建了一個規?？涨暗娜皵祿?，將數據量直接推向了 200 萬（2M）級別，除了現有的 Structured3D：
1.7M 互聯網真實全景圖：從海量網頁中收集并精細過濾，覆蓋了極為豐富的真實世界場景。 UE5 模擬器精準補全：利用基于虛幻引擎 5 的 AirSim360 模擬器，生成了 90K 張高質量、帶像素級深度標簽的室外航拍數據，解決了戶外訓練數據稀缺的痛點。 AIGC 技術協同：引入 DiT360 模型生成了 200K 張室內全景圖，進一步增強了模型對多樣化室內環境的理解力。
三階段偽標簽管線：讓「無監督」變「強監督」
面對 1.9M 沒有任何標簽的原始全景圖，如何挖掘它們的價值？
DAP 巧妙地設計了一個三階段偽標簽精煉管線，像漏斗一樣層層篩選，最終淬煉出高質量的監督信號：
1. Stage 1：場景不變標注器。先用小規模但精準的合成數據（Structured3D + DAP-2M-Labeled）練出一個基本功扎實的標注器，確立物理意義上的深度基準。
2. Stage 2：寫實性不變標注器。引入專門的深度質量判別器（Discriminator），從 1.9M 預測結果中篩選出最靠譜的 600K 樣本（300K 室內 + 300K 戶外），再次訓練標注器，消除合成數據與真實場景之間的紋理鴻溝。
3. Stage 3：全量 DAP 訓練。在匯集了精煉偽標簽和原始強監督標簽的 2M 數據集上，正式煉成 DAP 基礎模型。

模型架構細節：DINOv3 骨干+動態距離掩碼
除了海量數據， DAP 在模型架構上也進行了設計：
強大的 “大腦”：采用最新的 DINOv3-Large 作為特征提取骨干，賦予了模型極強的視覺先驗和零樣本泛化能力。距離自適應（Range Mask Head）：模型內置了即插即用的距離閾值分支，允許用戶根據應用場景（如室內掃地機器人 vs 戶外無人機）切換深度感知范圍，有效解決了全景圖中遠景區域深度分布不均、預測不穩的問題。多維幾何優化：引入了包括 SILog 損失、鋒利度損失（LDF/Lgrad）、表面法線損失以及點云一致性損失在內的聯合優化。這些損失函數專門針對全景圖的等距柱狀投影（ERP）進行了畸變補償，確保預測出的深度圖不僅數值準，而且邊緣銳利、幾何結構不崩塌。
效果：三大主流榜單
在多項嚴苛的零樣本（Zero-shot）測試中， DAP 展現了優異的效果：
室內場景（Stanford2D3D / Matterport3D）：DAP 的絕對相對誤差（AbsRel）大幅下降，在沒有針對目標數據集進行任何微調的情況下，依然保持了極高的預測一致性。戶外場景（Deep360 / DAP-Test）：在極具挑戰性的戶外測試集中， DAP 顯著超越了此前的 DAC 和 Unik3D 。它預測出的建筑物邊緣清晰，天空區域深度穩定，不再出現傳統模型的 “深度空洞” 或 “結構扭曲” 。

圖示對比：圖中的實測對比中可以看到，對比 baseline 出現的遠景模糊和天空深度誤判， DAP 無論是復雜的家具紋理還是遠處的山脈輪廓，都清晰可見。

全空間智能的新里程碑
DAP 的出現，標志著全景深度估計正式進入了 open-world 時代。
它不僅能為自動駕駛、機器人避障提供更廣闊的 “全知視角” ，也為 3D 場景重建、VR/AR 內容創作提供了極低成本的深度獲取手段。正如論文總結所言， DAP 通過大規模數據擴展和統一的三階段管線，成功構建了一個能跨越室內外、統一米制深度的全景視覺基座。
目前， DAP 的項目頁面已經正式上線，相關的代碼與模型也已開源。
“數據是在全景領域實現 AGI 感知的關鍵。 ” DAP 不僅為機器人全向避障提供了更精準的 “眼睛” ，也為 VR/AR 場景的大規模 3D 重建和場景生成奠定了堅實的技術底座。如果你對全景視覺、空間計算或深度估計感興趣， DAP 絕對是不容錯過的年度之作！

推薦閱讀

上一篇：豆包和DeepSeek們，再不做小程序就晚了

下一篇：斬獲國家級AI賽事最高榮譽！聯想大模型安全治理方案彰顯硬實力