Insta360推出DAP,200萬數據打造全場景360°空間智能新高度

Insta360推出DAP,200萬數據打造全場景360°空間智能新高度

文章圖片

Insta360推出DAP,200萬數據打造全場景360°空間智能新高度

文章圖片

Insta360推出DAP,200萬數據打造全場景360°空間智能新高度

文章圖片

Insta360推出DAP,200萬數據打造全場景360°空間智能新高度

文章圖片

Insta360推出DAP,200萬數據打造全場景360°空間智能新高度

文章圖片

Insta360推出DAP,200萬數據打造全場景360°空間智能新高度


在空間智能(Spatial Intelligence)飛速發展的今天 , 全景視角因其 360° 的環繞覆蓋能力 , 成為了機器人導航、自動駕駛及虛擬現實的核心基石 。 然而 , 全景深度估計長期面臨 “數據荒” 與 “模型泛化差” 的瓶頸 。
近日 , 來自 Insta360 研究團隊、加州大學圣地亞哥分校 (UCSD)、武漢大學以及加州大學默塞德分校的研究者共同推出了 Depth Any Panoramas (DAP) 。 這是首個在大規模多樣化數據集上訓練的全景度量深度(Metric Depth)基礎模型 , 不僅統一了室內外場景 , 更通過 200 萬量級的數據引擎與創新的幾何一致性設計 , 刷新了多項 benchmark 紀錄 , 在多種 open-world 場景下保持優異的效果 。

論文標題:Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation 項目主頁:https://insta360-research-team.github.io/DAP_website/ 論文鏈接:https://insta360-research-team.github.io/DAP_website/assets/paper.pdf Demo:https://huggingface.co/spaces/Insta360-Research/DAP模型對由 Gemini 或 DiT-360 等合成的全景圖同樣展現出了極佳的預測效果 , 生成的深度圖邊緣銳利、邏輯自洽 , 是空間 AIGC 鏈路中理想的幾何基石 。除了靜態圖像 , DAP 在處理全景視頻流時同樣展現出了極佳的預測效果 , 具備優秀的幀間一致性與穩定性。


【Insta360推出DAP,200萬數據打造全場景360°空間智能新高度】破局:從「貧礦」到 200 萬量級的「數據海洋」
在深度學習時代 , 數據的規模決定了模型的上限 。 然而 , 獲取帶高精度深度標注的全景數據成本極高 , 導致學術界長期依賴于幾萬張規模的小型數據集 , 如 Stanford2D3D 或 Matterport3D 。
為了打破這一僵局 , DAP 團隊構建了一個規??涨暗娜皵祿?, 將數據量直接推向了 200 萬(2M)級別 , 除了現有的 Structured3D:
1.7M 互聯網真實全景圖:從海量網頁中收集并精細過濾 , 覆蓋了極為豐富的真實世界場景 。 UE5 模擬器精準補全:利用基于虛幻引擎 5 的 AirSim360 模擬器 , 生成了 90K 張高質量、帶像素級深度標簽的室外航拍數據 , 解決了戶外訓練數據稀缺的痛點 。 AIGC 技術協同:引入 DiT360 模型生成了 200K 張室內全景圖 , 進一步增強了模型對多樣化室內環境的理解力 。
三階段偽標簽管線:讓「無監督」變「強監督」
面對 1.9M 沒有任何標簽的原始全景圖 , 如何挖掘它們的價值?
DAP 巧妙地設計了一個三階段偽標簽精煉管線 , 像漏斗一樣層層篩選 , 最終淬煉出高質量的監督信號:
1. Stage 1:場景不變標注器 。 先用小規模但精準的合成數據(Structured3D + DAP-2M-Labeled)練出一個基本功扎實的標注器 , 確立物理意義上的深度基準 。
2. Stage 2:寫實性不變標注器 。 引入專門的深度質量判別器(Discriminator) , 從 1.9M 預測結果中篩選出最靠譜的 600K 樣本(300K 室內 + 300K 戶外) , 再次訓練標注器 , 消除合成數據與真實場景之間的紋理鴻溝 。
3. Stage 3:全量 DAP 訓練 。 在匯集了精煉偽標簽和原始強監督標簽的 2M 數據集上 , 正式煉成 DAP 基礎模型 。

模型架構細節:DINOv3 骨干+動態距離掩碼
除了海量數據 , DAP 在模型架構上也進行了設計:
強大的 “大腦”:采用最新的 DINOv3-Large 作為特征提取骨干 , 賦予了模型極強的視覺先驗和零樣本泛化能力 。 距離自適應(Range Mask Head):模型內置了即插即用的距離閾值分支 , 允許用戶根據應用場景(如室內掃地機器人 vs 戶外無人機)切換深度感知范圍 , 有效解決了全景圖中遠景區域深度分布不均、預測不穩的問題 。 多維幾何優化:引入了包括 SILog 損失、鋒利度損失(LDF/Lgrad)、表面法線損失以及點云一致性損失在內的聯合優化 。 這些損失函數專門針對全景圖的等距柱狀投影(ERP)進行了畸變補償 , 確保預測出的深度圖不僅數值準 , 而且邊緣銳利、幾何結構不崩塌 。
效果:三大主流榜單
在多項嚴苛的零樣本(Zero-shot)測試中 , DAP 展現了優異的效果:
室內場景(Stanford2D3D / Matterport3D):DAP 的絕對相對誤差(AbsRel)大幅下降 , 在沒有針對目標數據集進行任何微調的情況下 , 依然保持了極高的預測一致性 。 戶外場景(Deep360 / DAP-Test):在極具挑戰性的戶外測試集中 , DAP 顯著超越了此前的 DAC 和 Unik3D 。 它預測出的建筑物邊緣清晰 , 天空區域深度穩定 , 不再出現傳統模型的 “深度空洞” 或 “結構扭曲” 。

圖示對比:圖中的實測對比中可以看到 , 對比 baseline 出現的遠景模糊和天空深度誤判 , DAP 無論是復雜的家具紋理還是遠處的山脈輪廓 , 都清晰可見 。

全空間智能的新里程碑
DAP 的出現 , 標志著全景深度估計正式進入了 open-world 時代 。
它不僅能為自動駕駛、機器人避障提供更廣闊的 “全知視角” , 也為 3D 場景重建、VR/AR 內容創作提供了極低成本的深度獲取手段 。 正如論文總結所言 , DAP 通過大規模數據擴展和統一的三階段管線 , 成功構建了一個能跨越室內外、統一米制深度的全景視覺基座 。
目前 , DAP 的項目頁面已經正式上線 , 相關的代碼與模型也已開源 。
“數據是在全景領域實現 AGI 感知的關鍵 。 ” DAP 不僅為機器人全向避障提供了更精準的 “眼睛” , 也為 VR/AR 場景的大規模 3D 重建和場景生成奠定了堅實的技術底座 。 如果你對全景視覺、空間計算或深度估計感興趣 , DAP 絕對是不容錯過的年度之作!

    推薦閱讀