
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

論文一作李放 , 美國伊利諾伊大學香檳分校 (UIUC) 博二學生 , 研究方向為 4D 視覺定位、重建/新視角合成以及理解 。 第二作者為美國伊利諾伊大學香檳分校博四學生張昊 。 通訊作者是 Narendra Ahuja 美國伊利諾伊大學香檳分校 Donald Biggar Willet Professor(Ming-hsuan Yang Jia-bin Huang 博士導師) 。 這篇工作為作者在博一期間完成 。
研究背景
在三維重建、NeRF 訓練、視頻生成等任務中 , 相機參數是不可或缺的先驗信息 。 傳統的 SfM/SLAM 方法(如 COLMAP)在靜態場景下表現優異 , 但在存在人車運動、物體遮擋的動態場景中往往力不從心 , 并且依賴額外的運動掩碼、深度或點云信息 , 使用門檻較高 , 而且效率低下 。
縱使在 3R 時代下 , 三維與四維前饋模型可以高效產出相機相對位姿與點云結構 , 但 3R 模型本質上仍存在很多痛點 。 3R 模型對部署硬件容量需求大 (大 GPU) 對豐富高精度訓練數據需求大 , 易發生場景漂移 。 而且目前基于 3R 模型的衍生品們仍無法做到同時解決這些問題 。 Per-scene optimization 的方法常常依賴多種監督和先驗 , 同時優化效率低下 。
這讓作者重新思考:有沒有一種方法可以從動態場景視頻準確、高效、穩定地預測相機參數 , 不受前景運動物體的影響 , 且僅用一段 RGB 視頻作為監督呢?
方法概覽
為了實現這一目的 , 他們提出了 ROS-Cam(RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes) , 已被 NeurIPS 2025 接收為 Spotlight 論文 。 代碼即將開源 。
論文標題:RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes 論文鏈接: https://arxiv.org/abs/2509.15123 Github鏈接:https://github.com/fangli333/ROS-Cam
從第一性原理出發 , 作者分析并將這個挑戰拆解為幾部分:
如何高效、準確地建立幀與幀之間的聯系? 如何有效降低動態場景中移動點對視覺定位損失回歸的影響? 能否做到僅用 RGB 視頻進行監督(理論上所需的最少監督) , 且不加入其他任何先驗 , 但依舊高效和準確?
基于上述思考 , 作者提出了一種僅 RGB 監督 , 高效 , 準確的動態場景相機參數估計的新方法 。 該方法涵蓋了三個部分:
1)補丁式跟蹤濾波器
他們發現現有方法都依賴預訓練的密集預測模型(深度 , 光流 , 點跟蹤)建立幀間聯系作為偽監督 。 但這種密集預測模型經常由于準確性無法保證而引入噪聲偽監督 , 影響模型損失回歸 。 但是 , 準確且魯棒的幀間關系的建立理論上并不需要密集預測 , 相反 , 密集預測除了引入噪聲外還會增加模型處理數據的負擔 , 降低模型優化效率 。 因此 , 他們提出補丁式跟蹤濾波器 , 用來高效 , 準確的建立視頻幀之間的鉸鏈式稀疏點跟蹤聯系 。
2)異常值感知聯合優化
由于不使用任何運動先驗 , 部分偽監督會包含移動點(outlier)軌跡 , 對模型損失回歸造成負面影響 。 不同于與現有方法對每一幀的每一個像素賦予一個不確定性參數不同 , 作者認為每一條提取出的點跟蹤軌跡表示場景中的一個點(他們稱之為校準點) , 且對每一個校準點賦予一個不確定性參數 。 相比較現有工作 , 他們所提出的方法可以使模型需要學習的不確定性參數量隨著幀數增加趨于線性增長 , 從而加快優化效率 。
作者用柯西分布中的 scale 參數來代表不確定性參數 , 并引入 softplus 來保證不確定參數大于 0 。 此外 , 他們引入全新的「平均積累誤差」和「柯西損失函數」來對模型進行監督 , 有效避免移動點對相機參數回歸的影響 。
3)雙階段訓練策略 。
由于不確定性參數的引入 , 同時優化所有參數會導致模型傾向于收斂至局部最小值 。 為了避免這種情況 , 經過對新引入損失函數中的 Softplus 的極限與凸最小值分析 , 作者設計了雙階段訓練策略 , 在第一階段實現模型快速收斂 , 在第二階段實現模型穩定高效 fine-optimization 。
實驗結果
運行時間趨勢對比(隨幀數增加呈線性增長)
不同相機參數估計的新視角合成效果對比(iphone 數據集)
不同相機參數估計的新視角合成效果對比(nerf-ds 數據集)
相機 pose 對比(mpi-sintel 數據集)
其他 quantitative 結果 (更多結果請見論文及 Appendix)
【NeurIPS Spotlight|運動遮擋都不怕,一段視頻精準預測相機參數】
推薦閱讀
- 運動相機進入生態戰:大疆Osmo Nano何以“輕”撬“重”擔
- 續航最長21天!華為手表GT6太炸裂了,運動功能同樣超預期
- 2D數據解鎖3D世界:首個面向運動學部件分解的多視角視頻擴散框架
- 5555被拒稿,AC接收但PC強拒,NeurIPS揭榜引爭議
- 全球首款“聽懂人話”運動相機亮相,光子躍遷LEAPTIC正式官宣
- 1899元!蘋果發布 AirPods Pro 3,這次變成運動耳機了
- 重新定義AI運動眼鏡,致敬未知BleeqUp超影擎閃耀IFA2025
- 尼康Z6III運動拍攝效果如何
- 三名極限運動員,選擇將人生「存檔」
- NeurIPS近3萬投稿強拒400篇論文!博士瘋狂內卷,AI頂會噩夢來襲
