NeurIPS Spotlight｜運動遮擋都不怕，一段視頻精準預測相機參數_香檳

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

論文一作李放，美國伊利諾伊大學香檳分校 (UIUC) 博二學生，研究方向為 4D 視覺定位、重建/新視角合成以及理解。第二作者為美國伊利諾伊大學香檳分校博四學生張昊。通訊作者是 Narendra Ahuja 美國伊利諾伊大學香檳分校 Donald Biggar Willet Professor（Ming-hsuan Yang Jia-bin Huang 博士導師）。這篇工作為作者在博一期間完成。

研究背景

在三維重建、NeRF 訓練、視頻生成等任務中，相機參數是不可或缺的先驗信息。傳統的 SfM/SLAM 方法（如 COLMAP）在靜態場景下表現優異，但在存在人車運動、物體遮擋的動態場景中往往力不從心，并且依賴額外的運動掩碼、深度或點云信息，使用門檻較高，而且效率低下。

縱使在 3R 時代下，三維與四維前饋模型可以高效產出相機相對位姿與點云結構，但 3R 模型本質上仍存在很多痛點。 3R 模型對部署硬件容量需求大 (大 GPU) 對豐富高精度訓練數據需求大，易發生場景漂移。而且目前基于 3R 模型的衍生品們仍無法做到同時解決這些問題。 Per-scene optimization 的方法常常依賴多種監督和先驗，同時優化效率低下。

這讓作者重新思考：有沒有一種方法可以從動態場景視頻準確、高效、穩定地預測相機參數，不受前景運動物體的影響，且僅用一段 RGB 視頻作為監督呢？

方法概覽

為了實現這一目的，他們提出了 ROS-Cam（RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes），已被 NeurIPS 2025 接收為 Spotlight 論文。代碼即將開源。

論文標題：RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes 論文鏈接: https://arxiv.org/abs/2509.15123 Github鏈接：https://github.com/fangli333/ROS-Cam

從第一性原理出發，作者分析并將這個挑戰拆解為幾部分：

如何高效、準確地建立幀與幀之間的聯系？如何有效降低動態場景中移動點對視覺定位損失回歸的影響？能否做到僅用 RGB 視頻進行監督（理論上所需的最少監督），且不加入其他任何先驗，但依舊高效和準確？

基于上述思考，作者提出了一種僅 RGB 監督，高效，準確的動態場景相機參數估計的新方法。該方法涵蓋了三個部分：

1）補丁式跟蹤濾波器

他們發現現有方法都依賴預訓練的密集預測模型（深度，光流，點跟蹤）建立幀間聯系作為偽監督。但這種密集預測模型經常由于準確性無法保證而引入噪聲偽監督，影響模型損失回歸。但是，準確且魯棒的幀間關系的建立理論上并不需要密集預測，相反，密集預測除了引入噪聲外還會增加模型處理數據的負擔，降低模型優化效率。因此，他們提出補丁式跟蹤濾波器，用來高效，準確的建立視頻幀之間的鉸鏈式稀疏點跟蹤聯系。

2）異常值感知聯合優化

由于不使用任何運動先驗，部分偽監督會包含移動點（outlier）軌跡，對模型損失回歸造成負面影響。不同于與現有方法對每一幀的每一個像素賦予一個不確定性參數不同，作者認為每一條提取出的點跟蹤軌跡表示場景中的一個點（他們稱之為校準點），且對每一個校準點賦予一個不確定性參數。相比較現有工作，他們所提出的方法可以使模型需要學習的不確定性參數量隨著幀數增加趨于線性增長，從而加快優化效率。

作者用柯西分布中的 scale 參數來代表不確定性參數，并引入 softplus 來保證不確定參數大于 0 。此外，他們引入全新的「平均積累誤差」和「柯西損失函數」來對模型進行監督，有效避免移動點對相機參數回歸的影響。

3）雙階段訓練策略。

由于不確定性參數的引入，同時優化所有參數會導致模型傾向于收斂至局部最小值。為了避免這種情況，經過對新引入損失函數中的 Softplus 的極限與凸最小值分析，作者設計了雙階段訓練策略，在第一階段實現模型快速收斂，在第二階段實現模型穩定高效 fine-optimization 。

實驗結果

運行時間趨勢對比（隨幀數增加呈線性增長）

不同相機參數估計的新視角合成效果對比（iphone 數據集）

不同相機參數估計的新視角合成效果對比（nerf-ds 數據集）

相機 pose 對比（mpi-sintel 數據集）

其他 quantitative 結果 (更多結果請見論文及 Appendix)
【NeurIPS Spotlight｜運動遮擋都不怕，一段視頻精準預測相機參數】

NeurIPS Spotlight｜運動遮擋都不怕，一段視頻精準預測相機參數

推薦閱讀

阿膠吃多了會怎樣阿膠雖好不宜過量服用

柳州人才補貼多久到賬

草龜應該怎么養

世界上有沒有恐龍

珍珠蠔和生蠔的區別

包裝盒回收利用有哪些方法？

不思議迷宮12月29日密令不思議迷宮12月29日每日密令分享

自動擋車沒電了能推著火嗎自動擋的車沒電了能推著火嗎

特斯拉的露營模式什么意思呀特斯拉的露營模式什么意思

龍血樹耐寒嗎冬天龍血樹耐寒嗎

去盧旺達旅游花多少錢，去迪拜旅游一次要多少錢

建成房屋如何挖地下室

我買了堅果手機，感覺系統好像沒有過度動畫

保定在哪里捐獻血小板,他又沖回機采室捐獻血小板

麥昆小白鞋黃斑怎么去

公共營養師成績查詢，國家公共營養師好考么公共的和私人的有什么區別