SALMONN 音視頻理解大模型霸榜回歸！推理增強、高幀率全線突破

2026-04-27

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
機器之心編輯部
SALMONN 家族在首個通用音頻理解模型（ICLR 2024）和首個全要素音視頻理解模型 video-SALMONN（ICML 2024）基礎上再次迎來重磅擴容，霸榜各大音視頻理解榜單！
全新一代 video-SALMONN 2/2+、首個開源推理增強型音視頻理解大模型 video-SALMONN-o1（ICML 2025）、首個高幀率視頻理解大模型 F-16（ICML 2025），以及無文本泄漏基準測試 AVUT（EMNLP 2025）正式發布。新陣容在視頻理解能力與評測體系全線突破，全面鞏固 SALMONN 家族在開源音視頻理解大模型賽道的領先地位。

圖像由 Nano-Banana 生成
新旗艦登場
video-SALMONN 2+
video-SALMONN 2+ 是首個專注于高質量、完整視頻描述的音視頻大語言模型。通過原子事件級的評估體系與 MrDPO 多輪強化學習優化，它大幅減少信息遺漏和幻覺。在字幕完整性和準確性指標上取得最好結果（SOTA）。

研究團隊進一步發現：利用該模型大規模生成高質量描述，并將其反哺新模型訓練，不僅能保持強描述能力，還能顯著提升問答等音視頻理解任務表現。
最終， video-SALMONN 2+ 在 Video-MME、 WorldSense、AVUT、Video-Holmes、DailyOmni 等音視頻理解榜單， MLVU、LVBench 等靜音視頻理解榜單上全面領先。 72B 版本整體性能超越 GPT-4o、Google Gemini 1.5 Pro 等閉源巨頭。
得益于對音頻模態的同步利用， video-SALMONN 2+ 系列在 Video-MME 等榜單上，無字幕（端到端真實系統）與有字幕（外掛人工標注或商業語音識別系統生成的理想字幕）之間的性能差距小于 2% 。這表明音視頻聯動能有效增強語義理解能力，并能在無人工字幕的視頻與具身機器人等場景中具有明顯優勢。

研究團隊首先以 Qwen 2.5-VL 7B 為底座構建音視頻模型，經上述音視頻訓練流程及 MrDPO 訓練得到 video-SALMONN 2+ 7B 。隨后，利用該模型對更大規模的音視頻數據進行高質量描述標注，并以此為數據源，訓練基于 Qwen 2.5-VL 3B/72B 的音視頻大模型，最終獲得 video-SALMONN 2+ 3B/72B 。實驗顯示，相比僅用原始標注數據訓練的基線，新模型在視頻理解能力上實現了全面提升。

Video-MME 數據集上的消融實驗結果結果驗證了該的技術路徑有效性：高描述能力模型可充當高質量訓練數據的 “生成器” ，為更強音視頻理解模型提供可靠的數據基礎，推動模型持續迭代與性能躍升。
推理增強，讓模型真正看懂
video-SALMONN-o1（ICML 2025）

問題：表演者為什么想成為黑山公民？選擇：
A. 因為黑山是個美麗的國家
B. 因為他想住在一個名字匹配他膚色的國家
C. 他想成為一座山
D. 他覺得黑山的人都很有吸引力
E. 他覺得這個國家的名字聽起來很酷
video-SALMONN-o1 推理：
喜劇演員說歐洲有一個國家叫做黑山。
然后他重復了一遍這個名字，強調它的獨特性：“有一個滿是白人的國家，叫做黑山。 ”
他表示自己很想成為其中一員，甚至開玩笑說要把國籍改成黑山。
他想成為黑山公民的理由是：那是一個美麗的地方，而且名字與他的膚色相符。
因此，答案是 B. 他想生活在一個與自己膚色相符的國家

問題：表演者談到了直男在照片中的習慣。為什么觀眾會笑呢？請從以下選項中選擇：
A. 表演者的襯衫很好笑。
B. 表演者讓觀眾想起了他們的朋友。
C. 觀眾感到被冒犯了，于是尷尬地笑了。
D. 表演者是女性，覺得取笑直男很有趣。
E. 光是想象就覺得好笑，而表演者還把它演出來了。
video-SALMONN-o1 推理：
表演者在開直男的玩笑，說他們拍照時喜歡抬著下巴擺姿勢。
然后他親自模仿了這種姿勢，并加以夸張來制造喜劇效果。
觀眾之所以發笑，是因為他們能夠產生共鳴，并覺得這種擺姿勢的行為本身就很滑稽。
因此，答案是 E. 光是想象就覺得好笑，而表演者還把它演出來了。

問題：這個視頻里有什么笑話以及為什么好笑？請逐步詳細分析
video-SALMONN-o1 推理：
笑點在于：美國副總統喬?拜登寫了一本自傳。
說話者（很可能是個喜劇演員或觀眾）說他覺得這本書比實際好得多。
這很有趣，因為它利用了一個常見的觀念 —— 政治人物往往會把自己描繪得比他們真正值得的更正面。
說話者暗示拜登的自傳好得令人難以置信，這是一種對情境的幽默夸張。
在脫口秀等復雜視頻中，深層理解不僅依賴于音頻與視覺的聯合感知，還需要在此基礎上開展多步推理。 video-SALMONN-o1 是首個推理增強的開源音視頻大語言模型：相較于同類開源系統直接輸出答案，它可以同時接收音頻與視頻輸入，執行基于證據的逐步推理并給出結論，實現結果與理由的一致性。實驗觀察表明，針對數學 / 編程的文本推理優化，或以圖文為主的推理范式，難以有效泛化至音視頻理解；video-SALMONN-o1 以音視頻原生的過程監督與推理優化，拓寬了推理的應用邊界，使大模型能以推理為核心更全面地理解物理世界。

問題：雙胞胎研究如何分離 TBI（創傷性腦損傷）對癡呆風險的影響。請逐步分析。
video-SALMONN-o1 推理：
問題在于雙胞胎研究如何分離 TBI（創傷性腦損傷）對癡呆風險的影響。我們需要明確該研究中有哪些關鍵要素，能夠幫助把 TBI 的作用與其他影響癡呆的因素區分開來。
講者提到，該研究采用 “雙胞胎配對” 設計，也就是說比較雙胞胎個體。這意味著研究重點在于控制遺傳因素和共同的環境因素。
講者強調，研究中的雙胞胎在 TBI 上是不一致的（即一人有 TBI ，另一人沒有），在癡呆發病上也是不一致的（即一人發展為癡呆，另一人沒有）。這種設計使研究者能夠控制早期的遺傳和環境暴露因素，因為這些在雙胞胎之間是相似的。
通過比較在 TBI 經歷和癡呆結果上不同的雙胞胎，研究就能隔離出 TBI 對癡呆風險的影響。如果 TBI 是一個重要的風險因素，我們就會預期：有 TBI 的雙胞胎更容易發展為癡呆，而沒有 TBI 的雙胞胎則相對較少出現癡呆。
在脫口秀、學術演講等復雜音視頻場景中，理解不僅依賴于音頻與視覺的聯合感知，還需要在此基礎上開展多步推理。 video-SALMONN-o1 是首個推理增強的開源音視頻大語言模型：相較于同類開源系統直接輸出答案，它可以同時接收音頻與視頻輸入，執行基于證據的逐步推理并給出結論，實現結果與理由的一致性。實驗觀察表明，針對數學 / 編程的文本推理，以及圖文推理，均難以泛化至音視頻場景；video-SALMONN-o1 以音視頻原生的過程監督與推理優化，拓寬了推理的應用邊界，使大模型能以推理為核心更全面準確的理解物理世界。
核心算法 process DPO

pDPO rollout 和 contrastive step selection 示意圖
Process DPO（pDPO）是 video-SALMONN-o1 核心提出的訓練方法。與傳統過程獎勵函數（PRM）同樣關注逐步（step-level）優化不同， pDPO 面向音視頻場景中自檢能力弱、難以獲得穩定步驟級獎勵的問題，改用偏好優化路徑：在每一步開始時采樣兩個候選下一步 sk 與 s’k ，分別進行推理展開（rollout），依據展開結果的正確性比較兩者優劣，并將 DPO 損失細化到步驟級進行優化。
針對大量 rollout 帶來的計算開銷， pDPO 進一步引入基于擾動的不確定性估計：通過對當前狀態施加微小擾動、觀察輸出變化來評估各步的不確定性，僅對不確定性高的關鍵步驟執行偏好對比與優化，從而顯著降低計算成本。
高幀率突破，捕捉決定性瞬間
F-16（ICML 2025）
F-16 是首個為高幀率視頻理解而生的大模型。人眼感知遠超 30FPS ，體育直播、電競高光、快速切鏡這些關鍵時刻，高幀率決定你能不能 “看全、看準” 。遺憾的是，多數視頻大模型還停留在 1 FPS 左右的低采樣，信息大量流失；簡單拉高幀率又會把算力 “燒空” 。
F-16 的答案是多幀聯合對齊壓縮。它把多幀特征一起送入對齊器，一邊對齊語義、一邊做高效壓縮，既保住圖像編碼器的預訓練語義，又把計算成本壓下來。結果很直接：在通用視頻理解基準上， F-16 追平并改寫同時期同規模純視覺開源模型 SOTA 結果；在運動等高幀率任務上穩居 SOTA 。

從左到右： FPS = 16、FPS = 1、FPS = 16、FPS = 1

更直觀的結果來了：在籃足體跳四大體育任務上，用同一訓練數據微調的 F-16 高幀率模型不僅全線壓過低幀率基線，還跑贏 GPT-4o、Gemini 1.5 Pro 等頭部閉源模型，再次驗證了高幀率信息的價值。

該研究系統性驗證了高幀率信息在通用視頻理解中的關鍵作用，為后續對高幀率視頻理解模型的深入探索奠定了堅實基礎。
降低文本泄漏
打造公正的評測基準：AVUT（EMNLP 2025）
AVUT 聚焦通用場景下的音視頻理解，涵蓋信息獲取、內容計數、事件定位與匹配、說話人日志等多類任務。其中很多測試依賴非語音的音頻事件等模態線索，單純的語音轉文本無法覆蓋，這也凸顯了音視頻協同理解的必要性。
值得警惕的是，音視頻理解任務中有一個常被忽略的大坑：文本短路。很多評測里，模型哪怕不看視頻，只看題目和選項就能答對（見下表 Text-only Accuracy%）。這意味著不少 “高分” ，其實并非真正的音視頻理解。

如上表所示，在多項常用數據集中， GPT-4o 模型僅依賴文本即可取得較高的準確率。為此，我們提出 AVUT 測試集，一方面平衡音頻、視頻與文本三種模態的貢獻，另一方面有效抑制文本捷徑，直擊 “只看文本也能答對” 的評測痛點。
我們還引入了 Cycled Accuracy%：把每道題的選項打亂重排 (ABCD BCDA CDAB DABC) ，將正確答案依次放在不同位置，只有模型在所有排列里都選同一答案才算對。這樣就能有效抑制 “位置偏好” 造成的水分（比如不確定就 “蒙 C”）。結果顯示， AVUT 數據能夠避免 “偏好型刷分” 。
隨著 video-SALMONN 2+ 領跑榜單、video-SALMONN-o1 推理增強落地、F-16 高幀率架構升級，以及以音頻為核心的 AVUT 基準建立， SALMONN 家族已形成從模型到評測、從效率到效果的完整閉環。它不僅刷新了開源視頻理解的上限，也為產業與學術界提供了有效的方法創新和可靠的對比標準。面向真實世界的多模態場景， SALMONN 的這次 “集群式” 進化正把視頻理解推向 “看得懂、聽得準、答得明” 。未來， SALMONN 系列將持續迭代，帶來更強模型與更完善生態！
團隊介紹
清華大學電子工程系多媒體信號與智能信息處理實驗室在醫工交叉和語音處理領域有長期積淀。實驗室的張超研究小組成立于 2022 年，專注于多模態大語言模型、腦信號解碼與大腦健康研究。
SALMONN 系列開源地址：https://github.com/bytedance/SALMONN
論文地址：
video-SALMONN 2：https://arxiv.org/abs/2506.15220 video-SALMONN-o1：https://openreview.net/pdf?id=y62fhuA69I F-16：https://openreview.net/pdf?id=3H7qAT9Qow AVUT Benchmark：https://arxiv.org/abs/2503.19951 【SALMONN 音視頻理解大模型霸榜回歸！推理增強、高幀率全線突破】文中視頻鏈接：https://mp.weixin.qq.com/s/mvGAXeFULsESoXOuVCOcrA

推薦閱讀

上一篇：不讓蘋果17 Air獨美！聯想官宣moto X70 Air新機又輕薄又有AI

下一篇：小米17 Pro大字吸睛，“小字”藏刀，逆光之王是否名符其實？