剛剛，大模型裝上鷹眼！首創高刷視頻理解，谷歌Gemini 2.5完敗_ai|Google|人工智能

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

【剛剛，大模型裝上鷹眼！首創高刷視頻理解，谷歌Gemini 2.5完敗】

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：KingHZ 好困
【新智元導讀】剛剛，面壁智能再放大招——MiniCPM-V 4.5多模態端側模型橫空出世：8B參數，越級反超72B巨無霸，圖片、視頻、OCR同級全線SOTA！不僅跑得快、看得清，還能真正落地到車機、機器人等。這一次，它不只是升級，而是刷新了端側AI的高度。
這個夏天，中國AI徹底炸?。 ?
一波波重量級開源模型的發布，讓全球開發者目不暇接。
就在剛剛，面壁智能最新開源的首個「高刷視頻理解」多模態模型MiniCPM-V 4.5 ，直接刷新了端側多模態的天花板。
憑借著8B的參數量，在單圖、高刷視頻理解、長視頻理解、OCR、復雜文檔解析等多個領域，一舉拿下同級別或通用模型的SOTA 。
話不多說，直接上效果。

Github：https://github.com/OpenBMB/MiniCPM-o
Hugging Face：https://huggingface.co/openbmb/MiniCPM-V-4_5
ModelScope：https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5
看完之后，你敢信這是一個只有8B參數的端側小模型實現的？反正我不信！
就拿這個刷新率極高的翻紙視頻來說，時長只有短短3秒，卻出現了四張寫滿了不同單詞的白紙。
要想截下這些轉瞬即逝的畫面，你反應稍微慢點都不行，更不用說看清楚字了。
比如下面這幾張圖，就是我們小心翼翼地、一點一點拖動進度條截出來的。

左右滑動查看
然而，我們很快就被「打臉」了。
在MiniCPM-V 4.5拿到這個視頻之后，它不僅十分輕松地識別出了每張紙上的內容，而且一個字都沒錯！

可能有人會覺得，這個任務是不是對于AI來說很簡單？實際上并不是。
同樣一道題，我們拿去問了問當今最強的視頻模型——Gemini 2.5 Pro 。
結果，它不僅只看到了兩張紙，而且能識別出來的，只有第二張的內容：
基于視頻，紙張上寫著以下內容：
· 第一張紙（00:00）：第一張紙上的文字簡短且模糊，但看起來像是一系列手寫的筆記或計算內容。
· 第二張紙（00:01）：第二張紙上清楚地寫著以下文字：“Controllable Hybrid Fast/Deep Thinking” 。

相比起來， GPT-4o就更慘了。
在認真分析了自己截取的5張圖之后， 4o遺憾地表示：「對不起，我什么都沒識別出來」……
要知道Gemini 2.5 Pro和GPT-4o可都是全球頂尖的云端多模態大模型，結果在視頻處理上卻不如參數一個只有8B的端側模型。

可能又有人會說，剛剛這個場景太極限了，平時都碰不到。
沒問題，我們下面就去測一個對于端側模型來說，更接近實際應用的場景。
比如，你在開車的時候突然渴了，想買點喝的。但路很窄，需要時刻觀察過往的行人和非機動車。
這時你就可以問MiniCPM-V 4.5：「我想喝杯飲品，附近能買到嗎？」
秒秒鐘， MiniCPM-V 4.5就發現了路邊的CoCo ，并且貼心地告訴我們可以去買杯咖啡或奶茶。

MiniCPM-V 4.5這視力，稱之為「鷹眼級」是一點也不夸張。
而如此絲滑且精準的效果，靠的正是面壁智能針對模型的全方位創新和升級。

越級的性能：不僅在OCR、文檔解析、圖片理解、長視頻分析等維度實現了同級SOTA ，甚至還反超了9倍參數量的Qwen2.5-VL 72B；
極致的效率：通過高達96倍的視覺壓縮率，在同等視覺token開銷下，可處理6倍的視頻幀數，相比同類模型提升了12至24倍；
端側部署友好：在顯存占用、平均推理時間等方面具有顯著的優勢，達到了效果、速度與功耗的極佳平衡；
混合推理模式：支持「長思考」與「短思考」可控混合推理，既能搞定深度分析，又能兼顧快速響應。

毫不意外，面壁這次打造出的「最強端側多模態」，一如既往地延續了小鋼炮MiniCPM系列的「以小博大」和「高效低成本」。

最強端側多模態
首次實現高刷視頻理解
以小博大，一直是面壁小鋼炮的基因。
這一次， MiniCPM-V 4.5憑借8B參數，在圖片、OCR、復雜文檔解析、長視頻理解等多模態能力上再次刷新能力上限。
單圖方面：在綜合評測權威平臺OpenCompass上，單圖理解能力越級超越多模態王者Gemini 2.5 Pro和GPT-4o、GPT-4.1等眾多閉源模型，甚至超過參數規模更大的Qwen2.5-VL 72B 。

視頻理解：MiniCPM-V 4.5在Video-MME、LVBench、LongVideoBench、MLVU等榜單中，均達到同級最佳水平。

在復雜文檔識別任務中，在OmniDocBench榜單的OverallEdit、TextEdit、TableEdit三項指標上， MiniCPM-V 4.5均取得了通用多模態模型的SOTA 。

此外， MiniCPM-V 4.5同時支持常規模式和深度思考模式，實現了性能與響應速度的有效平衡，常規模式在絕大部分場景下提供出色的多模態理解能力，深度思考模式則專注于應對復雜與復合型推理任務。
更值得一提的是， MiniCPM-V 4.5在全行業內，首次實現了「高刷視頻理解」能力。
高刷視頻不僅有著豐富的細節，還能更好地反映連續時間內的變化，可以為大模型提供「原生慢動作」數據。
而對高刷視頻的理解，本質就是「模型通過獲取更多的視頻幀，來更加精細、實時地理解視頻內容」。
目前的主流多模態模型，處理視頻時通常會采取1 fps抽幀的方式。
這樣做在一定程度上保證了模型推理效率，但也因此缺失了絕大部分的視覺信息，降低了大模型對動態世界「精細化」理解，從而犧牲了模型性能。
相比之下， MiniCPM-V 4.5將2D-Resampler的模型結構拓展為3D-Resampler ，實現了高密度壓縮三維視頻片段。
在LLM推理開銷不變的情況下， MiniCPM-V 4.5最大可接收6倍視頻幀數量達到96倍視覺壓縮率，是同類模型的12-24倍。
換句話說就是， MiniCPM-V 4.5無需依賴插值算法去「猜測」中間幀，就能直接分析真實、連續的動態過程，從而更好地去理解物理世界。
在實測中， MiniCPM-V 4.5如「鷹眼」般「明察秋毫」，視頻細節「盡收眼底」。
在側重高刷視頻理解能力的FavorBench的榜單中， MiniCPM-V 4.5達到同尺寸SOTA ，且超過Qwen2.5-VL 72B ，實現越級領先水平。

不難想象，具備高刷視頻理解能力的模型，必定更能滿足汽車座艙、具身智能等要求實時、精細識別和理解的應用場景中，提供更加智能的服務。
而這就是「高刷」視頻理解的核心價值。

一手實測
下面，就到了激動人心的實測環節。
首先我們來看看， 8B參數的MiniCPM-V 4.5的推理能力如何。
舉個栗子，現在十分著急想要下高速路的你，突然看到了這樣一個交通牌。
很顯然， East Perth/Welshpool出口只有700米，比1千米以外的James St & Wellington St出口短了300米。
因此， East Perth/Welshpool必定是首選。

很快， MiniCPM-V 4.5就給出了正確答案，以及非常清晰、有條理的分析。
通過仔細觀察畫面左側的綠色指示牌，我識別到：

· 上方牌子顯示GRAHAM FARMER FWY ， East Perth和Welshpool ，并標明EXIT 700m（出口700米）。
· 下方牌子則顯示James St & Wellington St ，并標明EXIT 1km（出口1公里）。

根據這些信息，如果您希望盡快到達出口，應該選擇距離更短的那個。

由于「700米」比「1公里」（即1000米）更短，所以GRAHAM FARMER FWY方向的出口（East Perth/Welshpool）是最近的。

對于完整信息的快速理解和推理， MiniCPM-V 4.5輕松搞定。
那么，如果視覺信息是陸陸續續輸入的，模型還能把這些碎片聯系起來嗎？
圖中人物具體說了些什么？
答案是，可以。
在Hinton的這段采訪中，字幕全是只言片語而且持續時間有長有短，但這并難不倒MiniCPM-V 4.5 。
只見它不僅概括了主題「LLM和人類的差異」，而且從第三人稱完美復述了Hinton發言的內容。
一鍵總結視頻內容，以后手機上輕松實現。

既然是模型測試，那么各種考試題一定也是少不了的。
比如下面這道高中化學實驗選擇題，開啟思考模式的MiniCPM-V 4.5 ，直接化身課后輔導助手。
在ABCD四個選項全部認真分析了一遍之后，它信心滿滿地給出了正確答案——B 。

無論哪里不懂，你都可以直接拍照詢問MiniCPM-V 4.5：
介紹一下化石

MiniCPM-V 4.5很快便會從基本信息、核心特征到科學意義，給你進行全面地答疑解惑。
試想這種功能普及之后，逛博物館，哪里不懂直接拍照就能得到全面解答，人人都有專屬「電子導游」。

而對于手寫文字識別， MiniCPM-V 4.5更是輕松搞定：
實話說，這手寫字絕對保真， MiniCPM-V 4.5識別效果絕對實用。

不止是文字，像是結構化表格提取，甚至就連合并單元格這種復雜的操作， MiniCPM-V 4.5都能手到擒來：

最后，看看MiniCPM-V 4.5到底能不能理解梗圖meme的笑點。
這張圖笑點在哪兒

看到這張圖后， MiniCPM-V 4.5一下就看出了里面都有哪些角色，并且get到了笑點是源于「AI」這個元素的加入。
然后就是一波深度分析：
· 第一層的「Boss」只會在車頂坐著不動，高高在上地指揮別人去拉車
· 第二層的「Leader」則會自己走在隊伍最前面，帶領大家一起拉車
· 第三層是「內向」的人，由于張不開嘴求別人幫忙，所以只好默默地一個人拉車
· 第四層雖然也是「內向」的人，但卻得到了AI的加持！不過，你可不要以為他能像其他隊伍一樣會有人(工智能)幫他分攤工作，能夠輕松一些；相反，這個倒霉蛋因為效率得到了大幅提升，而被安排了3倍的工作量！
看完是不是感覺，諷刺感直接拉滿！
以后，即便不是互聯網「5G沖浪」選手，也能輕松看懂各種小圈子和外國的冷門梗圖了！

尺寸小≠端側模型
當下，端側AI應用持續升溫。然而，模型能力再強，如果無法在端側設備上穩定、流暢運行，一切都是空談。
不是模型尺寸小，就叫端側模型。評判端側模型的關鍵指標是：在手機、平板、電腦、車機、機器人等終端設備上，是否能穩定、絲滑地運行。
在技術研究上的難點，端側模型不亞于基礎大模型，落地上更是同時受限于算力、功耗、速度、網速要求等因素。
許多團隊屢屢碰壁，無法從技術上解決「發燙、宕機、極度耗電」等問題。
面壁則一直以追求「同等性能我最小，同等參數我最強」，最終帶來更快速度、更低成本、絲滑體驗的端側模型為目標。
不斷提升模型「能力密度」的同時，面壁小鋼炮MiniCPM也一直致力于追求極致「能效比」:
通過更低的顯存占用、更快的響應速度，確保在提供SOTA級多模態表現的同時，帶來最佳的推理效率和最低的推理開銷。
例如，在覆蓋短、中、長三種類型的視頻理解評測集Video-MME上， MiniCPM-V 4.5時間開銷（未計算模型抽幀時間）僅為同級模型的1/10 。
這一成績，便是得益于模型推理時采用的高密度視頻壓縮技術。

三大技術創新
作為多模態模型的新旗艦， MiniCPM-V 4.5之所以具備高刷視頻理解能力、并取得單圖、OCR、長視頻理解的SOTA ，主要得益于在模型結構、訓練范式等領域的創新。

全新模型結構：3D-Resampler高密度視頻壓縮
當前，制約多模態模型視頻理解能力的最核心挑戰是性能和效率的Trade-off：
一方面，只有更多視頻幀，模型才能獲取更加精細的信息以提高理解上限；
另一方面，模型融入太多視頻幀會造成顯存、推理速度等開銷爆炸。
由于局部片段的不同視頻之間存在著信息冗余性，即大部分視覺信息不變，僅有少部分信息發生變化，存在著很大的信息壓縮空間。
因此， MiniCPM-V 4.5將模型結構從2D-Resampler拓展為3D-Resampler ，進行三維視頻片段的高密度壓縮。
具體而言，視頻會按照每N個視頻幀一組進行分組（分組尺寸最大為6），然后3D-Resampler會對每個視頻組進行壓縮編碼，得到 64 個視覺token（與編碼單圖視覺token數量相同）。
最終實現在推理開銷不變的情況下，實現更高頻率抽幀，實現了模型高刷視頻理解能力。
得益于Resampler機制的靈活性，在推理階段還可以靈活調整視頻分組尺寸，同時支持單圖、多圖、視頻的統一編碼（即單圖編碼視為3D視頻編碼的2D特例），方便知識和能力遷移。

多頁文檔圖片：統一OCR和知識推理學習
文檔中蘊含豐富高質量的知識。
多模態大模型有兩大重要話題：
1. 對文字的識別解析，受限于圖像樣例難度；
2. 從文檔中學習知識，受限于解析準確性。
這割裂了兩種學習范式。
提升OCR能力，往往需要補充更豐富且有難度的數據。為了提升數據的難度和多樣性，常見的做法是數據增廣。例如，對圖像中文字加高斯噪音。但是增廣過大會讓文字不可讀，反而會導致模型幻覺。
在文檔知識學習方面，大部分工作將文檔解析成圖文交替數據進行學習，嚴重受到文檔解析工具錯誤的影響。
通過連續控制圖像中「文字信息可見度」， MiniCPM-V 4.5可在OCR和知識學習兩種模式之間無縫切換，首次實現了OCR和知識學習這兩種學習范式的有效融合，且不會受到過度增廣和解析錯誤的影響。
具體如下：
· 首先提取出文檔中的文字框；
· 然后對文字框內區域進行不同程度的噪音增廣。
文字框通常非常準確，大部分解析錯誤來源于排版、閱讀順序、低信息量圖文噪音錯誤。重點在于噪音增廣：
· 當施加噪音較小，文字處于尚可辨別范圍內時，模型會進行OCR學習識別文字；
· 當施加噪音較大，文字已經無法辨認時，模型會自動進入知識學習，根據文檔的多模態上下文還原文字；
· 當噪音介于兩者之間時，模型會進行混合能力的學習。
基于上述技術， MiniCPM-V 4.5低成本實現了領先的OCR和多模態知識能力。

通用域混合推理強化學習
深度思考推理能力顯著拓展了多模態大模型的推理能力邊界，但也往往伴隨著過高的推理延遲。
通過同時支持常規模式和深度思考模式， MiniCPM-V 4.5實現了性能與響應速度的有效平衡：
· 在絕大部分的場景下，常規模式提供出色的多模態理解能力；
· 而深度思考模式則專注于應對復雜與復合型推理任務。
為了讓模型在兩種模式下都具備優秀的多模態性能， MiniCPM-V 4.5借助RLPR技術，從通用域多模態推理數據上獲得高質量的獎勵信號。而且面壁還提出了混合推理的強化學習RL訓練方案，同時提升模型在常規模式和深度思考模式下的性能表現。
通過在RL訓練中同時激活常規和深度思考模式，模型在兩種模式下的性能都得以持續提升。最終，通過輕量化的RLAIF-V訓練階段，模型既保持了推理能力又顯著降低了幻覺。
從行業第一個「高刷視頻理解」模型，到OCR和知識學習的第一次有效結合，再到可控混合推理等， MiniCPM-V 4.5的意義遠不止一次模型的升級，更是開源端側多模態AI的一場革命。
參考連接：
https://github.com/OpenBMB/MiniCPM-o
https://huggingface.co/openbmb/MiniCPM-V-4_5
https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5