視頻理解霸榜！快手Keye-VL旗艦?zāi)Ｐ椭匕蹰_源_數(shù)學(xué)

文章圖片

文章圖片

文章圖片

Keye-VL-671B-A37B正式發(fā)布！
作為快手新一代旗艦多模態(tài)大語言模型，在保持基礎(chǔ)模型強(qiáng)大通用能力的前提下，對(duì)視覺感知、跨模態(tài)對(duì)齊與復(fù)雜推理鏈路進(jìn)行了系統(tǒng)升級(jí) ，實(shí)現(xiàn)了多模態(tài)理解和復(fù)雜推理的全方位性能躍升：更會(huì)“看”、更會(huì)“想”、也更會(huì)“答” 。
無論是日常場景還是高難任務(wù) ，都能給出更準(zhǔn)確、更穩(wěn)健的回應(yīng) 。
下面用兩個(gè)直觀例子，帶你快速感受它的能力。
圖像語義理解更可靠。
下面的圖中有幾張電影票？大多數(shù)人看完第一眼都會(huì)說：“三張。 ”

但仔細(xì)一看，其實(shí)只有兩張電影票，最上面那一張是爆米花小吃券，人很容易被這樣的“視覺”錯(cuò)覺所蒙蔽。
而Keye-VL卻能很好地克服這個(gè)問題，它不僅能識(shí)別畫面中每一張票的文字、標(biāo)識(shí)和版式差異，還會(huì)進(jìn)一步推理：左邊和中間的票符合電影票特征，而右側(cè)的一張票只是疊放的食品券，無座位或影片場次信息，屬于小吃兌換券，非電影票。
于是，它給出的結(jié)論是：“這里實(shí)際上只有兩張電影票。 ”
這就是模型的優(yōu)勢：它不僅“看得清” ，還能“想得明白” 。
在復(fù)雜、嘈雜的真實(shí)場景中，它能夠綜合視覺細(xì)節(jié)和上下文信息，甚至能做出比人類更嚴(yán)謹(jǐn)、更可靠的判斷。
視頻細(xì)節(jié)把握更精準(zhǔn) 。
除了圖像理解能力以外，最新的Keye-VL同樣擁有強(qiáng)大的視頻理解和感知能力。
下面來看看Keye-VL對(duì)于復(fù)雜視頻信息的表現(xiàn) 。
問題：“視頻的鏡頭是怎樣變化的？”

Keye-VL在思考后，首先分析視頻中的元素：“藍(lán)色雙層電車”、“周邊建筑：Louis Vuitton、TiffanyCo.”等，隨后給出了鏡頭變化信息：“視頻鏡頭從高角度固定位置出發(fā) ，緩慢向右側(cè)旋轉(zhuǎn) ，保持視角高度不變，逐步展示更廣闊的中環(huán)夜景街道，持續(xù)捕捉車輛流動(dòng)、周邊建筑與行人動(dòng)態(tài) ，突出城市夜景的繁忙活力。 ”
這說明Keye-VL對(duì)視頻里的物體和時(shí)序信息把握非常準(zhǔn) ，即使視頻過程復(fù)雜、信息密集，模型也能抓住所有關(guān)鍵點(diǎn) ，不僅能識(shí)別出車輛信息，甚至還能發(fā)現(xiàn)“Louis Vuitton”等建筑，最終得出“緩慢向右側(cè)旋轉(zhuǎn)”的結(jié)論。
【視頻理解霸榜！快手Keye-VL旗艦?zāi)Ｐ椭匕蹰_源】目前， Keye-VL-671B-A37B已經(jīng)正式開源，歡迎下載體驗(yàn)：
Github: https://github.com/Kwai-Keye/KeyeHuggingFace: https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
技術(shù)更新Keye-VL-671B-A37B采用DeepSeek-V3-Terminus作為大語言模型基座初始化，具備更強(qiáng)的文本推理能力，視覺模型采KeyeViT初始化，來自KeyeVL1.5 ，二者通過MLP層進(jìn)行橋接。
Keye-VL-671B-A37B的預(yù)訓(xùn)練涵蓋三個(gè)階段，系統(tǒng)化構(gòu)建模型的多模態(tài)理解與推理能力。團(tuán)隊(duì)復(fù)用Keye-VL-1.5的視覺編碼器，該編碼器已經(jīng)通過8B大小的模型在1T token的多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)上對(duì)齊，具備強(qiáng)大的基礎(chǔ)感知能力。
結(jié)合嚴(yán)格篩選的約300B高質(zhì)量數(shù)據(jù)預(yù)訓(xùn)練數(shù)據(jù) ，以有限計(jì)算資源高效構(gòu)建模型的核心感知基礎(chǔ) ，確保視覺理解能力扎實(shí)且計(jì)算成本可控。具體訓(xùn)練流程如下：
第一階段：凍結(jié)ViT和LLM ，只訓(xùn)練隨機(jī)初始化的Projector ，保證視覺、語言特征能初步做對(duì)齊。第二階段：團(tuán)隊(duì)打開全部參數(shù)進(jìn)行預(yù)訓(xùn)練。第三階段：在更高質(zhì)量的數(shù)據(jù)上做退火訓(xùn)練，提升模型的細(xì)粒度感知能力。Keye多模態(tài)的預(yù)訓(xùn)練數(shù)據(jù)構(gòu)建，通過自動(dòng)化數(shù)據(jù)管道實(shí)施嚴(yán)格的過濾、重采樣與VQA數(shù)據(jù)增強(qiáng) ，覆蓋OCR、圖表及表格等多種格式，端到端提升模型的感知質(zhì)量與泛化能力；
在退火階段，使用DeepSeek-V3-Terminus合成思維鏈數(shù)據(jù) ，使模型在深化感知訓(xùn)練的同時(shí)保持LLM原有的強(qiáng)大推理能力。
Keye-VL-671B-A37B的后訓(xùn)練由監(jiān)督微調(diào) ，冷啟動(dòng)和強(qiáng)化學(xué)習(xí)三個(gè)步驟組成，訓(xùn)練任務(wù)涵蓋視覺問答、圖表理解、富文本OCR、數(shù)學(xué)、代碼、邏輯推理等。
在SFT階段，采用更多多模態(tài)和純文本的長思維鏈數(shù)據(jù) ，對(duì)模型的純文本能力進(jìn)行回火并增強(qiáng)多模態(tài)能力。
在冷啟動(dòng)階段，采用推理數(shù)據(jù)增強(qiáng)模型的推理能力，在強(qiáng)化學(xué)習(xí)階段，采用復(fù)雜推理數(shù)據(jù)提升模型的think和no_think能力，并加入視頻數(shù)據(jù) ，增強(qiáng)模型的視頻理解能力。
在監(jiān)督微調(diào)階段，技術(shù)團(tuán)隊(duì)對(duì)數(shù)據(jù)集中指令（Instruct）數(shù)據(jù)和長思維鏈（Long-CoT）數(shù)據(jù)的配比進(jìn)行反復(fù)實(shí)驗(yàn) ，突破了此前監(jiān)督微調(diào)范式片面依賴指令數(shù)據(jù)的局限性，驗(yàn)證了混合模式（ Instruct + Long-CoT）相對(duì)于單一模式（Instruct）的優(yōu)越性，即在SFT數(shù)據(jù)集中加入更多長思維鏈推理數(shù)據(jù)有利于提升模型整體性能，以及改善后續(xù)訓(xùn)練穩(wěn)定性：

loss曲線顯示，在SFT階段加入更多的CoT數(shù)據(jù)可以顯著降低冷啟動(dòng)階段的訓(xùn)練loss ，在多個(gè)benchmark上的性能對(duì)比也表明，混合CoT數(shù)據(jù)訓(xùn)練的模型相比于指令微調(diào)的模型取得了明顯的性能提升。
在冷啟動(dòng)階段， CoT數(shù)據(jù)的質(zhì)量對(duì)于提升模型的推理能力至關(guān)重要，而純文本模型的推理過程往往冗長而且存在大量重復(fù) ，為了緩解過度思考的問題，技術(shù)團(tuán)隊(duì)開發(fā)了嚴(yán)格的數(shù)據(jù)篩選流程，過濾掉存在冗余反思行為的思維鏈。

在Keye-VL-1.5-8B上的實(shí)驗(yàn)結(jié)果顯示，過濾冗余數(shù)據(jù)對(duì)于模型的推理能力和感知能力均有增益。

底層強(qiáng)化學(xué)習(xí)算法。
傳統(tǒng)的GRPO強(qiáng)化學(xué)習(xí)算法是token-level的建模，在訓(xùn)練MoE模型時(shí)存在不穩(wěn)定性。
在Keye-VL-671B的訓(xùn)練中，團(tuán)隊(duì)采用GSPO（Group Sequence Policy Optimization）作為底層強(qiáng)化學(xué)習(xí)算法，進(jìn)行sequence-level的建模，提升可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR）訓(xùn)練的穩(wěn)定性。
驗(yàn)證器獎(jiǎng)勵(lì)信號(hào)增強(qiáng) 。
著名的驗(yàn)證者定律指出：訓(xùn)練AI解決一個(gè)任務(wù)的難易程度，與該任務(wù)的可驗(yàn)證性成正比。對(duì)于強(qiáng)化學(xué)習(xí)而言，獎(jiǎng)勵(lì)信號(hào)的質(zhì)量至關(guān)重要。
在Keye-VL-671B的RL系統(tǒng)中，團(tuán)隊(duì)首先訓(xùn)練了專門的驗(yàn)證器（Verifier）用于驗(yàn)證模型輸出思考過程的邏輯性，以及最終答案與標(biāo)準(zhǔn)答案的一致性， Verifier模型采用Keye-VL-1.5 8B作為基座，訓(xùn)練過程包括SFT和RL兩個(gè)階段。
在SFT階段，既有簡單的二分類任務(wù) ，即直接判斷生成的答案是否與參考答案一致，也有更復(fù)雜的分析任務(wù) ，需要模型采用think-answer的格式分析模型生成的回復(fù)的邏輯性和正確性。在RL階段，首先在大規(guī)模偏好數(shù)據(jù)上訓(xùn)練，然后利用人工標(biāo)注的高質(zhì)量數(shù)據(jù)集進(jìn)行退火，提高Verifier模型的精度。為了驗(yàn)證Verifier模型對(duì)于生成結(jié)果的檢測精度，團(tuán)隊(duì)抽取了10000條訓(xùn)練數(shù)據(jù)以及模型生成的答案，對(duì)比Verifier模型和Qwen-2.5-VL 72B Instruct模型的檢測精度，在人工抽樣的150條Keye Verifier與Qwen判別結(jié)果不一致的數(shù)據(jù)中， Keye正確的數(shù)目達(dá)到了128條，而Qwen僅占22條。
基于Keye-VL-preview的預(yù)實(shí)驗(yàn)顯示， Keye-Verifier提供的獎(jiǎng)勵(lì)信號(hào)相對(duì)于基于規(guī)則匹配的獎(jiǎng)勵(lì)信號(hào)使Keye-VL-preview在多個(gè)通用多模態(tài)評(píng)測基準(zhǔn)上的平均準(zhǔn)確率提升了1.45% ，在三個(gè)多模態(tài)數(shù)學(xué)數(shù)據(jù)集上的平均準(zhǔn)確率提升了1.33% 。
為了篩選高難度樣本，團(tuán)隊(duì)利用Keye-VL-1.5-8B作為過濾器，在候選數(shù)據(jù)集上采樣并用Verifier模型計(jì)算準(zhǔn)確率，僅保留正確率在25%~75%之間的數(shù)據(jù)用于訓(xùn)練。在RL數(shù)據(jù)集中，團(tuán)隊(duì)加入了更多視頻數(shù)據(jù)以提升模型的視頻理解能力。
模型評(píng)估1、通用視覺理解與推理。
評(píng)測結(jié)果顯示， Keye-VL-671B-A37B在多項(xiàng)核心benchmark中全面領(lǐng)跑：在通用視覺理解（如MMBench、MMMU、MMStar、RealWorldQA等）表現(xiàn)突出，覆蓋日常場景理解、跨模態(tài)常識(shí)與復(fù)雜指令跟隨；
同時(shí)在數(shù)學(xué)與推理能力上優(yōu)勢明顯（MathVista、VisuLogic、OlympiadBench等），無論是圖文數(shù)學(xué)題、空間關(guān)系推斷還是多步邏輯鏈條，都展現(xiàn)出更強(qiáng)的穩(wěn)健性與上限。
對(duì)比同級(jí)別主流多模態(tài)模型， KeyeVL 兼具“看得懂、想得深、算得準(zhǔn)”的綜合實(shí)力，為通用視覺智能與高難度推理任務(wù)提供了更可靠的基座選擇。
2、視頻理解。
在多種視頻理解benchmark上， Keye-VL-671B-A37B同樣展現(xiàn)出穩(wěn)定的優(yōu)勢：在MMVU、LongVideoBench、VideoMME等主流視頻評(píng)測中保持領(lǐng)先，體現(xiàn)出更強(qiáng)的時(shí)序建模與跨幀推理能力。
無論是長視頻的關(guān)鍵事件捕捉、人物與物體的持續(xù)跟蹤，還是對(duì)劇情脈絡(luò)、因果關(guān)系與多步問題的綜合理解， Keye-VL都能給出更準(zhǔn)確的答案。
3、全面的性能對(duì)比。
為了更客觀、清晰地展示模型效果，團(tuán)隊(duì)也提供了多種主流開源benchmark上的對(duì)比結(jié)果，涵蓋STEM、推理、通用問答、視頻理解、OCR和純文本能力等。在絕大多數(shù)評(píng)測中， Keye-VL都展現(xiàn)出明顯的優(yōu)勢。
未來展望面向未來， Keye-VL將在持續(xù)夯實(shí)基礎(chǔ)模型能力的同時(shí) ，進(jìn)一步融合多模態(tài)Agent能力，走向更“會(huì)用工具、能解復(fù)雜問題”的智能形態(tài) 。
團(tuán)隊(duì)將強(qiáng)化模型的多輪工具調(diào)用能力，讓它能夠在真實(shí)任務(wù)中自主調(diào)用外部工具，完成搜索、推理、整合；同時(shí)推進(jìn)“think with image”、“think with video”等關(guān)鍵方向，使模型不僅能看懂圖像與視頻，還能圍繞它們進(jìn)行深度思考與鏈?zhǔn)酵评?，在復(fù)雜的視覺信號(hào)中發(fā)掘關(guān)鍵信息。
通過基礎(chǔ)能力+Agent能力的雙輪驅(qū)動(dòng) ， Keye-VL目標(biāo)是不斷拓展多模態(tài)智能的上限，向更通用、更可靠、更強(qiáng)推理的下一代多模態(tài)系統(tǒng)邁進(jìn) 。
— 完 —
量子位 QbitAI · 頭條號(hào)
關(guān)注我們，第一時(shí)間獲知前沿科技動(dòng)態(tài)

視頻理解霸榜！快手Keye-VL旗艦?zāi)Ｐ椭匕蹰_源

推薦閱讀

贈(zèng)汪倫表達(dá)了什么情感贈(zèng)汪倫表達(dá)了什么意思

2022年南寧邕寧區(qū)公辦小學(xué)入學(xué)辦法

公司不買社保違法嗎

同崔員外秋宵寓直古詩拼音同崔員外秋宵寓直注音

vivos5怎么拉黑聯(lián)系人

含羞草冬季怎么養(yǎng)

離開的意思有幾種說法

基礎(chǔ)與上部結(jié)構(gòu)的劃分界限是什么

玻尿酸隆鼻效果會(huì)很自然嗎

合金筷子是什么材質(zhì) 合金筷子和木筷子哪個(gè)更健康

抖音怎么美顏

小編分享酷我音樂怎樣關(guān)閉進(jìn)入啟動(dòng)音效

起訴離婚起訴多久開庭起訴離婚拒絕調(diào)解后多久開庭

涼拌黃瓜怎么切

攜程廣州預(yù)訂部地址電話號(hào)碼是多少，攜程網(wǎng) 訂票電話是多少

盛世三國歷練五怎么過,感謝冬奧對(duì)我的歷練