日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

視頻理解霸榜!快手Keye-VL旗艦?zāi)P椭匕蹰_源

視頻理解霸榜!快手Keye-VL旗艦?zāi)P椭匕蹰_源

文章圖片

視頻理解霸榜!快手Keye-VL旗艦?zāi)P椭匕蹰_源

文章圖片

視頻理解霸榜!快手Keye-VL旗艦?zāi)P椭匕蹰_源

文章圖片


Keye-VL-671B-A37B正式發(fā)布!
作為快手新一代旗艦多模態(tài)大語言模型 , 在保持基礎(chǔ)模型強(qiáng)大通用能力的前提下 , 對(duì)視覺感知、跨模態(tài)對(duì)齊與復(fù)雜推理鏈路進(jìn)行了系統(tǒng)升級(jí) , 實(shí)現(xiàn)了多模態(tài)理解和復(fù)雜推理的全方位性能躍升:更會(huì)“看”、更會(huì)“想”、也更會(huì)“答” 。
無論是日常場景還是高難任務(wù) , 都能給出更準(zhǔn)確、更穩(wěn)健的回應(yīng) 。
下面用兩個(gè)直觀例子 , 帶你快速感受它的能力 。
圖像語義理解更可靠 。
下面的圖中有幾張電影票?大多數(shù)人看完第一眼都會(huì)說:“三張 。 ”

但仔細(xì)一看 , 其實(shí)只有兩張電影票 , 最上面那一張是爆米花小吃券 , 人很容易被這樣的“視覺”錯(cuò)覺所蒙蔽 。
而Keye-VL卻能很好地克服這個(gè)問題 , 它不僅能識(shí)別畫面中每一張票的文字、標(biāo)識(shí)和版式差異 , 還會(huì)進(jìn)一步推理:左邊和中間的票符合電影票特征 , 而右側(cè)的一張票只是疊放的食品券 , 無座位或影片場次信息 , 屬于小吃兌換券 , 非電影票 。
于是 , 它給出的結(jié)論是:“這里實(shí)際上只有兩張電影票 。 ”
這就是模型的優(yōu)勢:它不僅“看得清” , 還能“想得明白” 。
在復(fù)雜、嘈雜的真實(shí)場景中 , 它能夠綜合視覺細(xì)節(jié)和上下文信息 , 甚至能做出比人類更嚴(yán)謹(jǐn)、更可靠的判斷 。
視頻細(xì)節(jié)把握更精準(zhǔn) 。
除了圖像理解能力以外 , 最新的Keye-VL同樣擁有強(qiáng)大的視頻理解和感知能力 。
下面來看看Keye-VL對(duì)于復(fù)雜視頻信息的表現(xiàn) 。
問題:“視頻的鏡頭是怎樣變化的?”

Keye-VL在思考后 , 首先分析視頻中的元素:“藍(lán)色雙層電車”、“周邊建筑:Louis Vuitton、TiffanyCo.”等 , 隨后給出了鏡頭變化信息:“視頻鏡頭從高角度固定位置出發(fā) , 緩慢向右側(cè)旋轉(zhuǎn) , 保持視角高度不變 , 逐步展示更廣闊的中環(huán)夜景街道 , 持續(xù)捕捉車輛流動(dòng)、周邊建筑與行人動(dòng)態(tài) , 突出城市夜景的繁忙活力 。 ”
這說明Keye-VL對(duì)視頻里的物體和時(shí)序信息把握非常準(zhǔn) , 即使視頻過程復(fù)雜、信息密集 , 模型也能抓住所有關(guān)鍵點(diǎn) , 不僅能識(shí)別出車輛信息 , 甚至還能發(fā)現(xiàn)“Louis Vuitton”等建筑 , 最終得出“緩慢向右側(cè)旋轉(zhuǎn)”的結(jié)論 。
【視頻理解霸榜!快手Keye-VL旗艦?zāi)P椭匕蹰_源】目前 , Keye-VL-671B-A37B已經(jīng)正式開源 , 歡迎下載體驗(yàn):
Github: https://github.com/Kwai-Keye/KeyeHuggingFace: https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
技術(shù)更新Keye-VL-671B-A37B采用DeepSeek-V3-Terminus作為大語言模型基座初始化 , 具備更強(qiáng)的文本推理能力 , 視覺模型采KeyeViT初始化 , 來自KeyeVL1.5 , 二者通過MLP層進(jìn)行橋接 。
Keye-VL-671B-A37B的預(yù)訓(xùn)練涵蓋三個(gè)階段 , 系統(tǒng)化構(gòu)建模型的多模態(tài)理解與推理能力 。 團(tuán)隊(duì)復(fù)用Keye-VL-1.5的視覺編碼器 , 該編碼器已經(jīng)通過8B大小的模型在1T token的多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)上對(duì)齊 , 具備強(qiáng)大的基礎(chǔ)感知能力 。
結(jié)合嚴(yán)格篩選的約300B高質(zhì)量數(shù)據(jù)預(yù)訓(xùn)練數(shù)據(jù) , 以有限計(jì)算資源高效構(gòu)建模型的核心感知基礎(chǔ) , 確保視覺理解能力扎實(shí)且計(jì)算成本可控 。 具體訓(xùn)練流程如下:
第一階段:凍結(jié)ViT和LLM , 只訓(xùn)練隨機(jī)初始化的Projector , 保證視覺、語言特征能初步做對(duì)齊 。 第二階段:團(tuán)隊(duì)打開全部參數(shù)進(jìn)行預(yù)訓(xùn)練 。 第三階段:在更高質(zhì)量的數(shù)據(jù)上做退火訓(xùn)練 , 提升模型的細(xì)粒度感知能力 。Keye多模態(tài)的預(yù)訓(xùn)練數(shù)據(jù)構(gòu)建 , 通過自動(dòng)化數(shù)據(jù)管道實(shí)施嚴(yán)格的過濾、重采樣與VQA數(shù)據(jù)增強(qiáng) , 覆蓋OCR、圖表及表格等多種格式 , 端到端提升模型的感知質(zhì)量與泛化能力;
在退火階段 , 使用DeepSeek-V3-Terminus合成思維鏈數(shù)據(jù) , 使模型在深化感知訓(xùn)練的同時(shí)保持LLM原有的強(qiáng)大推理能力 。
Keye-VL-671B-A37B的后訓(xùn)練由監(jiān)督微調(diào) , 冷啟動(dòng)和強(qiáng)化學(xué)習(xí)三個(gè)步驟組成 , 訓(xùn)練任務(wù)涵蓋視覺問答、圖表理解、富文本OCR、數(shù)學(xué)、代碼、邏輯推理等 。
在SFT階段 , 采用更多多模態(tài)和純文本的長思維鏈數(shù)據(jù) , 對(duì)模型的純文本能力進(jìn)行回火并增強(qiáng)多模態(tài)能力 。
在冷啟動(dòng)階段 , 采用推理數(shù)據(jù)增強(qiáng)模型的推理能力 , 在強(qiáng)化學(xué)習(xí)階段 , 采用復(fù)雜推理數(shù)據(jù)提升模型的think和no_think能力 , 并加入視頻數(shù)據(jù) , 增強(qiáng)模型的視頻理解能力 。
在監(jiān)督微調(diào)階段 , 技術(shù)團(tuán)隊(duì)對(duì)數(shù)據(jù)集中指令(Instruct)數(shù)據(jù)和長思維鏈(Long-CoT)數(shù)據(jù)的配比進(jìn)行反復(fù)實(shí)驗(yàn) , 突破了此前監(jiān)督微調(diào)范式片面依賴指令數(shù)據(jù)的局限性 , 驗(yàn)證了混合模式( Instruct + Long-CoT)相對(duì)于單一模式(Instruct)的優(yōu)越性 , 即在SFT數(shù)據(jù)集中加入更多長思維鏈推理數(shù)據(jù)有利于提升模型整體性能 , 以及改善后續(xù)訓(xùn)練穩(wěn)定性:


loss曲線顯示 , 在SFT階段加入更多的CoT數(shù)據(jù)可以顯著降低冷啟動(dòng)階段的訓(xùn)練loss , 在多個(gè)benchmark上的性能對(duì)比也表明 , 混合CoT數(shù)據(jù)訓(xùn)練的模型相比于指令微調(diào)的模型取得了明顯的性能提升 。
在冷啟動(dòng)階段 , CoT數(shù)據(jù)的質(zhì)量對(duì)于提升模型的推理能力至關(guān)重要 , 而純文本模型的推理過程往往冗長而且存在大量重復(fù) , 為了緩解過度思考的問題 , 技術(shù)團(tuán)隊(duì)開發(fā)了嚴(yán)格的數(shù)據(jù)篩選流程 , 過濾掉存在冗余反思行為的思維鏈 。

在Keye-VL-1.5-8B上的實(shí)驗(yàn)結(jié)果顯示 , 過濾冗余數(shù)據(jù)對(duì)于模型的推理能力和感知能力均有增益 。

底層強(qiáng)化學(xué)習(xí)算法 。
傳統(tǒng)的GRPO強(qiáng)化學(xué)習(xí)算法是token-level的建模 , 在訓(xùn)練MoE模型時(shí)存在不穩(wěn)定性 。
在Keye-VL-671B的訓(xùn)練中 , 團(tuán)隊(duì)采用GSPO(Group Sequence Policy Optimization)作為底層強(qiáng)化學(xué)習(xí)算法 , 進(jìn)行sequence-level的建模 , 提升可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)訓(xùn)練的穩(wěn)定性 。
驗(yàn)證器獎(jiǎng)勵(lì)信號(hào)增強(qiáng) 。
著名的驗(yàn)證者定律指出:訓(xùn)練AI解決一個(gè)任務(wù)的難易程度 , 與該任務(wù)的可驗(yàn)證性成正比 。 對(duì)于強(qiáng)化學(xué)習(xí)而言 , 獎(jiǎng)勵(lì)信號(hào)的質(zhì)量至關(guān)重要 。
在Keye-VL-671B的RL系統(tǒng)中 , 團(tuán)隊(duì)首先訓(xùn)練了專門的驗(yàn)證器(Verifier)用于驗(yàn)證模型輸出思考過程的邏輯性 , 以及最終答案與標(biāo)準(zhǔn)答案的一致性 , Verifier模型采用Keye-VL-1.5 8B作為基座 , 訓(xùn)練過程包括SFT和RL兩個(gè)階段 。
在SFT階段 , 既有簡單的二分類任務(wù) , 即直接判斷生成的答案是否與參考答案一致 , 也有更復(fù)雜的分析任務(wù) , 需要模型采用think-answer的格式分析模型生成的回復(fù)的邏輯性和正確性 。 在RL階段 , 首先在大規(guī)模偏好數(shù)據(jù)上訓(xùn)練 , 然后利用人工標(biāo)注的高質(zhì)量數(shù)據(jù)集進(jìn)行退火 , 提高Verifier模型的精度 。為了驗(yàn)證Verifier模型對(duì)于生成結(jié)果的檢測精度 , 團(tuán)隊(duì)抽取了10000條訓(xùn)練數(shù)據(jù)以及模型生成的答案 , 對(duì)比Verifier模型和Qwen-2.5-VL 72B Instruct模型的檢測精度 , 在人工抽樣的150條Keye Verifier與Qwen判別結(jié)果不一致的數(shù)據(jù)中 , Keye正確的數(shù)目達(dá)到了128條 , 而Qwen僅占22條 。
基于Keye-VL-preview的預(yù)實(shí)驗(yàn)顯示 , Keye-Verifier提供的獎(jiǎng)勵(lì)信號(hào)相對(duì)于基于規(guī)則匹配的獎(jiǎng)勵(lì)信號(hào)使Keye-VL-preview在多個(gè)通用多模態(tài)評(píng)測基準(zhǔn)上的平均準(zhǔn)確率提升了1.45% , 在三個(gè)多模態(tài)數(shù)學(xué)數(shù)據(jù)集上的平均準(zhǔn)確率提升了1.33% 。
為了篩選高難度樣本 , 團(tuán)隊(duì)利用Keye-VL-1.5-8B作為過濾器 , 在候選數(shù)據(jù)集上采樣并用Verifier模型計(jì)算準(zhǔn)確率 , 僅保留正確率在25%~75%之間的數(shù)據(jù)用于訓(xùn)練 。 在RL數(shù)據(jù)集中 , 團(tuán)隊(duì)加入了更多視頻數(shù)據(jù)以提升模型的視頻理解能力 。
模型評(píng)估1、通用視覺理解與推理 。
評(píng)測結(jié)果顯示 , Keye-VL-671B-A37B在多項(xiàng)核心benchmark中全面領(lǐng)跑:在通用視覺理解(如MMBench、MMMU、MMStar、RealWorldQA等)表現(xiàn)突出 , 覆蓋日常場景理解、跨模態(tài)常識(shí)與復(fù)雜指令跟隨;
同時(shí)在數(shù)學(xué)與推理能力上優(yōu)勢明顯(MathVista、VisuLogic、OlympiadBench等) , 無論是圖文數(shù)學(xué)題、空間關(guān)系推斷還是多步邏輯鏈條 , 都展現(xiàn)出更強(qiáng)的穩(wěn)健性與上限 。
對(duì)比同級(jí)別主流多模態(tài)模型 , KeyeVL 兼具“看得懂、想得深、算得準(zhǔn)”的綜合實(shí)力 , 為通用視覺智能與高難度推理任務(wù)提供了更可靠的基座選擇 。
2、視頻理解 。
在多種視頻理解benchmark上 , Keye-VL-671B-A37B同樣展現(xiàn)出穩(wěn)定的優(yōu)勢:在MMVU、LongVideoBench、VideoMME等主流視頻評(píng)測中保持領(lǐng)先 , 體現(xiàn)出更強(qiáng)的時(shí)序建模與跨幀推理能力 。
無論是長視頻的關(guān)鍵事件捕捉、人物與物體的持續(xù)跟蹤 , 還是對(duì)劇情脈絡(luò)、因果關(guān)系與多步問題的綜合理解 , Keye-VL都能給出更準(zhǔn)確的答案 。
3、全面的性能對(duì)比 。
為了更客觀、清晰地展示模型效果 , 團(tuán)隊(duì)也提供了多種主流開源benchmark上的對(duì)比結(jié)果 , 涵蓋STEM、推理、通用問答、視頻理解、OCR和純文本能力等 。 在絕大多數(shù)評(píng)測中 , Keye-VL都展現(xiàn)出明顯的優(yōu)勢 。
未來展望面向未來 , Keye-VL將在持續(xù)夯實(shí)基礎(chǔ)模型能力的同時(shí) , 進(jìn)一步融合多模態(tài)Agent能力 , 走向更“會(huì)用工具、能解復(fù)雜問題”的智能形態(tài) 。
團(tuán)隊(duì)將強(qiáng)化模型的多輪工具調(diào)用能力 , 讓它能夠在真實(shí)任務(wù)中自主調(diào)用外部工具 , 完成搜索、推理、整合;同時(shí)推進(jìn)“think with image”、“think with video”等關(guān)鍵方向 , 使模型不僅能看懂圖像與視頻 , 還能圍繞它們進(jìn)行深度思考與鏈?zhǔn)酵评?, 在復(fù)雜的視覺信號(hào)中發(fā)掘關(guān)鍵信息 。
通過基礎(chǔ)能力+Agent能力的雙輪驅(qū)動(dòng) , Keye-VL目標(biāo)是不斷拓展多模態(tài)智能的上限 , 向更通用、更可靠、更強(qiáng)推理的下一代多模態(tài)系統(tǒng)邁進(jìn) 。
— 完 —
量子位 QbitAI · 頭條號(hào)
關(guān)注我們 , 第一時(shí)間獲知前沿科技動(dòng)態(tài)

    推薦閱讀