阿里又一大模型開源,手機電腦樣樣玩的溜,多項測試秒GPT-5

阿里又一大模型開源,手機電腦樣樣玩的溜,多項測試秒GPT-5

文章圖片

阿里又一大模型開源,手機電腦樣樣玩的溜,多項測試秒GPT-5

文章圖片

阿里又一大模型開源,手機電腦樣樣玩的溜,多項測試秒GPT-5

文章圖片

阿里又一大模型開源,手機電腦樣樣玩的溜,多項測試秒GPT-5

文章圖片

阿里又一大模型開源,手機電腦樣樣玩的溜,多項測試秒GPT-5

文章圖片

阿里又一大模型開源,手機電腦樣樣玩的溜,多項測試秒GPT-5

文章圖片

阿里又一大模型開源,手機電腦樣樣玩的溜,多項測試秒GPT-5

文章圖片


智東西
作者 | 陳駿達
編輯 | 云鵬
智東西9月24日報道 , 今天 , 阿里通義大模型團隊宣布推出全新升級的Qwen3-VL系列模型 , 并宣布旗艦版本Qwen3-VL-235B-A22B系列開源 。 這是Qwen系列中最強的視覺語言模型 。
Qwen3-VL的目標 , 是讓模型不僅能看到圖像或視頻 , 更能真正看懂世界、理解事件、做出行動 。 在官方演示中 , Qwen3-VL已經展現出強大的視覺驅動推理與執行能力 , 可操作手機、電腦等設備 。 模型可以根據自然語言指令打開應用、點擊按鈕、填寫信息等 , 幫你輕松完成航班的查詢和預定 。
Qwen3-VL也具備識別萬物的能力 , 名人、美食、動植物、汽車品牌、動漫角色等均在其知識儲備范圍內 。 上傳一張圖片 , 模型就能準確報菜名 , 還是帶定位框的那種 。
在十個維度的全面評估中 , Qwen3-VL-235B-A22B-Instruct在非推理類模型中 , 多數指標表現最優 , 超越了Gemini 2.5 Pro和GPT-5等閉源模型 , 同時刷新了開源多模態模型的最佳成績 , 在復雜視覺任務上具備強大泛化能力與綜合性能 。
而在推理模型方面 , Qwen3-VL-235B-A22B-Thinking同樣在多數指標上創下開源多模態模型的新高 , 與Gemini 2.5 Pro和GPT-5等閉源頂尖模型相比各有勝負 。 雖然在多學科問題、視覺推理和視頻理解方面與閉源SOTA模型仍存在一定差距 , 但在Agent能力、文檔理解、2D/3D Grounding等任務上展現出明顯優勢 。
左側為Qwen3-VL-235B-A22B-Instruct等非推理模型得分 , 右側為Qwen3-VL-235B-A22B-Thinking等推理模型得分
目前 , Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-235B-A22B-Thinking均已開源至Github、Hugging Face、魔搭等開源平臺 , 用戶也可在Qwen Chat里直接體驗模型表現 。
開源地址:
https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
https://github.com/QwenLM/Qwen3-VL
體驗鏈接:
https://chat.qwen.ai

一、八大能力效果驚艷 , 看截圖用600行代碼再造小紅書在博客中 , 阿里通義大模型團隊介紹了Qwen3-VL系列模型的八大能力 。
視覺智能體
Qwen3-VL能操作電腦和手機界面、識別GUI元素、理解按鈕功能、調用工具、執行任務 , 在OS World等基準測試上達到世界頂尖水平 , 能通過調用工具有效提升在細粒度感知任務的表現 。
官方Demo中 , Qwen3-VL能在電腦中快速完成復制粘貼工作 , 還能把文件保存為Word文檔 。 或是根據用戶指令 , 輸出航班出發地、到達地、時間等信息 , 幫用戶節省繁瑣的操作流程 。
文本能力
Qwen3-VL在預訓練早期即混合文本與視覺模態協同訓練 , 在純文本任務上表現與Qwen3-235B-A22B-2507純文本旗艦模型不相上下 。 結合視覺能力后 , 它能根據圖片或視頻內容生成生動的文字描述 , 適用于故事創作、文案撰寫、短視頻腳本等創意場景 。
官方Demo展現了一個非常實用的Case , 可以直接把孩子的素描作業發給Qwen3-VL , 模型能根據畫面內容和用戶提示詞 , 給出準確的評價 。
視覺Coding能力
Qwen3-VL能實現圖像生成代碼以及視頻生成代碼 , 例如看到設計圖 , 代碼生成Draw.io/HTML/CSS/JS代碼 , 真正實現“所見即所得”的視覺編程 。
智東西將一張小紅書網頁版的截圖上傳給Qwen3-VL , 不過 , 首先遇到的是其安全機制 。 模型認為直接復制小紅書的設計有侵權風險 , 多次拒絕此類任務 。
隨后 , 我們向模型保證了相關代碼僅用于展示 , 模型這才同意上手開發 。 最終 , Qwen3-VL用600多行代碼實現了復刻 , 除了未能顯示圖片之外 , 網頁基本實現了90%的還原度 。
空間感知能力
Qwen3-VL在2D grounding任務上從絕對坐標變為相對坐標 , 支持判斷物體方位、視角變化、遮擋關系 。
它也同時支持直接預測3D邊界框 , 還原物體在真實世界中的位置和大小 。
長上下文支持和長視頻理解
Qwen3-VL全系列模型原生支持256K tokens的上下文長度 , 并可擴展至1M token 。 這意味著 , 無論是幾百頁的技術文檔、整本教材 , 還是長達兩小時的視頻 , 都能完整輸入、全程記憶、精準檢索 。 視頻定位可精確到秒級別時刻 。
例如 , 在256K tokens上下文的“視頻大海撈針”實驗中 , Qwen3-VL的準確率達到100%;當上下文擴展至1M tokens時 , 對應視頻時長約2小時 , 準確率仍保持在99.5% 。
在官方Demo中 , 模型能看懂一條20多分鐘的外語視頻 , 并據此整理出一道菜譜 。
甚至可以通過觀看游戲視頻自動生成對應的游戲代碼 。
多模態思考能力
Qwen3-VL系列的Thinking模型重點優化了STEM與數學推理能力 。 面對專業學科問題 , 模型能捕捉細節、抽絲剝繭、分析因果、給出有邏輯、有依據的答案 , 在MathVision、MMMU、MathVista等權威評測中達到領先水平 。
智東西直接將官方Demo中的一則案例截圖 , 考察模型能否正確解答 。
模型準確地識別了圖中的文字和畫面 , 思考2-3分鐘后 , 給出了正確答案 。
視覺感知與識別能力
通過優化預訓練數據的質量和廣度 , Qwen3-VL現在能識別更豐富的對象類別——從名人、動漫角色、商品、地標 , 到動植物等 , 覆蓋日常生活與專業領域的“萬物識別”需求 。
官方Demo中 , 僅需上傳一張吹風機的圖片 , 模型就能主動進行圖像感知 , 并調用搜索工具 , 給出品牌等信息 , 并提供是否值得購買的建議 。
OCR支持更多語言及復雜場景
在復雜光線、模糊、傾斜等實拍挑戰性場景下 , Qwen3-VL的表現更穩定;對生僻字、古籍字、專業術語的識別準確率也有提升;超長文檔理解和精細結構還原能力進一步提升 。
例如 , 官方Demo中 , 這張實拍的掛號費收據字跡模糊 , 還有重疊 , 肉眼看著都有些費勁 。 但模型能準確識別字樣 , 并根據指定格式輸出 。
Qwen3-VL能識別的非中文、英文語言從10種擴展到32種 , 覆蓋更多國家和地區 。 在這32種語言上 , 模型的識別準確率已經超過70% , 達到實際可用水平 。 這些語言包括瑞典語等歐洲語言、斯瓦西里語等非洲語言、越南語等東南亞語言、印地語和烏爾都語等南亞語言和日語韓語等東亞語言 , 基本覆蓋了常用的小語種 。

二、采用原生動態分辨率設計 , 結構迎來三大更新在模型架構上 , Qwen3-VL仍舊采用原生動態分辨率設計 , 但在結構設計上進行了更新:
一是采用MRoPE-Interleave , 原始MRoPE將特征維度按照時間(t)、高度(h)和寬度(w)的順序分塊劃分 , 使得時間信息全部分布在高頻維度上 。
Qwen3-VL中采取了thw交錯分布的形式 , 實現對時間 , 高度和寬度的全頻率覆蓋 , 這樣更加魯棒的位置編碼能夠保證模型在圖片理解能力相當的情況下 , 提升對長視頻的理解能力 。
二是引入DeepStack技術 , 融合ViT多層次特征 , 提升視覺細節捕捉能力和圖文對齊精度 。 阿里通義大模型團隊沿用DeepStack的核心思想 , 將以往多模態大模型單層輸入視覺tokens的范式 , 改為在大語言模型的多層中進行注入 。 這種多層注入方式旨在實現更精細化的視覺理解 。
在此基礎上 , 阿里通義大模型團隊進一步優化了視覺特征token化的策略 。 具體而言 , Qwen3-VL將來自ViT不同層的視覺特征進行token化 , 并以此作為視覺輸入 。 這種設計能夠有效保留從底層(low-level)到高層(high-level)的豐富視覺信息 。 實驗結果表明 , 該方法在多種視覺理解任務上均展現出顯著的性能提升 。
三是將原有的視頻時序建模機制T-RoPE升級為文本時間戳對齊機制 。 該機采用“時間戳-視頻幀”交錯的輸入形式 , 實現幀級別的時間信息與視覺內容的細粒度對齊 。
同時 , 模型原生支持“秒數”與“時:分:秒”(HMS)兩種時間輸出格式 。 這一改進提升了模型對視頻中動作、事件的語義感知與時間定位精度 , 使其在復雜時序推理任務——如事件定位、動作邊界檢測、跨模態時間問答等——中表現更穩健、響應更精準 。

結語:從多模態到智能體 , VL模型展現龐大想象空間生成式AI與真實世界場景的結合越來越密切 , 在文本模態之外 , 圖像、視頻等多模態任務 , 也正在成為AI落地的關鍵場景之一 。
【阿里又一大模型開源,手機電腦樣樣玩的溜,多項測試秒GPT-5】未來 , VL模型的潛力不僅在于識別物體、理解文檔或解析視頻 , 更在于成為驅動Agent的大腦 。 它們將具備跨模態感知、跨任務推理、跨場景執行的能力 , 從個人助手到工業自動化、從教育科研到醫療健康 , 均有望釋放出巨大價值 。

    推薦閱讀