看草圖直出代碼!實測智譜最新多模態Coding模型

看草圖直出代碼!實測智譜最新多模態Coding模型

文章圖片

看草圖直出代碼!實測智譜最新多模態Coding模型

文章圖片

看草圖直出代碼!實測智譜最新多模態Coding模型

文章圖片


智東西
作者 | 江宇
編輯 | 漠影
智東西4月2日報道 , 今日 , “國產大模型第一股”智譜發布了其首個多模態Coding基座模型GLM-5V-Turbo , 將AI大模型的感知邊界從純文本推到視覺世界 。 這是繼GLM-5-Turbo之后 , 智譜短時間內在Coding基座模型上的又一次快速迭代 。
據官方新聞稿介紹 , GLM-5V-Turbo不僅能讀懂代碼 , 還能“看懂畫面再寫代碼” 。 給定一張設計稿截圖 , 它能直接生成完整可運行的前端工程;在接入OpenClaw、AutoClaw等龍蝦Agent之后 , 它也能看懂屏幕、讀懂K線圖、瀏覽各類網頁 , 然后自主完成一整套長程任務 。
得益于出色的視覺編程性能 , GLM-5V-Turbo在海外引發了廣泛的關注 , 截至發稿前 , 其官方推文已經獲得了130萬+的瀏覽量 , 海外開發者甚至夸張地打趣道:“對Anthropic來說 , 現在游戲結束了 。 ”
X網友@Zaid表示 , “Anthropic現在的處境岌岌可危 。 ”
如今 , 放眼整個行業來看 , GLM-5V-Turbo推出的意義正變得越來越清晰:當Coding模型開始進入真實生產環境 , 光靠文本確實已經不夠用了 , 而剛剛發布的GLM-5V-Turbo , 將為「視覺編程」新范式提供一個全新的啟示 。

一、上手實測:看見即復刻 , 圖像即代碼說再多不如直接上手 。 我們用三個實測案例 , 看看GLM-5V-Turbo在不同輸入方式下的前端復刻能力 。
案例一:畫個草圖 , 也能復刻?
先從最離譜的場景開始 , 我們只給GLM-5V-Turbo畫幾個框框 , 讓它做個酷炫的音樂播放器 。 結果模型還真搞得像模像樣 , 布局合理、配色協調、連播放控件都安排得明明白白 , 讓它改個配色也是言出法隨 。 建議各位產品經理抓緊體驗 , 以后改需求再也不用看前端的臉色了 。
案例二:輸入網址 , 直接復刻
這是GLM-5V-Turbo的主打功能之一 。 因為模型有強大的GUI Agent能力 , 只要給它一個目標網站URL , 它就能自主瀏覽頁面 , 梳理布局結構、采集視覺素材與交互細節 , 然后直接生成完整可運行的前端工程 。 不需要手動截圖、不需要描述需求 , 一個鏈接就夠了 。
例如 , 我們讓GLM-5V-Turbo復刻這個頗具設計感的網站:https://niore.webflow.io/
這是復刻效果 , 可以看到 , 不論是布局、字體 , 甚至是插圖都非常相似 。
案例三:輸入錄屏 , 還原動效
將一段網頁操作錄屏發給模型 , GLM-5V-Turbo能從視頻中理解頁面的動態交互邏輯——滾動效果、彈窗切換、表單聯動、按鈕反饋等 , 然后將這些交互細節還原為可運行的代碼 。 不只是”還原長什么樣” , 而是”還原怎么動” 。
我們把這個美食網站的錄屏發給GLM-5V-Turbo , 讓它復刻一下 。
錄屏
可以看到 , 網站的布局、照片、字體都比較還原 , 浮現動效和字體特效這類動態細節也基本復刻到位 。
結果

二、技術探索:不是簡單“加了個視覺模塊”與以往傳統方法不同 , GLM-5V-Turbo不是在一個純文本Coding模型上“外掛”了一個視覺理解模塊 , 而是從預訓練階段就開始進行文本與視覺能力的深度融合 , 解決了“視覺能力與純文本編程和推理能力無法兼得”的問題 。
具體來說 , 智譜團隊研發了新一代CogViT視覺編碼器 , 在通用物體識別、細粒度理解、幾何與空間感知上均做到了領先水平 , 同時設計了一套兼容多模態輸入且推理友好的MTP結構 , 在多模態場景下實現了較高的推理效率 。
更關鍵的是 , 在強化學習階段 , 智譜團隊采用了30+任務類型的協同優化策略 , 覆蓋STEM推理、視覺grounding、視頻理解、GUI Agent等多個子領域 。 這種多任務協同強化學習的好處在于 , 它有效緩解了單領域訓練容易出現的不穩定性 , 也就是說 , 不會因為某一項能力的提升而犧牲其他能力 。
而且從評測數據來看 , 這套方案確實跑通了 。
在多模態Coding維度 , GLM-5V-Turbo在設計稿還原、視覺代碼生成、多模態檢索與問答、視覺探查等基準上均取得領先表現;在衡量真實GUI環境操控能力的AndroidWorld、WebVoyager等基準上同樣表現突出 。
而在純文本Coding維度 , GLM-5V-Turbo在CC-Bench-V2的Backend、Frontend和Repo Exploration三項核心測試中保持了穩定表現——也就是說 , 視覺能力的引入并沒有拖累純文本編程能力 。
用一句話總結:GLM-5V-Turbo不是在“看圖”和“寫代碼”之間做取舍 , 而是“全都要” 。

結語:Coding基座模型的下一步 , 是“看見世界”從GLM-5-Turbo到GLM-5V-Turbo , 智譜在Coding基座模型上的迭代邏輯非常清晰:先讓模型在文本世界里把任務跑通 , 再讓它“看見”視覺世界 , 從而進入更廣闊的應用空間 。
這背后的判斷是:Agent時代 , 模型能力不只由智能水平定義 , 還由它能處理的context容量定義 。 一個只能處理純文本的模型 , 哪怕推理能力再強 , 在真實世界里的應用邊界也是有限的 。 因為真實世界的信息 , 絕大多數以圖片、視頻、界面等視覺形式存在 。
從這個角度來看 , GLM-5V-Turbo不只是智譜的一次產品更新 , 更像是一個行業信號:Coding模型的競爭 , 正在從“誰的代碼寫得好”升級到“誰能看懂世界并寫出代碼” 。
而隨著越來越多的Coding模型開始進入真實生產環境 , “看得懂、寫得出、跑得通”這三項能力的整合程度 , 將成為區分模型之間差距的關鍵維度 。
【看草圖直出代碼!實測智譜最新多模態Coding模型】這場競賽 , 才剛剛進入深水區 。

    推薦閱讀