看草圖直出代碼！實測智譜最新多模態Coding模型

2026-04-28 充電寶電池移動電源

文章圖片

文章圖片

文章圖片

智東西
作者 | 江宇
編輯 | 漠影
智東西4月2日報道，今日， “國產大模型第一股”智譜發布了其首個多模態Coding基座模型GLM-5V-Turbo ，將AI大模型的感知邊界從純文本推到視覺世界。這是繼GLM-5-Turbo之后，智譜短時間內在Coding基座模型上的又一次快速迭代。
據官方新聞稿介紹， GLM-5V-Turbo不僅能讀懂代碼，還能“看懂畫面再寫代碼” 。給定一張設計稿截圖，它能直接生成完整可運行的前端工程；在接入OpenClaw、AutoClaw等龍蝦Agent之后，它也能看懂屏幕、讀懂K線圖、瀏覽各類網頁，然后自主完成一整套長程任務。
得益于出色的視覺編程性能， GLM-5V-Turbo在海外引發了廣泛的關注，截至發稿前，其官方推文已經獲得了130萬+的瀏覽量，海外開發者甚至夸張地打趣道：“對Anthropic來說，現在游戲結束了。 ”
X網友@Zaid表示， “Anthropic現在的處境岌岌可危。 ”
如今，放眼整個行業來看， GLM-5V-Turbo推出的意義正變得越來越清晰：當Coding模型開始進入真實生產環境，光靠文本確實已經不夠用了，而剛剛發布的GLM-5V-Turbo ，將為「視覺編程」新范式提供一個全新的啟示。

一、上手實測：看見即復刻，圖像即代碼說再多不如直接上手。我們用三個實測案例，看看GLM-5V-Turbo在不同輸入方式下的前端復刻能力。
案例一：畫個草圖，也能復刻？
先從最離譜的場景開始，我們只給GLM-5V-Turbo畫幾個框框，讓它做個酷炫的音樂播放器。結果模型還真搞得像模像樣，布局合理、配色協調、連播放控件都安排得明明白白，讓它改個配色也是言出法隨。建議各位產品經理抓緊體驗，以后改需求再也不用看前端的臉色了。
案例二：輸入網址，直接復刻
這是GLM-5V-Turbo的主打功能之一。因為模型有強大的GUI Agent能力，只要給它一個目標網站URL ，它就能自主瀏覽頁面，梳理布局結構、采集視覺素材與交互細節，然后直接生成完整可運行的前端工程。不需要手動截圖、不需要描述需求，一個鏈接就夠了。
例如，我們讓GLM-5V-Turbo復刻這個頗具設計感的網站：https://niore.webflow.io/
這是復刻效果，可以看到，不論是布局、字體，甚至是插圖都非常相似。
案例三：輸入錄屏，還原動效
將一段網頁操作錄屏發給模型， GLM-5V-Turbo能從視頻中理解頁面的動態交互邏輯——滾動效果、彈窗切換、表單聯動、按鈕反饋等，然后將這些交互細節還原為可運行的代碼。不只是”還原長什么樣” ，而是”還原怎么動” 。
我們把這個美食網站的錄屏發給GLM-5V-Turbo ，讓它復刻一下。
錄屏
可以看到，網站的布局、照片、字體都比較還原，浮現動效和字體特效這類動態細節也基本復刻到位。
結果

二、技術探索：不是簡單“加了個視覺模塊”與以往傳統方法不同， GLM-5V-Turbo不是在一個純文本Coding模型上“外掛”了一個視覺理解模塊，而是從預訓練階段就開始進行文本與視覺能力的深度融合，解決了“視覺能力與純文本編程和推理能力無法兼得”的問題。
具體來說，智譜團隊研發了新一代CogViT視覺編碼器，在通用物體識別、細粒度理解、幾何與空間感知上均做到了領先水平，同時設計了一套兼容多模態輸入且推理友好的MTP結構，在多模態場景下實現了較高的推理效率。
更關鍵的是，在強化學習階段，智譜團隊采用了30+任務類型的協同優化策略，覆蓋STEM推理、視覺grounding、視頻理解、GUI Agent等多個子領域。這種多任務協同強化學習的好處在于，它有效緩解了單領域訓練容易出現的不穩定性，也就是說，不會因為某一項能力的提升而犧牲其他能力。
而且從評測數據來看，這套方案確實跑通了。
在多模態Coding維度， GLM-5V-Turbo在設計稿還原、視覺代碼生成、多模態檢索與問答、視覺探查等基準上均取得領先表現；在衡量真實GUI環境操控能力的AndroidWorld、WebVoyager等基準上同樣表現突出。
而在純文本Coding維度， GLM-5V-Turbo在CC-Bench-V2的Backend、Frontend和Repo Exploration三項核心測試中保持了穩定表現——也就是說，視覺能力的引入并沒有拖累純文本編程能力。
用一句話總結：GLM-5V-Turbo不是在“看圖”和“寫代碼”之間做取舍，而是“全都要” 。

結語：Coding基座模型的下一步，是“看見世界”從GLM-5-Turbo到GLM-5V-Turbo ，智譜在Coding基座模型上的迭代邏輯非常清晰：先讓模型在文本世界里把任務跑通，再讓它“看見”視覺世界，從而進入更廣闊的應用空間。
這背后的判斷是：Agent時代，模型能力不只由智能水平定義，還由它能處理的context容量定義。一個只能處理純文本的模型，哪怕推理能力再強，在真實世界里的應用邊界也是有限的。因為真實世界的信息，絕大多數以圖片、視頻、界面等視覺形式存在。
從這個角度來看， GLM-5V-Turbo不只是智譜的一次產品更新，更像是一個行業信號：Coding模型的競爭，正在從“誰的代碼寫得好”升級到“誰能看懂世界并寫出代碼” 。
而隨著越來越多的Coding模型開始進入真實生產環境， “看得懂、寫得出、跑得通”這三項能力的整合程度，將成為區分模型之間差距的關鍵維度。
【看草圖直出代碼！實測智譜最新多模態Coding模型】這場競賽，才剛剛進入深水區。

推薦閱讀

上一篇：為啥大廠全在死磕AI編程？試完千問新模型后我悟了

下一篇：《紅色沙漠》口碑回升，索泰RTX50系顯卡帶你高幀暢玩