頂尖AI竟輸給三歲寶寶,BabyVision測試暴露多模態模型硬傷

頂尖AI竟輸給三歲寶寶,BabyVision測試暴露多模態模型硬傷

文章圖片

頂尖AI竟輸給三歲寶寶,BabyVision測試暴露多模態模型硬傷

文章圖片

頂尖AI竟輸給三歲寶寶,BabyVision測試暴露多模態模型硬傷

文章圖片

頂尖AI竟輸給三歲寶寶,BabyVision測試暴露多模態模型硬傷

文章圖片

頂尖AI竟輸給三歲寶寶,BabyVision測試暴露多模態模型硬傷

文章圖片

頂尖AI竟輸給三歲寶寶,BabyVision測試暴露多模態模型硬傷

文章圖片

頂尖AI竟輸給三歲寶寶,BabyVision測試暴露多模態模型硬傷

【頂尖AI竟輸給三歲寶寶,BabyVision測試暴露多模態模型硬傷】
01|“看懂世界” 這關 , 大模型還沒上幼兒園
過去一年 , 大模型在語言與文本推理上突飛猛進:論文能寫、難題能解、甚至在頂級學術 / 競賽類題目上屢屢刷新上限 。 但一個更關鍵的問題是:當問題不再能 “用語言說清楚” 時 , 模型還能不能 “看懂”?UniPat AI 攜手紅杉中國 xbench 團隊 , 并聯合多家大模型公司與高校的研究員 , 發布新的多模態理解評測集 BabyVision 。
UniPat AI 致力于構建真實場景下 AI 訓練、評測與應用的新范式 , 推動其實現可泛化、可信賴的真實世界部署 , 并創造切實的經濟與社會價值 。
如果一個視覺問題可以完全用文字描述且不丟信息 , 它本質上就會 “退化成文本題” 。 模型可以靠強大的語言推理能力一路通關 , 看起來很會看 , 其實是在走語言捷徑 。 而真正的視覺能力 , 需要在沒有語言扶梯的情況下完成:比較、追蹤、空間想象、模式歸納 。 而 BabyVision 證明了多模態大模型的這些純視覺能力還停留在 “三歲幼兒” 的階段 !
Google DeepMind 創始人 Demis Hassabis , 在 25 年終播客中也提到類似觀點:“大模型可以在國際數學奧林匹克拿金牌 , 卻會在小學幾何題上出錯;它能生成驚艷圖像 , 卻不理解杯子為什么不會飄在空中 。 ”


blog
https://unipat.ai/blog/BabyVision
github
https://github.com/UniPat-AI/BabyVision
huggingface
https://huggingface.co/collections/UnipatAI/babyvision
02|把頂尖模型和孩子放到同一張 “純視覺試卷”
BabyVision 先做了一項非常直接的對比實驗:把 20 道視覺中心任務(vision-centric)作為 BabyVision-Mini 交給不同年齡段孩子(3/6/10/12 歲)和當下頂尖多模態模型來做 。
這份 “小試卷” 要求嚴格控制語言依賴:題目要求很簡單 , 答案必須靠視覺信息本身得出 。
結果非常 “扎心”(如圖 1 所示):
大多數模型的分數 , 聚集在明顯低于平均 3 歲兒童的區間; Gemini3?Pro?Preview 是唯一穩定超過 3 歲基線的模型 , 但距離 6 歲兒童仍差約 20 個百分點 。下面是其中一道題 , 直觀且反直覺 , 連線垃圾分類 , 小孩可以輕松做對 , 但頂尖模型追蹤一條線都能追丟 。
任務:三件物品沿著線分別連到哪個顏色垃圾桶?


正確答案:A - 藍 , B - 黃 , C - 綠 模型答案(Gemini3-Pro-Preview):A - 綠 , B - 黃 , C - 藍人類的解法幾乎是本能 , 從點出發沿線走到終點(下面照片是三歲幼兒真實做題痕跡) 。 但模型會寫出一大段 “逐段追蹤” 的推理 , 最后仍把兩條路徑接反:看起來 “很會分析” , 其實在最基礎的視覺追蹤上掉線 。
03|BabyVision?Full 用 388 題 , 把視覺能力拆成 4 大類能力 22 個子任務
研究團隊將視覺能力提煉為四大核心類別 , 每類下細分若干子任務:
精細辨別(Fine-grained Discrimination):分辨細微的視覺差異(8 個子任務) 視覺追蹤(Visual Tracking):跟隨路徑、線條與運動軌跡(5 個子任務) 空間感知(Spatial Perception):理解三維結構及其關系(5 個子任務) 視覺模式識別(Visual Pattern Recognition):識別邏輯與幾何規律(4 個子任務)這套設計的核心理念很明確:
不是為了 “刁難” 模型 , 而是量化那些 “人類直覺就會、但構成智能地基” 的視覺原子能力 。 這同樣是具身智能(embodied AI)走向現實世界的必修課 。
為了最大程度確保 “純視覺” 考核的有效性 , BabyVision 在數據構建上也下足了工夫 。
項目團隊首先參考了兒童認知教材和視覺發育測驗 , 梳理出了上述 4 大類共 22 種基礎視覺子任務 。
接著 , 每個子技能挑選出 2-3 個種子示例(種子圖片) , 作為該類型任務的典型代表 。 基于這些種子示例 , 研究者利用逆向圖像搜索和關鍵詞搜索 , 從互聯網上爬取了約 4000 張相似的候選圖片 。
在數據收集過程中 , 團隊嚴格遵守版權規范 , 只挑選可用于非商業或學術用途的素材 , 并過濾掉可能包含大量文字說明或需要文化常識才能理解的圖片 。 由此獲得的海量圖片進入人工標注環節:多名專業人員逐一檢查圖片 , 篩除不適合出題的樣本 , 對保留下來的圖片精心設計問題和標準答案 。 為了確保答案的客觀正確 , 每個問題還附有詳細的 “解題過程” 說明 , 以證明答案確實可由視覺推理得出 。
最終 , 所有標注完成的問題都經過 “雙盲質檢”—— 兩位獨立專家交叉審核 , 每道題只有在雙方都認可其答案無誤、推理嚴謹的情況下才被收錄 ;若出現異議則退回修改 , 反復仍無法達成一致的題目則果斷棄用 。 經過這一系列嚴苛的篩選 , BabyVision 最終產出了 388 道高質量視覺題目 , 涵蓋 22 種子任務 。

最終評測結果:人類 94.1% , 最強閉源 49.7% , 最強開源 22.2%
在 BabyVision?Full 上 , 研究團隊引入了人類基線 , 16 位至少本科背景的測試者完成全量 388 題 , 人類準確率達 94.1% 。
再看模型:
閉源最強:Gemini3?Pro?Preview 49.7% 其后:GPT?5.2 34.8%、Doubao?1.8 30.2%開源側:
最強模型(Qwen3VL?235B?Thinking)整體 22.2% , 多數模型在 12–19% 區間 。更關鍵的是:差距不是集中在某一個類別 。 四大類能力都在下滑 , 說明這是 “系統性缺基礎視覺能力” , 而非某個單點缺陷 。一些子任務甚至幾乎 “全員翻車” , 例如 Count 3D Blocks 在多模型中普遍偏低 , 暴露的是模型結構化場景能力不足 。

04|為什么會這樣?因為這些視覺推理題目是沒法用語言描述的(Unspeakable)
最反直覺的地方在于:
BabyVision 里的很多題 , 對人類來說不難 , 甚至孩子會用指一指、圈一圈、沿著線走一遍就搞定 。
但模型一旦用文字去 “復述” 視覺 , 再用語言推理去算 , 信息就丟了 。
研究團隊把這種現象概括為:
這些視覺題是 “unspeakable” 的 , 無法在不損失信息的情況下被完整語言化;模型試圖把視覺壓縮成 token , 細節在壓縮中消失 。
并進一步總結了 4 類典型挑戰:
挑戰 1:看不見 “非語言細節”(Observing Non-Verbal Details)

比如拼圖 / 補全題里 , 選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位 。
人類憑幾何直覺 “對齊邊界” 就能秒?。 ? 模型一旦把形狀用語言概括成 “像鉤子、兩個腿、差不多七八個六邊形” , 細節就被抹平 , 選項在 token 空間里變得 “幾乎一樣” 。挑戰 2:追線追丟了(Manifold Understanding)

連線 / 繞線 / 軌跡題 , 答案編碼在 “連通性” 里:
人類是鎖定一條線→穿過交叉→一路追到終點; 模型往往把線翻譯成 “左 / 右 / 上 / 下” 的離散步驟 , 一遇到交叉點就出現分叉爆炸 , 容易 “換軌” 追錯線 。挑戰 3:缺少真正的空間想象(Spatial Imagination)

三維方塊計數、視角投影、遮擋下的結構判斷 , 人類通常不是 “用語言一步步描述” , 而是把結構在腦中 “立起來” , 換個角度看 , 再數 。
模型則容易犯兩類錯誤:漏掉隱藏塊、投影關系搞錯 。 這不是邏輯差 , 而是缺少穩定的 3D 內部表征與變換能力 。
挑戰 4:圖形規律歸納難(Visual Pattern Induction)

這類題要求從少量視覺示例里抽象出規則 , 再遷移到新圖 。
人類做的是關系映射 , 真正決定正確性的是 “發生了什么變化” 而不是 “那里有什么” , 具體的形狀、顏色、絕對位置都可以變 , 只有它們在變換中的 “身份” 不變 。
模型常常盯著表面屬性(顏色、形狀) , 把 “結構規則” 誤讀成 “外觀統計” , 導致遷移時幻覺規則 。
05|如果不讓它用文字回答 , 讓它 “畫” 呢?BabyVision?Gen 給出一個新方向
當文本推理不夠用 , 一個自然的問題出現了:
能不能讓模型像孩子一樣 , 用畫、圈、連線、描軌跡來作答?
于是有了 BabyVision?Gen:
從原基準中重新標注出 280 道適合 “生成式作答” 的題 要求模型輸出圖像 / 視頻來表達解題過程或答案 并開發了自動評測工具 , 與人工評測一致性達 95%研究團隊在 BabyVision?Gen 上評測了多種生成模型(包括 Nano?Banana?Pro、Qwen?Image、Veo?3、Sora?2) 。 現階段得到的結論很克制但重要:
生成式推理在視覺追蹤、精細辨別等 VLM 易翻車任務上出現 “更像人類” 的行為(會真的去畫軌跡、做標注); 但整體仍然缺乏穩定到達完全正確解的能力 。這至少說明:把視覺推理 “落地到視覺操作” 上 , 可能是補齊短板的一條路 。
下面看一個具體的例子:
任務:用紅線沿著從左上角圖形延伸出的那條線 , 完整地描出其全程路徑 。
Sora2

NanoBanana-pro

06|為什么 BabyVision 重要?因為現實世界不靠語言提示
正如研究團隊在 Blog(https://unipat.ai/blog/BabyVision)中所寫:
很難想象一個視覺能力低于 3 歲孩子的機器人 , 能夠可靠地在真實物理世界里幫助人類 。
今天 , 多模態模型 “會說會寫” 已經很強 。
但要走向真正的通用智能與具身智能 , 視覺地基必須補上:
看得準(細粒度辨別) 追得?。 ü旒?/ 連通性) 想得出(3D 結構想象) 歸納得了(圖形規則遷移)BabyVision 的價值正在于:把 “看懂世界” 拆成可測量、可診斷、可迭代的 22 個原子能力 , 告訴我們差距到底在哪里、下一步該補什么 , 從而引導多模態大模型發展 。
UniPat
UniPat AI 致力于構建真實場景下 AI 訓練、評測與應用的新范式 , 推動其實現可泛化、可信賴的真實世界部署 , 并創造切實的經濟與社會價值 。
官網鏈接:https://unipat.ai

    推薦閱讀