頂尖AI竟輸給三歲寶寶，BabyVision測試暴露多模態模型硬傷

2026-03-15 ai 機器人

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

【頂尖AI竟輸給三歲寶寶，BabyVision測試暴露多模態模型硬傷】
01｜“看懂世界” 這關，大模型還沒上幼兒園
過去一年，大模型在語言與文本推理上突飛猛進：論文能寫、難題能解、甚至在頂級學術 / 競賽類題目上屢屢刷新上限。但一個更關鍵的問題是：當問題不再能 “用語言說清楚” 時，模型還能不能 “看懂”？UniPat AI 攜手紅杉中國 xbench 團隊，并聯合多家大模型公司與高校的研究員，發布新的多模態理解評測集 BabyVision 。
UniPat AI 致力于構建真實場景下 AI 訓練、評測與應用的新范式，推動其實現可泛化、可信賴的真實世界部署，并創造切實的經濟與社會價值。
如果一個視覺問題可以完全用文字描述且不丟信息，它本質上就會 “退化成文本題” 。模型可以靠強大的語言推理能力一路通關，看起來很會看，其實是在走語言捷徑。而真正的視覺能力，需要在沒有語言扶梯的情況下完成：比較、追蹤、空間想象、模式歸納。而 BabyVision 證明了多模態大模型的這些純視覺能力還停留在 “三歲幼兒” 的階段！
Google DeepMind 創始人 Demis Hassabis ，在 25 年終播客中也提到類似觀點：“大模型可以在國際數學奧林匹克拿金牌，卻會在小學幾何題上出錯；它能生成驚艷圖像，卻不理解杯子為什么不會飄在空中。 ”

blog
https://unipat.ai/blog/BabyVision
github
https://github.com/UniPat-AI/BabyVision
huggingface
https://huggingface.co/collections/UnipatAI/babyvision
02｜把頂尖模型和孩子放到同一張 “純視覺試卷”
BabyVision 先做了一項非常直接的對比實驗：把 20 道視覺中心任務（vision-centric）作為 BabyVision-Mini 交給不同年齡段孩子（3/6/10/12 歲）和當下頂尖多模態模型來做。
這份 “小試卷” 要求嚴格控制語言依賴：題目要求很簡單，答案必須靠視覺信息本身得出。
結果非常 “扎心”（如圖 1 所示）：
大多數模型的分數，聚集在明顯低于平均 3 歲兒童的區間； Gemini3?Pro?Preview 是唯一穩定超過 3 歲基線的模型，但距離 6 歲兒童仍差約 20 個百分點。下面是其中一道題，直觀且反直覺，連線垃圾分類，小孩可以輕松做對，但頂尖模型追蹤一條線都能追丟。
任務：三件物品沿著線分別連到哪個顏色垃圾桶？

正確答案：A - 藍， B - 黃， C - 綠模型答案（Gemini3-Pro-Preview）：A - 綠， B - 黃， C - 藍人類的解法幾乎是本能，從點出發沿線走到終點（下面照片是三歲幼兒真實做題痕跡）。但模型會寫出一大段 “逐段追蹤” 的推理，最后仍把兩條路徑接反：看起來 “很會分析” ，其實在最基礎的視覺追蹤上掉線。
03｜BabyVision?Full 用 388 題，把視覺能力拆成 4 大類能力 22 個子任務
研究團隊將視覺能力提煉為四大核心類別，每類下細分若干子任務：
精細辨別（Fine-grained Discrimination）：分辨細微的視覺差異（8 個子任務）視覺追蹤（Visual Tracking）：跟隨路徑、線條與運動軌跡（5 個子任務）空間感知（Spatial Perception）：理解三維結構及其關系（5 個子任務）視覺模式識別（Visual Pattern Recognition）：識別邏輯與幾何規律（4 個子任務）這套設計的核心理念很明確：
不是為了 “刁難” 模型，而是量化那些 “人類直覺就會、但構成智能地基” 的視覺原子能力。這同樣是具身智能（embodied AI）走向現實世界的必修課。
為了最大程度確保 “純視覺” 考核的有效性， BabyVision 在數據構建上也下足了工夫。
項目團隊首先參考了兒童認知教材和視覺發育測驗，梳理出了上述 4 大類共 22 種基礎視覺子任務。
接著，每個子技能挑選出 2-3 個種子示例（種子圖片），作為該類型任務的典型代表。基于這些種子示例，研究者利用逆向圖像搜索和關鍵詞搜索，從互聯網上爬取了約 4000 張相似的候選圖片。
在數據收集過程中，團隊嚴格遵守版權規范，只挑選可用于非商業或學術用途的素材，并過濾掉可能包含大量文字說明或需要文化常識才能理解的圖片。由此獲得的海量圖片進入人工標注環節：多名專業人員逐一檢查圖片，篩除不適合出題的樣本，對保留下來的圖片精心設計問題和標準答案。為了確保答案的客觀正確，每個問題還附有詳細的 “解題過程” 說明，以證明答案確實可由視覺推理得出。
最終，所有標注完成的問題都經過 “雙盲質檢”—— 兩位獨立專家交叉審核，每道題只有在雙方都認可其答案無誤、推理嚴謹的情況下才被收錄；若出現異議則退回修改，反復仍無法達成一致的題目則果斷棄用。經過這一系列嚴苛的篩選， BabyVision 最終產出了 388 道高質量視覺題目，涵蓋 22 種子任務。

最終評測結果：人類 94.1% ，最強閉源 49.7% ，最強開源 22.2%
在 BabyVision?Full 上，研究團隊引入了人類基線， 16 位至少本科背景的測試者完成全量 388 題，人類準確率達 94.1% 。
再看模型：
閉源最強：Gemini3?Pro?Preview 49.7% 其后：GPT?5.2 34.8%、Doubao?1.8 30.2%開源側：
最強模型（Qwen3VL?235B?Thinking）整體 22.2% ，多數模型在 12–19% 區間。更關鍵的是：差距不是集中在某一個類別。四大類能力都在下滑，說明這是 “系統性缺基礎視覺能力” ，而非某個單點缺陷。一些子任務甚至幾乎 “全員翻車” ，例如 Count 3D Blocks 在多模型中普遍偏低，暴露的是模型結構化場景能力不足。

04｜為什么會這樣？因為這些視覺推理題目是沒法用語言描述的（Unspeakable）
最反直覺的地方在于：
BabyVision 里的很多題，對人類來說不難，甚至孩子會用指一指、圈一圈、沿著線走一遍就搞定。
但模型一旦用文字去 “復述” 視覺，再用語言推理去算，信息就丟了。
研究團隊把這種現象概括為：
這些視覺題是 “unspeakable” 的，無法在不損失信息的情況下被完整語言化；模型試圖把視覺壓縮成 token ，細節在壓縮中消失。
并進一步總結了 4 類典型挑戰：
挑戰 1：看不見 “非語言細節”（Observing Non-Verbal Details）

比如拼圖 / 補全題里，選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位。
人類憑幾何直覺 “對齊邊界” 就能秒?。 ? 模型一旦把形狀用語言概括成 “像鉤子、兩個腿、差不多七八個六邊形” ，細節就被抹平，選項在 token 空間里變得 “幾乎一樣” 。挑戰 2：追線追丟了（Manifold Understanding）

連線 / 繞線 / 軌跡題，答案編碼在 “連通性” 里：
人類是鎖定一條線→穿過交叉→一路追到終點；模型往往把線翻譯成 “左 / 右 / 上 / 下” 的離散步驟，一遇到交叉點就出現分叉爆炸，容易 “換軌” 追錯線。挑戰 3：缺少真正的空間想象（Spatial Imagination）

三維方塊計數、視角投影、遮擋下的結構判斷，人類通常不是 “用語言一步步描述” ，而是把結構在腦中 “立起來” ，換個角度看，再數。
模型則容易犯兩類錯誤：漏掉隱藏塊、投影關系搞錯。這不是邏輯差，而是缺少穩定的 3D 內部表征與變換能力。
挑戰 4：圖形規律歸納難（Visual Pattern Induction）

這類題要求從少量視覺示例里抽象出規則，再遷移到新圖。
人類做的是關系映射，真正決定正確性的是 “發生了什么變化” 而不是 “那里有什么” ，具體的形狀、顏色、絕對位置都可以變，只有它們在變換中的 “身份” 不變。
模型常常盯著表面屬性（顏色、形狀），把 “結構規則” 誤讀成 “外觀統計” ，導致遷移時幻覺規則。
05｜如果不讓它用文字回答，讓它 “畫” 呢？BabyVision?Gen 給出一個新方向
當文本推理不夠用，一個自然的問題出現了：
能不能讓模型像孩子一樣，用畫、圈、連線、描軌跡來作答？
于是有了 BabyVision?Gen：
從原基準中重新標注出 280 道適合 “生成式作答” 的題要求模型輸出圖像 / 視頻來表達解題過程或答案并開發了自動評測工具，與人工評測一致性達 95%研究團隊在 BabyVision?Gen 上評測了多種生成模型（包括 Nano?Banana?Pro、Qwen?Image、Veo?3、Sora?2）。現階段得到的結論很克制但重要：
生成式推理在視覺追蹤、精細辨別等 VLM 易翻車任務上出現 “更像人類” 的行為（會真的去畫軌跡、做標注）；但整體仍然缺乏穩定到達完全正確解的能力。這至少說明：把視覺推理 “落地到視覺操作” 上，可能是補齊短板的一條路。
下面看一個具體的例子：
任務：用紅線沿著從左上角圖形延伸出的那條線，完整地描出其全程路徑。
Sora2

NanoBanana-pro

06｜為什么 BabyVision 重要？因為現實世界不靠語言提示
正如研究團隊在 Blog（https://unipat.ai/blog/BabyVision）中所寫：
很難想象一個視覺能力低于 3 歲孩子的機器人，能夠可靠地在真實物理世界里幫助人類。
今天，多模態模型 “會說會寫” 已經很強。
但要走向真正的通用智能與具身智能，視覺地基必須補上：
看得準（細粒度辨別）追得?。 ü旒?/ 連通性）想得出（3D 結構想象）歸納得了（圖形規則遷移）BabyVision 的價值正在于：把 “看懂世界” 拆成可測量、可診斷、可迭代的 22 個原子能力，告訴我們差距到底在哪里、下一步該補什么，從而引導多模態大模型發展。
UniPat
UniPat AI 致力于構建真實場景下 AI 訓練、評測與應用的新范式，推動其實現可泛化、可信賴的真實世界部署，并創造切實的經濟與社會價值。
官網鏈接：https://unipat.ai

推薦閱讀

上一篇：二合一可拆卸Vlog相機：以可變，應萬變

下一篇：字節、阿里、美團首次在具身智能“同框”，十億級融資背后，自變量到底憑什么？