李飛飛李曼玲團隊發布空間理論:AI的空間智能還在三歲小孩階段

李飛飛李曼玲團隊發布空間理論:AI的空間智能還在三歲小孩階段

文章圖片

李飛飛李曼玲團隊發布空間理論:AI的空間智能還在三歲小孩階段

文章圖片

李飛飛李曼玲團隊發布空間理論:AI的空間智能還在三歲小孩階段

文章圖片

李飛飛李曼玲團隊發布空間理論:AI的空間智能還在三歲小孩階段

文章圖片


1983 年 , 心理學家設計了一個簡單實驗:Sally 把彈珠放進籃子然后離開 , Anne 趁她不注意把彈珠挪到盒子里 。 問題是 , Sally 回來后 , 會去哪里找彈珠?

四歲孩子能答對:去籃子 , 因為 Sally 不知道彈珠被移走了 。 三歲以下的孩子會答錯 , 他們分不清“自己知道”和“別人知道”的區別 。 這就是發展心理學里著名的 Sally-Anne 測試 , 它標定了人類認知發展的一道重要分水嶺 。 這種能力被稱為“心智理論”(Theory of Mind) 。


(動圖來源:受訪者)

四十多年后 , 美國斯坦福大學李飛飛教授和美國西北大學李曼玲教授團隊把這個實驗搬到了 AI 面前 , 只不過這次考察的是物理世界 。 他們設計了一套叫“空間理論”(Theory of Space)的評估框架 , 目的是想弄清楚一件事:當大模型必須自己去探索、去發現、去拼湊信息時 , 它的空間智能究竟進化到了哪一級?


圖 | 從左到右:李飛飛、李曼玲(來源:資料圖)

從被動答題到主動探索 , AI 掉了好幾個臺階

傳統測試 AI 空間能力的方式 , 有點像開卷考試 。 給一張圖 , 問里面物體的位置關系 , 模型答對了就算過關 。 前沿模型在這種測試里得分都不錯 , 讓人以為它們已經挺懂空間了 。

但李飛飛和李曼玲團隊覺得這還不夠 。 真實世界不是開卷考 , 沒有人會把所有信息一次性擺在你面前 。 你推開一扇門只看到客廳一角 , 走過走廊瞥見臥室一角 , 要理解整個房子的布局 , 你得把這些碎片拼起來 , 還得知道自己還有什么沒看到 , 下一步該往哪看 。

研究中 , 他們設計了一套測試環境 , 有文本版和視覺版兩種 , 讓模型在多個房間里主動探索 , 收集信息 , 構建腦海中的認知地圖 。 過去評估只看最終答對答錯 , 這篇工作第一次能給 AI 大腦拍 X 光 , 他們讓模型顯式探測這張認知地圖 , 在每個時間步輸出自己認為物體都在什么位置 。


(動圖來源:受訪者)

結果發現 , 模型在被動模式下表現尚可 , 一旦切換到主動探索模式 , 性能應聲而落 。 以視覺世界為例 , GPT-5.2 從 57.1% 掉到 46.0% , Gemini-3 Pro 從 60.5% 掉到 57.3% , 而這就是他們所說的主動被動差距 。


(來源:https://theory-of-space.github.io/paper/Theory_of_Space.pdf)

差距從哪來?他們用一套精細的診斷工具來逐層拆解模型的認知過程 。

第一個問題是效率低 。 規則代理平均 9 步就能覆蓋整個環境 , 基礎模型往往需要 14 步以上 , 而且覆蓋率更低 。 GPT-5.2 有個毛病 , 一看到門就沖過去 , 經常忘了把當前房間看完 。 Gemini-3 Pro 好一些 , 會先原地旋轉觀察再移動 , 但也沒有規則代理高效 。

第二個問題更致命 。 他們設計了一個錯誤信念測試 , 在模型完成初次探索后 , 悄悄移動或旋轉幾個物體 。 當模型再次經過并直接觀察到新布局時 , 一個令人不安的現象出現了:GPT-5.2 在視覺世界中的朝向慣性高達 68.9% , 即近七成的情況下仍然堅持報告物體的舊朝向 。 同一模型在文本世界中慣性只有 5.5% 。


(來源:https://theory-of-space.github.io/paper/Theory_of_Space.pdf)

其實這就是信念慣性 , 模型親眼看到變化 , 但內部表征缺乏足夠的可塑性來完成舊信念到新信念的覆寫 , 也就是它無法更新自己的認知 。 這和 Sally-Anne 測試里三歲幼兒的失敗何其相似 , 只不過幼兒失敗是因為認知能力尚未發育 , 模型失敗是因為內部機制存在缺陷 。

認知地圖會漂移 , 視覺世界更高難

他們還發現一個叫信念漂移的現象 。 那就是模型在初次觀察物體時的感知誤差雖然存在 , 不過還沒嚴重到影響整體判斷 。 真正的問題是 , 這份初始保真度無法在后續步驟中維持 。 隨著探索推進、信息增多 , 那些早先正確的記憶開始悄然退化 , 被后續步驟的錯誤更新覆蓋 , 或者在拼接不同房間的信息時產生內部矛盾 。


(動圖來源:受訪者)

最終認知地圖的低準確率 , 在很大程度上來自拼不住 。 模型缺乏穩定維護長程空間信息的機制 , 新的觀察不僅沒有鞏固已有認知 , 反而在不斷侵蝕它 。 這個特點可能人類也存在 , 比如筆者曾去參觀故宮 , 一個宮殿接一個地觀看 , 而這些宮殿又很相似 , 那么就很有可能看了下一個、忘記了上一個 。


(來源:https://theory-of-space.github.io/paper/Theory_of_Space.pdf)

但是 , 這些問題在視覺世界中會被放大 。 人類被試在視覺世界中的準確率高達 96.4%(使用簡單工具后達 99.0%) , 在文本世界中是 86.7% 。 模型卻正好相反 , 文本表現遠好于視覺 。 視覺信息對人類而言是天然、直覺的空間認知通道 , 而當前多模態模型尚未學會從像素中高效提取空間結構 。

尤其是物體朝向識別 , 模型幾乎接近隨機猜測 。 這解釋了為什么它們在視角推理任務(如 Perspective Taking)上得分慘淡 , 大約只有 36% 的準確率 。

而這套評估框架的價值 , 在于它把空間智能從會不會答這道題的二元判定 , 變成了一個可以逐級診斷的連續過程 。 它告訴我們的不只是模型還差多遠 , 更是它具體在哪一級開始失靈 。

【李飛飛李曼玲團隊發布空間理論:AI的空間智能還在三歲小孩階段】如果模型連“記住剛才看到的沙發在哪”都做不到 , 那指望它在一個真實環境里主動導航 , 比如在災區搜救中定位幸存者 , 還有很長的路要走 。


(來源:https://theory-of-space.github.io/paper/Theory_of_Space.pdf)

目前 , 相關論文已被機器學習頂級會議 ICLR 2026 接收 。 論文、代碼和數據集都已開源 。 該研究由西北大學、斯坦福大學、華盛頓大學與康奈爾大學聯合完成 。 研究團隊里集齊了多位《麻省理工科技評論》“35 歲以下科技創新 35 人”的入選者 , 李曼玲教授是 2025 年全球入選者 , 美國斯坦福大學的吳佳俊教授和美國華盛頓大學的 Ranjay Krishna 教授分別入選了 2024 與 2025 年度亞太區名單 。

參考資料:
相關論文 https://theory-of-space.github.io/paper/Theory_of_Space.pdf
https://limanling.github.io/
https://profiles.stanford.edu/fei-fei-li

運營/排版:何晨龍

    推薦閱讀