
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

90%人都會的讀鐘題 , 頂尖AI全軍覆沒!
AI基準創建者、連續創業者Alek Safar推出了視覺基準測試ClockBench , 專注于測試AI的「看懂」模擬時鐘的能力 。
結果讓人吃驚:
人類平均準確率89.1% , 而參與測試的11個主流大模型最好的成績僅13.3% 。
就難度而言 , 這與「AGI終極測試」ARC-AGI-2相當 , 比「人類終極考試」更難 。
ClockBench共包含180個時鐘、720道問題 , 展示了當前前沿大語言模型(LLM)的局限性 。
論文鏈接:https://clockbench.ai/ClockBench.pdf
雖然這些模型在多項基準上展現出驚人的推理、數學與視覺理解能力 , 但這些能力尚未有效遷移到「讀表」 。 可能原因:
訓練數據未覆蓋足夠可記憶的時鐘特征與時間組合 , 模型不得不通過推理去建立指針、刻度與讀數之間的映射 。
時鐘的視覺結構難以完整映射到文本空間 , 導致基于文本的推理受限 。
也有好消息:表現最好的模型已展現出一定的視覺推理(雖有限) 。 其讀時準確率與中位誤差均顯著優于隨機水平 。
接下來需要更多研究 , 以判定這些能力能否通過擴大現有范式(數據、模型規模、計算/推理預算)來獲得 , 還是必須采用全新的方法 。
ClockBench如何拷打AI?
在過去的幾年里 , 大語言模型(LLM)在多個領域都取得了顯著進展 , 前沿模型很快在許多流行基準上達到了「飽和」 。
甚至是那些專門設計來同時考察「專業知識與強推理能力」的最新基準 , 也出現了快速突破 。
一個典型例子是Humanity’s Last Exam):
在該基準上 , OpenAI GPT-4o的得分僅2.7%, 而xAI Grok 4卻提升到 25.4%;
結合工具使用等優化手段后 , 結果甚至能進入40–50%區間 。
然而 , 我們仍然發現一些對人類而言輕而易舉的任務 , AI表現不佳 。
因此 , 出現了SimpleBench以及ARC-AGI這類基準 , 它們被專門設計為:對普通人來說很簡單 , 但對LLM卻很難 。
ClockBench正是受這種「人類容易 , AI困難」的思路啟發而設計 。
研究團隊基于一個關鍵觀察:對推理型和非推理型模型來說 , 讀懂模擬時鐘同樣很難 。
因此 , ClockBench構建了一個需要高度視覺精度和推理能力的穩健數據集 。
ClockBench究竟包含什么?
- 36個全新設計的定制表盤 , 每個表盤生成5個樣本時鐘
- 總計180個時鐘 , 每個時鐘設置4個問題 , 共720道測試題
- 測試了來自6家實驗室的11個具備視覺理解能力的模型 , 并招募5名人類參與者對比
問題分為4大類:
1. 判斷時間是否有效
有一個時鐘? , 大模型需要判斷這個時鐘顯示的時間是不是有效的 。
如果時間是合法的 , 大模型需要把它分解成幾個部分 , 并以JSON格式輸出:
小時 (Hours)、分鐘 (Minutes)、秒 (Seconds)、日期 (Date)、月份 (Month)、 星期幾 (Day of the week)
只要表盤包含上述信息 , 就要求LLM一并輸出 。
2. 時間的加減
該任務要求LLM對給定時間進行加減 , 得到新時間 。
3. 旋轉時鐘指針
這個任務是關于操作時鐘的指針 。 該任務要求模型選擇時/分/秒針 , 并按指定角度順時針或逆時針旋轉 。
4. 時區轉換
這個任務是關于不同地方的時間 。 比如 , 給定紐約的夏令時 , 模型需推算不同地點的當地時間 。
結果出乎意料
結果有哪些出乎意料的發現?
模型與人類不僅正確率差距巨大 , 錯誤模式也截然不同:
- 人類誤差中位數僅3分鐘 , 最佳模型卻高達1小時
- 較弱模型的誤差約3小時 , 結合12小時制表盤循環特性 , 相當于隨機噪聲
另一個有趣發現是 , 某些鐘表特征的讀取難度存在顯著差異:
- 在讀取非常見的復雜鐘表及高精度要求場景時 , 模型表現最差
- 羅馬數字與環形數字的朝向最難識別 , 其次是秒針、雜亂背景和鏡像時鐘
除了讀時 , 其他問題對模型而言反而更簡單:
- 表現最佳的模型能高精度回答時間加減、指針旋轉角度或時區轉換問題 , 部分場景準確率可達100%
在不同模型的表現對比中 , 總體趨勢是:規模更大的推理型模型普遍優于規模較小或非推理型模型 。
不過 , 也出現了一些值得注意的現象:
- 谷歌的Gemini 2.5系列模型在各自類別中往往領先于其他模型;
- Anthropic系列模型則普遍落后于同類模型;
- Grok 4的表現遠低于預期 , 與其規模和通用能力并不相稱 。
GPT-5排名第三 , 且推理預算對結果影響不大(中等與高預算得分高度接近)值得思考的是:何種因素制約了GPT-5在此類視覺推理任務的表現?
在原始數據集中 , 180個時鐘里有37個屬于無效(不可能存在)的時間 。 無論是人類還是模型 , 在識別「無效時間」時的成功率都更高:
- 人類差異不大:在無效時鐘上的準確率為96.2% , 而在有效時鐘上為89.1%;
- 模型差異明顯:在無效時鐘上的準確率平均高出349% , 并且所有模型在這類任務中的表現都更好;
- Gemini 2.5 Pro依舊是總體最佳模型 , 準確率達到40.5%;
- Grok 4則是一個異常值:它在識別無效時鐘上的準確率最高 , 達到64.9% , 但問題在于 , 它把整個數據集里63.3%的時鐘都標記為無效 , 這意味著結果很可能是「隨機撞對」 。
- 61.7%的時鐘沒有被任何模型正確讀出;
- 38.3%的時鐘至少被1個模型讀對;
- 22.8%的時鐘至少被2個模型讀對;
- 13.9%的時鐘至少被3個模型讀對;
- 8.9%的時鐘至少被4個或以上的模型讀對 。
參考資料:
https://x.com/alek_safar/status/1964383077792141390
【2025年了,AI還看不懂時鐘!90%人都能答對,頂尖AI全軍覆沒】https://clockbench.ai/
推薦閱讀
- 外媒:國產存儲芯片全國產化突圍來了
- vivo高配旗艦跌至新低價,16G+512G+2億長焦+IP69,可以撿漏了
- 華為麒麟9030被曝光:等效5nm工藝+AI算力強勁,Mate80穩了
- 只留一句“獨白”!魅族四張王牌一起出,旗艦要洗牌了
- 王田苗:2025年,具身智能將開啟以“智能定界”為牽引的產業落地 | 最前線
- OpenAI罕見發論文:我們找到了AI幻覺的罪魁禍首
- AI耳機真好用還是假噱頭?實測南卡OE MIX2智能耳機,答案一眼便知
- iPhone 17 Air 突然被曝,發布時間變了?
- 從不同角度對比評測IOS26和IOS18,這些機型還是老實呆在原版本!
- 8000mAh電池手機盤點,喜歡大電池的有福了
