Warning: mkdir(): No space left on device in /www/wwwroot/New.4.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/tsxingyuan.com/cache/33/5d7fb/ce09a.html): failed to open stream: No such file or directory in /www/wwwroot/New.4.com/func.php on line 115
新研究:人類讀指針式時鍾準確率達 89.1%,頂尖 AI 僅 13.3%






国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃

信陽

新研究:人類讀指針式時鍾準確率達 89.1%,頂尖 AI 僅 13.3%

時間:2025-09-14 20:26:47  作者:不懂球的老漢SC   來源:信陽  查看:  評論:0
內容摘要:09月05日訊 足協官方發布公開招聘國足主帥的公告,目標持續

IT之家 9 月 14 日消息,一項新研究發現,人類讀取指針式時鍾的準確率可達 89.1%,而目前最優秀的人工智能(AI)模型準確率僅為 13.3%,該結果凸顯出當前語言模型在視覺推理能力方麵與人類存在巨大差距。

阿萊克・薩法爾(Alek Safar)采用名為“ClockBench”的全新測試,讓來自 6 家企業的 11 個大型語言模型與 5 名人類展開正麵較量。該基準測試包含 180 個定製的指針式時鍾及 720 道測試題,遵循“人類易上手、AI 難突破”的設計思路,這一思路在 ARC-AGI、SimpleBench 等基準測試中也有所體現。

為確保公平性並避免與模型訓練數據重疊,薩法爾從零開始構建了該數據集。數據集包含 36 種獨特的鍾麵設計,融合了羅馬數字與阿拉伯數字、不同朝向、時針標識、鏡像布局及彩色背景等元素。每種設計他都製作了 5 個不同的時鍾,總共有 180 個時鍾。

每個時鍾均通過四類問題進行測試:讀取時間、時間計算、按特定角度調整指針,以及時區轉換。薩法爾根據時鍾類型設置了不同的誤差允許範圍,例如,僅含時針的時鍾比同時具備時針、分針、秒針的時鍾誤差容忍度更高。

薩法爾表示,相較於“人類終極測試”(Humanity's Last Exam)這類側重知識儲備的測試,ClockBench 對 AI 模型的難度更高。測試結果表明,即便麵對看似簡單的視覺任務,AI 與人類的差距仍十分顯著。

穀歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的準確率位居榜首,Gemini 2.5 Flash 緊隨其後,準確率為 10.5%。GPT-5 排名第三,準確率 8.4%,且調整模型的推理預算對提升準確率效果甚微。

Grok 4 模型表現墊底,準確率僅 0.7%,這一結果頗為出人意料,因為該模型在其他基準測試中常常表現出色。Grok 4 將 63.3% 的時鍾判定為“無效”,但實際上 180 個時鍾中僅 37 個顯示的是“不可能時間”。這種極度謹慎的方式意味著,從技術層麵來講,Grok 4 的正確答案數量最多,但這隻是通過隨機將時鍾標記為無效實現的。

Anthropic 公司的 Claude 4 Sonnet(準確率 4.2%)與 Claude 4.1 Opus(準確率 5.6%)表現同樣不佳。研究還發現,61.7% 的時鍾未能被任何一個 AI 模型正確讀取。

相較於準確率,誤差的嚴重程度更能反映問題本質。人類讀取時間的中位誤差僅為 3 分鍾,而表現最佳的 AI 模型中位誤差達 1 小時,性能最差的 AI 模型誤差約為 3 小時,對於 12 小時製時鍾而言,這幾乎和隨機猜測差不多。

IT之家注意到,部分鍾麵特征對 AI 而言難度極高:當鍾麵采用羅馬數字時,AI 準確率降至 3.2%;采用圓形數字時,準確率僅為 4.5%。此外,秒針、彩色背景及鏡像布局也會對 AI 的判斷造成幹擾。

僅含時針的時鍾對 AI 而言相對容易(準確率 23.6%),這得益於其更高的誤差容忍度。采用阿拉伯數字和基礎表盤的標準時鍾,也能讓 AI 取得相對更好的成績。

測試還獲得了一個意外發現:當 AI 模型成功讀取時間後,它們在時間計算、指針調整或時區轉換任務中幾乎都能得出正確結果。這意味著,AI 麵臨的挑戰並非“進行時間相關的數學運算”,而是“從視覺信息中讀取時間”這一初始步驟。

薩法爾認為,背後原因可能有三點:其一,讀取指針式時鍾對視覺推理能力是一項嚴峻考驗;其二,罕見或特殊的鍾麵設計在訓練數據中出現頻率極低;其三,將鍾麵視覺信息轉化為文字描述,對當前 AI 模型而言很可能是一項難題。

ClockBench 被定位為一項長期基準測試。其完整數據集目前處於保密狀態,以避免汙染未來 AI 的訓練過程,但已有一個規模較小的公開版本可供測試使用。

盡管 AI 在該測試中的得分普遍較低,薩法爾仍看到了希望:性能最佳的模型表現優於隨機猜測,且展現出基礎的視覺推理能力。不過,這些能力能否通過“擴大現有方法規模”得到提升,還是需要全新技術路徑來突破,目前仍是一個待解的問題。

一年前,中國一項研究也曾發現多模態語言模型存在類似的能力短板,但當時的結果要好得多。彼時,GPT-4o 模型在包含“讀時鍾、讀儀表”的儀表盤任務中,準確率達到 54.8%。而此次 ClockBench 測試中,AI 的最高準確率僅為 13.3%,這一差距既表明新基準測試難度顯著提升,也反映出 AI 的時鍾讀取能力並未取得明顯進步。

{loop type="arclist" row=1 }{$vo.title}