大型語言模型在讀取時鐘方面遇到困難
AI的快速發展能力讓許多人感到擔憂。但先不要擔心:如果你能正確讀取模擬時鐘,你在這方面仍然優于人工智能。
能夠分析文本、圖像、視頻等多種媒體形式的人工智能模型,即多模態大型語言模型(MLLM),已在體育分析、自動駕駛等多個應用場景中嶄露頭角。但這些模型有時會在看似最簡單的任務上失手,比如準確讀取指針式時鐘顯示的時間。這不禁讓人疑惑:這些模型究竟在圖像分析的哪些環節遇到了困難?
例如,讀取傳統時鐘時,模型是難以區分長短指針?還是無法精準判斷指針相對于數字的角度和方向?這些看似微不足道的問題,恰恰能揭示這些模型的核心局限性。
馬德里理工大學助理教授 Javier Conde,與米蘭理工大學、巴利亞多利德大學的研究人員在近期的一項研究中,致力于探究這些局限性。相關成果于 10 月 16 日發表在 IEEE Internet Computing 期刊上,研究表明,若多模態大型語言模型在圖像分析的某一方面存在短板,可能會引發連鎖反應,影響其圖像分析的其他環節。
AI 看時間的能力到底如何?
首先,研究團隊構建了一個模擬時鐘合成圖像的大數據集,這些圖像總共顯示了超過 43,000 個指示時間,并測試了四種不同的 MLLM 讀取圖像子集中時間的能力。所有四個模型最初都無法準確報時。研究人員能夠通過使用數據集中的額外 5,000 張圖像進行訓練,并使用他們以前從未見過的其他圖像再次測試模型來提高模型的性能。然而,當與全新的時鐘圖像集合進行測試時,模型的性能再次下降。
結果觸及了許多人工智能模型的一個關鍵局限性:它們善于識別他們熟悉的數據,但往往無法識別他們在訓練數據中尚未遇到的新場景。換句話說,它們往往缺乏概括性。
Conde 和他的同事想更深入地挖掘是什么讓 MLLM 如此難以分辨時間。如果問題與模型對時鐘指針空間方向的敏感性有關,那么進一步的微調可以解決這一限制——只需將模型暴露給更多數據,然后它就會更好地完成手頭的任務。
在一系列實驗中,他們創建了新的模擬時鐘數據集,這些數據集要么具有扭曲的形狀,要么改變時鐘指針的外觀,例如,通過在末端添加箭頭?!半m然這種變化對人類來說幾乎沒有什么困難,但模型往往無法完成這項任務,”Conde解釋道,并引用了Salvador Dalí 的著名扭曲時鐘畫作《記憶的持久性》。雖然人類可以破譯扭曲、熔化的時鐘的時間,但 MLLM 很難說出類似扭曲的時鐘的時間。
結果表明,MLLM很難精確定位時鐘指針的空間方向,但當時鐘指針具有獨特的外觀(例如,尖端有箭頭)時,它們就更加困難了,而模型尚未廣泛接觸。然而,這些問題并不是彼此排斥的:通過額外的實驗,研究人員發現,如果MLLM在識別時鐘指針時犯了錯誤,這反過來又會導致更大的空間誤差。
“讀取時間似乎并不像看起來那么簡單,因為模型必須識別時鐘指針,確定它們的方向,并結合這些觀察結果來推斷正確的時間,”Conde 解釋道,并指出模型很難同時處理這些變化。
在他們的研究中,研究人員強調,在醫學圖像分析或自動駕駛感知等更復雜的現實場景中,這些微妙但關鍵的故障可能會導致更嚴重的后果。
“這些結果表明,我們不能認為模型性能是理所當然的,”Conde 說,并強調需要使用不同的輸入進行廣泛的訓練和測試,以確保模型在現實世界應用程序中可能遇到的不同場景中保持穩健性。
許多人預計AI將繼續改進,這反過來又提出了一個問題:AI模型最終是否能夠準確讀取傳統的模擬時鐘?只有時間會給出答案。











評論