人工智能模型在一個簡單的任務上表現慘敗:計時

人工智能能力的快速發展讓許多人感到擔憂。但別太擔心:如果你能正確讀出模擬鐘表,在這方面你仍然領先于人工智能。
能夠分析文本、圖像和視頻等不同類型媒體的人工智能模型——被稱為多模態大型語言模型(MLLM),正在體育分析和自動駕駛等多個應用領域獲得廣泛關注。但有時,這些模型在看似最簡單的任務上也會失敗,比如準確讀取模擬鐘的時間。這就引發了一個問題:這些模型到底在哪些圖像分析方面遇到了困難?
例如,在閱讀傳統鐘表時,模型是否難以區分短指針和長指針?或者難以準確定位手的角度和方向,相對于數字?這些看似瑣碎的問題的答案,可以為揭示這些模型的主要局限性提供關鍵見解。
馬德里理工大學助理教授哈維爾·孔德(Javier Conde)與米蘭理工大學和巴利亞多利德大學的同事們,在一項近期研究中試圖探討這些局限性。該結果于10月16日發表在《IEEE Internet Computing》雜志上,表明如果MLLM在圖像分析的某一方面存在困難,可能會引發連鎖反應,影響其圖像分析的其他方面。
人工智能能多準確地判斷時間?
首先,研究團隊構建了一個大型模擬時鐘合成圖像數據集,這些圖像總計顯示了超過43,000個指示時間,并測試了四種不同MLLM讀取部分圖像時間的能力。這四個型號最初都無法準確報時。研究人員通過額外5000張數據集中的圖像訓練模型,并使用他們之前未見過的額外圖像進行測試,從而提升了模型的性能。然而,當與一組全新的時鐘圖像進行測試時,這些模型的性能再次下降。
結果觸及了許多人工智能模型的一個關鍵局限:它們擅長識別熟悉的數據,但往往未能識別訓練數據中尚未遇到的新情景。換句話說,它們往往缺乏概括性。
孔德和他的同事們希望深入挖掘為何MLLM難以看時間。如果問題與模型對時鐘指針空間方向的敏感度有關,那么進一步的微調可以解決這一限制——只需讓模型接觸更多數據,它就能在當前任務中變得更好。
通過一系列實驗,他們創建了新的模擬鐘表數據集,這些數據集要么帶有扭曲形狀,要么通過在指針端添加箭頭來改變鐘表指針的外觀??椎陆忉尩溃骸半m然這些變化對人類來說并不難,但模型往往在這方面失敗,”他引用了薩爾瓦多·達利著名的扭曲鐘表畫作《記憶的持續》。雖然人類可以破譯變形、融化的鐘表時間,但MLLM難以判斷同樣扭曲的鐘表時間。
結果顯示,MLLM難以準確定位鐘表指針的空間方向,但當鐘表指針具有獨特外觀(例如指針尖端的箭頭)時,模型尚未廣泛接觸,表現更為困難。然而,這些問題并非彼此排斥:通過額外的實驗,研究人員發現如果MLLM在識別鐘表指針時出現錯誤,反過來又會導致更大的空間誤差。
孔德解釋道:“看來讀取時間并不像看起來那么簡單,因為模型必須識別鐘針,確定其方向,并將這些觀察結合推斷出正確的時間,”孔德解釋道,指出模型難以同時處理這些變化。
在他們的研究中,研究人員強調,在更復雜的現實場景中,如醫學圖像分析或自動駕駛感知,這些細微但關鍵的失誤可能導致更嚴重的后果。
“這些結果表明,我們不能把模型性能視為理所當然,”Conde強調,需要大量訓練和測試,才能確保模型在現實應用中可能遇到的多樣場景下保持穩健。
許多人預計人工智能將繼續進步,這反過來又引出了一個問題:人工智能模型最終能否準確讀取傳統的模擬時鐘?只有時間能證明。











評論