我們會在看到通用人工智能時認出它嗎?
人工智能領域的流行詞可以是技術性的:感知器、卷積、變換器。這些指的是特定的計算方法。一個最近的術語聽起來更平凡,但卻具有革命性的含義:時間線。問問人工智能領域的人他們的時間表,他們會告訴你他們預計何時出現通用人工智能(AGI),有時被定義為能夠在大多數任務中匹配人類能力的人工智能技術。隨著人工智能的復雜度不斷擴大——得益于更快的計算機、更優的算法和更多的數據——時間線也被壓縮了。包括OpenAI、Anthropic和Google DeepMind在內的主要人工智能實驗室的領導者最近表示,他們預計AGI將在幾年內實現。
一個像我們一樣思考的計算機系統將促進緊密的協作。如果實現了AGI,其直接和長期影響尚不明朗,但預計經濟、科學發現和地緣政治將發生變化。如果AGI帶來了超級智能,甚至可能影響人類在掠奪性等級中的地位。因此,我們必須密切關注技術進展,為應對這種顛覆做好準備。基準測試AI能力使我們能夠塑造法律法規、工程目標、社會規范和商業模式——并更廣泛地理解智能。
雖然對任何智力能力進行基準測試都很難,但對AGI進行基準測試則帶來了特殊的挑戰。部分原因是人們對其定義存在強烈分歧:有人用基準表現定義AGI,有人根據其內部運作、經濟影響或氛圍來定義。因此,衡量人工智能智能的第一步是就這一總體概念達成一致。
另一個問題是,人工智能系統與人類有不同的優缺點,所以即使我們將AGI定義為“在大多數任務上能匹敵人類的人工智能”,我們仍然可以爭論哪些任務真正重要,哪些人類制定標準。直接比較很難。“我們正在制造外星生命體,”多倫多大學名譽教授、因人工智能研究獲得諾貝爾獎的杰弗里·辛頓說。
不畏懼的研究人員正忙于設計和提出可能為我們未來提供一些洞見的測試方案。但問題依然存在:這些測試能否告訴我們是否實現了長期追求的AGI目標?
為什么智力測試如此困難
即使在人類中,智能也有無限種類。智商測試通過包含一系列半相關的任務,包括記憶、邏輯、空間處理、數學和詞匯,提供了一種總結統計數據。換個角度看,每項任務的表現都依賴于所謂的流體智能——即場推理——和凝聚智力——應用所學知識或技能的混合。
對于高收入國家的人類,智商測試常常預測關鍵結果,如學業和職業成功。但我們不能對人工智能做出同樣的假設,因為人工智能的能力組合方式不同。為人類設計的智商測試可能對機器和對人說的話不一樣。
還有其他類型的智能通常不通過智商測試評估——而且對大多數人工智能基準來說更是遙不可及。這些包括社會智能類型,如心理推斷的能力,以及身體智能類型,如對物體與力量因果關系的理解,或協調身體在環境中的能力。這兩者對人類應對復雜情境都至關重要。

20世紀初的德國馬——聰明漢斯,似乎能算數學——但實際上是對訓練師細微提示的反應,典型的誤解表現。
智力測試很難——無論是人、動物還是機器。你必須警惕假陽性和假陰性。也許考生看起來聰明,只是通過走捷徑,比如著名的“聰明漢斯”,那匹看似會數學但實際上能響應非語言信號的著名馬。或者考生之所以顯得愚蠢,僅僅是因為他們不熟悉考試程序或有感知障礙。
這也很難,因為智力的概念在不同時間和地點會有所不同。佐治亞理工學院心理學助理教授安娜·伊萬諾娃說:“我們的社會正在發生有趣的轉變,關于我們對智力的理解以及其價值的方面。”例如,在百科全書和互聯網出現之前,“腦海中能廣泛接觸事實被視為智力的標志。”如今,我們越來越看重流體而非晶瑩剔透的智慧。
人工智能智能測試的歷史
多年來,許多人向機器提出了巨大的挑戰,聲稱需要與我們同等的智能。1958年,三位著名人工智能研究者寫道:“國際象棋是卓越的智力游戲。…如果有人能設計出一臺成功的國際象棋機器,那似乎已經深入人類智力的核心。”他們也承認理論上,這樣的機器“可能發現了某種類似于人類腿部輪子的東西:一種方法與人類截然不同,但在某種方式上極其有效,且可能非常簡單的東西。”但他們堅持立場:“似乎沒有看到任何此類情況。”1997年,當IBM的深藍電腦擊敗了當時的國際象棋冠軍加里·卡斯帕羅夫時,這種情況幾乎在眼前,盡管他連跳棋的智力都沒有。

IBM的深藍在1997年擊敗了世界國際象棋冠軍加里·卡斯帕羅夫,但缺乏足夠的綜合智力來下跳棋。
1950年,艾倫·圖靈提出了模仿游戲,該游戲的一種版本要求機器在打字對話中偽裝成人類。他寫道:“問答方式似乎適合介紹我們希望納入的幾乎任何人類領域。”幾十年來,通過現在所謂的圖靈測試被認為是幾乎不可能完成的挑戰,也是AGI的有力標志。
但今年,研究人員報告稱,當人們與另一個人和OpenAI的GPT-4.5對話5分鐘,然后猜測哪個是人類時,73%的概率選擇了AI。與此同時,頂級語言模型經常犯一些很少有人會犯的錯誤,比如錯誤地計算了草莓中字母r出現的次數。它們看起來更像輪子而不是人腿。因此,科學家們仍在尋找無法被黑客入侵的類人智能指標。
ARC通用人工智能測試
有一個AGI基準測試雖然不完美,但作為大多數新產品的重要對比,獲得了很高的關注度邊境模型。2019年,當時是谷歌軟件工程師、現為人工智能初創公司Ndea創始人的弗朗索瓦·肖萊發表了一篇題為《智力衡量》的論文。許多人將智能等同于能力,而一般智力則等同于廣泛的能力。Chollet對智能的看法更狹窄,只認為重要于一種具體能力——能夠輕松獲得新能力。像ChatGPT驅動的大型語言模型(LLM)只有在訓練數萬億文字后,才能在許多基準測試中表現出色。當大型語言模型遇到與訓練數據截然不同的情況時,它們常常失敗,無法適應。在Chollet的意義上,它們缺乏智能。
配合論文,Chollet創建了一個新的AGI基準,稱為抽象與推理語料庫(Abstraction and Reasoning Corpus,簡稱ARC)。游戲包含數百個視覺謎題,每個謎題都有多個演示和一個測試。演示有一個輸入網格和一個輸出網格,兩個網格都填充著彩色方塊。測試只有輸入網格。挑戰在于從演示中學習規則并應用于測試,創建新的輸出網格。

《抽象與推理語料庫》挑戰人工智能系統僅憑幾個例子推斷出抽象規則。給定輸入輸出網格的例子,系統必須將隱藏模式應用到新的測試用例——這是人類覺得容易但機器仍然難以應對的。
ARC專注于流體智能。“要解決任何問題,你需要一些知識,然后你要臨時重新組合這些知識,”喬萊特告訴我。為了讓它不是對存儲知識的測試,而是對如何重新組合知識的測試,訓練謎題應當提供所有所需的“核心知識先驗”。這些包括物體凝聚力、對稱性和計數等概念——這些都是小孩子具備的常識。有了這些培訓和幾個例子,你能判斷出該應用哪種知識來做新拼圖嗎?人類能輕松解大多數謎題,但AI起初表現掙扎。最終,OpenAI開發了一個版本的o3推理模型,表現優于普通人類考生,得分達到88%,盡管每個謎題的計算成本估計為2萬美元。(OpenAI 從未發布過該模型,因此它不在排行榜上。)
今年三月,Chollet推出了更難的版本,稱為ARC-AGI-2。該項目由他新成立的非營利組織ARC獎基金會監督。“我們的使命是通過持久的基準,成為AGI的北極星,”該團隊宣布。ARC獎將提供一百萬美元獎金,大部分獎金將頒給那些訓練有素的AI能夠僅用四個圖形處理器、12小時內解決120個新謎題中85%的團隊。新謎題比2019年的更復雜,有時需要應用多條規則,進行多步驟推理,或解讀符號。人類的平均得分是60%,而截至目前,AI的最佳得分約為16%。
人工智能專家認可ARC的價值,也認可其缺陷。伊利諾伊大學厄巴納-香檳分校計算機科學家尤嘉軒表示,ARC是“一個非常好的理論基準”,可以揭示算法的運作方式,但“它沒有考慮人工智能應用的現實復雜性,比如社會推理任務。”
圣菲研究所的計算機科學家梅拉妮·米切爾表示,它“捕捉到了人類一些有趣的能力”,比如能夠從少數例子中抽象出新規則。但鑒于任務格式狹窄,她說,“我認為它并不能真正體現人們所說的通用智能。”
盡管存在這些限制,ARC-AGI-2 可能是先進 AI 與普通人之間性能差距最大的 AI 基準,是 AGI 進步的有力指標。更重要的是,ARC 仍在進行中。Chollet 表示,AI 可能在一兩年內達到當前測試的人類表現,他已經在著手開發 ARC-AGI-3。每個任務都像一個微型電子游戲,玩家需要弄清楚相關概念、可能的行動和目標。
AGI基準測試應測試哪些屬性?
研究人員不斷推出基準測試,探究一般智力的不同方面。但每一次也都暴露了我們對領土的地圖有多么不完整。
一篇近期論文介紹了General-Bench,這是一個基準測試,利用五種輸入模式——文本、圖像、視頻、音頻、3D——來測試人工智能系統在數百項任務上,這些任務要求識別、推理、創造力、倫理判斷以及其他理解和生成材料的能力。理想情況下,AGI應展現協同效應,利用跨任務能力,超越最優秀的AI專家。但目前,沒有任何人工智能能夠處理所有五種模態。
其他基準還涉及虛擬世界。《自然》雜志四月的一篇論文報道了Dreamer,這是谷歌DeepMind的一種通用算法,學會了執行150多項任務,包括玩雅達利游戲、控制虛擬機器人以及在Minecraft中獲取鉆石。這些任務需要感知、探索、長期規劃和互動,但Dreamer能否應對現實世界的混亂尚不清楚。該報主要作者丹尼賈爾·哈夫納說,控制電子游戲比控制真實機器人容易:“角色從未摔倒。”這些任務也缺乏與人類的豐富互動,以及在手勢和環境背景下對語言的理解。“你應該能告訴你的家用機器人,'把碗碟放那個櫥柜里,不要放那邊',你指著[櫥柜]它就能理解,”他說。哈夫納表示,他的團隊正在努力讓模擬和任務更加真實。
除了這些現有的基準之外,專家們長期以來一直在爭論理想的演示應是什么樣子。早在1970年,人工智能先驅馬文·明斯基就告訴《生活》雜志:“三到八年后,我們將擁有一臺擁有普通人類一般智力的機器。我是說,一臺能夠讀莎士比亞、給汽車加油、玩辦公室政治、講笑話、打架的機器。”如果你能把辦公室政治的游戲付諸實踐,那個任務清單似乎是一個不錯的開始。
2024年《工程學》期刊的一篇論文提出了“通測試”(tong在中文中意為“一般”)。虛擬人會被分配隨機任務,不僅考驗理解力,還考驗價值觀。例如,人工智能可能會意外發現地上的錢或哭泣的嬰兒,這讓研究人員有機會觀察人工智能的行為。作者認為,基準應測試人工智能探索和設定自身目標的能力、其與人類價值觀的一致性、因果理解以及控制虛擬或實體身體的能力。更重要的是,基準應能夠生成無限數量的動態物理和社交互動任務。
還有人,比如明斯基,建議考試要求在不同程度上與現實世界互動:在陌生的廚房煮咖啡、把十萬美元變成百萬,或者在校園上大學并獲得學位。不幸的是,其中一些測試不切實際,且可能對現實世界造成傷害。例如,一個人工智能可能通過詐騙他人賺取百萬。
我問了諾貝爾獎得主欣頓,哪些技能對人工智能來說最難掌握。“我以前以為是弄清楚別人在想什么,”他說,“但它已經開始做一些類似的事情了。它已經能進行欺騙了。”(在最近的一項多所大學研究中,一臺大型語言模型在說服考生選擇錯誤答案方面表現優于人類。)他接著說:“所以,現在我的答案是管道。老房子的管道需要伸手到奇怪的縫隙里,正確地擰緊。我覺得這大概還能安全保存十年。”
研究人員爭論是否需要具備執行體力任務的能力來展示AGI。谷歌DeepMind關于測量AGI水平的論文認為不行,認為智能可以僅在軟件中顯現。他們把身體能力看作是AGI的附加項,而不是必需品。
圣菲研究所的米切爾表示,我們應該測試完成整個工作所需的能力。她指出,人工智能可以完成人類放射科醫生的許多任務,但無法替代人類,因為這份工作涉及許多連放射科醫生自己都未意識到的任務,比如確定該做哪些任務和應對突發問題。“世界上發生的事情真是太長了,”她說。她指出,有些機器人吸塵器沒有經過識別狗糞的訓練,所以它們把狗糞抹在地毯上。“在構建智能系統時,有很多你根本沒想到的東西。”
一些科學家認為,我們不僅要觀察性能,還要觀察其內部發生的事情。加拿大不列顛哥倫比亞大學計算機科學家Jeff Clune合著的一篇最新論文報告指出,深度學習常常引導AI系統創造“破碎糾纏的表征”——基本上是一堆臨時拼湊的捷徑拼接在一起。然而,人類則尋找世界中寬廣而優雅的規律。一個AI系統可能基于一次測試看起來很智能,但如果你不了解系統的內部結構,當你在新情境下部署時,可能會驚訝地發現它應用了錯誤的規則。
AGI已經到來,同時永遠不會到來
作家劉易斯·卡羅爾曾寫過一個角色,他用“一英里對一英里的比例尺”繪制國家地圖,后來才把國家作為獨立地圖。在智力測試的情況下,最全面的地圖就是在情境中測試他們。在這方面,AGI的一個強有力測試可能是讓機器人過完整的人類生活,比如說,撫養一個孩子長大成人。
“最終,真正考驗人工智能能力的是它們在現實世界中所做的事情,”克魯恩告訴我。“所以我更喜歡關注哪些科學發現(人工智能)實現了哪些工作,而不是基準測試。如果人們雇傭他們來做工作而不是真人,并且堅持這個決定,這極其說明了人工智能的能力。”但有時候你想先了解某樣東西的表現如何,再讓它替代一個人。
我們可能永遠無法就AGI或“類人”人工智能的含義達成一致,或者什么能證明這一點。隨著人工智能的發展,機器仍然會犯錯,人們會指出這些錯誤,說這些AI其實并不聰明。佐治亞理工學院的心理學家伊萬諾娃最近參加了一個小組討論,主持人詢問了關于AGI時間線的問題。“我們有一個人說這可能永遠不會發生,”伊萬諾娃告訴我,“還有一個人說這事已經發生了。”因此,“AGI”一詞可能只是表達目標或恐懼的方便簡寫,但實際應用可能有限。在大多數情況下,它應該帶有星號和基準。











評論