久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > AI 真的能夠理解人類語言嗎?

AI 真的能夠理解人類語言嗎?

發布人:AI科技大本營 時間:2022-01-16 來源:工程師 發布文章

作者 | Melanie Mitchell

譯者 | 彎月

出品 | CSDN(ID:CSDNnews)

2011年,IBM 的人工智能系統沃森參加綜藝節目《危險邊緣》,并獲得了冠軍,當時他們宣稱:“沃森能夠理解自然語言的所有歧義和復雜性?!比欢?,之后沃森在大膽進軍醫療保健領域時,卻遭遇慘敗,這說明人工智能對語言的理解與人類并不相同。

長期以來,理解自然語言一直是人工智能研究的主要目標。最初,研究人員曾嘗試通過手工編寫的代碼,幫助計算機理解新聞故事、小說或人類撰寫的其他文檔。然而,正如沃森的經歷,這種方法都是徒勞的,我們不可能把理解文本所需的所有不成文的事實、規則和假設都寫進代碼里。

像人類一樣進行書本學習的AI

最近,人工智能領域又涌現出一種新型的范式:讓機器學習通過大量書面文本學習預測單詞的方式,自行理解語言。這就是研究人員所說的語言模型。這類模型基于大型神經網絡,比如 OpenAI的GPT-3,并生成了令人難以置信的散文(和詩歌?。疫€可以推理復雜的語言邏輯。

GPT-3通過來自數千個網站、書籍和百科全書的文本的訓練,它是否超越了沃森的表現呢?它真的能夠理解自己生成的語言及其邏輯嗎?這個話題在AI研究領域一直富有爭議。這類探討曾是哲學領域的話題,但在過去的十年中,人工智能已經突破學術領域,并闖入了現實世界,但由于缺乏對現實世界的理解,它們可能會帶來災難性的后果。在一項研究中,有人發現了IBM的沃森“提出不安全和不正確的治療建議”的多個例子。還有一項研究表明,Google的機器翻譯系統為非英語患者翻譯醫療說明時出現了重大錯誤。

AI學會了嗎?

在實踐中,我們如何才能確認機器學習是否真的能夠理解人類的語言呢?1950 年,計算先驅艾倫·圖靈曾通過著名的“模仿游戲”來回答這個問題,如今我們稱其為圖靈測試。具體做法是,一臺機器和一個人,看不見彼此,二者競相僅通過對話的方式來說服人類法官自己才是人類。如果該法官無法分辨哪個是人類,那么,圖靈可以斷言這臺機器確實擁有思考的能力,也就是說能夠理解人類的語言。

然而不幸的是,圖靈低估了人類喜歡被機器愚弄的傾向性。20世紀60年代,JosephWeizenbaum發明了一個名為Eliza的心理治療師,這個小程序騙過了很多人,他們相信自己正在與一個人類交談,即便他們知道對面只是一臺機器。

訓練規模越來越大

在2012年的一篇論文中,計算機科學家Hector Levesque、Ernest Davis和 Leora Morgenstern提出了一個更客觀的測試,他們稱之為“威諾格拉德模式挑戰”(WinogradSchema Challenge,WSC)。該測試已被AI語言社區采用,作為評估機器理解的一種方式,也許是最好的方式,盡管我們可以看到它并不完美。這種方式有一個“威諾格拉德模式”(WinogradSchema),其名稱源于斯坦福大學計算機科學家特里·威諾格拉德。該模式由一對句子組成,兩個句子僅相差一個詞,而且兩個句子緊緊相接。下面是兩個例子:

句子1:我把瓶子里的水倒進杯子里,一直到滿為止。

問題:什么是滿的,瓶子還是杯子?

句子2:我把瓶子里的水倒進杯子里,一直到空為止。

問題:什么是空的,瓶子還是杯子?

句子1:小明跟叔叔打網球輸了,盡管他年長了30歲。

問題:誰更年長,小明還是小明的叔叔?

句子2:小明跟叔叔打網球輸了,盡管他年輕了30歲。

問題:誰更年長,小明還是小明的叔叔?

在上述句子中,一字之差,所指的事物或人就完全不同。正確地回答這些問題需要一些常識性的判斷。威諾格拉德模式正是為了測試這種理解能力而設計的,這種方式彌補了圖靈測試的脆弱性:不可靠的人類判斷,以及聊天機器人采用的技巧。特別是,作者設計了數百個針對網絡搜索的模式:機器無法通過網絡搜索來正確回答的問題。

這些模式是2016年舉辦的一場比賽的主題,最后就連獲勝的程序也只回答對了 58%的句子,比盲猜(50%)略好一點。人工智能研究員Oren Etzioni打趣道:“AI連一句話中的it指的是什么都無法確定,居然還有人指望它統治整個世界?”

然而,由于大型神經網絡語言模型的涌現,AI程序解決威諾格拉德模式的能力也迅速得到了提高。2020年,OpenAI的一篇論文稱,在威諾格拉德模式的測試中,GPT-3正確回答了90%的句子。還有一些語言模型在經過專門的訓練之后表現更好。目前,神經網絡語言模型在一組特定的威諾格拉德模式測試上,達到了約97%的準確率,這些模式是一個名叫SuperGLUE的人工智能理解語言競賽中一部分。這個準確率幾乎與人類的表現持平。這是否意味著神經網絡語言模型已經達到了人類的理解水平?

不一定。盡管這些語言模型的創作者盡了最大努力,但這些威諾格拉德模式并非不可通過網絡獲取答案。這些問題就像許多其他當前的AI語言理解測試一樣,有時也有捷徑可以走,即便神經網絡不理解句子的真正含義,也可以給出正確答案。舉個例子:

跑車比卡車跑的更快,是因為它的速度更快。

跑車比卡車跑的更快,是因為它的速度更慢。

經過大型語料庫訓練的語言模型掌握了“跑車”與“快”以及“卡車”與“慢”之間的聯系,因此可以僅憑這些相關性(而不是真正理解句子的含義)來給出正確的答案。事實證明,SuperGLUE競賽中的許多威諾格拉德模式都可以通過這類的統計相關性給出答案。

艾倫人工智能研究所的研究人員并沒有放棄威諾格拉德模式,并決定努力解決這些問題。2019年,他們創建了WinoGrande,這是一組更大的威諾格拉德模式,其中包含44,000個句子。為了獲得如此多的例子,研究人員通過亞馬遜的 MechanicalTurk(一個流行的眾包工作平臺),讓每個(人類)工人寫出幾對句子,并通過一些限制確保這些句子包含不同的主題,盡管最后收集到的每一對句子相差可能不止一個單詞。

接著,研究人員通過一些簡單的AI測試,刪除了可通過統計捷徑輕松回答的句子。正如預期的那樣,與原始的威諾格拉德模式相比,WinoGrande中的句子向機器學習發起了更困難的挑戰。雖然在面對WinoGrande 時,人類的得分仍然很高,但神經網絡語言模型的得分卻低了很多。這項新挑戰似乎恢復了威諾格拉德模式作為常識測試的地位,只要句子本身經過仔細篩選,確保無法通過網絡搜索得到答案即可。

然而,另一個驚喜還在后面。在 WinoGrande 發布后的近兩年里,神經網絡語言模型的規模越來越大,而且隨著規模的增大,似乎它們在這項新挑戰中的得分也越來越高。目前,最先進的神經網絡語言模型已經經過了TB級文本上訓練,然后又在數千個WinoGrande示例上進行了進一步的訓練,可以達到將近 90% 的正確率,而人類的正確率約為94%。這種性能提升幾乎完全來源于神經網絡語言模型及其訓練數據規模的增加。

這些日益增大的神經網絡模型是否達到了人類的常識性理解水平?不太可能。WinoGrande 的結果有一些嚴重的問題。例如,由于這些句子的編寫依賴于亞馬遜Mechanical Turk 上的人工,因此寫作的質量和連貫性參差不齊。此外,利用簡單的人工智能方法剔除可通過網絡搜索結果的句子,但這些人工智能方法可能過于簡單,無法發現大型神經網絡有可能使用的統計捷徑,而且這些人工智能只能處理單個句子,因此導致一些成對的句子只剩下一句。一項后續研究表明,如果要求神經網絡語言模型僅測試成對的句子,并且要求兩個句子都回答正確,則它們的準確性遠低于人類,因此前面的 90% 根本不能說明什么。

AI理解人類語言了嗎?

那么,威諾格拉德模式對我們來說有何意義呢?我們可以從中得到一個重要的教訓:我們很難通過AI系統在某項挑戰中的表現判斷它們是否真的能夠理解人類的語言(或其他數據)。如今我們知道,神經網絡經常使用統計捷徑(而不是展示類似于人類的理解能力)在威諾格拉德模式以及其他流行的“通用語言理解”基準上展示出高水平。

在我看來,問題的關鍵在于,要想理解人類的語言就需要理解這個世界,而只能接觸到語言的機器無法獲得這樣的理解能力。我們來思考一下“跑車超過了卡車,是因為它的速度更慢”,這句話是什么意思。首先你需要知道“跑車”和“卡車”是什么,而且需要知道車輛可以互相“超車”,從更基本的層面來看,車輛是存在于世界上、能夠與之互動的物體,且由人類駕駛。

對于人類來說,這些知識不過是基本常識,但機器內部沒有這樣的常識庫,也不可能明確地編寫到任何語言模型的訓練文本中。一些認知科學家認為,人類學習和理解語言需要依賴語言的核心知識,即掌握空間、時間以及許多關于這個世界的其他基本因素。如果想讓機器像人類一樣掌握語言,則我們需要賦予它們人類與生俱來的一些基本法則。為了評估機器對語言的理解,我們首先應該它們對這些法則的掌握情況,人們稱之為“嬰兒的元物理學”。

與威諾格拉德模式和GPT-3等人工智能系統相比,訓練和評估嬰兒級別的智能機器似乎是一個巨大的倒退。但是,我們的目標是理解語言,而這可能是機器能夠真正理解句子中的“it”所指,以及理解“it”所包含的一切的唯一途徑。

參考鏈接:

https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

激光器相關文章:激光器原理


關鍵詞: AI

相關推薦

技術專區

關閉