人工智能:人工智能的基礎技術
編輯引言
自1950年代初期人工智能(AI)作為一門學科興起以來,已經過去了超過70年,人工智能已經能夠執行傳統上被認為是人類獨有的認知任務。這一進展并非發生在真空中。AI的誕生是建立在計算機科學技術的豐富背景和哲學、心理學、邏輯學、博弈論及認知科學中關于智能和學習的思想基礎之上的。本文旨在勾畫出構成AI的基礎技術。它們包括搜索、推理、神經網絡、自然語言處理、信號處理與計算機圖形學、編程與常規軟件工程、人機交互、通信以及提供超級計算能力的專用硬件。
除此之外,還有“人工通用智能”(AGI)的概念,它具備或超越人腦的能力。目前,這一目標完全是理想化的,預計在2050年之前不太可能實現,甚至可能永遠無法實現。人工智能基于多種技術,而這些技術并不試圖模仿人類的智能。
人工智能的基礎技術概述
搜索
假設你把鑰匙弄丟了。找到鑰匙的一種方法是遍歷所有可能的地方,逐個檢查每個位置,這個方法稱為“暴力搜索”。雖然最終可以找到鑰匙,但對于大規模的搜索空間來說,效率太低。更好的方法是檢查你最近去過的地方——這種啟發式的“經驗法則”方法可以大大減少搜索時間,但有時也會失敗。在他的1950年論文中,Claude Shannon提出了一種啟發式方法,將“深度優先搜索”(遠見未來的幾步)與“廣度優先搜索”(查看所有可能性的幾步)相結合【1】。對于許多問題,所有可能的解決方案空間是巨大的,啟發式計算機搜索是唯一可行的方法。
例如,Larry Page和Sergey Brin在1980年代開發的Page Rank算法為他們的Google搜索引擎奠定了基礎。與其搜索包含關鍵字的每一個文檔,他們縮小搜索范圍,專注于被頻繁引用的文檔。這種啟發式方法大大減少了搜索時間,并最終帶來了巨大的商業成功。
推理
早期的AI研究使用邏輯和符號計算編程系統,使其看起來像是使用邏輯來解決問題。我們將其稱為“基礎推理”,因為它模仿了人類解釋和證明解決方案的方式。一個早期的例子是Terry Winograd的SHRDLU程序,該程序允許用戶通過自然語言命令在一個模擬環境中移動積木。該系統需要區分“在……后面”和“在……上面”等術語,并能夠規劃路徑以避免積木之間發生碰撞。將這一方法推廣到更復雜的現實世界問題,需要對目標世界進行詳細且準確的建模。但是,讓機器建立復雜和混亂的現實世界模型仍然是一個未解決的科學挑戰,也是當前AI的一個主要限制。
相比之下,對于可以證明數學定理或進行專家醫學診斷的系統來說,推理和邏輯自動化方面已經取得了相當大的進展。由于它們的規則明確且容易捕捉,推理和邏輯問題可以在沒有機器理解任何符號或術語的意義的情況下應用。早期的推理程序使用像Lisp和Prolog這樣的專業語言來表示函數和邏輯推理。如今,許多編程語言都被用于機器推理和符號AI,包括Python、R、Java、JavaScript、C++和Julia等。
1982年,日本啟動了價值數百萬美元的第五代計算機項目,旨在構建能夠執行大量Prolog程序的超級計算機,并擴展推理可以應用的問題空間。美國則回應了這一挑戰,提出了“戰略計算倡議”,強調高度并行的超級計算機能夠解決廣泛的科學難題,而不僅僅是邏輯和推理問題。盡管日本未能通過推理機器提升其在技術領域的地位,但這一計劃刺激了全球范圍內的超級計算機研究進展。
神經網絡
神經網絡是模擬大腦神經元發火和相互連接的計算結構。最初,由于性能不足,神經網絡未能成為主流計算的一部分。然而,它們具有一個邏輯計算無法匹敵的優勢——神經網絡可以通過展示示例來學習輸入輸出的關系。1970年,Seppo Linnainmaa發明了一種名為“反向傳播”的訓練算法,在接下來的十年里,這種算法被進一步完善成了一種高效的方法,用于訓練大型神經網絡【2】。神經網絡解決了許多計算機視覺問題,尤其是面部識別,這些問題曾困擾計算機視覺研究人員數十年。人工神經網絡(ANNs)已經成為近期AI進展的核心。它們通常被組織成多個層次,每一層的輸出作為下一層的輸入。多層神經網絡使得“深度學習”成為可能。最先進的神經網絡包含數百層,連接數以億計。
許多實際應用中使用ANNs進行輸入分類。例如,一個面部識別的ANN系統會基于數百萬張標注圖像進行訓練,將其有效地分組到與每個輸出標簽相關的類別中。這種分類能力被廣泛應用于除面部識別之外的其他系統中。
自然語言處理
AI的一個主要目標是理解自然語言,通過從文本和語音中抽象出意義。這涉及對大量文本語料庫中的單詞頻率和結構進行統計分析。語言之間的翻譯仍然是一個重大挑戰,但使用基于邏輯和神經網絡的計算方法已經取得了很大進展。圖靈測試是衡量機器智能的一個標準。根據圖靈測試,機器如果能夠在自然語言對話中使人類觀察者無法分辨它與另一個人類的區別,就被認為是智能的。到目前為止,AI研究人員尚未就任何機器是否通過圖靈測試達成共識。
信號處理與計算機圖形學
信號處理在19世紀末期開始變得重要,主要用于電話通信。20世紀中期,隨著高保真音樂和聲音重現的發展,信號處理得到了進一步的應用。最初為模擬電子設備開發的數學理論,如今被廣泛應用于數字設備中的聲音處理。計算機圖形學也在20世紀下半葉迅速發展,成為圖像生成和分析的基礎工具。這些工具在自動生成圖像和分析圖像特征方面扮演著重要角色,尤其是在對圖像進行分類和特征提取時。
編程與軟件工程
幾乎所有的AI技術都需要結合常規的軟件工程和編程技術來構建復雜的系統。無論是搜索、推理、神經網絡,還是自然語言處理等模塊,最終都要通過常規的軟件開發過程,利用軟件工程的原則進行整合和實現。AI系統的設計、開發、調試和維護都離不開高效的軟件工程技術。
人機交互
自1970年代以來,計算機科學領域發展出了一個專門的分支,專注于軟件設計以改善人機交互(HCI)。該分支的目標是創建易于使用、減少用戶錯誤的用戶界面,尤其是在用戶處于壓力或困境時。人機交互在20世紀60年代鼠標的發明以及90年代商用觸摸屏的出現中得到了極大的推動。良好的人機交互設計整合了圖形和可視化,使得系統的操作不容易出錯,并能夠提供關于進度或任務錯誤的清晰反饋。經過驗證和長期使用的人機交互原則對于“人機協作”模式至關重要。在這種模式下,AI增強和擴展了人類的智能,而不是完全替代人類。良好的人機交互設計可以使一個功能較弱的程序變得極為有用,而糟糕的設計則可能讓一個功能強大的程序變得無法使用。良好的人機交互設計對AI的成功至關重要。
通信
許多AI應用涉及設備之間的通信,如通過藍牙、手機通信和光纖技術等。通信技術使人們和組織能夠構建對人類活動至關重要的網絡。這些網絡包括協調網絡,使得跨國公司和政府能夠大規模提供服務。沒有可靠的通信網絡,國際貿易和供應鏈的管理就無法實現。計算機的價值不僅在于處理數字,還在于促進通信。今天,這一原則仍然適用于AI應用程序,尤其是在促進設備間通信和協調方面的應用。
硬件
早期的專家系統和神經網絡大多運行在采用馮·諾依曼架構的單處理器計算機上。盡管摩爾定律推動了計算機性能的快速增長,但這些計算機依然無法滿足大型神經網絡計算的需求。圖形處理單元(GPU)的出現改變了這一局面,它能夠執行大量的神經網絡計算,成為了專用的計算架構,推動了大規模語言模型的構建。Nvidia公司很快成為生成性AI領域的主要芯片供應商,超越了Intel及其馮·諾依曼架構的專長。設計工程師目前正在研究其他技術,如類腦計算、憶阻器和光子學,以提高這些模型的計算速度和能效。AI今天能夠取得如此顯著進展,離不開這些超級計算能力所依賴的硬件。
人工通用智能的追求
人工通用智能(AGI)指的是能夠理解或學習任何人類可以理解或學習的智力任務的機器,甚至可能發展出所有人類大腦的認知能力。但AGI完全是理想化的。目前并沒有已知的機器表現出真正的智能或理解。機器只是以各自的方式處理數據,沒有任何機器能夠理解其處理的數據內容。無論AGI是否能夠實現,目前仍然沒有定論,然而,很多人依然在追求這一目標。
Julian Togelius在他最近的書中對實現AGI的問題進行了深入分析。他的書分析了“人工”和“智能”這兩個詞的多種不同解釋,并得出結論,是否能夠實現AGI取決于我們接受哪一種定義【4】。例如,“我們已經有了具有超人類智能的機器,也就是說,它們在某些任務上比大多數人類更出色,這些任務似乎需要智能。這些超人類智能的機器至少已經存在了幾十年。”例如,從1960年代開始,用于計算員工工資的系統,包括工作小時數、加班費、稅收扣除、養老金等,都可以看作是超人類智能的機器。與這些專用的應用程序相比,“你可能看到一個標題寫著‘AI將接管世界’,然后看到手機中AI驅動的自動完成功能,結論是像這樣無能的東西不太可能接管世界。”正如Togelius所建議的,“這讓人不禁想知道,寫下這些標題的人是否曾經嘗試過開發一個AI系統。”
結論
人工智能基于多種技術,這些技術并不試圖模仿人類的智能。到目前為止開發的所有應用程序都展示了“狹義AI”——即執行特定人類認知任務的機器。即使一臺機器在某個任務上表現得非常智能,甚至超智能,但在其他不相關的任務上卻可能表現得很差。人工通用智能(AGI)設想的是能夠執行所有人類認知任務的“廣義AI”,并且能夠與人類同等或更好地完成這些任務。雖然AGI有許多熱心支持者,但目前沒有人找到接近這一目標的方法。即便如此,也沒有人認為它會在2050年前實現,甚至可能永遠無法實現。










評論