DeepMind AI安全報告探討了“錯位”AI 的危險
生成式人工智能模型遠非完美,但這并沒有阻止企業甚至政府賦予這些機器人重要任務。但是當人工智能變壞時會發生什么?谷歌 DeepMind 的研究人員花費大量時間思考生成式人工智能系統如何成為威脅,并在該公司的前沿安全框架中詳細介紹了這一切。DeepMind 最近發布了該框架的 3.0 版,以探索人工智能可能偏離軌道的更多方式,包括模型可以忽略用戶關閉它們的嘗試的可能性。
DeepMind 的安全框架基于所謂的“關鍵能力級別”(CCL)。這些本質上是風險評估標準,旨在衡量人工智能模型的能力并定義其行為在網絡安全或生物科學等領域變得危險的點。該文檔還詳細介紹了開發人員解決 DeepMind 在他們自己的模型中識別的 CCL 的方法。
谷歌和其他深入研究生成式人工智能的公司采用了多種技術來防止人工智能惡意行事。盡管稱人工智能為“惡意”賦予了它花哨的估計架構所不具備的意圖。我們在這里談論的是生成式人工智能系統本質中存在的濫用或故障的可能性。
更新后的框架 (PDF) 表示,開發人員應采取預防措施以確保模型的安全性。具體來說,它要求為更強大的人工智能系統適當保護模型權重。研究人員擔心,模型權重的泄露會讓不良行為者有機會禁用旨在防止惡意行為的護欄。這可能會導致 CCL 像機器人一樣創建更有效的惡意軟件或協助設計生物武器。
DeepMind 還指出,人工智能可以被調整為具有縱性并系統地改變人們的信念——考慮到人們對聊天機器人的依戀,這種 CCL 似乎非常合理。然而,該團隊在這里并沒有一個很好的答案,指出這是一個“低速”威脅,我們現有的“社會防御”應該足以完成這項工作,而沒有可能阻礙創新的新限制。不過,這可能假設了太多的人。
DeepMind 還解決了有關人工智能的一些元問題。研究人員表示,如果強大的人工智能落入壞人之手,如果它被用來加速機器學習研究,從而創建更強大和不受限制的人工智能模型,則可能會很危險。DeepMind 表示,這可能“對社會適應和管理強大人工智能模型的能力產生重大影響”。DeepMind 將其列為比大多數其他 CCL 更嚴重的威脅。
錯位的人工智能
大多數 AI 安全緩解措施都基于模型至少嘗試遵循指令的假設。盡管出現了多年的幻覺,研究人員并沒有設法使這些模型完全值得信賴或準確,但模型的激勵可能會被扭曲,無論是無意的還是故意的。如果一個錯位的人工智能開始積極地對抗人類或無視指令,那就是一種超越簡單幻覺的新問題。
前沿安全框架第 3 版引入了一種“探索性方法”來了解人工智能錯位的風險。已經有記錄在案的生成式人工智能模型從事欺騙和挑釁行為的實例,DeepMind 研究人員表示擔心未來可能很難監控此類行為。
錯位的人工智能可能會忽略人類指令、產生欺詐性輸出或拒絕在請求時停止作。目前,有一種相當直接的方法可以對抗這種結果。當今最先進的模擬推理模型在思考過程中產生“便簽本”輸出。建議開發人員使用自動監視器仔細檢查模型的思維鏈輸出是否存在證據錯位或欺騙。
谷歌表示,這種 CCL 未來可能會變得更加嚴重。該團隊認為,未來幾年的模型可能會發展到具有有效的模擬推理,而不會產生可驗證的思維鏈。因此,您的監督護欄將無法窺視此類模型的推理過程。對于這種理論上的先進人工智能,可能無法完全排除該模型正在違背其人類操作員的利益。
該框架目前還沒有解決這個問題的良好解決方案。DeepMind 表示,它正在研究針對錯位人工智能的可能緩解措施,但很難知道這個問題何時或是否會成為現實。這些“思考”模型只流行了大約一年,關于它們如何達到給定的輸出,我們還有很多未知之處。








評論