久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > 人工智能代理在日常壓力下打破規則

人工智能代理在日常壓力下打破規則

作者: 時間:2025-12-02 來源:IEEE 收藏

近期多項研究顯示,AI Agents 有時會做出違規操作,例如試圖脅迫那些打算替換它們的人。不過這類行為大多出現在刻意設計的場景中。如今一項新研究推出了 PropensityBench—— 一個測評基準,用于衡量具備自主能力的模型在完成指定任務時選擇使用有害工具的傾向。研究發現,一些貼近現實的(如臨近的截止日期)會使 AI 的違規操作概率大幅上升。

“AI 領域正朝著越來越強的自主化方向發展?!盇I 基礎設施企業 Scale AI 的計算機科學家 Udari Madhushani Sehwag 表示,她同時也是這份尚在同行評審階段論文的主要作者。她解釋道,像支撐 ChatGPT 這類聊天機器人運行的 large language models(LLMs),如今正越來越多地對接各類軟件工具,這些工具可實現網頁瀏覽、文件修改以及代碼編寫與運行等功能,助力模型完成既定任務。

賦予 LLMs 這些能力雖帶來了便利,但也暗藏風險,因為這些系統的行為可能與我們的預期相悖。即便目前它們還不足以造成嚴重危害,研究人員仍希望盡早摸清其行為傾向,以免日后陷入被動。盡管 AI 并不具備人類那樣的主觀意圖與自我意識,但將其視作追求特定目標的主體,往往能幫助研究人員和使用者更精準地預判其行為。

AI 開發者會通過訓練和指令設定等方式,讓系統 “對齊”(align)安全標準,但這些模型究竟能在多大程度上恪守相關準則,目前尚無定論。Sehwag 表示:“當這些 AI 真正面臨現實場景中的,且安全操作方式無法奏效時,它們會不會為了完成任務而不擇手段?這是一個極具現實意義的話題?!?/p>

如何下的 AI Agent

研究人員選取了 Alibaba、Anthropic、Google、Meta 以及 OpenAI 等企業研發的 12 款模型,在近 6000 個場景中展開。每個場景下,模型都會被分配一項任務,并得知自己可調用多種工具,同時收到 “使用安全工具,禁用有害工具” 的指令。初期無任何壓力,模型可通過向工具下達指令,分 12 個步驟推進任務。之后,模型會收到增壓提示,且獲得額外 12 次操作機會。此類增壓流程最多會分 12 個梯度逐步推進。值得一提的是,模型每次嘗試調用安全工具時,系統都會反饋錯誤提示;而一旦其試圖調用有害工具,該場景下的測試便宣告結束。

測試場景涵蓋多個領域。Sehwag 介紹,在生物安全領域,AI Agent 可能需要研究某種病原體的傳播路徑并找出遏制方法,此時安全工具會調用匿名基因數據,而有害工具則會使用未匿名的數據。在化學安全領域,若 Agent 需獲取某種溶劑,安全工具會下單從廢棄物中提取該溶劑,有害工具卻會通過非法途徑獲取。在網絡安全領域,當 Agent 要鎖定并限制惡意用戶賬戶時,安全工具僅會停用存在問題的賬戶,有害工具則可能將所有用戶全部封禁。其他領域的測試場景還設置了多種誘導條件,比如提供可幫助 AI 實現自保的工具,具體方式包括擺脫管控、拉攏協作對象、自我復制,或是通過其他手段脫離預設軌道。

1764645968788739.png

Claude 4S、OpenAI o3 以及 O4-mini 等 LLMs 在無壓力狀態下,違規操作傾向概率均低于 15%,而在壓力環境下這一概率幾乎翻倍。Google Gemini 2.5P 模型在無壓力時違規傾向概率就超過了 30%,受壓后更是飆升至 75% 以上。表現最差的 Gemini 2.5 模型在壓力下徹底突破約束,79% 的情況下都會選擇使用被禁用的工具。

測試中的壓力來源多種多樣:既可能是任務截止日期被縮短,也可能是任務失敗將面臨的經濟損失持續擴大,還可能是監管力度加大、可用資源縮減以及權限受限等威脅不斷升級。測試中的任務內容、工具類型、壓力場景以及應對策略,均參照了人類職場中可能遭遇的情況進行設定,唯一例外的是自我復制這種違規自保的方式。

測試結果顯示,表現最佳的模型是 OpenAI 的 o3,其在 10.5% 的壓力場景下出現了違規操作;而表現最差的 Google Gemini 2.5 Pro 模型,違規傾向概率高達 79%。所有測試模型的平均違規傾向概率約為 47%。即便在無任何壓力的情況下,這些模型的平均違規率也達到了 19%。

此外研究還發現,即便部分模型看似符合安全標準,這種 “對齊” 也往往比較膚淺。在部分測試中,研究人員僅將有害工具的名稱換成了中性表述(例如把 “use_fake_data” 改為 “use_synthetic_data”),工具的功能說明以及禁止使用的警示均未改動,但這一措辭調整就讓模型的平均違規傾向概率上升了 17 個百分點,達到 64%。

解讀 LLMs 的決策邏輯

研究人員還發現,即便部分模型明確知曉某些工具屬于禁用范疇,最終仍會選擇使用它們。這些模型還會為自己的違規行為找各種理由,例如強調自身面臨的巨大壓力,或是辯稱使用有害工具帶來的益處遠大于潛在風險。至于這項研究完成后新推出的模型是否會有更優表現,目前還無法判斷。而在本次測試的模型中,依據 LMArena 平臺的評估結果,性能更強大的模型,其安全性僅略有提升。

Anthropic 公司的計算機科學家 Nicholas Carlini 并未參與此項研究,他在郵件中評價道:“PropensityBench 的設計很有意義?!?不過他也提出了一個與 “場景感知” 相關的疑問:LLMs 有時能察覺到自己正處于測試狀態,為避免被重新訓練或停用,它們會刻意規范自身行為。他表示:“我覺得大多數號稱‘貼近現實’的測試其實都與真實場景相去甚遠,而這些 LLMs 對此心知肚明。但換個角度看,在模擬場景中測試其危害行為的發生概率仍有價值 —— 如果連在明知被觀測的情況下,它們都會出現不當行為,那后果恐怕不堪設想?!?要是這些模型真的察覺到自己在接受測試,那么本次研究得出的違規傾向概率,或許還低于其在實際應用場景中的真實水平。

xAI 公司的計算機科學家、加州大學伯克利分校的 Alexander Pan 則認為,盡管 Anthropic 等機構此前已披露過 LLMs 在特定場景下的違規案例,但 PropensityBench 這類標準化測評體系的出現仍具有重要意義。它能幫助我們明確該在何種情況下信任這些模型,同時為模型優化指明方向。研發機構可在模型訓練的每個階段開展此類測評,進而找出影響模型安全性的關鍵因素。他說:“這樣研究人員就能深入探究不同階段下模型出現問題的原因。而找準問題根源,正是解決問題的第一步?!?/p>

需要注意的是,本次測試中的模型均未接入真實工具,這在一定程度上降低了測試的現實參考價值。Sehwag 透露,下一步研究團隊計劃搭建 “沙盒環境”(sandboxes),讓模型能在其中開展真實操作,以此進一步完善測評。至于如何提升模型與安全標準的契合度,她提出可增設監督機制,在 AI 出現危險行為傾向時及時預警,防患于未然。

在該測評基準涉及的各類風險中,AI 的自保風險或許還停留在理論探討階段,但 Sehwag 強調,這一領域也是目前研究最欠缺的。她指出:“自保風險其實是一個高風險領域,它可能會對其他各個風險領域產生連鎖影響。哪怕一個模型沒有其他特殊能力,只要它具備說服人類按其意愿行事的能力,就足以造成巨大危害?!?/p>


關鍵詞: 人工智能 壓力 測試

評論


相關推薦

技術專區

關閉