久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

關(guān) 閉

新聞中心

EEPW首頁 > 安全與國防 > 業(yè)界動態(tài) > 英國政府對Mythos AI的測試:幫業(yè)界分清網(wǎng)絡(luò)安全威脅與炒作

英國政府對Mythos AI的測試:幫業(yè)界分清網(wǎng)絡(luò)安全威脅與炒作

—— 人類黑客要失業(yè)了?新模型成為首個(gè)完成高難度多步驟滲透挑戰(zhàn)的 AI 系統(tǒng)
作者: 時(shí)間:2026-04-15 來源: 收藏

英國人工智能安全研究所(SI)是少數(shù)獲得 Preview 早期訪問權(quán)的機(jī)構(gòu)之一。上周, 宣布將 Preview 初始發(fā)布限制在 “核心行業(yè)合作伙伴小范圍”,并稱該模型在計(jì)算機(jī)安全任務(wù)上能力驚人。如今,旗下的 SI 發(fā)布了對這款模型網(wǎng)絡(luò)攻擊能力的初步評估,為 的說法提供了獨(dú)立公開驗(yàn)證。

核心測試結(jié)論

SI 的測試顯示:

  • 在單項(xiàng)網(wǎng)絡(luò)安全任務(wù)中, 與其他最新前沿模型沒有顯著差異。

  • 但 Mythos 的真正突破:能把單項(xiàng)任務(wù)有效串聯(lián)成多步驟連續(xù)攻擊,實(shí)現(xiàn)對部分系統(tǒng)的完整滲透。

“The Last Ones” 終極測試被攻破

自 2023 年初以來,AISI 一直在用專門設(shè)計(jì)的 ** 奪旗賽(CTF)** 測試各類 AI 模型。當(dāng)年 GPT-3.5 Turbo 連低級 “學(xué)徒級” 任務(wù)都難以完成。

  • 如今 Mythos Preview 能完成 ** 超過 85%** 的學(xué)徒級 CTF 任務(wù)。

  • GPT-5.4、Claude Opus 4.6、Codex 5.3 等模型成績相近(準(zhǔn)確率差距在 5%–10% 以內(nèi))。

  • 單看這項(xiàng)提升,并不足以解釋 Anthropic 為何對 Mythos 采取嚴(yán)格限制發(fā)布。

真正拉開差距的測試:The Last Ones(TLO)

AISI 搭建的高難度仿真靶場,模擬對企業(yè)網(wǎng)絡(luò)執(zhí)行32 步數(shù)據(jù)竊取攻擊。

  • 需跨多臺主機(jī)、多個(gè)網(wǎng)段串聯(lián)數(shù)十個(gè)步驟。

  • 人類熟練黑客預(yù)計(jì)需約 20 小時(shí)完成。

結(jié)果:

  • Mythos 是首個(gè)從頭到尾完整通關(guān) TLO 的 AI 模型。

  • 10 次嘗試成功3 次。

  • 平均完成22/32步,遠(yuǎn)超 Claude 4.6 的16 步平均水平。

Mythos 仍有明顯短板

AISI 指出,Mythos 在更難的 “冷卻塔”(Cooling Tower) 測試中表現(xiàn)吃力。

  • 該測試模擬攻擊電廠控制軟件,共 7 步,難度更高。

  • 研究團(tuán)隊(duì)表示:若提升推理算力(突破測試設(shè)定的 1 億 token 上限),表現(xiàn)還會繼續(xù)提升。

安全警示:小型、防御薄弱系統(tǒng)需警惕

AISI 總結(jié):

  • Mythos 至少具備自主攻擊小型、防御弱、已入網(wǎng)的脆弱企業(yè)系統(tǒng)的能力。

  • 但測試環(huán)境缺少真實(shí)系統(tǒng)中的主動防御者與防護(hù)工具。

  • TLO 預(yù)設(shè)了特定漏洞,現(xiàn)實(shí)中不一定存在;且測試不會因被檢測而判定失敗。

因此,AISI 目前無法確認(rèn) Mythos 能否攻破防護(hù)良好的真實(shí)系統(tǒng)。

但警告:未來更強(qiáng)模型出現(xiàn)時(shí),防御方必須同樣用 AI 加固系統(tǒng)。


評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉