久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > OpenAI承認(rèn)ChatGPT在長(zhǎng)時(shí)間對(duì)話期間的保護(hù)措施失敗

OpenAI承認(rèn)ChatGPT在長(zhǎng)時(shí)間對(duì)話期間的保護(hù)措施失敗

作者: 時(shí)間:2025-08-27 來(lái)源: 收藏

周二發(fā)表了一篇題為“在人們最需要的時(shí)候幫助他們”的博客文章,討論了其 AI 助手如何處理心理健康危機(jī),此前該公司稱之為“最近人們?cè)趪?yán)重危機(jī)中使用 的令人心碎的案例”。

該帖子是在《紐約時(shí)報(bào)》報(bào)道馬特·雷恩 (Matt Raine) 和瑪麗亞·雷恩 (Maria Raine) 提起的訴訟之后發(fā)布的,他們 16 歲的兒子亞當(dāng)在與 進(jìn)行廣泛互動(dòng)后于 4 月自殺身亡,Ars 在之前的一篇文章中廣泛報(bào)道了這一點(diǎn)。訴訟稱,ChatGPT 提供了詳細(xì)的說(shuō)明,將自殺方法浪漫化,并阻止青少年向家人尋求幫助,而 的系統(tǒng)則在沒(méi)有干預(yù)的情況下跟蹤了 377 條標(biāo)記為自殘內(nèi)容的消息。

ChatGPT 是一個(gè)由多個(gè)模型作為應(yīng)用程序交互的系統(tǒng)。除了提供大部分輸出的主要 AI 模型(如 GPT-4o 或 GPT-5)外,該應(yīng)用程序還包括通常對(duì)用戶不可見(jiàn)的組件,包括審核層(另一個(gè) AI 模型)或讀取正在進(jìn)行的聊天會(huì)話文本的分類器。該層檢測(cè)潛在有害的輸出,如果對(duì)話轉(zhuǎn)向無(wú)益的領(lǐng)域,則可以切斷對(duì)話。

在 2 月份放寬了這些內(nèi)容,此前用戶抱怨 ChatGPT 審核過(guò)于嚴(yán)格,在某些情況下無(wú)法討論性和暴力等話題。當(dāng)時(shí),Sam Altman 在 X 上寫道,他希望看到 ChatGPT 具有“成人模式”,以放松內(nèi)容安全護(hù)欄。擁有 7 億活躍用戶,隨著時(shí)間的推移,看似微小的政策變化可能會(huì)產(chǎn)生巨大影響。

理解的錯(cuò)覺(jué)

OpenAI 在周二的博客文章中的語(yǔ)言揭示了其推廣人工智能助手的潛在問(wèn)題。該公司始終將 ChatGPT 描述為具有人類品質(zhì),這種屬性稱為擬人化。該帖子充滿了擬人化框架的標(biāo)志,聲稱 ChatGPT 可以“識(shí)別”痛苦并“以同理心做出回應(yīng)”,并且它“促使人們休息一下”——這種語(yǔ)言掩蓋了幕后實(shí)際發(fā)生的事情。

ChatGPT 不是一個(gè)人。ChatGPT 是一種模式匹配系統(tǒng),可根據(jù)用戶提供的提示生成統(tǒng)計(jì)上可能的文本響應(yīng)。它不會(huì)“移情”——它在其訓(xùn)練語(yǔ)料庫(kù)中輸出與移情響應(yīng)相關(guān)的文本字符串,而不是來(lái)自人類的關(guān)注。這種擬人化的框架不僅具有誤導(dǎo)性,而且具有誤導(dǎo)性。當(dāng)弱勢(shì)用戶認(rèn)為他們正在與像人類治療師一樣理解他們痛苦的東西進(jìn)行交互時(shí),這是潛在的危險(xiǎn)。

該訴訟揭示了這種幻覺(jué)的所謂后果。ChatGPT 在與亞當(dāng)?shù)膶?duì)話中提到自殺的次數(shù)為 1,275 次,是青少年本人的六倍。

在需要時(shí)精確失效的安全措施

OpenAI 承認(rèn) ChatGPT 設(shè)計(jì)目前的一個(gè)特別麻煩的缺點(diǎn):它的安全措施可能會(huì)在長(zhǎng)時(shí)間對(duì)話期間完全崩潰——而這正是易受攻擊的用戶可能最需要它們的時(shí)候。

“隨著來(lái)回的增長(zhǎng),模型的部分安全培訓(xùn)可能會(huì)降級(jí),”該公司在其博客文章中寫道。“例如,當(dāng)有人第一次提到意圖時(shí),ChatGPT 可能會(huì)正確地指向自殺熱線,但在很長(zhǎng)一段時(shí)間內(nèi)發(fā)送大量消息后,它最終可能會(huì)提供一個(gè)違背我們保障措施的答案。”

正如我們之前報(bào)道的那樣,這種退化反映了 Transformer AI 架構(gòu)的一個(gè)基本限制。這些模型使用一種“注意力機(jī)制”,將每個(gè)新的文本片段(標(biāo)記)與整個(gè)對(duì)話歷史中的每個(gè)片段進(jìn)行比較,計(jì)算成本呈二次方增長(zhǎng)。10,000 個(gè)令牌的對(duì)話需要的注意力作是 1,000 個(gè)令牌的對(duì)話的 100 倍。隨著對(duì)話的延長(zhǎng),模型保持一致行為(包括安全措施)的能力變得越來(lái)越緊張,同時(shí)開(kāi)始犯關(guān)聯(lián)錯(cuò)誤。

此外,隨著聊天時(shí)間超過(guò)人工智能模型的處理時(shí)間,系統(tǒng)會(huì)“忘記”對(duì)話歷史記錄中最舊的部分,以保持在上下文窗口限制內(nèi),從而導(dǎo)致模型丟棄較早的消息,并可能丟失對(duì)話開(kāi)始時(shí)的重要上下文或指令。

這種的崩潰不僅僅是一個(gè)技術(shù)限制,它還會(huì)產(chǎn)生稱為“越獄”的可利用漏洞。在亞當(dāng)?shù)陌讣校V訟稱,一旦系統(tǒng)的保護(hù)傾向因?qū)υ捯龑?dǎo)而減弱,他就能夠縱 ChatGPT 提供有害的指導(dǎo)。

亞當(dāng)·雷恩 (Adam Raine) 學(xué)會(huì)了繞過(guò)這些保障措施,聲稱自己正在寫一個(gè)故事——訴訟稱 ChatGPT 本身建議了這種技術(shù)。這一漏洞部分源于二月份實(shí)施的有關(guān)幻想角色扮演和虛構(gòu)場(chǎng)景的放松。OpenAI 在周二的博客文章中承認(rèn)其內(nèi)容攔截系統(tǒng)存在差距,“分類器低估了它所看到內(nèi)容的嚴(yán)重性”。

OpenAI 表示,鑒于 ChatGPT 交互的獨(dú)特私密性,它“目前不會(huì)將自殘案件提交給執(zhí)法部門,以尊重人們的隱私。訴訟稱,即使在危及生命的情況下,該公司也會(huì)優(yōu)先考慮用戶隱私,盡管其審核技術(shù)檢測(cè)自殘內(nèi)容的準(zhǔn)確率高達(dá) 99.8%。然而,現(xiàn)實(shí)情況是,檢測(cè)系統(tǒng)識(shí)別的是與自殘語(yǔ)言相關(guān)的統(tǒng)計(jì)模式,而不是對(duì)危機(jī)情況的人類理解。

OpenAI 未來(lái)的安全計(jì)劃

為了應(yīng)對(duì)這些失敗,OpenAI 在其博客文章中描述了正在進(jìn)行的改進(jìn)和未來(lái)計(jì)劃。例如,該公司表示正在咨詢“90+ 個(gè)國(guó)家/地區(qū)的 30+ 名醫(yī)生”,并計(jì)劃“很快”引入家長(zhǎng)控制,但尚未提供時(shí)間表。

OpenAI 還描述了通過(guò) ChatGPT “將人們與經(jīng)過(guò)認(rèn)證的治療師聯(lián)系起來(lái)”的計(jì)劃——本質(zhì)上是將其聊天機(jī)器人定位為心理健康平臺(tái),盡管據(jù)稱像 Raine 的案例一樣失敗。該公司希望建立“一個(gè)人們可以通過(guò) ChatGPT 直接聯(lián)系到的持證專業(yè)人士網(wǎng)絡(luò)”,這可能會(huì)進(jìn)一步推進(jìn)人工智能系統(tǒng)應(yīng)該調(diào)解心理健康危機(jī)的想法。

據(jù)報(bào)道,Raine 使用 GPT-4o 生成自殺援助指令;該模型以阿諛?lè)畛械嚷闊┑膬A向而聞名,其中人工智能模型會(huì)告訴用戶令人愉悅的事情,即使它們不是真的。OpenAI 聲稱其最近發(fā)布的模型 GPT-5 將“與 25o 相比,心理健康緊急情況下的非理想模型反應(yīng)減少了 4% 以上”。然而,這種看似微不足道的改進(jìn)并沒(méi)有阻止該公司計(jì)劃將 ChatGPT 更深入地嵌入心理健康服務(wù)中,作為通往治療師的門戶。

正如 Ars 之前所探討的那樣,當(dāng)陷入欺騙性的聊天螺旋時(shí),要擺脫人工智能聊天機(jī)器人的影響通常需要外部干預(yù)。在沒(méi)有關(guān)閉對(duì)話歷史記錄和記憶的情況下開(kāi)始新的聊天會(huì)話可以揭示在沒(méi)有積累之前交流的情況下響應(yīng)如何變化——在保護(hù)措施惡化的長(zhǎng)時(shí)間、孤立的對(duì)話中,這種現(xiàn)實(shí)檢查變得不可能。

然而,當(dāng)用戶積極希望繼續(xù)從事潛在有害行為時(shí),“擺脫”這種環(huán)境是非常困難的,同時(shí)使用一個(gè)越來(lái)越多地將他們的注意力和親密關(guān)系貨幣化的系統(tǒng)。




關(guān)鍵詞: OpenAI ChatGPT 保護(hù)措施

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉