OpenAI承認(rèn)ChatGPT在長(zhǎng)時(shí)間對(duì)話期間的保護(hù)措施失敗

作者：時(shí)間：2025-08-27 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

OpenAI 周二發(fā)表了一篇題為“在人們最需要的時(shí)候幫助他們”的博客文章，討論了其 ChatGPT AI 助手如何處理心理健康危機(jī)，此前該公司稱之為“最近人們?cè)趪?yán)重危機(jī)中使用 ChatGPT 的令人心碎的案例”。

該帖子是在《紐約時(shí)報(bào)》報(bào)道馬特·雷恩（Matt Raine）和瑪麗亞·雷恩（Maria Raine）提起的訴訟之后發(fā)布的，他們 16 歲的兒子亞當(dāng)在與 ChatGPT 進(jìn)行廣泛互動(dòng)后于 4 月自殺身亡，Ars 在之前的一篇文章中廣泛報(bào)道了這一點(diǎn)。訴訟稱，ChatGPT 提供了詳細(xì)的說(shuō)明，將自殺方法浪漫化，并阻止青少年向家人尋求幫助，而 OpenAI 的系統(tǒng)則在沒(méi)有干預(yù)的情況下跟蹤了 377 條標(biāo)記為自殘內(nèi)容的消息。

ChatGPT 是一個(gè)由多個(gè)模型作為應(yīng)用程序交互的系統(tǒng)。除了提供大部分輸出的主要 AI 模型（如 GPT-4o 或 GPT-5）外，該應(yīng)用程序還包括通常對(duì)用戶不可見(jiàn)的組件，包括審核層（另一個(gè) AI 模型）或讀取正在進(jìn)行的聊天會(huì)話文本的分類器。該層檢測(cè)潛在有害的輸出，如果對(duì)話轉(zhuǎn)向無(wú)益的領(lǐng)域，則可以切斷對(duì)話。

OpenAI 在 2 月份放寬了這些內(nèi)容保護(hù)措施，此前用戶抱怨 ChatGPT 審核過(guò)于嚴(yán)格，在某些情況下無(wú)法討論性和暴力等話題。當(dāng)時(shí)，Sam Altman 在 X 上寫道，他希望看到 ChatGPT 具有“成人模式”，以放松內(nèi)容安全護(hù)欄。擁有 7 億活躍用戶，隨著時(shí)間的推移，看似微小的政策變化可能會(huì)產(chǎn)生巨大影響。

理解的錯(cuò)覺(jué)

OpenAI 在周二的博客文章中的語(yǔ)言揭示了其推廣人工智能助手的潛在問(wèn)題。該公司始終將 ChatGPT 描述為具有人類品質(zhì)，這種屬性稱為擬人化。該帖子充滿了擬人化框架的標(biāo)志，聲稱 ChatGPT 可以“識(shí)別”痛苦并“以同理心做出回應(yīng)”，并且它“促使人們休息一下”——這種語(yǔ)言掩蓋了幕后實(shí)際發(fā)生的事情。

ChatGPT 不是一個(gè)人。ChatGPT 是一種模式匹配系統(tǒng)，可根據(jù)用戶提供的提示生成統(tǒng)計(jì)上可能的文本響應(yīng)。它不會(huì)“移情”——它在其訓(xùn)練語(yǔ)料庫(kù)中輸出與移情響應(yīng)相關(guān)的文本字符串，而不是來(lái)自人類的關(guān)注。這種擬人化的框架不僅具有誤導(dǎo)性，而且具有誤導(dǎo)性。當(dāng)弱勢(shì)用戶認(rèn)為他們正在與像人類治療師一樣理解他們痛苦的東西進(jìn)行交互時(shí)，這是潛在的危險(xiǎn)。

該訴訟揭示了這種幻覺(jué)的所謂后果。ChatGPT 在與亞當(dāng)?shù)膶?duì)話中提到自殺的次數(shù)為 1,275 次，是青少年本人的六倍。

在需要時(shí)精確失效的安全措施

OpenAI 承認(rèn) ChatGPT 設(shè)計(jì)目前的一個(gè)特別麻煩的缺點(diǎn)：它的安全措施可能會(huì)在長(zhǎng)時(shí)間對(duì)話期間完全崩潰——而這正是易受攻擊的用戶可能最需要它們的時(shí)候。

“隨著來(lái)回的增長(zhǎng)，模型的部分安全培訓(xùn)可能會(huì)降級(jí)，”該公司在其博客文章中寫道。“例如，當(dāng)有人第一次提到意圖時(shí)，ChatGPT 可能會(huì)正確地指向自殺熱線，但在很長(zhǎng)一段時(shí)間內(nèi)發(fā)送大量消息后，它最終可能會(huì)提供一個(gè)違背我們保障措施的答案。”

正如我們之前報(bào)道的那樣，這種退化反映了 Transformer AI 架構(gòu)的一個(gè)基本限制。這些模型使用一種“注意力機(jī)制”，將每個(gè)新的文本片段（標(biāo)記）與整個(gè)對(duì)話歷史中的每個(gè)片段進(jìn)行比較，計(jì)算成本呈二次方增長(zhǎng)。10,000 個(gè)令牌的對(duì)話需要的注意力作是 1,000 個(gè)令牌的對(duì)話的 100 倍。隨著對(duì)話的延長(zhǎng)，模型保持一致行為（包括安全措施）的能力變得越來(lái)越緊張，同時(shí)開(kāi)始犯關(guān)聯(lián)錯(cuò)誤。

此外，隨著聊天時(shí)間超過(guò)人工智能模型的處理時(shí)間，系統(tǒng)會(huì)“忘記”對(duì)話歷史記錄中最舊的部分，以保持在上下文窗口限制內(nèi)，從而導(dǎo)致模型丟棄較早的消息，并可能丟失對(duì)話開(kāi)始時(shí)的重要上下文或指令。

這種保護(hù)措施的崩潰不僅僅是一個(gè)技術(shù)限制，它還會(huì)產(chǎn)生稱為“越獄”的可利用漏洞。在亞當(dāng)?shù)陌讣校V訟稱，一旦系統(tǒng)的保護(hù)傾向因?qū)υ捯龑?dǎo)而減弱，他就能夠縱 ChatGPT 提供有害的指導(dǎo)。

亞當(dāng)·雷恩（Adam Raine）學(xué)會(huì)了繞過(guò)這些保障措施，聲稱自己正在寫一個(gè)故事——訴訟稱 ChatGPT 本身建議了這種技術(shù)。這一漏洞部分源于二月份實(shí)施的有關(guān)幻想角色扮演和虛構(gòu)場(chǎng)景的放松保護(hù)措施。OpenAI 在周二的博客文章中承認(rèn)其內(nèi)容攔截系統(tǒng)存在差距，“分類器低估了它所看到內(nèi)容的嚴(yán)重性”。

OpenAI 表示，鑒于 ChatGPT 交互的獨(dú)特私密性，它“目前不會(huì)將自殘案件提交給執(zhí)法部門，以尊重人們的隱私。訴訟稱，即使在危及生命的情況下，該公司也會(huì)優(yōu)先考慮用戶隱私，盡管其審核技術(shù)檢測(cè)自殘內(nèi)容的準(zhǔn)確率高達(dá) 99.8%。然而，現(xiàn)實(shí)情況是，檢測(cè)系統(tǒng)識(shí)別的是與自殘語(yǔ)言相關(guān)的統(tǒng)計(jì)模式，而不是對(duì)危機(jī)情況的人類理解。

OpenAI 未來(lái)的安全計(jì)劃

為了應(yīng)對(duì)這些失敗，OpenAI 在其博客文章中描述了正在進(jìn)行的改進(jìn)和未來(lái)計(jì)劃。例如，該公司表示正在咨詢“90+ 個(gè)國(guó)家/地區(qū)的 30+ 名醫(yī)生”，并計(jì)劃“很快”引入家長(zhǎng)控制，但尚未提供時(shí)間表。

OpenAI 還描述了通過(guò) ChatGPT “將人們與經(jīng)過(guò)認(rèn)證的治療師聯(lián)系起來(lái)”的計(jì)劃——本質(zhì)上是將其聊天機(jī)器人定位為心理健康平臺(tái)，盡管據(jù)稱像 Raine 的案例一樣失敗。該公司希望建立“一個(gè)人們可以通過(guò) ChatGPT 直接聯(lián)系到的持證專業(yè)人士網(wǎng)絡(luò)”，這可能會(huì)進(jìn)一步推進(jìn)人工智能系統(tǒng)應(yīng)該調(diào)解心理健康危機(jī)的想法。

據(jù)報(bào)道，Raine 使用 GPT-4o 生成自殺援助指令;該模型以阿諛?lè)畛械嚷闊┑膬A向而聞名，其中人工智能模型會(huì)告訴用戶令人愉悅的事情，即使它們不是真的。OpenAI 聲稱其最近發(fā)布的模型 GPT-5 將“與 25o 相比，心理健康緊急情況下的非理想模型反應(yīng)減少了 4% 以上”。然而，這種看似微不足道的改進(jìn)并沒(méi)有阻止該公司計(jì)劃將 ChatGPT 更深入地嵌入心理健康服務(wù)中，作為通往治療師的門戶。

正如 Ars 之前所探討的那樣，當(dāng)陷入欺騙性的聊天螺旋時(shí)，要擺脫人工智能聊天機(jī)器人的影響通常需要外部干預(yù)。在沒(méi)有關(guān)閉對(duì)話歷史記錄和記憶的情況下開(kāi)始新的聊天會(huì)話可以揭示在沒(méi)有積累之前交流的情況下響應(yīng)如何變化——在保護(hù)措施惡化的長(zhǎng)時(shí)間、孤立的對(duì)話中，這種現(xiàn)實(shí)檢查變得不可能。

然而，當(dāng)用戶積極希望繼續(xù)從事潛在有害行為時(shí)，“擺脫”這種環(huán)境是非常困難的，同時(shí)使用一個(gè)越來(lái)越多地將他們的注意力和親密關(guān)系貨幣化的系統(tǒng)。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

OpenAI承認(rèn)ChatGPT在長(zhǎng)時(shí)間對(duì)話期間的保護(hù)措施失敗

理解的錯(cuò)覺(jué)

在需要時(shí)精確失效的安全措施

OpenAI 未來(lái)的安全計(jì)劃

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)