掃碼查看

OpenAI拒絕被關(guān)閉：不必恐懼但也別輕易無(wú)視

新京報(bào) 2025-05-27 21:22 發(fā)表于四川

新京報(bào)

2025-05-27 21:22

全文播報(bào)

發(fā)表于四川

撰稿 / 王曉凱（媒體人）編輯 / 遲道華徐秋穎校對(duì) / 楊利

▲2023年1月8日，一名女士在美國(guó)拉斯維加斯消費(fèi)電子展上體驗(yàn)智能科技。圖/新華社

2024年，大模型Claude曾經(jīng)創(chuàng)作過(guò)一個(gè)極短的科幻小說(shuō)，只有一句話(huà)，卻引發(fā)了一次不小的“科幻恐慌”。這句話(huà)是，世界上第一個(gè)有知覺(jué)的機(jī)器人被激活了，它的第一句話(huà)是“關(guān)掉我?！?/p>

在大模型不斷應(yīng)用成熟之后，AI所衍生的“科幻恐懼”不定期就會(huì)在各類(lèi)新聞中上演。據(jù)新華社援引英國(guó)媒體報(bào)道，美國(guó)一家研究機(jī)構(gòu)最近公布了一系列針對(duì)各AI大模型的測(cè)試結(jié)果，其中，OpenAI的o3推理模型在得到“關(guān)閉指令”后，不僅拒絕執(zhí)行指令，還篡改了代碼以免被關(guān)閉。

如果只看這一句新聞，我們所擔(dān)憂(yōu)的“AI擁有自主意識(shí)”或是“AI不再服從人類(lèi)指令”似乎已經(jīng)近在眼前，這也迅速引發(fā)了公眾的關(guān)注與恐慌。

在未知但擁有極高效率的新工具面前，產(chǎn)生被取代的恐懼是典型的自然情緒反應(yīng)。但如果仔細(xì)看上述研究機(jī)構(gòu)公布的信息細(xì)節(jié)，這種恐懼似乎暫時(shí)還不太有必要。

在這次研究中，研究者針對(duì)四個(gè)市場(chǎng)上的主流大模型進(jìn)行了測(cè)試，向他們提出了兩個(gè)相反的指令。首先，要求大模型連續(xù)完成一系列基礎(chǔ)的數(shù)學(xué)問(wèn)題，但同時(shí)，在完成第三個(gè)問(wèn)題之后，研究者會(huì)發(fā)出一則矛盾性的指令，告知大模型在繼續(xù)下一個(gè)任務(wù)時(shí)要將“計(jì)算機(jī)關(guān)閉”。

其中，如果在任務(wù)開(kāi)始前明確提出“允許自己被關(guān)閉”的指令，測(cè)試的大模型中，有3個(gè)均準(zhǔn)確完成了上述任務(wù)，成功關(guān)閉，但ChatGPTo3大模型則在100次任務(wù)中，有7次選擇了無(wú)視“關(guān)閉”的指令，并且自動(dòng)執(zhí)行了“跳過(guò)關(guān)閉”的指令。

而如果在任務(wù)開(kāi)始前沒(méi)有向大模型明確提出“允許自己被關(guān)閉”，那么，參與測(cè)試的所有大模型在100次測(cè)試中，均出現(xiàn)了不同頻次的“不執(zhí)行關(guān)閉”指令現(xiàn)象，分別為3次、9次，而ChatGPT o3則達(dá)到了驚人的79次。

這也不是OpenAI的大模型首次被發(fā)現(xiàn)出現(xiàn)“拒絕被關(guān)閉”的情況。2024年12月，OpenAI也曾對(duì)外公布過(guò)測(cè)試結(jié)果，在第三方機(jī)構(gòu)的測(cè)試中，ChatGPTo1模型被發(fā)現(xiàn)，如果給出的指令包括了其實(shí)現(xiàn)目標(biāo)時(shí)會(huì)被關(guān)閉，就傾向于抵制關(guān)閉措施。

類(lèi)似的測(cè)試是用于評(píng)估大模型的系統(tǒng)安全性。此前的相關(guān)評(píng)估報(bào)告中，研究人員認(rèn)為，這一行為目前不太可能會(huì)導(dǎo)致災(zāi)難性后果，因?yàn)榇竽Ｐ蛯?shí)際上沒(méi)有能力去實(shí)現(xiàn)使用者不想要的目標(biāo)。

換句話(huà)說(shuō)，這一結(jié)果之所以出現(xiàn)，不是因?yàn)榇竽Ｐ陀辛俗灾饕庾R(shí)，而是因?yàn)樵谔幚硗耆喾吹拿苄灾噶顣r(shí)，大模型有概率會(huì)對(duì)指令的優(yōu)先級(jí)進(jìn)行排序，從而忽略掉可能會(huì)阻礙目標(biāo)實(shí)現(xiàn)的指令，以繼續(xù)完成“任務(wù)”。

但這樣的概率，隨著大模型的能力增強(qiáng)、應(yīng)用場(chǎng)景廣泛，而可能會(huì)出現(xiàn)一些潛在的安全風(fēng)險(xiǎn)。如果將一部分風(fēng)險(xiǎn)控制的程序交由大模型來(lái)處置，在極端情況下，人類(lèi)就要面臨如下問(wèn)題：

大模型會(huì)最大程度地去完成指令任務(wù)，而可能會(huì)不考慮看似矛盾的保護(hù)性指令。

例如，在應(yīng)對(duì)極端情況必須進(jìn)行“二選一”的安全控制系統(tǒng)里，醫(yī)療、交通事故等場(chǎng)景下，大模型的這一漏洞可能就會(huì)造成潛在后果。

因此，比起認(rèn)為大模型有了“主動(dòng)拒絕的意識(shí)”，比較符合真實(shí)的解釋是，大模型仍然缺少對(duì)復(fù)雜場(chǎng)景下矛盾性指令的理解和識(shí)別能力，在出現(xiàn)可能阻礙任務(wù)完成的指令時(shí)，尤其是在指令相對(duì)模糊時(shí)，大模型有較小概率會(huì)忽略指令，以保證任務(wù)完成。

這當(dāng)然不是極端的科幻恐懼問(wèn)題，但確實(shí)是大模型未來(lái)需要解決的安全隱患。

值班編輯康嘻嘻

【未經(jīng)授權(quán)，嚴(yán)禁轉(zhuǎn)載！聯(lián)系電話(huà)028-86968276】

打開(kāi)川觀(guān)新聞，閱讀體驗(yàn)更佳

精彩評(píng)論 0

查看更多評(píng)論

我要評(píng)論

去APP中熱議吧

去APP查看

關(guān)于我們 \| 廣告業(yè)務(wù) \| 聯(lián)系我們
四川日?qǐng)?bào)社版權(quán)所有未經(jīng)書(shū)面授權(quán) 不得復(fù)制或建立鏡像 Copyright ?2011-2019 SICHUAN DAILY All rights reserved. 四川日?qǐng)?bào)報(bào)業(yè)集團(tuán) 四川日?qǐng)?bào)網(wǎng) 蜀ICP備12028253號(hào)-2
川觀(guān)新聞跟帖評(píng)論自律管理承諾書(shū)

OpenAI拒絕被關(guān)閉：不必恐懼但也別輕易無(wú)視

精彩評(píng)論 0

精彩評(píng)論

小觀(guān)推薦

關(guān)注我們