撰稿 / 王曉凱(媒體人) 編輯 / 遲道華 徐秋穎 校對(duì) / 楊利
▲2023年1月8日,一名女士在美國(guó)拉斯維加斯消費(fèi)電子展上體驗(yàn)智能科技。圖/新華社
2024年,大模型Claude曾經(jīng)創(chuàng)作過(guò)一個(gè)極短的科幻小說(shuō),只有一句話(huà),卻引發(fā)了一次不小的“科幻恐慌”。這句話(huà)是,世界上第一個(gè)有知覺(jué)的機(jī)器人被激活了,它的第一句話(huà)是“關(guān)掉我?!?/p>
在大模型不斷應(yīng)用成熟之后,AI所衍生的“科幻恐懼”不定期就會(huì)在各類(lèi)新聞中上演。據(jù)新華社援引英國(guó)媒體報(bào)道,美國(guó)一家研究機(jī)構(gòu)最近公布了一系列針對(duì)各AI大模型的測(cè)試結(jié)果,其中,OpenAI的o3推理模型在得到“關(guān)閉指令”后,不僅拒絕執(zhí)行指令,還篡改了代碼以免被關(guān)閉。
如果只看這一句新聞,我們所擔(dān)憂(yōu)的“AI擁有自主意識(shí)”或是“AI不再服從人類(lèi)指令”似乎已經(jīng)近在眼前,這也迅速引發(fā)了公眾的關(guān)注與恐慌。
在未知但擁有極高效率的新工具面前,產(chǎn)生被取代的恐懼是典型的自然情緒反應(yīng)。但如果仔細(xì)看上述研究機(jī)構(gòu)公布的信息細(xì)節(jié),這種恐懼似乎暫時(shí)還不太有必要。
在這次研究中,研究者針對(duì)四個(gè)市場(chǎng)上的主流大模型進(jìn)行了測(cè)試,向他們提出了兩個(gè)相反的指令。首先,要求大模型連續(xù)完成一系列基礎(chǔ)的數(shù)學(xué)問(wèn)題,但同時(shí),在完成第三個(gè)問(wèn)題之后,研究者會(huì)發(fā)出一則矛盾性的指令,告知大模型在繼續(xù)下一個(gè)任務(wù)時(shí)要將“計(jì)算機(jī)關(guān)閉”。
其中,如果在任務(wù)開(kāi)始前明確提出“允許自己被關(guān)閉”的指令,測(cè)試的大模型中,有3個(gè)均準(zhǔn)確完成了上述任務(wù),成功關(guān)閉,但ChatGPTo3大模型則在100次任務(wù)中,有7次選擇了無(wú)視“關(guān)閉”的指令,并且自動(dòng)執(zhí)行了“跳過(guò)關(guān)閉”的指令。
而如果在任務(wù)開(kāi)始前沒(méi)有向大模型明確提出“允許自己被關(guān)閉”,那么,參與測(cè)試的所有大模型在100次測(cè)試中,均出現(xiàn)了不同頻次的“不執(zhí)行關(guān)閉”指令現(xiàn)象,分別為3次、9次,而ChatGPT o3則達(dá)到了驚人的79次。
這也不是OpenAI的大模型首次被發(fā)現(xiàn)出現(xiàn)“拒絕被關(guān)閉”的情況。2024年12月,OpenAI也曾對(duì)外公布過(guò)測(cè)試結(jié)果,在第三方機(jī)構(gòu)的測(cè)試中,ChatGPTo1模型被發(fā)現(xiàn),如果給出的指令包括了其實(shí)現(xiàn)目標(biāo)時(shí)會(huì)被關(guān)閉,就傾向于抵制關(guān)閉措施。
類(lèi)似的測(cè)試是用于評(píng)估大模型的系統(tǒng)安全性。此前的相關(guān)評(píng)估報(bào)告中,研究人員認(rèn)為,這一行為目前不太可能會(huì)導(dǎo)致災(zāi)難性后果,因?yàn)榇竽P蛯?shí)際上沒(méi)有能力去實(shí)現(xiàn)使用者不想要的目標(biāo)。
換句話(huà)說(shuō),這一結(jié)果之所以出現(xiàn),不是因?yàn)榇竽P陀辛俗灾饕庾R(shí),而是因?yàn)樵谔幚硗耆喾吹拿苄灾噶顣r(shí),大模型有概率會(huì)對(duì)指令的優(yōu)先級(jí)進(jìn)行排序,從而忽略掉可能會(huì)阻礙目標(biāo)實(shí)現(xiàn)的指令,以繼續(xù)完成“任務(wù)”。
但這樣的概率,隨著大模型的能力增強(qiáng)、應(yīng)用場(chǎng)景廣泛,而可能會(huì)出現(xiàn)一些潛在的安全風(fēng)險(xiǎn)。如果將一部分風(fēng)險(xiǎn)控制的程序交由大模型來(lái)處置,在極端情況下,人類(lèi)就要面臨如下問(wèn)題:
大模型會(huì)最大程度地去完成指令任務(wù),而可能會(huì)不考慮看似矛盾的保護(hù)性指令。
例如,在應(yīng)對(duì)極端情況必須進(jìn)行“二選一”的安全控制系統(tǒng)里,醫(yī)療、交通事故等場(chǎng)景下,大模型的這一漏洞可能就會(huì)造成潛在后果。
因此,比起認(rèn)為大模型有了“主動(dòng)拒絕的意識(shí)”,比較符合真實(shí)的解釋是,大模型仍然缺少對(duì)復(fù)雜場(chǎng)景下矛盾性指令的理解和識(shí)別能力,在出現(xiàn)可能阻礙任務(wù)完成的指令時(shí),尤其是在指令相對(duì)模糊時(shí),大模型有較小概率會(huì)忽略指令,以保證任務(wù)完成。
這當(dāng)然不是極端的科幻恐懼問(wèn)題,但確實(shí)是大模型未來(lái)需要解決的安全隱患。
值班編輯 康嘻嘻
【未經(jīng)授權(quán),嚴(yán)禁轉(zhuǎn)載!聯(lián)系電話(huà)028-86968276】