“拜托!你瘋了嗎!我們?cè)趺纯赡苴A中國(guó),我們可是西班牙??!”
2023-02-05
更新時(shí)間:2023-02-03 16:05:32作者:智慧百科
·“OpenAI自己的檢測(cè)器對(duì)AI撰寫(xiě)內(nèi)容檢出成功率為26%,比扔硬幣的概率都低,并對(duì)短文本和非英語(yǔ)語(yǔ)言支持不佳。”
·眾多大型語(yǔ)言模型生成的海量?jī)?nèi)容已經(jīng)造成了信息爆炸,優(yōu)質(zhì)原創(chuàng)高質(zhì)量?jī)?nèi)容可能更難被挖掘。濫用ChatGPT的風(fēng)險(xiǎn)還包含散播生成的逼真的虛假信息、新聞,以及AI生成內(nèi)容本身的合法性風(fēng)險(xiǎn)。
美國(guó)學(xué)校已就ChatGPT淪為作弊工具一事進(jìn)行了長(zhǎng)達(dá)數(shù)周的討論。 視覺(jué)中國(guó) 資料圖
猶記得多年前人工智能(AI)領(lǐng)域熱議的話題還是“人工智能何時(shí)能通過(guò)圖靈測(cè)試”,即如果電腦能在5分鐘內(nèi)回答由人類(lèi)測(cè)試者提出的一系列問(wèn)題,且其超過(guò)30%的回答讓測(cè)試者誤認(rèn)為是人類(lèi)所答,則電腦通過(guò)測(cè)試。
而現(xiàn)在,我們已經(jīng)要用AI幫助檢測(cè)內(nèi)容是人類(lèi)寫(xiě)的還是AI寫(xiě)的。
2月1日,著名人工智能實(shí)驗(yàn)室OpenAI(ChatGPT開(kāi)發(fā)團(tuán)隊(duì))宣布推出AI生成內(nèi)容識(shí)別器,旨在識(shí)別文本是由電腦自動(dòng)生成還是人類(lèi)撰寫(xiě),然而似乎準(zhǔn)確度堪憂。OpenAI在博客中指出,此識(shí)別器置信度正確率約為26%。
“OpenAI自己的檢測(cè)器對(duì)AI撰寫(xiě)內(nèi)容檢出成功率為26%,比扔硬幣的概率都低,并對(duì)短文本和非英語(yǔ)語(yǔ)言支持不佳?!鄙虾H斯ぶ悄苎芯吭貉芯繂T王錦對(duì)澎湃科技(www.thepaper.cn)評(píng)價(jià)道。
1月28日,斯坦福大學(xué)也推出DetectGPT以幫助教育工作者識(shí)別出ChatGPT生成的論文。此前,美國(guó)的中小學(xué)與高校已就ChatGPT淪為作弊工具一事進(jìn)行了長(zhǎng)達(dá)數(shù)周的討論,他們擔(dān)心ChatGPT能夠根據(jù)命令編寫(xiě)任何內(nèi)容,進(jìn)而可能助長(zhǎng)學(xué)術(shù)不端并阻礙學(xué)習(xí)。
AI生成內(nèi)容識(shí)別器的技術(shù)難點(diǎn)是什么,為何效果如此一般?ChatGPT濫用有何風(fēng)險(xiǎn)?
AI生成內(nèi)容識(shí)別器原理
“AI生成內(nèi)容識(shí)別器的核心思想是首先構(gòu)建一個(gè)訓(xùn)練數(shù)據(jù)集,包含真實(shí)的內(nèi)容和AI生成的內(nèi)容,然后訓(xùn)練一個(gè)分類(lèi)器來(lái)區(qū)別這兩類(lèi)內(nèi)容。”MILA研究院知名華人學(xué)者唐建對(duì)澎湃科技解釋道。
馬里蘭大學(xué)的研究人員即通過(guò)分類(lèi)出聊天機(jī)器人生成詞匯來(lái)作識(shí)別。具體而言,人工智能語(yǔ)言模型通過(guò)一次預(yù)測(cè)和生成一個(gè)單詞來(lái)工作。生成一個(gè)詞后,水印算法將語(yǔ)言模型的詞匯隨機(jī)分為“綠名單”和“紅名單”,然后提示模型選擇綠名單上的詞。
一篇文章中列入綠名單的詞越多,該文本就越有可能是由機(jī)器生成的,人類(lèi)寫(xiě)的文本往往包含更隨機(jī)的單詞組合。例如,對(duì)于“美麗”一詞的相關(guān)預(yù)測(cè),水印算法可以將單詞“flower”(花)分類(lèi)為綠色,將“orchid”(蘭花)分類(lèi)為紅色。參與這項(xiàng)研究的馬里蘭大學(xué)助理教授湯姆·戈?duì)柎奶梗═om Goldstein)解釋說(shuō),帶有水印算法的人工智能模型更有可能使用“花”而不是“蘭花”這個(gè)詞。然而,這種新方法也有局限性,水印只有在創(chuàng)建者從一開(kāi)始就嵌入到大型語(yǔ)言模型中時(shí)才有效。
對(duì)于OpenAI提出的基于GPT語(yǔ)言模型的文本分類(lèi)器的原理,王錦具體解釋道,其原理也是利用海量數(shù)據(jù)做一個(gè)二分類(lèi)的訓(xùn)練,訓(xùn)練數(shù)據(jù)集中包含了人工撰寫(xiě)的內(nèi)容(如來(lái)自reddit,wikipedia的內(nèi)容)和AI生成內(nèi)容(來(lái)自五個(gè)不同機(jī)構(gòu)的大語(yǔ)言模型生成的內(nèi)容)。
當(dāng)下各機(jī)構(gòu)紛紛推出文本分類(lèi)器,這與之前深度偽造技術(shù)涌現(xiàn)時(shí)出現(xiàn)的各種對(duì)抗技術(shù)(Anti-Deepfake)是否異曲同工?
從技術(shù)原理角度,智源研究院基礎(chǔ)模型研究中心研究員張博文解答道,“OpenAI以及之前出現(xiàn)的GPTZero主要是對(duì)文本分類(lèi),其中OpenAI的分類(lèi)器使用的數(shù)據(jù)主要是真實(shí)文本,來(lái)自維基百科、網(wǎng)頁(yè)文本、人類(lèi)創(chuàng)作的文本;生成文本來(lái)自包含ChatGPT在內(nèi)的34個(gè)AI模型。而之前出現(xiàn)的Anti-Deepfake主要包含被動(dòng)檢測(cè)和主動(dòng)防御,這兩種識(shí)別器和被動(dòng)檢測(cè)技術(shù)類(lèi)似?!彼a(bǔ)充說(shuō),斯坦福大學(xué)等機(jī)構(gòu)提出的DetectGPT,以及OpenAI在研究通過(guò)給生成文本加水印的方式完成對(duì)生成文本的檢測(cè),是類(lèi)似于主動(dòng)防御的方式,不過(guò)兩項(xiàng)技術(shù)目前都沒(méi)有公布。
GPTZero是普林斯頓大學(xué)學(xué)生Edward Tian推出了一個(gè)專(zhuān)殺ChatGPT的應(yīng)用。GPTZero的原理是借助一些文本屬性進(jìn)行分析。首先是困惑度(perplexity),即文本對(duì)模型的隨機(jī)性,或語(yǔ)言模型對(duì)文本的“喜愛(ài)”程度;然后是突發(fā)度(burstiness),即機(jī)器寫(xiě)作的文本在一段時(shí)間內(nèi)表現(xiàn)出的困惑度更均勻和恒定,而人類(lèi)書(shū)寫(xiě)的文本則不會(huì)這樣。檢測(cè)文本的“困惑性”和“突發(fā)性”這兩項(xiàng)指標(biāo),并分別對(duì)其打分,根據(jù)統(tǒng)計(jì)學(xué)特征來(lái)確定文本是由AI寫(xiě)的還是人類(lèi)寫(xiě)的??傮w來(lái)說(shuō),如果這兩項(xiàng)參數(shù)得分都很低,那么該文本很有可能出自AI之手。
為何目前AI生成內(nèi)容檢測(cè)器效果不佳?
王錦認(rèn)為,原因在于文本本身的信息量不如圖像豐富、不同語(yǔ)言模型NLG(自然語(yǔ)言生成)的性能和風(fēng)格可能有差別、訓(xùn)練集本身可能含有部分AI生成內(nèi)容等等。
更具體而言,張博文說(shuō),“實(shí)際上,OpenAI的文本分類(lèi)器在訓(xùn)練數(shù)據(jù)分布類(lèi)似的驗(yàn)證集上效果很好,在‘挑戰(zhàn)集’(區(qū)分人類(lèi)補(bǔ)全的文本/人類(lèi)補(bǔ)全文本上訓(xùn)練的強(qiáng)語(yǔ)言模型生成文本)上,會(huì)把9%的人類(lèi)創(chuàng)作文本誤識(shí)別為AI創(chuàng)作;會(huì)把26%的AI創(chuàng)作文本識(shí)別為可能是AI創(chuàng)作?!?br/>張博文也談到這背后的技術(shù)難點(diǎn)。第一點(diǎn)在于語(yǔ)言模型經(jīng)過(guò)人類(lèi)創(chuàng)作文本訓(xùn)練,參數(shù)量越大,越接近人類(lèi)創(chuàng)作,越難以區(qū)分;第二受限于文本長(zhǎng)度,文本長(zhǎng)度足夠長(zhǎng),檢測(cè)的準(zhǔn)確率才有保障。OpenAI也在公告中明確表示自己只能檢測(cè)1000字符以上的文章。
除此之外,OpenAI還介紹了檢測(cè)器的其他幾個(gè)限制:分類(lèi)器并不總是準(zhǔn)確的,它可能會(huì)錯(cuò)誤標(biāo)記AI生成的和人類(lèi)寫(xiě)的文本,并且語(yǔ)氣很自信;建議僅對(duì)英文文本使用分類(lèi)器,它在其他語(yǔ)言上的表現(xiàn)要差得多,并且在代碼上不可靠;它無(wú)法可靠地識(shí)別非??深A(yù)測(cè)的文本。例如,無(wú)法預(yù)測(cè)前1000個(gè)素?cái)?shù)的列表是由AI還是人類(lèi)寫(xiě)的,因?yàn)檎_答案總是相同的;AI生成的文本,經(jīng)過(guò)編輯之后很可能會(huì)規(guī)避掉分類(lèi)器的檢測(cè);如果輸入與訓(xùn)練集中的文本有很大的區(qū)別,分類(lèi)器會(huì)做出錯(cuò)誤判斷。
ChatGPT被濫用的危害
據(jù)《紐約時(shí)報(bào)》1月16日?qǐng)?bào)道,美國(guó)北密歇根大學(xué)教授Antony Aumann在為世界宗教課程評(píng)分時(shí),發(fā)現(xiàn)一篇論文相當(dāng)出彩。該文章以罩袍禁令的道德影響為題,段落簡(jiǎn)潔,例子恰當(dāng),論據(jù)嚴(yán)謹(jǐn)。但在Aumann詢問(wèn)之后,學(xué)生向他坦陳,這篇文章其實(shí)是用ChatGPT生成的。
《科學(xué)美國(guó)人》報(bào)道稱,資深的科學(xué)家也無(wú)法準(zhǔn)確分辨ChatGPT撰寫(xiě)的科學(xué)論文。在一項(xiàng)測(cè)試中,專(zhuān)家錯(cuò)誤地將32%的生成摘要識(shí)別為真實(shí)摘要,將14%的真實(shí)摘要識(shí)別為生成的。
目前,因擔(dān)心影響學(xué)生的學(xué)習(xí)和ChatGPT生成內(nèi)容的準(zhǔn)確性,美國(guó)一些最大的學(xué)區(qū)已禁止在其網(wǎng)絡(luò)和設(shè)備上使用ChatGPT。包括Stack Overflow在內(nèi)的網(wǎng)站也已禁止用戶共享ChatGPT生成的內(nèi)容,其稱AI會(huì)讓用戶在正常的討論中被無(wú)用內(nèi)容淹沒(méi)。
“眾多大型語(yǔ)言模型生成的海量?jī)?nèi)容已經(jīng)造成了信息爆炸,優(yōu)質(zhì)原創(chuàng)高質(zhì)量?jī)?nèi)容可能更難被挖掘。同時(shí),海量?jī)?nèi)容也是內(nèi)容推送/篩選機(jī)制的挑戰(zhàn)?!蓖蹂\說(shuō)。
除了抄襲、侵權(quán)、使用模型給出的錯(cuò)誤結(jié)果以及利用AI工具作弊之外,張博文認(rèn)為,濫用ChatGPT的風(fēng)險(xiǎn)還包含散播生成的逼真的虛假信息、新聞,以及AI生成內(nèi)容本身的合法性風(fēng)險(xiǎn),“AI內(nèi)容識(shí)別器會(huì)在一些領(lǐng)域變成剛需?!?br/>1月,事實(shí)核查技術(shù)公司NewsGuard的研究人員向ChatGPT發(fā)布了100個(gè)提示,涉及美國(guó)政治和醫(yī)療保健的常見(jiàn)虛假敘事。在80%的回復(fù)中,聊天機(jī)器人產(chǎn)生了虛假和誤導(dǎo)性的聲明。
科技媒體《連線》2月1日撰文稱,使用大型語(yǔ)言模型的聊天機(jī)器人的出現(xiàn),讓事實(shí)核查工作變得更加困難。英國(guó)事實(shí)核查慈善機(jī)構(gòu)的受托人Tim Gordon說(shuō):“生成人工智能可以產(chǎn)生什么規(guī)模(的虛假信息),以及它能做到這一點(diǎn)的速度,意味著這場(chǎng)競(jìng)賽只會(huì)變得更難?!泵鎸?duì)這種不對(duì)稱,事實(shí)核查組織必須構(gòu)建自己的AI驅(qū)動(dòng)工具,以幫助自動(dòng)化和加速工作。這遠(yuǎn)非一個(gè)完整的解決方案,但事實(shí)核查人員希望這些新工具至少能防止他們與對(duì)手之間的差距過(guò)快擴(kuò)大。
與此同時(shí),王錦提出,檢測(cè)器本身亦會(huì)帶來(lái)一些問(wèn)題,原因在于當(dāng)前很多內(nèi)容是人機(jī)混合撰寫(xiě)的,在判定時(shí)很難做二分界定。檢測(cè)有誤會(huì)帶來(lái)很?chē)?yán)重的后果,比如將學(xué)生原創(chuàng)內(nèi)容判定為ChatGPT撰寫(xiě)造成不公正打分。
目前,OpenAI的檢測(cè)器在評(píng)估一段給定的文本是否由AI生成時(shí),不會(huì)正面回答是或否。根據(jù)其置信度,它會(huì)將文本標(biāo)記為“非常不可能”由AI生成(小于10%的可能性)、“不太可能”由AI生成(在10%到45%之間的可能性)、“不清楚它是否是”AI生成(45%到90%的機(jī)會(huì))、“可能”由AI生成(90%到98%的機(jī)會(huì))或“很有可能”由AI生成(超過(guò)98%的機(jī)會(huì))。