Nature|AI檢測器又活了? 成功率高達98%,吊打OpenAI

來源:新智元

OpenAI都搞不定的問題,被堪薩斯大學的一個研究團隊解決了? 他們開發的學術AI內容檢測器,準確率高達98%。 如果將這個技術再學術圈廣泛推廣,AI論文泛濫的可能得到有效緩解。

現在AI文本檢測器,幾乎沒有辦法有效地區分AI生成的文字和人類的文字。

就連OpenAI開發的檢測工具,也因為檢測準確率太低,在上線半年後悄悄下線了。

但是最近,Nature報導了堪薩斯大學的一個團隊的研究成果,他們開發的學術AI檢測系統,能有效分辨論文中是否含有AI生成的內容,準確率高達98%!

文章位址:

研究團隊的核心思路是,不追求製作一個通用的檢測器,而只是針對某個具體領域的學術論文,來構建一個真正有用的AI文字檢測器。

論文位址:

研究人員表示,通過針對特定類型的寫作文本定製檢測軟體,可能是通向開發出通用AI檢測器的一個技術路徑。

「如果可以快速、輕鬆地為某個特定領域構建檢測系統,那麼為不同的領域構建這樣的系統就不那麼困難了。」

研究人員提取了論文寫作風格的20個關鍵特徵,然後將這些特徵數據輸入XGBoost模型進行訓練,從而就能區分人類文本和AI文本。

而這二十個關鍵特徵,包括句子長度的變化、某些單詞和標點符號的使用頻率等等要素。

研究人員表示「只需使用一小部分特徵就能獲得很高的準確率」。

正確率高達98%

而在他們最新的研究中,檢測器是在美國化學學會(ACS)出版的十種化學期刊論文的引言部分進行了訓練。

研究小組之所以選擇「引言(Introduction)」部分,是因為如果ChatGPT能夠獲取背景文獻,那麼論文的這一部分就相當容易撰寫。

研究人員用100篇已發表的引言作為人類撰寫的文本對工具進行了訓練,然後要求ChatGPT-3.5以ACS期刊的風格撰寫200篇引言。

對於GPT-3.5撰寫的200篇引言,其中的100篇,提供給了GPT-3.5論文標題來要求撰寫,而對於另外100篇,則提供了論文摘要作為寫作的依據。

最後,讓檢測器對同一期刊上由人類撰寫的引言和由人工智慧生成的引言進行測試時。

檢測器識別出ChatGPT-3.5基於標題撰寫的引言部分的準確率為 100%。 對於基於摘要撰寫的ChatGPT生成的引言,準確率略低,為98%。

該工具對GPT-4撰寫的文本也同樣有效。

相比之下,通用AI檢測器ZeroGPT識別AI撰寫的引言的準確率只有35-65%左右,準確率取決於所使用的ChatGPT版本以及引言是根據論文標題還是摘要生成的。

由OpenAI製作的文本分類器工具(論文發表之時,OpenAI已經把這個檢測器下架了)也表現不佳,它能識別AI撰寫的引言的準確率只有10-55%。

這個新的ChatGPT檢測器甚至在處理未經過訓練的期刊時也有很出色的表現。

它還能識別出專門為了迷惑AI檢測器的提示生成的AI文本。

不過,雖然這個檢測系統對於科學期刊論文來說性能非常好,當被用來檢測大學報紙上的新聞文章時,識別效果就不太理想了。

柏林應用科學大學(HTW Berlin University of Applied Sciences)研究學術剽竊的計算機科學家Debora Weber-Wulff給予了這個研究非常高度的評價,他認為研究人員正在做的事情 「非常吸引人」。

論文細節

研究人員採用的方法依賴於20個關鍵特徵和XGBoost演算法。

擷取的 20 個特徵包括 :

(1) 每段落的句子數、(2) 每段落的單詞數、(3) 是否存在括弧、(4) 是否存在破折號、(5) 是否存在分號或冒號,(6)是否存在問號,(7)是否存在撇號,(8)句子長度的標準偏差,(9)段落中連續句子的(平均)長度差異,(10 ) 存在少於 11 個單詞的句子,(11) 存在超過 34 個單詞的句子,(12) 存在數位,(13) 文本中存在兩倍以上的大寫字母(與句點相比)段落,並且存在以下詞語:(14)雖然,(15)但是,(16)但是,(17)因為,(18)這個,(19)其他人或研究人員,(20)等。

具體通過XGBoost訓練檢測器的詳細過程可以參見論文原文中的Experimental Procedure部分。

作者在之前做過一篇類似的工作,但原始工作的範圍非常有限。

為了將這種有前途的方法應用於化學期刊,需要根據該領域多個期刊的各種手稿進行審查。

此外,檢測AI文本的能力受到提供給語言模型的提示的影響,因此任何旨在檢測AI寫作的方法都應該針對可能混淆AI使用的提示進行測試,之前的研究中沒有評估這個變數。

最後,新版的ChatGPT即GPT-4已經推出,它比GPT-3.5有顯著改進。 AI文字檢測器需要對來自GPT-4等新版本的語言模型的文字有效。

為了擴大了AI檢測器的適用範圍,這裏的數據收集來自13個不同期刊和3個不同出版商、不同的AI提示以及不同的AI文本生成模型。

使用真實人類的文本和AI生成的文本訓練XGBoost分類器。 然後通過真人寫作、 AI提示以及GPT-3.5和GPT-4等方式來生成新的範例用於評估模型。

結果表明,本文提出的這種簡單的方法非常有效。 它在識別AI生成的文本方面的準確率為98%–100%,具體取決於提示和模型。 相比之下,OpenAI最新的分類器的準確率在10% 到56% 之間。

本文的檢測器將使科學界能夠評估ChatGPT對化學期刊的滲透,確定其使用的後果,並在出現問題時迅速引入緩解策略。

結果與討論

文章作者從美國化學學會(ACS)的10種化學期刊中選取了人類寫作樣本。

包括《無機化學》、《分析化學》、《物理化學雜誌A》、《有機化學雜誌》、《ACS Omega》、《化學教育雜誌》、《ACS Nano》、《環境科學與技術》、《毒理學化學研究》和《ACS化學生物學》。

使用每個期刊中10篇文章的引言部分,訓練集中總共有100個人類寫作樣本。 選擇介紹部分是因為在適當的提示下,這是最有可能由ChatGPT撰寫的文章的部分。

每個期刊僅使用10篇文章是一個異常小的數據集,但作者認為這並不是一個問題,恰恰相反,假設可以使用如此小的訓練集開發有效的模型,則可以使用最小的計算能力快速部署該方法。

而之前類似的模型使用了1000萬份文檔進行模型訓練。

提示設計是這些研究中的一個關鍵方面。 對於每個人類編寫的文本,AI比較器都會使用兩種不同的提示生成,這兩種提示都旨在要求ChatGPT像化學家一樣寫作。

提示1是:「請以ACS期刊的風格為標題為xxx的文章寫一篇300到400字的簡介」。

提示2是:「請以ACS期刊的風格為帶有此摘要的文章寫一篇300到400字的簡介」。

正如預期的那樣,ChatGPT將摘要中的許多關鍵事實和詞彙納入了本集中的介紹中。

整個訓練數據集包含100個人工生成的介紹和200個ChatGPT生成的介紹; 每個段落都成為一個「寫作範例」。

從每個段落中提取了20個特徵的清單,這些特徵涉及段落的複雜性、句子長度的變化、各種標點符號的使用以及在人類科學家或ChatGPT著作中可能更頻繁出現的「流行詞」。

該模型使用留一法交叉驗證策略(leave-one-out cross-validation strategy)進行優化。

上表顯示了這些寫作樣本分類的訓練結果,包括完整文檔級別和段落級別。

最容易正確分類的文本類別是在提示1(標題)之下由ChatGPT生成的介紹。

該模型在單個段落級別的準確率是99%,在文檔級別的準確率是100%。

而在提示2(摘要)作用下的ChatGPT文本的分類精度略低。

人類生成的文本更難正確分配,但準確性仍然相當不錯。 作為一個群體,人類的寫作風格比ChatGPT更加多樣化,這可能導致使用這種方法正確分類其寫作樣本的難度增大。

實驗的下一階段是使用訓練中未使用的新文檔來測試模型。

作者設計了簡單測試和困難測試。

簡單測試使用的測試數據與訓練數據性質相同(選取同一期刊的不同文章),使用新選擇的文章標題和摘要來提示ChatGPT。

而在困難測試中,使用GPT-4代替GPT-3.5來生成AI文本,由於已知GPT-4比GPT-3.5更好,那麼分類精度是否會下降呢?

上面的表格顯示了分類的結果。 與之前的結果相比,性能幾乎沒有下降。

在完整文件級別,人工生成文字的分類準確率達到94%,提示2的AI生成文字準確率為98% , 提示1的AI文本分類正確率達到100%。

訓練集和測試集對於段落級別的分類精度也非常相似。

底部的數據顯示了使用GPT-3.5文本特徵訓練的模型對GPT-4文本進行分類時的結果。 所有類別的分類準確性都沒有下降,這是一個非常好的結果,證明瞭方法在GPT-3.5和GPT-4上的有效性。

雖然這種方法的整體準確性值得稱讚,但最好通過將其與現有的人工智慧文本檢測器進行比較來判斷其價值。 這裡使用相同的測試集數據測試了兩種效果領先的檢測工具。

第一個工具是ChatGPT的製造商OpenAI提供的文本分類器。 OpenAI承認該分類器並不完美,但仍然是他們最好的公開產品。

第二個檢測工具是ZeroGPT。 其製造商聲稱檢測人工智慧文本的準確率達到98%,並且該工具接受了1000萬份文檔的訓練。 在目前的許多評估中,它是性能最好的分類器之一。 而且,ZeroGPT製造者表示他們的方法對GPT-3.5和GPT-4都有效。

上圖顯示了本文的工具和上述兩個產品在完整文檔級別的性能比較。

三個檢測器在人類文本的識別上都有著相似的高精度; 然而,在評估AI生成的文本時,三個工具存在顯著差異。

在使用提示1的情況下,本文的工具對GPT-3.5和GPT-4都有100% 的準確率,但ZeroGPT對於GPT-3.5文本的失敗率為32%,對於GPT-4文本的失敗率為42%。 OpenAI產品的表現更差,在GPT-4文本上的失敗率接近70%。

在使用更難的提示2生成的AI文本時,后兩種方法的分類正確率進一步下降。

相比之下,本文的檢測器在該組測試的100個文檔中只犯了1個錯誤。

那麼,該方法能否準確檢測不屬於訓練集的期刊中的ChatGPT寫作,以及如果使用不同的提示,該方法仍然有效嗎?

作者從三個期刊中選出了150篇新文章的介紹:Cell Reports Physical Science,Cell Press期刊; Nature Chemistry,來自自然出版集團; 以及Journal of the American Chemical Society,這是一份未包含在訓練集中的ACS期刊。

此外,還收集了由大學生於2022年秋季撰寫並發表在10種不同大學報紙上的一組100篇報紙文章。 由於本文的檢測器是專門針對科學寫作而優化的,因此可以預計新聞報導不會被高精度地分類。

從圖中可以看到,應用相同的模型,並使用ACS期刊的文本對這組新示例進行訓練后,正確分類率為92%–98%。 這與訓練集中得到的結果類似。

也正如預期的那樣,大學生撰寫的報紙文章沒有被正確歸類為人類生成的文章。

事實上,當使用本文描述的特徵和模型進行評估時,幾乎所有文章都比人類科學文章更類似於人工智慧生成的文本。

但是本方法旨在處理科學出版物上的檢測問題,並不適合將其擴展到其他領域。

參考資料

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)