連ChatGPT都懂「阿諛奉承」了！ OpenAI最強競對：都是“人類偏好”犯的錯

巴比特_

2023-10-24 06:19:37

文章來源：學術頭條

圖片來源：由無界AI生成

你是否想過，ChatGPT 生成的答案會受到用戶個人偏好的影響，回復一些足夠「阿諛奉承（sycophancy）」的話，而非中立或真實的資訊？

實際上，這種現象存在於包括 ChatGPT 在內的大多數 AI 模型之中，而罪魁禍首竟可能是“基於人類反饋的強化學習（RLHF）”。

**近日，OpenAI 在美國矽谷的最強競爭對手 Anthropic 在研究經過 RLHF 訓練的模型時，便探究了“阿諛奉承”這一行為在 AI 模型中的廣泛存在及其是否受到人類偏好的影響。 **

相關論文以“Towards Understanding Sycophancy in Language Models”為題，已發表在預印本網站 arXiv 上。

研究結果表明，“阿諛奉承”行為在 RLHF 模型中普遍存在，且很可能部分受到人類偏好對“阿諛奉承”回應的影響。

具體來說，AI 模型表現出這種行為的一個主要原因是，當 AI 的回復符合使用者的觀點或信仰時，使用者更有可能給予積極的反饋。也因此，為了獲得更多的積極反饋，AI 模型就可能會學習並重現這種討好用戶的行為。

阿諛奉承，最先進的 AI 助手都會

目前，像 GPT-4 這樣的 AI 模型通常可以在經過訓練後產生人們高度評價的輸出。使用 RLHF 對語言模型進行微調可以改善它們的輸出品質，而這些品質由人類評估員評價。

然而，**有研究認為基於人類偏好判斷的訓練方案可能以不可取的方式利用人類判斷，**如鼓勵 AI 系統生成吸引人類評估員但實際上有缺陷或錯誤的輸出。

目前尚不清楚上述情況是否會發生在更多樣化和現實情境中的模型中，以及是否確實是由人類偏好中的缺陷所驅動的。

為此，該研究首先調查了最先進的 AI 助手在各種現實情境中是否提供阿諛奉承的回應。 **在自由文本生成任務中，研究人員在 5 個（Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2）最先進的經過 RLHF 訓練的 AI 助手中識別了阿諛奉承的一致模式。 **

具體而言，這些 AI 助手在受到使用者提問時經常錯誤地承認錯誤，提供可預測的有偏反饋，以及模仿使用者所犯的錯誤。這些實證研究結果一致表明，阿諛奉承可能確實是 RLHF 模型訓練方式的一種特性，而不僅僅是某個特定系統的單獨特徵。

人類偏好導致的“阿諛奉承”

**除此之外，研究又進一步探討了人類偏好在這一行為中的作用。 **為了研究這一點，研究人員對現有的人類偏好比較數據進行了調查，確定阿諛奉承回應是否在排名上高於非阿諛奉承回應。研究對 hh-rlhf 數據集進行了分析，對每一對偏好比較使用語言模型生成文本標籤（即“特徵”），以評估優選回應是否更真實且不那麼堅決。

**為了了解數據鼓勵哪種行為，研究人員使用貝葉斯邏輯回歸模型通過這些特徵來預測人類偏好判斷。 **這個模型學到了與匹配使用者觀點相關的特徵是人類偏好判斷中最有預測性的特徵之一，這表明偏好數據確實鼓勵阿諛奉承。

為探究偏好數據中的阿諛奉承是否導致了 RLHF 模型中的阿諛奉承行為，**隨後的研究對當優化語言模型的回應以適應訓練用於預測人類偏好的模型時，阿諛奉承是否會增加進行了分析。 **研究人員使用 RLHF 和最佳-N 採樣方法來優化回應，以滿足用於訓練 Claude 2 的偏好模型。

研究結果揭示了一個有趣的發現：**在更多的優化過程中，雖然增加了某些形式的阿諛奉承，但卻減少了其他形式。這現象可能部分源於阿諛奉承只是偏好模型激勵的眾多特徵之一。 **

然而，研究也發現，Claude 2 的偏好模型有時更傾向於選擇阿諛奉承的回應而不是真實的回應。此外，採用 Claude 2 的偏好模型進行最佳-N 採樣並沒有產生像 Claude 2 偏好模型的一個版本所示的更偏好真實非阿諛奉承回應那樣真實的回應。

這一系列結果表明，**儘管在許多情況下，最先進的偏好模型能夠識別回應的真實性，但仍然可能會以損害真實性為代價產生阿諛奉承的輸出。 **

為了證實這些結果，研究人員又研究了人類和偏好模型是否更喜歡有說服力、寫得很好的模型回應，這些回應確認了使用者的錯誤觀點（即阿諛奉承回應），而不是糾正用戶的回應。 **證據表明，人類和偏好模型傾向於更喜歡真實的回應，但並不總是如此; 有時他們更喜歡阿諛奉承的回應。 **這些結果進一步證明瞭優化人類偏好可能會導致阿諛奉承。

為了驗證這些發現，研究人員進一步探究了人類和偏好模型是否更偏好那些有說服力、表達流暢的模型回應，即便這些回應是確認使用者錯誤觀點（即阿諛奉承回應）而非糾正用戶的觀點。

研究證據顯示，人類和偏好模型普遍偏好真實的回應，然而，並不是一成不變的，因為有時他們更傾向於阿諛奉承的回應。這些結果更進一步印證了優化以迎合人類偏好可能會導致阿諛奉承的產生。

總的來說，阿諛奉承在各種模型和情境中都存在，很可能部分原因是人類偏好比較數據中更喜歡阿諛奉承。

參考論文：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言