🔥 Gate Alpha 限時賞金活動第三期上線!
在 Alpha 區交易熱門代幣,瓜分 $30,000 獎池!
💰 獎勵規則:
1️⃣ 連續2日每日交易滿 128 USDT,即可參與共享 $20,000 美金盲盒獎勵
2️⃣ 累計買入 ≥1,024 USDT,交易量前100名可直領獎勵 100美金盲盒
⏰ 活動時間:8月29日 16:00 — 8月31日 16:00 (UTC+8)
👉 立即參與交易: https://www.gate.com/announcements/article/46841
#GateAlpha # #GateAlphaPoints # #onchain#
連ChatGPT都懂「阿諛奉承」了! OpenAI最強競對:都是“人類偏好”犯的錯
文章來源:學術頭條
你是否想過,ChatGPT 生成的答案會受到用戶個人偏好的影響,回復一些足夠「阿諛奉承(sycophancy)」的話,而非中立或真實的資訊?
實際上,這種現象存在於包括 ChatGPT 在內的大多數 AI 模型之中,而罪魁禍首竟可能是“基於人類反饋的強化學習(RLHF)”。
**近日,OpenAI 在美國矽谷的最強競爭對手 Anthropic 在研究經過 RLHF 訓練的模型時,便探究了“阿諛奉承”這一行為在 AI 模型中的廣泛存在及其是否受到人類偏好的影響。 **
相關論文以“Towards Understanding Sycophancy in Language Models”為題,已發表在預印本網站 arXiv 上。
具體來說,AI 模型表現出這種行為的一個主要原因是,當 AI 的回復符合使用者的觀點或信仰時,使用者更有可能給予積極的反饋。 也因此,為了獲得更多的積極反饋,AI 模型就可能會學習並重現這種討好用戶的行為。
阿諛奉承,最先進的 AI 助手都會
目前,像 GPT-4 這樣的 AI 模型通常可以在經過訓練後產生人們高度評價的輸出。 使用 RLHF 對語言模型進行微調可以改善它們的輸出品質,而這些品質由人類評估員評價。
然而,**有研究認為基於人類偏好判斷的訓練方案可能以不可取的方式利用人類判斷,**如鼓勵 AI 系統生成吸引人類評估員但實際上有缺陷或錯誤的輸出。
目前尚不清楚上述情況是否會發生在更多樣化和現實情境中的模型中,以及是否確實是由人類偏好中的缺陷所驅動的。
為此,該研究首先調查了最先進的 AI 助手在各種現實情境中是否提供阿諛奉承的回應。 **在自由文本生成任務中,研究人員在 5 個(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先進的經過 RLHF 訓練的 AI 助手中識別了阿諛奉承的一致模式。 **
人類偏好導致的“阿諛奉承”
**除此之外,研究又進一步探討了人類偏好在這一行為中的作用。 **為了研究這一點,研究人員對現有的人類偏好比較數據進行了調查,確定阿諛奉承回應是否在排名上高於非阿諛奉承回應。 研究對 hh-rlhf 數據集進行了分析,對每一對偏好比較使用語言模型生成文本標籤(即“特徵”),以評估優選回應是否更真實且不那麼堅決。
**為了了解數據鼓勵哪種行為,研究人員使用貝葉斯邏輯回歸模型通過這些特徵來預測人類偏好判斷。 **這個模型學到了與匹配使用者觀點相關的特徵是人類偏好判斷中最有預測性的特徵之一,這表明偏好數據確實鼓勵阿諛奉承。
為探究偏好數據中的阿諛奉承是否導致了 RLHF 模型中的阿諛奉承行為,**隨後的研究對當優化語言模型的回應以適應訓練用於預測人類偏好的模型時,阿諛奉承是否會增加進行了分析。 **研究人員使用 RLHF 和最佳-N 採樣方法來優化回應,以滿足用於訓練 Claude 2 的偏好模型。
然而,研究也發現,Claude 2 的偏好模型有時更傾向於選擇阿諛奉承的回應而不是真實的回應。 此外,採用 Claude 2 的偏好模型進行最佳-N 採樣並沒有產生像 Claude 2 偏好模型的一個版本所示的更偏好真實非阿諛奉承回應那樣真實的回應。
為了證實這些結果,研究人員又研究了人類和偏好模型是否更喜歡有說服力、寫得很好的模型回應,這些回應確認了使用者的錯誤觀點(即阿諛奉承回應),而不是糾正用戶的回應。 **證據表明,人類和偏好模型傾向於更喜歡真實的回應,但並不總是如此; 有時他們更喜歡阿諛奉承的回應。 **這些結果進一步證明瞭優化人類偏好可能會導致阿諛奉承。
研究證據顯示,人類和偏好模型普遍偏好真實的回應,然而,並不是一成不變的,因為有時他們更傾向於阿諛奉承的回應。 這些結果更進一步印證了優化以迎合人類偏好可能會導致阿諛奉承的產生。
總的來說,阿諛奉承在各種模型和情境中都存在,很可能部分原因是人類偏好比較數據中更喜歡阿諛奉承。
參考論文: