GPT-4比你更會問問題:讓大模型自主複述,打破與人類對話的壁壘

原文來源:機器之心

圖片來源:由無界 AI生成

在最新的人工智慧領域動態中,人工生成的提示()品質對大語言模型(LLM)的回應精度有著決定性影響。 OpenAI 提出的建議指出,精確、詳細且具體的問題對於這些大語言模型的表現至關重要。 然而,普通使用者是否能夠確保他們的問題對於 LLM 來說足夠清晰明瞭?

值得注意的是,人類在某些情境下的自然理解能力與機器的解讀存在明顯差異。 例如,「偶數月」 這一概念,在人類看來很明顯指的是二月,四月等月份,而 GPT-4 卻可能將其誤解為天數為偶數的月份。 這不僅揭示了人工智慧在理解日常語境上的局限性,也促使我們反思如何更有效地與這些大語言模型進行交流。 隨著人工智慧技術的不斷進步,如何橋接人類與機器在語言理解上的鴻溝,是一個未來研究的重要課題。

對此,加利福尼亞大學洛杉磯分校(UCLA)顧全全教授領導的通用人工智慧實驗室發佈了一份研究報告,針對大語言模型(如 GPT-4)在問題理解上的歧義問題提出了一種創新的解決方案。 這項研究由博士生鄧依荷,張蔚桐,陳子翔完成。

* 論文地址:

  • 項目位址:

該方案的核心在於讓大語言模型對提出的問題進行複述與擴寫,以提高其回答的準確性。 研究發現,經 GPT-4 重新表述的問題變得更加詳細,問題格式也更為清晰了。 這種複述與擴寫的方法顯著提高了模型的回答準確率。 實驗表明,一個良好的複述之後的問題,使回答的準確率從原本的 50% 提高到了接近 100%。 這一性能提升不僅展示了大語言模型自我改進的潛力,也為人工智慧如何更有效地處理和理解人類語言提供了新的視角。

方法

基於以上的發現,研究者提出了一個簡單但效果顯著的提示詞 ():“Rephrase and expand the question, and respond”(簡稱為 RaR)。 這一提示詞直接提高了 LLM 回答問題的品質,展示了在問題處理上的一個重要提升。

研究團隊還提出了RaR的一種變體,稱為 「Two-step RaR」,以充分利用像 GPT-4 這樣的大模型複述問題的能力。 這種方法遵循兩個步驟:首先,針對給定的問題,使用一個專門的 Rephrasing LLM 生成一個複述問題; 其次,將原始問題和複述后的問題結合起來,用於提示一個 Responding LLM 進行回答。

結果

研究人員在不同任務上的實驗顯示,無論是 (One-step) RaR 還是 Two-step RaR,都在提高 GPT4 的回答準確率方面顯示出了一致的有效性。 值得注意的是,在原本對於 GPT-4 極具挑戰性的任務上,RaR 展現出了顯著的改進效果,甚至在某些情況下準確率接近 100%。 基於此,研究團隊總結了以下兩點關鍵的結論:

  1. 複述並擴寫(RaR)提供了一種隨插即用的黑箱式提示方法,能夠有效地提高 LLM 在各種任務上的性能。

  2. 在評估 LLM 在問答(QA)任務上的表現時,檢查問題的質量至關重要。

進一步的,研究人員採用了 Two-step RaR 來探究 GPT-4、GPT-3.5 和 Vicuna-13b-v.15 等不同模型的表現。 實驗結果顯示,對於那些具備更複雜架構和更強大處理能力的模型,如 GPT-4,RaR 方法能夠顯著提升其處理問題的準確性和效率。 而對於較為簡單的模型,例如 Vicuna,儘管改進幅度較小,但依然證明瞭 RaR 策略的有效性。 基於此,研究人員進一步檢查了不同模型複述后的問題品質。 對於較小模型的複述問題,有時可能對問題的意圖產生擾動。 而如 GPT-4 這樣的高級模型提供的複述問題與人類的意圖往往更加吻合,並能增強其他模型的回答效果。

這一發現揭示了一個重要的現象:不同等級的語言模型複述的問題在品質和效果上存在差異。 特別是像 GPT-4 這樣的高級模型,它複述的問題不僅能夠為自身提供更清晰的問題理解,還能夠作為一種有效的輸入,提高其他較小模型的性能。

與思維鏈(CoT)的區別

為了理解RaR與思維鏈(CoT)之間的區別,研究人員提出了它們的數學表述,並闡明瞭RaR在數學上與CoT的不同之處,以及它們如何可以輕鬆結合。

這項研究同時表明,在深入探討如何增強模型推理能力之前,應該提高問題的品質以確保模型的推理能力可以被正確評估。 比如 「硬幣翻轉」 問題,人們發現與人類的意圖不同的是,GPT-4 將 「翻轉(flip)」 這一詞語理解為隨機拋擲的動作。 當引導模型使用 「Let」s think step by step“ 來進行推理時,這種誤解仍然存在於推理過程中。 只有在澄清了問題之後,大語言模型才會回應預期的問題。

進一步的,研究人員注意到,除了問題文本之外,用於few-shotCoT的問答示例也是由人類編寫的。 這就引發了一個問題:當這些人工構造的示例存在缺陷時,大語言模型(LLM)會作出怎樣的反應? 該研究提供了一個很有意思的例子,並發現不良的few-shotCoT示例可能會對LLM產生負面影響。 以 「末尾字母連接」 任務為例,先前使用的問題示例在提高模型性能方面顯示出了積極效果。 然而,當提示邏輯發生變化,比如從找到末尾字母變成找到首位字母,GPT-4 卻給出了錯誤的答案。 這一現象突顯了模型對人工範例的敏感性。

研究人員發現,通過使用RaR,GPT-4能夠糾正給定示例中的邏輯缺陷,從而提高Few-shotCoT的質量和穩健性。

結論

人類和大語言模型(LLM)之間交流可能存在誤解:看似對人類清晰的問題可能仍會被大語言模型理解成其他的問題。 UCLA 的研究團隊基於這個問題提出 RaR 這一新穎方法,促使 LLM 先複述並澄清問題,然後再回答。

RaR 在一系列基準數據集上進行的實驗評估證實了其方法的有效性。 進一步分析顯示,通過複述得到的問題品質提升是可以跨模型轉移的。

展望未來,RaR 這類的方法預計將持續完善,以及它們與 CoT 等其他方法的整合,將為人類與大語言模型之間更準確、更有效的互動鋪平道路,最終拓展 AI 解釋和推理能力的邊界。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)