🔥 Gate Alpha 限時賞金活動第三期上線!
在 Alpha 區交易熱門代幣,瓜分 $30,000 獎池!
💰 獎勵規則:
1️⃣ 連續2日每日交易滿 128 USDT,即可參與共享 $20,000 美金盲盒獎勵
2️⃣ 累計買入 ≥1,024 USDT,交易量前100名可直領獎勵 100美金盲盒
⏰ 活動時間:8月29日 16:00 — 8月31日 16:00 (UTC+8)
👉 立即參與交易: https://www.gate.com/announcements/article/46841
#GateAlpha # #GateAlphaPoints # #onchain#
最好7B模型再易主! 打敗700億LLaMA2,蘋果電腦就能跑|開源免費
原文來源:量子位
花500刀「調教」的70億參數模型,打敗700億參數的Llama 2!
且筆記本就能輕鬆跑,效果媲美ChatGPT。
重點:免費、不要錢。
HuggingFace H4團隊打造的開源模型Zephyr-7B,鯊瘋了。
而Zephyr能夠在各變種中脫穎而出,關鍵是團隊在Mistral的基礎上,使用直接偏好優化(DPO)在公開數據集上微調了模型。
團隊還發現,刪除數據集的內置對齊,可以進一步提高MT Bench性能。 初代Zephyr-7B-alpha的MT-Bench平均得分7.09 ,超越Llama2-70B-Chat。
**
**###### △MT-Bench是評估模型處理多輪對話能力的基準測試,問題集涵蓋寫作、角色扮演、提取等8個類別。
關鍵是,它接著又升級了!
H4團隊推出二代Zephyr-7B-beta。 他們補充道,探索了從GPT-4、Claude 2中提取對齊性,然後將其注入小模型中的想法,開發出了將蒸餾直接偏好優化(dDPO)用於小模型的方法。
二代Zephyr,MT-Bench平均得分升高至7.34。
Mistral這個單詞在法語里代表一種乾燥、寒冷且強勁的風,而Zephyr意思則是溫和、宜人的西風。
Llama那邊是動物園,這邊是氣象局無疑了。
最好的7B模型再易主
先來說運行Zephyr對電腦配置的要求。 網友實測後表示「泰褲辣」! ,筆記本(Apple M1 Pro)就夠用,“結果非常好”。
數據也顯示,Zephyr高級RAG任務效果可以和GPT-3.5、Claude 2相抗衡。
他們還繼續補充道,Zephyr不僅在RAG上效果突出,而且在路由、查詢規劃、檢索複雜SQL語句、結構化數據提取方面也表現良好。
捨棄強化學習
大家都在紛紛測試Zephyr的效果,開發人員卻表示,最有趣的不是各項指標,而是模型的訓練方式。
亮點總結如下:
展開來說,正如開頭所提到的,Zephyr的效果之所以能夠超越70B的Llama 2,主要是因為使用了特殊的微調方法。
與傳統的PPO強化學習方法不同,研究團隊使用了斯坦福大學和CZ Biohub不久前合作提出DPO方法。
DPO簡單來講可以這樣解釋:
要想使模型的輸出更加符合人類偏好,一直以來傳統方法是用一個獎勵模型來微調目標模型。 輸出得好給獎勵,輸出不好不給獎勵。
而DPO的方法繞過了建模獎勵函數,相當於直接在偏好數據上優化模型。
總的來說,DPO解決了人類反饋的強化學習訓練難、訓練成本高的問題。
具體到Zephyr的訓練上,研究團隊最初是在UltraChat數據集精簡后的變種上對Zephyr-7B-alpha進行了微調,這個數據集包含了ChatGPT生成的160萬個對話(精簡后剩下約20萬個)。
(之所以要精簡過濾,是因為團隊發現Zephyr有時大小寫寫不對,比如“Hi. how are you?”; 有時會以“I don't have personal X”為開頭進行回應。 )
之後,他們又通過TRL的DPO Trainer方法,用公開的openbmb/UltraFeedback數據集進一步對齊了該模型。
數據集中包含了64000個來自各種模型的提示-回應對。 每個回應都由GPT-4根據有用性等標準進行排名,並賦予一個得分,從中推出AI偏好。
一個有趣的發現是,在用DPO的方法時,隨著訓練時間增加,過擬合后,效果居然更好了。 研究人員認為這類似於SFT中的過擬合。
他們思考了大模型所用的蒸餾監督微調(dSFT),但用這種方法模型是不對齊的,不能很好地生成符合使用者意圖的輸出。
研究人員還測試了不用SFT時的效果,結果性能大大降低,說明dSFT步驟至關重要。
Demo試玩體驗
首先就不得不搬出「弱智吧」問題來考一考了。
在“爸媽結婚不帶我”這個問題上,Zephyr總體回答較為準確。
但之前就有網友測試過,今年三月份的事它也知道。
此外,Zephyr的回應速度也非常快,寫代碼、編故事都不在話下。 :
研究人員也有提到幻覺問題,輸入框的下方也標有一行小字,指明該模型生成的內容可能不準確或錯誤。
emmm魚和熊掌總要選一個。
Zephyr只有70B參數就能做到這樣的效果,讓《100頁的機器學習書》作者Andriy Burkov也很吃驚,甚至表示:
論文連結:
參考連結:
[1]
[2]
[3]
[4]
[5]