🔥 Gate Alpha 限时赏金活动第三期上线!
在 Alpha 区交易热门代币,瓜分 $30,000 奖池!
💰 奖励规则:
1️⃣ 连续2日每日交易满 128 USDT,即可参与共享 $20,000 美金盲盒奖励
2️⃣ 累计买入 ≥1,024 USDT,交易量前100名可直领奖励 100美金盲盒
⏰ 活动时间:8月29日 16:00 — 8月31日 16:00 (UTC+8)
👉 立即参与交易: https://www.gate.com/announcements/article/46841
#GateAlpha # #GateAlphaPoints # #onchain#
最好7B模型再易主!打败700亿LLaMA2,苹果电脑就能跑|开源免费
原文来源:量子位
花500刀“调教”的70亿参数模型,打败700亿参数的Llama 2!
且笔记本就能轻松跑,效果媲美ChatGPT。
重点:免费、不要钱。
HuggingFace H4团队打造的开源模型Zephyr-7B,鲨疯了。
而Zephyr能够在各变种中脱颖而出,关键是团队在Mistral的基础上,使用直接偏好优化(DPO)在公开数据集上微调了模型。
团队还发现,删除数据集的内置对齐,可以进一步提高MT Bench性能。初代Zephyr-7B-alpha的MT-Bench平均得分7.09 ,超越Llama2-70B-Chat。
关键是,它接着又升级了!
H4团队推出二代Zephyr-7B-beta。他们补充道,探索了从GPT-4、Claude 2中提取对齐性,然后将其注入小模型中的想法,开发出了将蒸馏直接偏好优化(dDPO)用于小模型的方法。
二代Zephyr,MT-Bench平均得分升高至7.34。
Mistral这个单词在法语里代表一种干燥、寒冷且强劲的风,而Zephyr意思则是温和、宜人的西风。
Llama那边是动物园,这边是气象局无疑了。
最好的7B模型再易主
先来说运行Zephyr对电脑配置的要求。网友实测后表示“泰裤辣”!,笔记本(Apple M1 Pro)就够用,“结果非常好”。
数据也显示,Zephyr高级RAG任务效果可以和GPT-3.5、Claude 2相抗衡。
他们还继续补充道,Zephyr不仅在RAG上效果突出,而且在路由、查询规划、检索复杂SQL语句、结构化数据提取方面也表现良好。
舍弃强化学习
大家都在纷纷测试Zephyr的效果,开发人员却表示,最有趣的不是各项指标,而是模型的训练方式。
亮点总结如下:
展开来说,正如开头所提到的,Zephyr的效果之所以能够超越70B的Llama 2,主要是因为使用了特殊的微调方法。
与传统的PPO强化学习方法不同,研究团队使用了斯坦福大学和CZ Biohub不久前合作提出DPO方法。
DPO简单来讲可以这样解释:
要想使模型的输出更加符合人类偏好,一直以来传统方法是用一个奖励模型来微调目标模型。输出得好给奖励,输出不好不给奖励。
而DPO的方法绕过了建模奖励函数,相当于直接在偏好数据上优化模型。
总的来说,DPO解决了人类反馈的强化学习训练难、训练成本高的问题。
具体到Zephyr的训练上,研究团队最初是在UltraChat数据集精简后的变种上对Zephyr-7B-alpha进行了微调,这个数据集包含了ChatGPT生成的160万个对话(精简后剩下约20万个)。
(之所以要精简过滤,是因为团队发现Zephyr有时大小写写不对,比如“Hi. how are you?”;有时会以“I don’t have personal X”为开头进行回应。)
之后,他们又通过TRL的DPO Trainer方法,用公开的openbmb/UltraFeedback数据集进一步对齐了该模型。
数据集中包含了64000个来自各种模型的提示-响应对。每个响应都由GPT-4根据有用性等标准进行排名,并赋予一个得分,从中推出AI偏好。
一个有趣的发现是,在用DPO的方法时,随着训练时间增加,过拟合后,效果居然更好了。研究人员认为这类似于SFT中的过拟合。
他们思考了大模型所用的蒸馏监督微调(dSFT),但用这种方法模型是不对齐的,不能很好地生成符合用户意图的输出。
研究人员还测试了不用SFT时的效果,结果性能大大降低,说明dSFT步骤至关重要。
Demo试玩体验
首先就不得不搬出“弱智吧”问题来考一考了。
在“爸妈结婚不带我”这个问题上,Zephyr总体回答较为准确。
但之前就有网友测试过,今年三月份的事它也知道。
此外,Zephyr的响应速度也非常快,写代码、编故事都不在话下。:
研究人员也有提到幻觉问题,输入框的下方也标有一行小字,指明该模型生成的内容可能不准确或错误。
emmm鱼和熊掌总要选一个。
Zephyr只有70B参数就能做到这样的效果,让《100页的机器学习书》作者Andriy Burkov也很吃惊,甚至表示:
论文链接:
参考链接:
[1]
[2]
[3]
[4]
[5]