网站首页
手机版

用于通用任务指令调优的参数高效稀疏制作

更新时间:2024-08-06 13:47作者:小乐

1. 结论上一篇论文提出了参数高效稀疏工艺(PESC),它使用MoE架构将稠密模型升级为稀疏模型。 PESC 在稀疏模型的MoE 层引入了适配器,使得无需修改每个专家的单独权重即可区分专家。该技术显着降低了计算成本和GPU 内存需求。它可以通过集成适配器以最小的参数增加来扩展模型容量。论文将PESC方法应用于各种通用任务的指令调优,并在各种基准测试中取得了显着的性能提升。此外,本文利用PESC方法开发了骆驼科稀疏模型。 Camelidae-834B在所有开源稀疏模型中实现了SOTA性能,并且表现出比GPT-3.5更好的通用能力。

2 论文简介2.1 论文背景LLM 突出的训练方法是指令调优。这种方法利用大规模、格式良好的指令数据,使法学硕士能够调整其预先训练的表示以匹配人类指令。这种指令调整的LLM 在NLP 任务中展示了出色的泛化能力。这种概括需要对跨多个领域(例如数学、编码、生物学等)的广泛指令跟踪任务进行培训。然而,这些任务固有的复杂性可能会阻碍模型的微调。具体来说,某些规模的模型可能难以优化冲突任务的损失,从而导致一般任务的性能不佳。

缩放定律指出,增加模型大小对于提高性能至关重要。扩展模型容量可以改进一般任务的指令调整。尽管如此,大多数LLM 都是基于Transformer 架构设计的密集预训练模型,这限制了指令调优期间的可扩展性。将密集模型升级为稀疏激活混合专家(MoE)模型具有更大的容量。值得注意的是,MoE 模型比密集模型对指令调整的响应更灵敏。因此,在指令调优期间将密集模型转换为MoE 模型有可能在一般任务上实现优异的性能。此转换涉及将MoE 模型中的每个专家初始化为原始前馈神经网络(FFN) 层的副本。考虑到目前LLM的参数规模,训练如此庞大的模型需要更新MoE层专家的权重,而这受到GPU内存资源和计算成本的限制。

2.2 论文计划为了缓解这些资源和成本挑战,本文提出了参数有效稀疏性制作(PESC),这是一种与PEFT技术协同有效扩展模型容量的方法。 PESC涉及在稀疏模型的MoE层中插入适配器,允许在不改变MoE层中每个专家的权重的情况下区分专家。此外,论文还应用常见的PEFT方法QLoR技术来更新稀疏模型中的其他权重。

图1. 稀疏生产概述

图1所示是一个参数化高效稀疏生产的综合框架,它与稀疏生产和参数化高效技术相配合。

生产稀疏

稀疏生产需要利用密集模型的原始权重。如图1 所示,该过程涉及用MoE 层替换每个密集Transformer 块中的FFN 层,从而创建新的稀疏Transformer 块。每个MoE层由一个路由器和几个独立的参数高效专家组成。同时,其他层(例如归一化层和注意力层)从密集变压器块复制到稀疏变压器块,以确保结构一致性。

混合专家路由策略

在稀疏变压器块中,MoE 层包含指定数量的专家。路由器采用softmax 激活函数来对这些专家的概率分布进行建模,反映每个专家处理传入令牌的能力。集成到稀疏变换器块中的路由器权重(标记为Wr)最初是随机初始化的。路由策略在MoE层起着关键作用,影响后续模型的学习。

Top-2 门路由器:图1 演示了在稀疏变压器块中使用Top-2 门路由器。对于输入序列中的每个令牌,路由器都会激活n 个专家中的两个最合适的专家。路由器收到输入的token后,生成路由器逻辑。 KeepTop2 函数在对可用的n 个专家进行softmax 分布标准化之前执行。 KeepTop2 函数应该用于仅保留路由器逻辑的前两个值,将其余值分配给-,在softmax 归一化后有效地将它们归零。

专家负载均衡:通过其门控机制,Top-2门路由器往往会不成比例地偏向某些专家,导致这些专家接受更频繁的培训,导致路由器选择不平衡。为了抵消这种不平衡并促进专家的统一利用,每个稀疏变压器块在训练期间集成了建议的辅助损失。

参数高效的混合专家

稀疏制造将其从FFN 层扩展到MoE 层,将每个专家初始化为原始FFN 层的副本。尽管在训练过程中专家被稀疏地激活,但由于LLM中FFN层的参数数量较多,该方法会产生大量的内存成本。此外,Top-2 门路由器用于为MoE 层中的每个输入令牌激活两名专家,而不是常规FFN 层中的一名专家,从而增加训练和推理时间。为了应对这些挑战,我们通过集成适配器引入参数高效的MoE 层,以更参数高效的方式实现稀疏性。

2.3 论文效果论文贡献如下:

提出了参数高效稀疏变换(PESC),这是一种参数高效调整(PEFT)的创新方法,可以有效提升模型容量。 PESC方法被应用于一般任务的指令调优中,并在各种基准测试中取得了显着的性能改进。稀疏模型,特别是骆驼科,是使用PESC 方法开发的,在所有开源稀疏模型中实现了SOTA 性能,并展示了优于GPT-3.5 的通用能力。表1. Camelidae-834B 在学术基准上的表现。 Camelidae-834B模型与SOTA开源稀疏聊天模型和各种零/少镜头密集模型进行了详细比较。值得注意的是,Camelidae-834B 在除HellaSwag 之外的几乎所有基准测试中都优于SOTA 稀疏模型,表明有显着的改进。此外,与大多数密集模型相比,Camelidae-834B 显示出优异的性能,甚至在某些方面可以与GPT-3.5 相媲美。我们提出了每项任务的性能指标,重点关注零样本或少样本评估下模型的有效性。我们单独将稀疏模型和所有模型的最高分加粗

表2. 与密集模型和稀疏模型相比,分组学术基准的总体表现

图片-20240121011515979

表3. MMLU 基准测试的五次测试性能

表4. 数学推理任务比较

表5. Human-Eval 和MBPP 上的代码生成结果

表6. 各种常识推理任务的零样本性能

表7. 世界知识任务的完整匹配性能比较(零样本)

论文标题:从密集到专家混合的参数高效稀疏性设计,用于一般任务的指令调整

论文链接:https://arxiv.org/abs/2401.02731

为您推荐

世界排名领先,麻省理工学院到底有多厉害?,麻省理工学院是干什么的

麻省理工学院作为综排TOP3的美国名校,是许多留学生选择名校的最佳选择之一。那么作为世界排名领先的麻省理工学院到底有多厉害?接下来立思辰留学云小编为你详细介绍。麻省理工((Massachusetts Institute of Technol

2024-08-06 13:49

世界名校介绍——美国 麻省理工学院(MIT) 美国麻省理工学院排名第几

学校简介麻省理工学院(Massachusetts Institute of Technology,缩写MIT)成立于1861年,位于美国马萨诸塞州波士顿附近的剑桥市,其吉祥物为海狸,代表动物界最擅长筑水坝的工程师。麻省理工素以理工闻名于世,

2024-08-06 13:49

加拿大的“MIT”,究竟是所什么样的大学?

麦克马斯特能成为加拿大的MIT是有理由的,胸怀大志力求突破的小伙伴要注意,心有多大世界就有多大,成为麦马的学生就是你走上人生巅峰应该踏出的步。论学术,麦马的实力不容置疑,论颜值,就这校园景色你沉醉了没?嗯,感觉这接下来的几年大学生活注定是不

2024-08-06 13:48

美国麻省理工学院,世界公认的最好的理工大学,亚裔占到了26%(美国麻省理工最好的专业)

麻省理工((Massachusetts Institute of Technology (MIT)—世界公认的最好的理工大学如果你自认为是科学天才,那么来到麻省理工,你就会受到打击,因为在这里,你会感到自己知道的知识原来是如此之少。麻省理工

2024-08-06 13:48

MH15/9冷热水高压清洗机,工程机械油脂残留物和污垢冲洗,高效

西安圣仕达清洁设备的MAHA高压清洗机,马哈热水清洗机,高温高压清洗机MH15/9已经是商业领域受欢迎的热水电动高压清洗机之一,并准备以重新设计的方式回归,让您更加喜欢它。在深入研究这款机器的特性之前,值得记住的是MAHA马哈品牌是农业和工

2024-08-06 13:47

LLM超长上下文查询-性能评估实战

本文经翻译并二次整理自Benchmarking Query Analysis in High Cardinality Situations一文。讲述了基于反馈的GPT自学进化的基础理念,以及基于LangSmith的实践与实操。本系列合集,点

2024-08-06 13:46

加载中...