美国留学选择什么专业好?留学美国热门专业推荐
2019-06-26
更新时间:2024-08-06 13:47作者:小乐
1. 结论上一篇论文提出了参数高效稀疏工艺(PESC),它使用MoE架构将稠密模型升级为稀疏模型。 PESC 在稀疏模型的MoE 层引入了适配器,使得无需修改每个专家的单独权重即可区分专家。该技术显着降低了计算成本和GPU 内存需求。它可以通过集成适配器以最小的参数增加来扩展模型容量。论文将PESC方法应用于各种通用任务的指令调优,并在各种基准测试中取得了显着的性能提升。此外,本文利用PESC方法开发了骆驼科稀疏模型。 Camelidae-834B在所有开源稀疏模型中实现了SOTA性能,并且表现出比GPT-3.5更好的通用能力。
2 论文简介2.1 论文背景LLM 突出的训练方法是指令调优。这种方法利用大规模、格式良好的指令数据,使法学硕士能够调整其预先训练的表示以匹配人类指令。这种指令调整的LLM 在NLP 任务中展示了出色的泛化能力。这种概括需要对跨多个领域(例如数学、编码、生物学等)的广泛指令跟踪任务进行培训。然而,这些任务固有的复杂性可能会阻碍模型的微调。具体来说,某些规模的模型可能难以优化冲突任务的损失,从而导致一般任务的性能不佳。
缩放定律指出,增加模型大小对于提高性能至关重要。扩展模型容量可以改进一般任务的指令调整。尽管如此,大多数LLM 都是基于Transformer 架构设计的密集预训练模型,这限制了指令调优期间的可扩展性。将密集模型升级为稀疏激活混合专家(MoE)模型具有更大的容量。值得注意的是,MoE 模型比密集模型对指令调整的响应更灵敏。因此,在指令调优期间将密集模型转换为MoE 模型有可能在一般任务上实现优异的性能。此转换涉及将MoE 模型中的每个专家初始化为原始前馈神经网络(FFN) 层的副本。考虑到目前LLM的参数规模,训练如此庞大的模型需要更新MoE层专家的权重,而这受到GPU内存资源和计算成本的限制。
2.2 论文计划为了缓解这些资源和成本挑战,本文提出了参数有效稀疏性制作(PESC),这是一种与PEFT技术协同有效扩展模型容量的方法。 PESC涉及在稀疏模型的MoE层中插入适配器,允许在不改变MoE层中每个专家的权重的情况下区分专家。此外,论文还应用常见的PEFT方法QLoR技术来更新稀疏模型中的其他权重。
图1. 稀疏生产概述
图1所示是一个参数化高效稀疏生产的综合框架,它与稀疏生产和参数化高效技术相配合。
生产稀疏
稀疏生产需要利用密集模型的原始权重。如图1 所示,该过程涉及用MoE 层替换每个密集Transformer 块中的FFN 层,从而创建新的稀疏Transformer 块。每个MoE层由一个路由器和几个独立的参数高效专家组成。同时,其他层(例如归一化层和注意力层)从密集变压器块复制到稀疏变压器块,以确保结构一致性。
混合专家路由策略
在稀疏变压器块中,MoE 层包含指定数量的专家。路由器采用softmax 激活函数来对这些专家的概率分布进行建模,反映每个专家处理传入令牌的能力。集成到稀疏变换器块中的路由器权重(标记为Wr)最初是随机初始化的。路由策略在MoE层起着关键作用,影响后续模型的学习。
Top-2 门路由器:图1 演示了在稀疏变压器块中使用Top-2 门路由器。对于输入序列中的每个令牌,路由器都会激活n 个专家中的两个最合适的专家。路由器收到输入的token后,生成路由器逻辑。 KeepTop2 函数在对可用的n 个专家进行softmax 分布标准化之前执行。 KeepTop2 函数应该用于仅保留路由器逻辑的前两个值,将其余值分配给-,在softmax 归一化后有效地将它们归零。
专家负载均衡:通过其门控机制,Top-2门路由器往往会不成比例地偏向某些专家,导致这些专家接受更频繁的培训,导致路由器选择不平衡。为了抵消这种不平衡并促进专家的统一利用,每个稀疏变压器块在训练期间集成了建议的辅助损失。
参数高效的混合专家
稀疏制造将其从FFN 层扩展到MoE 层,将每个专家初始化为原始FFN 层的副本。尽管在训练过程中专家被稀疏地激活,但由于LLM中FFN层的参数数量较多,该方法会产生大量的内存成本。此外,Top-2 门路由器用于为MoE 层中的每个输入令牌激活两名专家,而不是常规FFN 层中的一名专家,从而增加训练和推理时间。为了应对这些挑战,我们通过集成适配器引入参数高效的MoE 层,以更参数高效的方式实现稀疏性。
2.3 论文效果论文贡献如下:
提出了参数高效稀疏变换(PESC),这是一种参数高效调整(PEFT)的创新方法,可以有效提升模型容量。 PESC方法被应用于一般任务的指令调优中,并在各种基准测试中取得了显着的性能改进。稀疏模型,特别是骆驼科,是使用PESC 方法开发的,在所有开源稀疏模型中实现了SOTA 性能,并展示了优于GPT-3.5 的通用能力。表1. Camelidae-834B 在学术基准上的表现。 Camelidae-834B模型与SOTA开源稀疏聊天模型和各种零/少镜头密集模型进行了详细比较。值得注意的是,Camelidae-834B 在除HellaSwag 之外的几乎所有基准测试中都优于SOTA 稀疏模型,表明有显着的改进。此外,与大多数密集模型相比,Camelidae-834B 显示出优异的性能,甚至在某些方面可以与GPT-3.5 相媲美。我们提出了每项任务的性能指标,重点关注零样本或少样本评估下模型的有效性。我们单独将稀疏模型和所有模型的最高分加粗
表2. 与密集模型和稀疏模型相比,分组学术基准的总体表现
图片-20240121011515979
表3. MMLU 基准测试的五次测试性能
表4. 数学推理任务比较
表5. Human-Eval 和MBPP 上的代码生成结果
表6. 各种常识推理任务的零样本性能
表7. 世界知识任务的完整匹配性能比较(零样本)
论文标题:从密集到专家混合的参数高效稀疏性设计,用于一般任务的指令调整
论文链接:https://arxiv.org/abs/2401.02731