用于通用任务指令调优的参数高效稀疏制作

更新时间：2024-08-06 13:47作者：小乐

1. 结论上一篇论文提出了参数高效稀疏工艺（PESC），它使用MoE架构将稠密模型升级为稀疏模型。 PESC 在稀疏模型的MoE 层引入了适配器，使得无需修改每个专家的单独权重即可区分专家。该技术显着降低了计算成本和GPU 内存需求。它可以通过集成适配器以最小的参数增加来扩展模型容量。论文将PESC方法应用于各种通用任务的指令调优，并在各种基准测试中取得了显着的性能提升。此外，本文利用PESC方法开发了骆驼科稀疏模型。 Camelidae-834B在所有开源稀疏模型中实现了SOTA性能，并且表现出比GPT-3.5更好的通用能力。

2 论文简介2.1 论文背景LLM 突出的训练方法是指令调优。这种方法利用大规模、格式良好的指令数据，使法学硕士能够调整其预先训练的表示以匹配人类指令。这种指令调整的LLM 在NLP 任务中展示了出色的泛化能力。这种概括需要对跨多个领域（例如数学、编码、生物学等）的广泛指令跟踪任务进行培训。然而，这些任务固有的复杂性可能会阻碍模型的微调。具体来说，某些规模的模型可能难以优化冲突任务的损失，从而导致一般任务的性能不佳。

缩放定律指出，增加模型大小对于提高性能至关重要。扩展模型容量可以改进一般任务的指令调整。尽管如此，大多数LLM 都是基于Transformer 架构设计的密集预训练模型，这限制了指令调优期间的可扩展性。将密集模型升级为稀疏激活混合专家（MoE）模型具有更大的容量。值得注意的是，MoE 模型比密集模型对指令调整的响应更灵敏。因此，在指令调优期间将密集模型转换为MoE 模型有可能在一般任务上实现优异的性能。此转换涉及将MoE 模型中的每个专家初始化为原始前馈神经网络(FFN) 层的副本。考虑到目前LLM的参数规模，训练如此庞大的模型需要更新MoE层专家的权重，而这受到GPU内存资源和计算成本的限制。

2.2 论文计划为了缓解这些资源和成本挑战，本文提出了参数有效稀疏性制作（PESC），这是一种与PEFT技术协同有效扩展模型容量的方法。 PESC涉及在稀疏模型的MoE层中插入适配器，允许在不改变MoE层中每个专家的权重的情况下区分专家。此外，论文还应用常见的PEFT方法QLoR技术来更新稀疏模型中的其他权重。

图1. 稀疏生产概述

图1所示是一个参数化高效稀疏生产的综合框架，它与稀疏生产和参数化高效技术相配合。

生产稀疏

稀疏生产需要利用密集模型的原始权重。如图1 所示，该过程涉及用MoE 层替换每个密集Transformer 块中的FFN 层，从而创建新的稀疏Transformer 块。每个MoE层由一个路由器和几个独立的参数高效专家组成。同时，其他层（例如归一化层和注意力层）从密集变压器块复制到稀疏变压器块，以确保结构一致性。

混合专家路由策略

在稀疏变压器块中，MoE 层包含指定数量的专家。路由器采用softmax 激活函数来对这些专家的概率分布进行建模，反映每个专家处理传入令牌的能力。集成到稀疏变换器块中的路由器权重（标记为Wr）最初是随机初始化的。路由策略在MoE层起着关键作用，影响后续模型的学习。

Top-2 门路由器：图1 演示了在稀疏变压器块中使用Top-2 门路由器。对于输入序列中的每个令牌，路由器都会激活n 个专家中的两个最合适的专家。路由器收到输入的token后，生成路由器逻辑。 KeepTop2 函数在对可用的n 个专家进行softmax 分布标准化之前执行。 KeepTop2 函数应该用于仅保留路由器逻辑的前两个值，将其余值分配给-，在softmax 归一化后有效地将它们归零。

专家负载均衡：通过其门控机制，Top-2门路由器往往会不成比例地偏向某些专家，导致这些专家接受更频繁的培训，导致路由器选择不平衡。为了抵消这种不平衡并促进专家的统一利用，每个稀疏变压器块在训练期间集成了建议的辅助损失。

参数高效的混合专家

稀疏制造将其从FFN 层扩展到MoE 层，将每个专家初始化为原始FFN 层的副本。尽管在训练过程中专家被稀疏地激活，但由于LLM中FFN层的参数数量较多，该方法会产生大量的内存成本。此外，Top-2 门路由器用于为MoE 层中的每个输入令牌激活两名专家，而不是常规FFN 层中的一名专家，从而增加训练和推理时间。为了应对这些挑战，我们通过集成适配器引入参数高效的MoE 层，以更参数高效的方式实现稀疏性。

2.3 论文效果论文贡献如下：

提出了参数高效稀疏变换（PESC），这是一种参数高效调整（PEFT）的创新方法，可以有效提升模型容量。 PESC方法被应用于一般任务的指令调优中，并在各种基准测试中取得了显着的性能改进。稀疏模型，特别是骆驼科，是使用PESC 方法开发的，在所有开源稀疏模型中实现了SOTA 性能，并展示了优于GPT-3.5 的通用能力。表1. Camelidae-834B 在学术基准上的表现。 Camelidae-834B模型与SOTA开源稀疏聊天模型和各种零/少镜头密集模型进行了详细比较。值得注意的是，Camelidae-834B 在除HellaSwag 之外的几乎所有基准测试中都优于SOTA 稀疏模型，表明有显着的改进。此外，与大多数密集模型相比，Camelidae-834B 显示出优异的性能，甚至在某些方面可以与GPT-3.5 相媲美。我们提出了每项任务的性能指标，重点关注零样本或少样本评估下模型的有效性。我们单独将稀疏模型和所有模型的最高分加粗

表2. 与密集模型和稀疏模型相比，分组学术基准的总体表现

图片-20240121011515979

表3. MMLU 基准测试的五次测试性能

表4. 数学推理任务比较

表5. Human-Eval 和MBPP 上的代码生成结果

表6. 各种常识推理任务的零样本性能

表7. 世界知识任务的完整匹配性能比较（零样本）

论文标题：从密集到专家混合的参数高效稀疏性设计，用于一般任务的指令调整

论文链接：https://arxiv.org/abs/2401.02731

上一篇：美国麻省理工学院，世界公认的最好的理工大学，亚裔占到了26%（美国麻省理工最好的专业）

下一篇：MH15/9冷热水高压清洗机，工程机械油脂残留物和污垢冲洗，高效

加载中...

美国留学