前段时间,在2024年NVIDIA GTC大会上,英伟达不小心透露了GPT-4采用了MoE架构,模型有1.8万亿参数,由8个220B模型组成,与此前的GPT-4泄露的信息一致。
近半年多以来,各类MoE大模型更是层出不穷。在海外,除了GPT-4,谷歌推出Gemini、Mistral AI推出Mistral、连马斯克xAI的最新大模型Grok-1用的也是MoE架构。
在国内,MiniMax在今年年初就全量发布大语言模型abab6,该模型为国内首个MoE模型,直接对标GPT-4。昆仑万维也于今年4月17日正式推出了新版MoE大语言模型「天工3.0」,拥有4000亿参数,超越了3140亿参数的Grok-1,成为全球最大的开源MoE大模型。
在各大模型厂商还在不断卷模型参数规模的今天,无论是互联网巨头,还是独角兽公司,都不约而同地选择了MOE作为大模型后续迭代的方向。
结合近期国内掀起的大模型降价浪潮,让我们不禁猜测模型成本下降的背后是否和采用新的MOE架构有关,毕竟原来一个千亿级别的通用大模型现在可能只需要几个百亿级别的MOE模型就能达到相同的效果,而训练一个千亿大模型和百亿大模型需要的成本却差了一个数量级。
下面,让我们一起来揭开MoE的神秘面纱吧。
MoE,全称Mixture of Experts,混合专家模型。MoE是大模型架构的一种,其核心工作设计思路是“术业有专攻”,即将任务分门别类,然后分给多个“专家”进行解决。与MoE相对应的概念是稠密(Dense)模型,可以理解为它是一个“通才”模型。一个通才能够处理多个不同的任务,但一群专家能够更高效、更专业地解决多个问题。

上图中,左侧图为传统大模型架构,右图为MoE大模型架构。两图对比可以看到,与传统大模型架构相比,MoE架构在数据流转过程中集成了一个专家网络层(红框部分)。下图为红框内容的放大展示:

专家网络层的核心由门控网络(Gating Network)和一组专家模型(Experts)构成,其工作流程大致如下:
- 数据首先会被分割多个区块(Token),每组数据进入专家网络层时,首先会进入门控网络;
- 门控网络将每组数据分配给一个或多个专家,每个专家模型可以专注于处理该部分数据,“让专业的人做专业的事”;
- 最终,所有专家的输出结果汇总,系统进行加权融合,得到最终输出。
MoE架构的核心思想是将一个复杂的问题分解成多个更小、更易于管理的子问题,并由不同的专家网络分别处理。这些专家网络专注于解决特定类型的问题,通过组合各自的输出来提供最终的解决方案,提高模型的整体性能和效率。
MOE的设计一般包括以下步骤:

(1)专家模型的选择与训练:
(2)门控机制(Gating Mechanism):
(3)专家模型的组合与输出:
(4)优化与训练策略:
总的来说,混合专家模型通过引入多个专门优化的专家模型,并使用门控机制动态选择和组合这些专家模型的输出,能够在处理复杂任务时表现出更高的灵活性和性能。
MoE(专家混合模型)和Dense(稠密)模型在多个方面存在差异,以下是一些关键点:
| 指标 | MOE | Dense |
|---|---|---|
| 模型结构 | 模型由多个专家组成,每次计算时只有一部分专家被激活,从而减少了计算量。 | 所有参数和激活单元都参与每一次前向和后向传播计算。 |
| 计算效率 | 由于只激活部分专家,计算量和内存需求较少,因此在处理并发查询时具有更高的吞吐量。 | 计算量和内存需求随参数规模线性增长。 |
| 性能 | 可以在保持高效计算的同时,达到与大型Dense模型相似的性能。例如,50B的MoE模型在性能上接近34B的Dense模型。 | 性能稳定,但需要大量计算资源。 |
| 时延 | 由于只需加载部分激活的专家,时延较低,尤其是在并发性较低的情况下。 | 由于需要加载所有参数,时延较高。 |
| 应用场景 | 适用于需要高效处理并发查询的任务,如大规模在线服务。 | 适用于需要稳定性能且计算资源充足的任务。 |
综上,MoE相对于Dense模型有以下几个优势:
同时,MoE同样存在以下挑战:
将一个Dense模型转换为MoE模型的过程被称为MoE化(MoEfication)。这个过程的目标是保留Dense模型的强大性能,同时通过MoE模型的高效结构实现更高的计算效率。以下是MOE化的关键步骤:
- 分解Dense模型:将Dense模型的参数和计算分解为多个专家模块。每个专家模块只处理输入数据的一部分。
- 门控机制:引入门控(gate)机制,以决定每个输入数据应该由哪些专家模块处理。门控机制可以基于输入数据的特征来动态选择专家。
- 训练MoE模型:使用与Dense模型相同的数据和训练方法,训练新的MoE模型。确保训练过程中门控机制能够有效地选择合适的专家模块。
- 优化和调试:通过实验和调试,优化MoE模型的性能和效率。可以调整门控机制、专家数量等参数,以达到最佳效果。
MoE模型是一种基于“分而治之”策略的神经网络架构,它将复杂的问题分解为多个子问题,每个子问题由一个独立的模型进行处理。这些专家模型可以是任意类型的神经网络,如全连接网络、卷积神经网络或循环神经网络等。MoE模型的核心在于如何有效地结合这些专家模型的输出,以得到最终的预测结果。
有做模型推理、微调、AI绘画出图,需要GPU资源的朋友们,可以试试UCloud云计算旗下的Compshare这家GPU算力云平台,4090性价比高,单卡按时2.6元,免费200G磁盘。单卡一个月价格在1250元,还是很香的。现在通过链接注册联系客服可以获得20元代金券,同时现在还有个内容激励活动,发布分享一些AI绘画。模型微调、推理,大模型相关的文章带上他们平台,还可以拿500元代金券,可以白嫖好久的算力了,大家可以试试。
高性价比4090算力租用,注册就送20元代金券,更有内容激励活动:GPU算力平台 | 面向AI场景的高性价比GPU租用平台
GPU云服务器租用,P40、4090、V100S多种显卡可选:GPU云服务器租用_GPU云主机限时特惠-UCloud中立云计算服务商
