在大模型研究中,一种应用参数共享这种思想的例子是混合专家(Mixture of Experts, MoE)模型。在switch transformer的设计中,一些参数作为各个专家的共享参数,而另一些参数在激活时通过路由(router)来择优选用。混合专家模型作为一种稀疏的(sparse)模型,其优势是:
•
由于模型是稀疏的,可训练参数比较少,预训练环节的成本较低,时间也更短;
•
混合专家模型是一种集成架构,便于扩张模型规模;
•
由于每次推理只激活部分专家,推理效率更高。
参考文献
1.Fedus, W., Zoph, B., & Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity.