Gu and Dao(2023)介绍了Mamba,一种新的选择性状态空间模型(SSM)类,旨在通过解决Transformer在长序列中的计算效率问题来改进序列建模。Mamba结合了以前的SSM设计和一个新的选择机制,根据输入参数化SSM参数,使得模型能够在序列长度维度上选择性地传播或忘记信息。这种方法使Mamba在序列长度上实现线性扩展,并在推理期间具有高吞吐量。
1.Gu, A., & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. Machine Learning Department, Carnegie Mellon University; Department of Computer Science, Princeton University.