对于Transformer架构[56],注意力机制构成了主要的计算瓶颈,因为计算查询和键的自注意力分数具有序列长度的二次方缩放。扩展注意力以适应更长的上下文将解锁新的能力(对多个长文档进行建模和推理[24, 42, 49]以及大型代码库中的文件[30, 47]),新的模态(高分辨率图像[11],音频[23],视频[25]),以及新的应用(用户与长历史记录的交互[51],具有长期视野的代理工作流[59])。这在长上下文领域引发了对加速注意力计算的重大兴趣,包括通过近似[14, 27, 54]和软硬件优化([17, 29, 44]),甚至替代架构[22, 41, 53]。译者注:比如最近的TTT