人类在处理信息时选择性地关注关键信息,从而提高了处理效率和准确性。深度学习模仿人类的这种能力引入了注意力机制,伟德国际bv1946从而给长文本处理带来了可能性。
由于注意力机制面临显存开销和计算复杂度两大发展瓶颈,为了不断通过Scaling Law提升大模型长文本处理能力和模型性能,AI产业不断在进行算法、系统、硬件三个层面的提升和优化。其中在算法层面,DeepSeek作为开源大模型领域的代表和低成本模型方向的标杆,在注意力机制的技术改进方面也做了大量的工作。
DSA:2025年9月DeepSeek发布了V3.2-Exp,它基于V3.1-Terminus构建,伟德国际bv1946引入了新的注意力机制DSA,在保持模型性能的稳定的同时,伟德国际bv1946在训练推理效率方面有了较大的提升,带来了模型较大幅度的降价。由于不需要重新训练模型,而是进行原有模型的升级,可以更低成本地进行稀疏注意力的探索与实验。
稀疏注意力的引入将注意力计算复杂度从O(L2)(L为序列长度)降至亚平方级(如O(Llog L)、(O(L*k)),从而突破内存与算力瓶颈。此前,稀疏注意力工作主要集中在推理阶段,而业界预训练阶段多采用稠密注意力机制,伟德国际bv1946而DeepSeek的NSA和DSA在训练阶段引入了稀疏注意力,给大模型带来的计算效率的提升和模型上下文的拓展,将给后训练释放更大的发展潜能,成为推动模型能力不断突破的重要支撑。伟德国际bv1946
