网站首页

伟德国际产品中心

智能终端处理器 智能云服务器 软件开发环境

伟德国际新闻

行业质询 公司新闻

关于伟德国际

公司概况 核心优势 核心团队 发展历程

联系伟德国际

官方微信 官方微博
主页 > 伟德国际新闻 > 公司新闻

伟德国际人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能

发布时间:2025-10-19 04:21浏览次数:来源于:网络

  人类在处理信息时选择性地关注关键信息,从而提高了处理效率和准确性。深度学习模仿人类的这种能力引入了注意力机制,伟德国际bv1946从而给长文本处理带来了可能性。

  由于注意力机制面临显存开销和计算复杂度两大发展瓶颈,为了不断通过Scaling Law提升大模型长文本处理能力和模型性能,AI产业不断在进行算法、系统、硬件三个层面的提升和优化。其中在算法层面,DeepSeek作为开源大模型领域的代表和低成本模型方向的标杆,在注意力机制的技术改进方面也做了大量的工作。

  DSA:2025年9月DeepSeek发布了V3.2-Exp,它基于V3.1-Terminus构建,伟德国际bv1946引入了新的注意力机制DSA,在保持模型性能的稳定的同时,伟德国际bv1946在训练推理效率方面有了较大的提升,带来了模型较大幅度的降价。由于不需要重新训练模型,而是进行原有模型的升级,可以更低成本地进行稀疏注意力的探索与实验。

  稀疏注意力的引入将注意力计算复杂度从O(L2)(L为序列长度)降至亚平方级(如O(Llog L)、(O(L*k)),从而突破内存与算力瓶颈。此前,稀疏注意力工作主要集中在推理阶段,而业界预训练阶段多采用稠密注意力机制,伟德国际bv1946而DeepSeek的NSA和DSA在训练阶段引入了稀疏注意力,给大模型带来的计算效率的提升和模型上下文的拓展,将给后训练释放更大的发展潜能,成为推动模型能力不断突破的重要支撑。伟德国际bv1946

下一篇:伟德国际三星申请AI音频修复专利深度学习模型助力电子设备音质优化
上一篇:伟德国际“人工智能+”:驱动产业和社会变革的新引擎

咨询我们

输入您的疑问及需求发送邮箱给我们