×
img

中原证券:人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能

发布者:wx****e4
2025-10-16
998 KB 9 页
互联网 中原证券
文件列表:
中原证券:人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能.pdf
下载文档
投资要点: 人类在处理信息时选择性地关注关键信息,从而提高了处理效率和准确性。深度学习模仿人类的这种能力引入了注意力机制,从而给长文本处理带来了可能性。 由于注意力机制面临显存开销和计算复杂度两大发展瓶颈,为了不断通过ScalingLaw提升大模型长文本处理能力和模型性能,AI产业不断在进行算法、系统、硬件三个层面的提升和优化。其中在算法层面,DeepSeek作为开源大模型领域的代表和低成本模型方向的标杆,在注意力机制的技术改进方面也做了大量的工作。 NSA:2025年2月,DeepSeek梁文锋参与撰写的论文《NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparseAttention》发布,提出了原生稀疏注意力(NSA),通过算法和硬件的协同优化,把长文本处理速度提升了11倍,并实现了与传统的全注意力模型相当或更优的性能。 DSA:2025年9月DeepSeek发布了V3.2-Exp,它基于V3.1-Terminus构建,引入了新的注意力机制DSA,在保持模型性能的稳定的同时,在训练推理效率方面有了较大的提升,带

加载中...

已阅读到文档的结尾了

下载文档

网友评论>

开通智库会员享超值特权
专享文档
免费下载
免广告
更多特权
立即开通

发布机构

更多>>

 

 

0.078980s