文件列表:
中原证券:人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能.pdf |
下载文档 |
资源简介
>
投资要点:
人类在处理信息时选择性地关注关键信息,从而提高了处理效率和准确性。深度学习模仿人类的这种能力引入了注意力机制,从而给长文本处理带来了可能性。
由于注意力机制面临显存开销和计算复杂度两大发展瓶颈,为了不断通过ScalingLaw提升大模型长文本处理能力和模型性能,AI产业不断在进行算法、系统、硬件三个层面的提升和优化。其中在算法层面,DeepSeek作为开源大模型领域的代表和低成本模型方向的标杆,在注意力机制的技术改进方面也做了大量的工作。
NSA:2025年2月,DeepSeek梁文锋参与撰写的论文《NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparseAttention》发布,提出了原生稀疏注意力(NSA),通过算法和硬件的协同优化,把长文本处理速度提升了11倍,并实现了与传统的全注意力模型相当或更优的性能。
DSA:2025年9月DeepSeek发布了V3.2-Exp,它基于V3.1-Terminus构建,引入了新的注意力机制DSA,在保持模型性能的稳定的同时,在训练推理效率方面有了较大的提升,带
加载中...
已阅读到文档的结尾了