文件列表:
中邮证券:计算机:DeepSeekV3.2加速国产AI软硬件生态闭环.pdf |
下载文档 |
资源简介
>
DeepSeek-V3.2-Exp引入新注意力机制,性能近稳、成本降超一半
9月29日,深度求索发布DeepSeek-V3.2-Exp模型,这是一个实验性的版本。作为迈向新一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeekSparseAttention(DSA),DSA首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。
得益于新模型服务成本的大幅降低,官方API价格下调50%以上。具体来看,原先百万tokens输入为0.5元(缓存命中)、4元(缓存未命中);输出12元,下调至0.2元(缓存命中)、2元(缓存未命中);输出3元。
寒武纪、昇腾day0实现对DSV3.2Exp的适配,打开国产AI软硬件协同新篇章
DS开源TileLang&CUDA算子。在新模型的研究过程中,需要设计和实现很多新的GPU算子。DS使用高级语言TileLang进行快速原型开发,以支持更深入的探索。在最后阶段,以TileLang作为精度基线,逐步使用底层语言实现更高效的版本。
寒武纪已同步实现对DeepSeek-V3
加载中...
已阅读到文档的结尾了