文件列表:
山西证券:计算机行业快报:UltraMem架构为推理降本,AI应用全面落地可期.pdf |
下载文档 |
资源简介
>
事件描述:
2月12日,字节豆包大模型团队发布全新的稀疏模型架构UltraMem,有效解决了当前主流的MoE架构在推理时产生的高额访存问题,推理速度较MoE架构提升2-6倍,同时推理成本最高可降低83%。
事件点评:
UltraMem在PKM架构的基础上对模型结构、value检索方式、稀疏参数进行优化,在保证模型性能的同时大幅提升推理效率。UltraMem架构参考PKM(ProductKeyMemory)的设计,即Transformer层中嵌入大内存层以及推理时以行列路由的方式激活参数,访存效果较MoE架构明显改善。同时,UltraMem对PKM架构进行针对性优化以提升模型性能:1)优化模
型结构:将PKM的单个内存层拆分成多个内存层均匀嵌入Transformer层中,使模型能够并行执行访存和Transformer层计算操作;2)优化value检索方式:在推理时以TDQKR的乘法方法替代简单的行列加权方法选出得分最高的多个value,使模型能够精准检索到与输入相关的value;3)隐式扩展稀疏参数:引入数倍于physicalmemory的virtualmemory,在不提高模型部署复杂
加载中...
已阅读到文档的结尾了