阿里团队:2025年Qwen2.5-1M系列大模型技术报告.pdf |
下载文档 |
资源简介
在本报告中,我们介绍了Qwen2.5-1M系列模型,将上下⽂⻓度扩展到100万标记。与之前的128K版本相⽐,Qwen2.5-1M系列通过⻓上下⽂的预训练和后训练,显著增强了⻓上下⽂功能。通过⻓数据合成、渐进式预训练和多阶段监督微调等关键技术,有效提⾼了⻓上下⽂的性能,同时降低了训练成本。 为了推⼴⻓上下⽂模型在更⼴泛的⽤⼾群之间的使⽤,我们展⽰并开源了我们的推理框架。该框架包括⼀种⻓度外推⽅法,可以将模型的上下⽂⻓度扩展⾄⾄少四倍,甚⾄更多,⽽⽆需额外训练。为了降低推理成本,我们实现了稀疏注意⼒⽅法,以及⽤于部署场景的分块预填优化和⽤于提⾼精度的稀疏度优化⽅法。此外,我们详细介绍了推理引擎中的优化,包括内核优化,管道并⾏和调度优化,显著提⾼了整体推理性能。通过利⽤我们的推理框架,Qwen2.5-1M模型在具有100万标记上下⽂的场景中实现了显著的3 倍⾄7倍的预填加速。该框架为使⽤开源模型进⾏⻓上下⽂处理的应⽤提供了⾼效且强⼤的解决⽅案。 Qwen2.5-1M系列⽬前包括开源模型Qwen2.5-7B-Instruct- 1M和Qwen2.5-14B-Instruct-1M,以及
已阅读到文档的结尾了