财通证券：计算机行业专题报告：大模型推理算力知多少？

发布者：wx****ed

2023-08-24

1 MB 12 页

互联网财通证券

文件列表：

财通证券：计算机行业专题报告：大模型推理算力知多少？.pdf

下载文档

资源简介

Transformer生成为访存密集型任务，显存及其带宽限制算力利用。Transformer作为自回归模型，生成每一个新的token，都需要将所有输入过的token反复计算，实际产业中，会将已经计算过的量（K、V值）预存下来，避免重复计算，导致每生成一个token，都需要与显存进行数据交互（访存），导致相比计算，Transformer模型在生成过程中对访存的需求更高。目前全球最先进AI芯片的计算速度“远快于”显存带宽。我们认为，针对大模型推理这类访存密集型任务，对其算力需求的估计，不能单单考虑其FLOPs的需求，更重要的瓶颈在于访存。目前的优化手段主要是在算力成本与用户体验之间做平衡。实践中有大量优化技术以克服GPU利用率低的问题，但存在一定取舍，总结而言，在不做模型精简的情况下，GPU利用率与时延难以同时兼顾。而做参数量化、模型蒸馏等模型精简看似可以做到“兼顾”，但却舍弃了模型本身的效果。我们认为，高昂的推理算力成本是阻碍以GPT为代表的LLM模型应用大规模落地的重要原因之一，后续随着算力性价比不断提升，大模型应用发展前景广阔。支撑GPT-3.5推理任务的A100数量或至少在5万张左

加载中...

已阅读到文档的结尾了

下载文档