文件列表:
财通证券:计算机行业专题报告:大模型推理算力知多少?.pdf |
下载文档 |
资源简介
>
Transformer生成为访存密集型任务,显存及其带宽限制算力利用。Transformer作为自回归模型,生成每一个新的token,都需要将所有输入过的token反复计算,实际产业中,会将已经计算过的量(K、V值)预存下来,避免重复计算,导致每生成一个token,都需要与显存进行数据交互(访存),导致相比计算,Transformer模型在生成过程中对访存的需求更高。目前全球最先进AI芯片的计算速度“远快于”显存带宽。我们认为,针对大模型推理这类访存密集型任务,对其算力需求的估计,不能单单考虑其FLOPs的需求,更重要的瓶颈在于访存。目前的优化手段主要是在算力成本与用户体验之间做平衡。实践中有大量优化技术以克服GPU利用率低的问题,但存在一定取舍,总结而言,在不做模型精简的情况下,GPU利用率与时延难以同时兼顾。而做参数量化、模型蒸馏等模型精简看似可以做到“兼顾”,但却舍弃了模型本身的效果。我们认为,高昂的推理算力成本是阻碍以GPT为代表的LLM模型应用大规模落地的重要原因之一,后续随着算力性价比不断提升,大模型应用发展前景广阔。支撑GPT-3.5推理任务的A100数量或至少在5万张左
加载中...
已阅读到文档的结尾了