文件列表:
自回归 Transformer API 推理效率度量的廉价评估【英文版】.pdf |
下载文档 |
资源简介
>
英文标题:Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs中文摘要:介绍了一种新的度量模型推理效率的 metric 理想运行时间(idealized runtime),对自回归 Transformer 模型进行了高效的估计。使用这些方法,作者对十种最先进的 LLM 进行了比较,并提出了多项结论,包括一些 API 的推理效率超过其他模型的原因是由于 API 中的优化措施而不是所使用的模型本身。英文摘要:Large language models (LLMs) power many state-of-the-art systems in naturallanguage processing. However, these models are extremely computationallyexpensive, even at inference time, raising the natural question: when is theextra cost of d
加载中...
已阅读到文档的结尾了