文件列表:
蒸馏逐步!用更少的训练数据和更小的模型尺寸胜过更大的语言模型【英文版】.pdf |
下载文档 |
资源简介
>
英文标题:Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes中文摘要:本文介绍一种名为 “Distilling step-by-step” 的新机制,该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型,并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明,相对于 finetuning 和 distillation,本机制使用更少的标注 / 非标注训练样例实现更好的性能;并且相对于 LLMs,使用明显更小的模型尺寸实现更好的性能;作者使用了 only 80% of available data on a benchmark task,就可以使用 770M T5 模型胜过 540B PaLM。英文摘要:Deploying large language models (LLMs) is challenging
加载中...
已阅读到文档的结尾了