国金证券：计算机行业研究：OpenAIShipmasDay2：发布强化微调工具，提升垂类模型训练效率

发布者：wx****8f

2024-12-08

577 KB 3 页

SaaS 国金证券

文件列表：

国金证券：计算机行业研究：OpenAIShipmasDay2：发布强化微调工具，提升垂类模型训练效率.pdf

下载文档

资源简介

事件概览 2024年12月7日凌晨，OpenAI进行“Shipmas”发布活动的第二天直播，展示了强化微调训练方法（RFT，ReinforcementFine-Tuning），可帮助开发者高效微调模型，有针对性地提升模型特定能力。投资逻辑何为RFT：OpenAI曾推出过针对自家模型的监督式微调API，能够让模型模仿其在输入文本或图像中学习到的特征，可用于修改模型的语气、样式或响应格式等。本次发布的RFT则针对具体任务对模型进一步微调，可以强化模型得到正确答案的思维方式，使模型在垂类领域性能提升、生成内容更加可控。如何实现RFT：开发者需提供训练数据集、验证数据集、评分器（Grader）。训练数据集相当于模型需要针对性解答的习题集，在学习过程中模型不能看到习题集答案；评分器根据解答结果和习题集答案，输出0到1之间的分数，设置强化目的为获得尽可能高的分数；除设置评分器外，用户还可以选择调整模型种子和超参数，包括批量大小、学习率乘数、epoch数量等；验证数据集格式与训练数据集一致，但内容没有重叠，主要用于检验训练后模型的泛化能力。 RFT的应用价值：仅需几十个例子、数小时至数天时间，

加载中...

已阅读到文档的结尾了

下载文档