×
img

国金证券:计算机行业研究:OpenAIShipmasDay2:发布强化微调工具,提升垂类模型训练效率

发布者:wx****8f
2024-12-08
577 KB 3 页
SaaS 国金证券
文件列表:
国金证券:计算机行业研究:OpenAIShipmasDay2:发布强化微调工具,提升垂类模型训练效率.pdf
下载文档
事件概览 2024年12月7日凌晨,OpenAI进行“Shipmas”发布活动的第二天直播,展示了强化微调训练方法(RFT,ReinforcementFine-Tuning),可帮助开发者高效微调模型,有针对性地提升模型特定能力。 投资逻辑 何为RFT:OpenAI曾推出过针对自家模型的监督式微调API,能够让模型模仿其在输入文本或图像中学习到的特征,可用于修改模型的语气、样式或响应格式等。本次发布的RFT则针对具体任务对模型进一步微调,可以强化模型得到正确答案的思维方式,使模型在垂类领域性能提升、生成内容更加可控。 如何实现RFT:开发者需提供训练数据集、验证数据集、评分器(Grader)。训练数据集相当于模型需要针对性解答的习题集,在学习过程中模型不能看到习题集答案;评分器根据解答结果和习题集答案,输出0到1之间的分数,设置强化目的为获得尽可能高的分数;除设置评分器外,用户还可以选择调整模型种子和超参数,包括批量大小、学习率乘数、epoch数量等;验证数据集格式与训练数据集一致,但内容没有重叠,主要用于检验训练后模型的泛化能力。 RFT的应用价值:仅需几十个例子、数小时至数天时间,

加载中...

已阅读到文档的结尾了

下载文档

网友评论>