文件列表:
华鑫证券:计算机行业周报:字节Seed首次开源代码模型,鸿蒙电脑搭载鸿蒙AI.pdf |
下载文档 |
资源简介
>
投资要点
算力:算力租赁价格平稳,字节Seed首次开源代码模型
近日,字节Seed首次开源代码模型Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。它证明“只需极少人工参与,LLM就能自行管理代码训练数据”。通过自身生成和筛选高质量训练数据,可大幅提升模型代码生成能力,这可以被视为对DeepSeek-R1模型自我生成和筛选训练数据策略的扩展。一共包含三个版本:Base、Instruct、Reasoning,其中,Instruct在编程方面表现出色,拿下两个测试基准SOTA。而推理版本在IOI2024上超越了QwQ-32B和DeepSeek-R1。Seed-Coder的前身是doubao-coder,采用Llama3结构,参数量为8.2B,6层,隐藏层大小为4096,采用分组查询注意力(GQA)机制。最关键的工作是数据的处理,Seed团队提出了一种“模型中心”的数据处理方式,使用模型来策划数据。具体来说,模型会从GitHub和网络档案爬取原始代码数据,经过几个处理步骤后输出最终的预训练数据。
基于基础模型,Seed团队还开发了Seed-Coder的两个特殊变体——指令模型
加载中...
已阅读到文档的结尾了