文件列表:
国金证券:计算机行业周报:DeepSeek或在年底发布Agent新模型,Anthropic完成F轮融资.pdf |
下载文档 |
资源简介
>
本周观点
9月1日,美团发布并开源LongCat-Flash专家混合(MoE)模型,含5600亿个参数,可以根据上下文需求激活186亿至313亿(平均270亿)个参数。美团称,该模型具备快捷连接架构,扩展了计算-通信重叠窗口,实现了每秒超过100个token的推理速度。该模型的训练阶段使用超参数迁移、模型增长初始化、确定性计算及多层稳定性套件,在20万亿token数据上30天内完成预训练,系统可用率98.48%,无明显损失尖峰。经测试,LongCat-Flash在非思考型模型中的综合性能与DeepSeek-V3.1.Kimi-K2相当,参数量和推理开销更低。据外媒彭博社报道,DeepSeek目前正在开发具有更强大AIAgent能力的新模型,预计在今年年底将推出。彭博社援引知情人士消息,表示DeepSeek的下一个模型仅需少量提示,就能帮用户执行复杂操作,并且还能根据历史操作自我进化和学习。这一模型将在今年最后一个季度推出。DeepSeek官方目前还未回应这一传闻,但其在DeepSeek-V3.1上线的官方升级公告中提到DeepSeek-V3.1具备更强的Agent能力,通过Post-T
加载中...
已阅读到文档的结尾了