文件列表:
华福证券:传媒:DeepSeek带来的AI变革.pdf |
下载文档 |
资源简介
>
投资要点:
一、用户量:海外加速出圈,迅速登顶全球下载榜单
1、网页端:重度用户为主,DeepSeek在24年12月26日推出V3(对标GPT4o),因其显著的性能,用户迅速开始增长,同时在1月20日发布R1(对标GPT-o1)后,进一步出圈。
2、APP端:大众用户为主,R1推出后,追平GPT-o1,迅速出圈海外。根据点点数据,从DeepSeek在美国下载排名从1月22日的201名,迅速在1月27日登顶第一名;根据七麦数据,截止1月30日,DeepSeek在168个国家位居下载榜第一名。
二、DeepSeek偏好激进性创新:架构(MOE+MLA)+精度(FP8)
1、MOE架构创新:相比过去主流模型的MOE专家模型停留在8~16个,而DeepSeek每个MoE层包含1个共享专家和256个路由专家,有助于降低模型推理时激活的参数量。
2、MLA架构创新:MLA通过联合压缩键值矩阵为低秩向量,将多个头的键值信息融合,使推理时仅需缓存少量低秩向量,大幅降低KV缓存需求,减少内存占用。
3、训练特色:突破大模型训练固定思维(一般模型权重和梯度使用FP16,优化器参数使用FP32),敢于尝试在
加载中...
已阅读到文档的结尾了