×
img

信达证券:电子:如何看待算力芯片与服务器的弹性?

发布者:wx****74
2023-03-31
1 MB 11 页
半导体 信达证券
文件列表:
信达证券:电子:如何看待算力芯片与服务器的弹性?.pdf
下载文档
本期内容提要:Transformer模型是参数量可以无限增长的通用模型,可以处理长序列的输入、输出。Transformer模型是一种基于自注意力机制的深度学习模型,相较于传统AI模型如循环神经网络(RNN)和卷积神经网络(CNN),它在处理序列数据时具有更高的并行性和可扩展性。其中,自注意力机制使得模型能够捕捉序列中长距离依赖关系,同时避免了RNN中的梯度消失或爆炸问题。Transformer模型的参数量之所以会随着数据量和任务复杂度无限增长,是因为它可以通过堆叠更多的层或增加隐藏层宽度来提高模型性能,从而适应更复杂的数据和任务;在传统CNN/RNN模型中,增加网络参数量会提高模型的拟合能力,但过多的参数容易导致过拟合现象。因此,长期来看大模型领域或许会出现没有上限的“军备竞赛”。训练:根据英伟达测算,在4096颗A100GPU互联的情况下,训练10000亿参数的模型约需要3-4周时间,而在4096颗H100GPU互联的情况下,时间约需要1周左右。考虑到1周是研发阶段可承受的周期,因此我们认为4000颗左右H100将是一个大型云计算企业每年支持30-50个5000亿参数模型项目训练所需

加载中...

已阅读到文档的结尾了

下载文档

网友评论>