文件列表:
信达证券:电子行业专题研究:Dojo完善AI闭环,持续看好硬件潜力.pdf |
下载文档 |
资源简介
>
D1芯片对标英伟达A100,ExaPOD算力可达1.1EFLOPS。特斯拉D1芯片采用台积电7nm制程,面积约为645mm2,包含500亿颗晶体管,BF16/CFP8算力可达362TFLOPS,FP32算力可达22.6TFLOPS。25个D1芯片组成了一个TrainingTile多晶片模组(MCM),6个TrainingTile组成一个tray,再由两个Tray组成一个机柜,10个机柜组成ExaPOD,BF16/CFP8峰值算力达到1.1EFLOPS(百亿亿次浮点运算),并拥有1.3TB高速SRAM和13TB高带宽DRAM。D1芯片需要高速的互联支撑,台积电SoW封装技术提供土壤。在单个Trainingtile上,由于并未将芯片切下,为了提高效率和降低成本,特斯拉未在片上集成DRAM等器件,这与许多通用GPU有所不同。集群节点之间以2Dmesh连接,边缘则通过Interface-processors负责内存池数据搬运,因此高速互联是必要的,台积电SoW封装技术提供了土壤。InFO_SoW取消了衬底和PCB的使用,使得多个芯片阵列使解决方案获得晶圆级优势,以获得低延时、高带宽等优势。此外
加载中...
已阅读到文档的结尾了