文件列表:
DisCo-CLIP: 基于分布式对比损失的高存储效率 CLIP 训练【英文版】.pdf |
下载文档 |
资源简介
>
英文标题:DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training中文摘要:提出了一种名为 DisCo-CLIP 的分布式内存高效的 CLIP 训练方法,旨在减少对比损失在对比学习模型训练时的内存消耗,通过分解对比损失和梯度计算成两部分,一个用于计算内部 GPU 梯度,另一个用于计算跨 GPU 梯度,将跨 GPU 梯度通过 all_reduce 从其他 GPU 收集而不是在每个 GPU 上反复计算,从而将对比损失的 GPU 内存消耗从 O (B^2) 降至 O (B^2/N),适用于大批量 CLIP 训练。英文摘要:We propose DisCo-CLIP, a distributed memory-efficient CLIP training approach,to reduce the memory consumption of contrastive loss when training contrastivelearning models. Our approach deco
加载中...
已阅读到文档的结尾了