当前位置: 华讯财经 -> 理财

一块RTX3050搞定DLRM训练!仅需1%Embedding参数,硬件

时间:2022-10-20 18:01   栏目:理财    来源:华讯财经   阅读量:17201   
一块RTX3050搞定DLRM训练!仅需1%Embedding参数,硬件

推荐模型已经成为互联网公司深度学习应用最重要的技术场景,如视频推荐、购物搜索、广告推送等流量变现服务,大大提升了用户体验和商业价值。

然而,海量的用户和业务数据、频繁的迭代更新需求以及高昂的培训成本给DLRM培训带来了严峻的挑战。

在DLRM,在完成下游计算之前,需要查找嵌入式表。

在DLRM,嵌入式表通常贡献了99%以上的内存需求,但只贡献了1%的计算量。

借助GPU的片上高速内存和强大的计算能力,GPU已经成为DLRM培训的主流硬件。

然而,随着推荐系统的深入研究,不断增加的嵌入式表大小和有限的GPU内存形成了显著的矛盾。如何利用GPU高效训练超大型DLRM模型,突破GPU内存墙的限制,成为DLRM领域亟待解决的关键问题。

庞-AI已经成功使用异构策略,在相同硬件上提高NLP模型训练的参数容量数百倍于之前。最近,spool-AI成功将其扩展到推荐系统,通过软件缓存的方式,将嵌入式表格动态存储在CPU和GPU内存中。

在软件缓存的设计基础上,庞-AI还增加了流水线预取,通过观察未来要输入的训练数据,降低软件缓存检索和数据移动的成本。

同时通过同步更新的方式在GPU上训练整个DLRM模型,并结合目前广泛使用的混合并行训练方法,可以扩展到多个GPU上。

实验表明,庞氏人工智能只需要在GPU中保留1%的嵌入参数,仍然可以保持优秀的端到端训练速度。

与其他PyTorch方案相比,对显存的需求降低了一个数量级,单块显卡就可以训练出TB级推荐模型。

成本是显而易见的,比如训练占用91GB嵌入包的DLRM只需要5GB显存,训练硬件的成本从两个大约20万元的A100降低到RTX 3050等入门级显卡的十分之一,只需要2000元左右。

开放源地址:

基于现有嵌入式表格扩展技术

嵌入式表将离散的整数特征映射为连续的浮点特征向量。下图显示了DLRM嵌入式表的培训过程。

首先为嵌入表中的每个特征搜索嵌入表的对应行,然后通过常规运算,如最大、均值、和运算,将特征向量转化为特征向量,再传递给后续的密集神经网络。

可以看出,DLRM的嵌入式表训练过程主要是不规则的内存访问操作,因此受到硬件内存访问速度的严重限制。

而工业DLRM的嵌入式表可能会达到几百GB甚至TB级别,远远超过单个GPU高达几十GB的内存容量。

有许多方法可以突破单个GPU的内存墙来增加DLRM的嵌入式表大小。

GPU模型并行性:

嵌入式表被分割分布在多个GPU的内存中,训练时通过GPU之间的互联网络同步中间结果。

这种方法的缺点首先是嵌入式表分段的负载不均匀,扩展性问题难以解决。

其次,增加GPU的前期硬件成本较高,DLRM训练时GPU的计算能力没有得到充分利用,只利用了其HBM带宽优势,导致GPU利用率较低。

部分CPU训练:

嵌入式表分为两部分,一部分在GPU上训练,一部分在CPU上训练。

利用数据分布的长尾效应,可以让CPU计算比尽可能小,GPU计算比尽可能大。但随着批量的增加,很难让mini-batch的所有数据都命中CPU或GPU,如果同时命中CPU或GPU,这种方法很难处理。

此外,由于DDR带宽与HBM相差一个数据量级,所以即使在CPU上训练10%的输入数据,整个系统的速度也会下降至少一半。

此外,CPU和GPU需要传输中间结果,这也有很大的通信开销,进一步拖慢了训练速度。

因此,研究人员设计了异步更新方法来避免这些性能缺陷,但异步方法会造成训练结果的不确定性,在实践中并不是算法工程师的首选。

软件缓存:

保证训练全部在GPU上进行,嵌入式表存在于CPU和GPU组成的异构空间中。每次都是通过软件缓存把需要的部分换成GPU。

该方法可以低成本地扩展存储资源,满足日益增长的嵌入式表格需求。

而且与CPU相比,该方法的整个训练过程完全在GPU上完成,充分利用了HBM的带宽优势。但是,缓存的查询和数据移动会带来额外的性能损失。

目前有一些优秀的嵌入式表的软件缓存方案,但往往是通过自定义的EmbeddingBags内核来实现,比如fbgemm,或者借助第三方深度学习框架来实现。

庞-AI在原生PyTorch的基础上,不做任何内核级的改动,提供了一套开箱即用的软件Cache EmbeddingBags实现,进一步优化了DLRM训练过程,并提出预取流水线,进一步降低缓存开销。

内存层次无损AI嵌入式表格软件缓存

庞-AI实现了一个软件缓存,并将其封装为nn。模块,供用户在自己的模型中使用。

DLRM的嵌入式表,通常由多个嵌入式包组成,驻留在CPU内存中。

这部分内存空间称为CPU权重。但是,嵌入包的少量数据存储在GPU内存中,其中包括用于训练的数据。

这部分内存空间称为CUDA缓存权重。

在DLRM训练期间,首先需要确定表中嵌入的行,这些行对应于在该迭代中输入到小批量中的数据。如果有些行不在GPU中,需要从CPU权重转移到CUDA缓存权重。

如果GPU中没有足够的空间,它将根据访问缓存的历史频率,使用LFU算法消除最少使用的数据。

为了实现缓存检索,需要一些辅助的数据结构:cached_idx_map是一个一维数组,存储CPU权重中的行号和CUDA缓存权重的行号的对应关系,以及对应行在GPU中被访问的频率信息。

dacachedweight大小与CPU权重大小的比值命名为cache_ratio,默认值为1.0%。

每次迭代前运行缓存来调整CUDA中的数据权重,具体分三步。

第一步:CPU索引

检索需要缓存的CPU权重中的行号。

它需要对输入小批的input_ids和cached_idx_map求交集,找到CPU权重中需要从CPU移到GPU的行号。

第二步:GPU索引

根据使用频率找到CUDA权重中可以被驱逐的行。

这就要求我们按照频率从低到高,对cache_idx_map和input_ids的差集之后的部分进行top-k。

第三步:数据处理:

将CUDA缓存权重中的对应行移到CPU权重中,然后将CPU权重中的对应行移到CUDA权重中。

传输模块负责CUDA缓存权重和CPU权重之间的数据双向传输。

与低效的逐行传输不同,它采用先缓存再集中传输的方法,提高PCI-E的带宽利用率。

分散内存中的嵌入行在源设备的本地内存中集中成连续的数据块,然后在CPU和GPU之间传输,分散到目标内存中相应的位置。分块移动数据可以提高PCI-E的带宽利用率,合并和分散操作只涉及CPU和GPU的片内内存访问,所以开销不是很高。

庞-AI使用有限大小的缓冲区在CPU和GPU之间传输数据。

在最坏的情况下,所有的输入id都没有命中缓存,因此需要传输大量的元素。为了防止缓冲区占用过多内存,缓冲区大小受到严格限制。如果传输的数据大于缓冲区,传输将分多次完成。

缓存嵌入包工作流软件的缓存性能分析

高速缓存步骤1和步骤2的上述操作是存储器访问密集型的。

因此,为了利用GPU的HBM的带宽,它们运行在GPU上,由深度学习框架封装的API来实现。但是,相对于GPU上嵌入式表的训练操作,缓存操作的开销尤为突出。

例如,在一个总共199秒的训练任务中,缓存操作的开销为99秒,占总计算时间的近50%。

经过分析,缓存的主要开销主要是由Step1和Step2造成的。下图中的基准位置显示了此时的缓存开销时间偏差。缓存步骤1和2的红色和橙色阶段占总缓存开销的70%。

高速缓存操作的时间偏差

产生上述问题的原因是传统的缓存策略“短视”,只能根据当前的小批量情况调整缓存,因此大部分时间浪费在查询操作上。

缓存预取

为了降低缓存的开销,庞-AI设计了一种“前瞻性”的缓存机制。spool-AI不是只缓存以前的小批量,而是预取几个以后要用的小批量,统一进行缓存查询操作。

如下图所示,庞-AI利用预取合并多个小批量数据进行统一缓存操作,同时利用流水线技术重叠数据读取和计算的开销。

在本例中,预取小批量的数量是2。在训练之前,将mini-batch 0,1数据从磁盘读入GPU内存,然后启动缓存操作,再对这两个mini-batch进行正反向传播和参数更新。

同时可以用来读取Mini-Batch 2,3的数据,这部分开销可以和计算重叠。

与基线缓存的执行模式相比,该图比较了八个小批量预取和基线的缓存时间偏差。

总训练时间从201秒下降到120秒,图中显示的缓存阶段的操作时间比例也明显下降。可以看出,与每个小批量独立执行缓存操作相比,每个部分的时间都有所减少,尤其是缓存操作的前两步。

综上所述,缓存流水线预取带来了两个好处。

1.稀释缓存索引开销

预取最明显的优点是减少了Step1和Step2的开销,使得这两步操作占整个训练过程的比例不到5%。如所示,通过预取8个小批量数据,与没有预取的基线相比,缓存查询的开销显著降低。

2.增加CPU-GPU数据移动带宽

通过集中更多的数据,提高数据传输的粒度,从而充分利用CPU-GPU的传输带宽。上面的例子,CUDA-gt;CPU带宽从860MB/s提升到1477 MB/s,CPU-gt;CUDA的带宽从1257 MB/s提升到2415 MB/s,性能增益几乎翻倍。

使用方便

这与Pytorch嵌入包的用法是一致的。在构建推荐模型时,只需要初始化以下几行代码,可以大幅增加嵌入式表的容量,低成本实现TB级超大推荐模型训练。

fromcolosalai . nn . parallel . layers . cache _ embedding import cached embedding bag _ module = cached embedding bag,warmup _ ratio = 0.7,cache _ ratio = 0.01。)

在NVIDIA A100 GPU和AMD EPYC 7543 32核处理器(512 GB)硬件平台上,庞-AI以Meta DLRM模型为测试对象,使用超大数据集Cretio 1TB和Meta dlrm_datasets作为测试模型。

实验中,以存储所有嵌入式表的GPU上的PyTorch训练速度为基线。

Cretio 1TB

Cretio 1TB嵌入式表共有177,944,275行。设置嵌入dim=128需要91.10 GB的嵌入式表内存。

如果想在单个GPU内存中存储所有的EmbeddingBags,即使是最高端的NVIDIA A100 80GB也无法满足其内存需求。

然而,庞-AI仍然用于在单个GPU上完成训练。当缓存比=0.05时,内存消耗仅为5.01 GB,直接降低了18倍左右。还可以进一步扩展,在单个GPU上实现TB级推荐系统模型训练。

在训练速度上,如下图所示,显示了不同批量下训练100M样本的延迟。

绿色预取1不使用预取,蓝色预取8是预取的延迟。可见预取流水线优化对整体性能提升的重要作用。

图中每列的黑色部分是缓存开销。预取后,缓存开销控制在总训练时间的15%以内。

多GPU可扩展性

8192被用作全局批量大小,表式分片被用作在8个GPU卡上嵌入标签的并行模式,以训练DLRM和100M样本。

此时预取大小设置为4,ColossalAI-mem-cr0.05的缓存比是0.05,庞AI-mem-cr0.5是0.5。

下图显示了不同GPU情况下的训练延迟。除了PyTorch OOM不能在1个GPU上训练之外,PyTorch和庞-AI的训练时间差不多。

可以看出,使用4个和8个GPU不会带来显著的性能提升,因为:

因此,同步需要巨大的通信开销。

表方向分片将导致不平衡的拆分负载。也说明用多个GPU来扩展嵌入表的训练扩展性不是很好。

下图显示了显存的使用,不同的卡上使用的显存是不同的。此处显示了最大视频内存值。

在只使用一个GPU的情况下,只需要训练庞-AI的软件缓存方法,多张卡并行占用的内存就可以显著降低数倍。

Meta Research的合成数据集dlrm_datasets模仿了业内嵌入式表的训练访问行为,因此在研究中经常作为推荐系统相关软硬件设计的测试参考。

其中,选择表项中嵌入的5亿行作为子数据集,构建256GB和128GB两个嵌入包进行测试。

PyTorch由于显存不足无法在单卡A100上训练。相比之下,庞-AI的软件缓存将大幅降低GPU内存需求,足以训练高达256GB的嵌入式表格,并可以进一步扩展到TB级别。

而且流水线预取也能体现加速效果。预取次数为32时,总时间比不预取时减少了60%,且不增加GPU的存储需求。

还有一点

面向大模型时代的通用深度学习系统panol-AI,通过高效多维自动并行、异构内存管理、大规模优化库、自适应任务调度等多项自主研发的领先技术,实现AI大模型训练和推理的高效快速部署。,降低了AI大模型的应用成本。

庞氏人工智能相关解决方案已成功应用于自动驾驶、云计算、零售、医药、芯片等行业的知名厂商,并获得好评。

庞-AI注重开源社区建设,提供中文教程,开放用户社区和论坛,高效交流和迭代更新用户反馈,不断增加PaLM、AlphaFold、OPT等前沿应用。

自自然开源以来,庞-AI多次在GitHub和有代码热榜的论文上排名世界第一,与众多上万颗星的明星开源项目一起引起了国内外的关注!

项目的开放源地址:

参考链接:

这篇文章引用自:

观点归作者所有。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

编辑:苏小糖