微軟研究人員推出了名為ZeRO++的新系統(tǒng),用于優(yōu)化訓(xùn)練大型AI模型,以應(yīng)對高數(shù)據(jù)傳輸開銷和有限帶寬的難題。
ZeRO++ 建立在現(xiàn)有的 ZeRO 優(yōu)化的基礎(chǔ)上,并提供增強(qiáng)的通信策略,以提高訓(xùn)練效率,減少訓(xùn)練時間和成本。
像Turing-NLG、ChatGPT和GPT-4這樣的大型模型的訓(xùn)練需要跨多個GPU設(shè)備占用大量內(nèi)存和計算資源。DeepSpeed開發(fā)的ZeRO++引入了通信優(yōu)化策略,以克服在每個GPU上批量大小較小時或在低帶寬集群上進(jìn)行訓(xùn)練時ZeRO的限制。
ZeRO優(yōu)化系列包括ZeRO-Inference,它使用GPU的集體內(nèi)存和計算能力,將模型狀態(tài)分割在多個GPU之間。然而,在訓(xùn)練過程中,ZeRO可能會產(chǎn)生較高的通信開銷。ZeRO++通過整合三組通信優(yōu)化來解決這個問題:量化權(quán)重通信(qwZ)、分層權(quán)重分割(hpZ)和量化梯度通信(qgZ)。
為了減少參數(shù)通信量,ZeRO++對權(quán)重進(jìn)行量化,利用基于塊的量化方法來保持訓(xùn)練精度。這種優(yōu)化的量化過程比基本量化更快更準(zhǔn)確。為了在反向傳播過程中盡量減少通信開銷,ZeRO++通過在每臺機(jī)器上保持完整的模型副本,以 GPU 內(nèi)存換取通信。梯度通信方面,ZeRO++引入了一種新的量化梯度通信范式 qgZ,可以減少跨節(jié)點(diǎn)的流量和延遲。
這些通信優(yōu)化大大減少了通信量。與ZeRO相比,ZeRO++實(shí)現(xiàn)了減少高達(dá)4倍的通信量,提高了訓(xùn)練吞吐量和效率。當(dāng)在每個GPU上使用小批量大小時,在高帶寬集群中,ZeRO++相比ZeRO-3的吞吐量提高了28%至36%。在低帶寬集群中,與ZeRO-3相比,ZeRO++實(shí)現(xiàn)了平均2倍的加速,使得大模型訓(xùn)練在更多種類的集群上更為可行。
ZeRO++不僅限于訓(xùn)練場景,還可應(yīng)用于對話模型中使用的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)訓(xùn)練。通過將ZeRO++與DeepSpeed-Chat集成,RLHF訓(xùn)練可以獲得更好的生成和訓(xùn)練吞吐量,生成吞吐量提高了高達(dá)2.25倍,訓(xùn)練吞吐量提高了1.26倍,超過了ZeRO。
DeepSpeed已經(jīng)發(fā)布了ZeRO++,以使大型模型的訓(xùn)練在AI社區(qū)更加高效和可訪問。該系統(tǒng)旨在加快訓(xùn)練速度,減少通信開銷,并實(shí)現(xiàn)更大的批量大小,從而節(jié)省時間和資源。研究人員和實(shí)踐者可以利用ZeRO++更有效地訓(xùn)練像ChatGPT這樣的模型,并在AI領(lǐng)域探索新的可能性。
Copyright ? 2022 陜西微動電子商務(wù)有限公司 All Rights Reserved. 陜ICP備15016078號-1 XML地圖
技術(shù)支持:微動云