亚洲精品不卡久久久久久_色视频线观看在线 _妽妽夹得我好舒服_国产真人一级a爱做片高潮_亚洲aⅴ无码专区在线观看q

當(dāng)前位置: 首頁 >綜合 > 正文

騰訊云首次披露自研星脈高性能計算網(wǎng)絡(luò)

2023-06-28 03:06:06 來源:搜狐數(shù)碼

AIGC的爆發(fā)除了帶來算力上的挑戰(zhàn),對網(wǎng)絡(luò)的要求也達(dá)到了前所未有的高度。6月26日,騰訊云首次對外完整披露自研星脈高性能計算網(wǎng)絡(luò):星脈網(wǎng)絡(luò)具備業(yè)界最高的3.2T通信帶寬,能提升40%的GPU利用率,節(jié)省30%~60%的模型訓(xùn)練成本,為AI大模型帶來10倍通信性能提升?;隍v訊云新一代算力集群HCC,可支持10萬卡的超大計算規(guī)模。


(資料圖)

AIGC的火爆帶來AI大模型參數(shù)量從億級到萬億級的飆升。為支撐海量數(shù)據(jù)的大規(guī)模訓(xùn)練,大量服務(wù)器通過高速網(wǎng)絡(luò)組成算力集群,互聯(lián)互通,共同完成訓(xùn)練任務(wù)。

大集群不等于大算力,相反,GPU集群越大,產(chǎn)生的額外通信損耗越多。大帶寬、高利用率、信息無損,是AI大模型時代網(wǎng)絡(luò)面臨的核心挑戰(zhàn)。

千億、萬億參數(shù)規(guī)模的大模型,訓(xùn)練過程中通信占比最大可達(dá)50%,傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無法支撐。同時,傳統(tǒng)網(wǎng)絡(luò)協(xié)議容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時和丟包,而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴(yán)重浪費。

基于全面自研能力,騰訊云在交換機(jī)、通信協(xié)議、通信庫以及運(yùn)營系統(tǒng)等方面,進(jìn)行了軟硬一體的升級和創(chuàng)新,率先推出業(yè)界領(lǐng)先的大模型專屬高性能網(wǎng)絡(luò)——星脈網(wǎng)絡(luò)。

在硬件方面,星脈網(wǎng)絡(luò)基于騰訊的網(wǎng)絡(luò)研發(fā)平臺,采用全自研設(shè)備構(gòu)建互聯(lián)底座,實現(xiàn)自動化部署和配置。

在軟件方面,騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議,采用先進(jìn)的擁塞控制和管理技術(shù),能夠?qū)崟r監(jiān)測并調(diào)整網(wǎng)絡(luò)擁塞,滿足大量服務(wù)器節(jié)點之間的通信需求,確保數(shù)據(jù)交換流暢、延時低,實現(xiàn)高負(fù)載下的零丟包,使集群通信效率達(dá)90%以上。

此外,騰訊云還為星脈網(wǎng)絡(luò)設(shè)計了高性能集合通信庫TCCL,融入定制化解決方案,使系統(tǒng)實現(xiàn)了微秒級感知網(wǎng)絡(luò)質(zhì)量。結(jié)合動態(tài)調(diào)度機(jī)制合理分配通信通道,可以避免因網(wǎng)絡(luò)問題導(dǎo)致的訓(xùn)練中斷等問題,讓通信時延降低40%。

網(wǎng)絡(luò)的可用性,也決定了整個集群的計算穩(wěn)定性。為確保星脈網(wǎng)絡(luò)的高可用,騰訊云自研了端到端的全棧網(wǎng)絡(luò)運(yùn)營系統(tǒng),通過端網(wǎng)立體化監(jiān)控與智能定位系統(tǒng),將端網(wǎng)問題自動定界分析,讓整體故障的排查時間由天級降低至分鐘級。同時,大模型訓(xùn)練系統(tǒng)的整體部署時間從19天縮減至4.5天。

文/北京青年報記者 溫婧

編輯/樊宏偉

責(zé)任編輯:

標(biāo)簽:

返回頂部