騰訊云發(fā)布新一代HCC高性能計(jì)算集群

小熊在線 有毒的西瓜 | 2023年04月14日
騰訊云發(fā)布新一代HCC高性能計(jì)算集群 ......

4月14日,騰訊云發(fā)布新一代HCC高性能計(jì)算集群。采用最新一代星星海自研服務(wù)器,搭載NVIDIA H800 Tensor Core GPU,基于自研網(wǎng)絡(luò)、存儲(chǔ)架構(gòu),帶來3.2T超高互聯(lián)帶寬和TB級(jí)吞吐能力和千萬級(jí)IOPS。實(shí)測(cè)結(jié)果顯示,新一代集群算力性能較前代提升3倍。

計(jì)算層面

新一代集群的單GPU卡在不同精度下,支持輸出最高1979 TFlops的算力。針對(duì)大模型場(chǎng)景,星星海自研服務(wù)器采用6U超高密度設(shè)計(jì),相較行業(yè)可支持的上架密度提高30%;利用并行計(jì)算理念,通過CPU和GPU節(jié)點(diǎn)的一體化設(shè)計(jì),將單點(diǎn)算力性能提升至更高。

網(wǎng)絡(luò)層面

騰訊自研的星脈高性能計(jì)算網(wǎng)絡(luò),具備業(yè)界最高的3.2T RDMA通信帶寬。實(shí)測(cè)結(jié)果顯示,搭載同等數(shù)量的GPU,3.2T星脈網(wǎng)絡(luò)相較1.6T網(wǎng)絡(luò),集群整體算力提升20%。同時(shí),騰訊自研的高性能集合通信庫(kù)TCCL,融入定制設(shè)計(jì)的解決方案。相對(duì)業(yè)界開源集合通信庫(kù),為大模型訓(xùn)練優(yōu)化40%負(fù)載性能,消除多個(gè)網(wǎng)絡(luò)原因?qū)е碌挠?xùn)練中斷問題。

存儲(chǔ)層面

騰訊云自研的存儲(chǔ)架構(gòu),具備TB級(jí)吞吐能力和千萬級(jí)IOPS,支持不同場(chǎng)景下對(duì)存儲(chǔ)的需求。COS+GooseFS對(duì)象存儲(chǔ)方案和CFS Turbo高性能文件存儲(chǔ)方案,充分滿足大模型場(chǎng)景下高性能、大吞吐和海量存儲(chǔ)要求。

此外,新一代集群集成了騰訊云自研的TACO訓(xùn)練加速引擎,對(duì)網(wǎng)絡(luò)協(xié)議、通信策略、AI框架、模型編譯進(jìn)行大量系統(tǒng)級(jí)優(yōu)化,大幅節(jié)約訓(xùn)練調(diào)優(yōu)和算力成本。

騰訊混元大模型背后的訓(xùn)練框架AngelPTM,也已通過騰訊云TACO提供服務(wù),幫助企業(yè)加速大模型落地。

通過騰訊云TI平臺(tái)的大模型能力和工具箱,企業(yè)可結(jié)合產(chǎn)業(yè)場(chǎng)景數(shù)據(jù)進(jìn)行精調(diào)訓(xùn)練,提升生產(chǎn)效率、快速創(chuàng)建和部署AI應(yīng)用。

標(biāo)簽:騰訊云 計(jì)算集群

用戶名:  密碼:  沒有注冊(cè)?
網(wǎng)友評(píng)論:(請(qǐng)各位網(wǎng)友遵紀(jì)守法并注意語言文明,評(píng)論僅供參考不代表本站立場(chǎng))