當前,人工智能技術在互聯(lián)網(wǎng)、金融、交通、制造、能源等行業(yè)深入應用,在帶動人工智能市場規(guī)模蓬勃發(fā)展的同時,也帶來指數(shù)級增長的算力需求,計算產(chǎn)業(yè)面臨著多元化及巨量化的算力挑戰(zhàn)。這種挑戰(zhàn)對承擔算力的基礎設施提出了更高的要求?;诖耍嫦蛉斯ぶ悄軕脠鼍暗姆掌鲬獣r而生,它既是實現(xiàn)數(shù)字經(jīng)濟時代澎湃算力、海量存儲和高速網(wǎng)絡的核心驅動器,也必須滿足語音識別、圖像分類、機器學習、認知推理等多種人工智能業(yè)務場景下的算力表現(xiàn)。
一個核心提供強大算力
AI業(yè)務需要大量并行計算,目前AI領域最為強大的算力是NVIDIA Ampere架構的A100 GPU卡。H3C UniServer R5500 G5服務器搭載了具備8張A100 GPU卡的HGX A100 8-GPU模塊,在模塊內(nèi)集成6個NVSwitch芯片,實現(xiàn)了GPU模塊內(nèi)600GB/s的高速全互聯(lián),對比上代產(chǎn)品算力提升可達20倍。
盡管算力強大,但如何將HGX A100 8-GPU模塊引入到服務器端,為人工智能業(yè)務提供高效的算力引擎,仍然是讓各服務器廠家頭疼的問題。盡管NVIDIA給出了DGX A100的參考設計,但當前能夠支持HGX A100 8-GPU模塊的服務器廠家仍然少之又少,滿足NVIDIA參考設計的服務器更是鳳毛麟角。
優(yōu)秀算力的GPU模塊
三大利器打造強大算力引擎
眾所周知,計算、存儲和網(wǎng)絡是數(shù)據(jù)中心最核心的三大部分,AI業(yè)務同樣需要CPU、網(wǎng)絡、存儲的參與,三者缺一不可,否則會形成計算瓶頸。
計算平臺多元靈活
R5500 G5在CPU方面設計了雙計算平臺架構,同時支持AMD和Intel新的CPU。如需切換CPU平臺,僅需切換計算節(jié)點,線纜等其他配置均保持不變,系統(tǒng)PCIe拓撲也不會發(fā)生變化,讓A100 GPU卡可以自由選擇搭檔,從而通過靈活選擇以滿足客戶對于不同計算平臺的需求。
支持兩顆 Intel CPU或兩顆AMD CPU
高效存儲匹配AI速度
AI服務器集群方案中通常選擇后掛高性能的分布式存儲,但服務器的本地存儲性能也同樣重要。尤其是針對AI計算所需要的讀寫速度時,NVMe硬盤更加適配。R5500 G5服務器采用高性能分布式存儲,最多可支持25個2.5英寸硬盤,其中最高支持12個NVMe硬盤。12個NVMe硬盤中,有8個硬盤是通過4個PCIe Switch直接與GPU互聯(lián)。和GPU直連網(wǎng)卡類似,配合GPU Direct Storge功能,GPU可直接通過PCIe Switch讀取NVMe硬盤的數(shù)據(jù),無需通過CPU中轉,讀寫效率獲得了數(shù)倍的提升。
強大的存儲擴展能力
網(wǎng)絡通信消除瓶頸
為保證多臺服務器之間的網(wǎng)絡通信速度,在網(wǎng)絡通信設計上,單臺R5500 G5服務器通過PCIe Switch分別和8張最高200G的PCIe4.0網(wǎng)卡互連,配合GPU Direct RDMA,使得每張GPU卡都可以直接讀取1張200G網(wǎng)卡的數(shù)據(jù),網(wǎng)絡通信速度最高可提升5~10倍。而當多臺R5500 G5搭建服務器集群時,可支持1張GPU卡直接讀取1張網(wǎng)卡的數(shù)據(jù),極大地提高了多臺服務器之間的網(wǎng)絡通信速度。
高速互聯(lián)的網(wǎng)絡拓撲
軟硬結合 構建強大AI集群
硬件只是AI集群建設的一部分,如何讓用戶對服務器進行全流程可視化管理,才是釋放AI算力的關鍵。通過軟件層面的深度優(yōu)化,R5500 G5服務器以軟硬結合的方式,為AI開發(fā)提供集群監(jiān)管/作業(yè)調(diào)度/AI建模/分區(qū)管理等功能,計算的效率實現(xiàn)了大幅提升。
得益于容器化的軟件架構,R5500 G5服務器所提供的計算資源可以被集中管理、統(tǒng)一分配與作業(yè)調(diào)度,包括實現(xiàn)GPU資源池的集中管理與分配、多租戶方式隔離計算資源、以作業(yè)方式動態(tài)分配計算資源以及計算資源回收等功能。用戶會實時監(jiān)控管理集群資源使用情況和集群狀態(tài),包括作業(yè)狀態(tài)、GPU使用率、集群健康度等。
R5500 G5服務器所匹配的豐富集群配置、管理工具,讓集群管理更加方便快捷。通過圖形化的一站式交互開發(fā)操作界面,幫助用戶完成模型腳本在線編輯、模型訓練、模型驗證以及模型推理等核心功能,并結合硬件資源可視化、作業(yè)調(diào)度器,較大化提高系統(tǒng)硬件資源的利用率。
縱觀市場上的人工智能服務器產(chǎn)品,H3C UniServer R5500 G5服務器是一款跨時代的服務器產(chǎn)品。性能的AI硬件平臺建設奠定了堅實基礎。目前,眾多互聯(lián)網(wǎng)企業(yè)、科研機構、智能制造等行業(yè)客戶已經(jīng)將R5500 G5服務器用于智能應用開發(fā)。未來,R5500 G5將會在更多場景下加速各行各業(yè)智能化場景的落地。
(本文摘選自新華三集團第25期《數(shù)字化領航》)





