AI訓(xùn)練:從算力到網(wǎng)絡(luò)的系統(tǒng)工程優(yōu)化——是德科技KAI解決方案的應(yīng)對(duì)之道
AI訓(xùn)練不僅是“算力游戲”,更是“網(wǎng)絡(luò)與系統(tǒng)工程”。根據(jù)實(shí)際案例,GPU在“真正計(jì)算”的工作時(shí)間不超過20%;超過一半時(shí)間被網(wǎng)絡(luò)/數(shù)據(jù)傳輸拖慢。而且訓(xùn)練成功率也差強(qiáng)人意,總體成功率僅57%,意味著>43%的訓(xùn)練任務(wù)被中斷或失敗。在資源最密集的LLM訓(xùn)練中,僅靠算力是不夠的——網(wǎng)絡(luò)可靠性和系統(tǒng)組件的穩(wěn)定性同樣至關(guān)重要,必須在系統(tǒng)級(jí)別優(yōu)化網(wǎng)絡(luò)吞吐、延遲及通信協(xié)議,否則大量算力浪費(fèi)在重試或錯(cuò)誤恢復(fù)上。網(wǎng)絡(luò)性能和組件協(xié)同工作是AI集群效率的關(guān)鍵,任何單一環(huán)節(jié)的不足都可能顯著影響整體系統(tǒng)表現(xiàn),凸顯了系統(tǒng)級(jí)驗(yàn)證和優(yōu)化需求的重要性。
人工智能(AI)技術(shù)的飛速發(fā)展正在深刻改變?nèi)蚩萍几窬?,其在?shù)據(jù)中心、通信網(wǎng)絡(luò)、自動(dòng)駕駛、醫(yī)療健康和工業(yè)制造等領(lǐng)域的廣泛應(yīng)用,不僅推動(dòng)了技術(shù)創(chuàng)新,也對(duì)測(cè)試與測(cè)量領(lǐng)域提出了前所未有的挑戰(zhàn)。AI的高計(jì)算需求、大規(guī)模數(shù)據(jù)處理以及實(shí)時(shí)決策能力,使傳統(tǒng)測(cè)試方法顯得力不從心。尤其是隨著AI系統(tǒng)復(fù)雜性的不斷提升,如何在開發(fā)和部署過程中確保其性能、穩(wěn)定性和可靠性,成為了行業(yè)亟待解決的難題。
是德科技(Keysight Technologies),作為測(cè)試與測(cè)量領(lǐng)域的全球領(lǐng)導(dǎo)者,深刻認(rèn)識(shí)到AI帶來的這些挑戰(zhàn),并推出了KAI(Keysight Artificial Intelligence)系列解決方案,旨在通過創(chuàng)新的測(cè)試工具和策略,為AI系統(tǒng)的開發(fā)和部署提供強(qiáng)有力的支持。
是德科技大中華區(qū)高速數(shù)字市場(chǎng)部經(jīng)理李堅(jiān)
AI帶來的測(cè)試挑戰(zhàn)
AI技術(shù)的快速發(fā)展為各行業(yè)帶來了巨大的市場(chǎng)機(jī)遇,但同時(shí)也伴隨著嚴(yán)峻的測(cè)試挑戰(zhàn)。綜合多家市場(chǎng)研究機(jī)構(gòu)的預(yù)測(cè),全球AI市場(chǎng)規(guī)模預(yù)計(jì)將從2022年的869億美元增長(zhǎng)到2030年的1.3萬(wàn)億美元,2024年到2030年的年均復(fù)合增長(zhǎng)率高達(dá)35.7%,并將為美國(guó)GDP貢獻(xiàn)21%的凈增長(zhǎng)(到2030年)。這一迅猛增長(zhǎng)的背后,是AI系統(tǒng)對(duì)計(jì)算能力、數(shù)據(jù)處理和網(wǎng)絡(luò)性能的極高要求,而這些需求直接導(dǎo)致了測(cè)試領(lǐng)域的多重挑戰(zhàn)。
AI系統(tǒng)的核心在于其高性能計(jì)算和大規(guī)模數(shù)據(jù)處理能力,這直接推動(dòng)了對(duì)帶寬的極高需求。當(dāng)前的AI應(yīng)用場(chǎng)景,如大規(guī)模語(yǔ)言模型訓(xùn)練、實(shí)時(shí)圖像識(shí)別和自動(dòng)駕駛決策,要求系統(tǒng)能夠在極短時(shí)間內(nèi)處理海量數(shù)據(jù)。這意味著測(cè)試驗(yàn)證必須在系統(tǒng)級(jí)別進(jìn)行,以確保所有組件能夠在高負(fù)載下協(xié)同工作。未來3到5年內(nèi),技術(shù)將迎來顯著的轉(zhuǎn)折點(diǎn):以太網(wǎng)速度將從400/800G升級(jí)至1.6/3.2T,帶寬提升4倍;內(nèi)存技術(shù)將從DDR5 8.4 GT/s發(fā)展到DDR6/HBM3 12.8 GT/s,速度提升1.5倍;銅纜和光纖傳輸速率將從100 Gb/s提升至224/448 Gb/s,增長(zhǎng)4倍;PCIe和CXL傳輸速率將從32 GT/s提升至128 GT/s,同樣增長(zhǎng)4倍;無(wú)線通信將從5G的10 Gbit/s躍升至6G的100+ Gbit/s,速度提升10倍。這些技術(shù)升級(jí)對(duì)測(cè)試工具提出了更高的要求:測(cè)試設(shè)備不僅需要支持更高的帶寬,還必須能夠模擬和驗(yàn)證這些高速系統(tǒng)在實(shí)際應(yīng)用中的表現(xiàn)。
此外,帶寬需求的增長(zhǎng)并非僅通過提升硬件性能就能完全解決,優(yōu)化系統(tǒng)效率同樣至關(guān)重要。AI系統(tǒng)的性能瓶頸往往出現(xiàn)在數(shù)據(jù)傳輸和計(jì)算資源的協(xié)調(diào)上。例如,在AI訓(xùn)練過程中,數(shù)據(jù)傳輸?shù)难舆t可能導(dǎo)致計(jì)算資源的閑置,進(jìn)而影響整體效率。因此,測(cè)試工具需要能夠在系統(tǒng)級(jí)別模擬真實(shí)的工作負(fù)載,識(shí)別潛在的瓶頸,并提供優(yōu)化建議。
“坦白說,現(xiàn)在的算力中心、數(shù)據(jù)中心里,很多設(shè)備和系統(tǒng)其實(shí)是還未完善便被在短時(shí)間內(nèi)部署上崗的,它們的穩(wěn)定性并不理想。如果仔細(xì)去觀察和深入數(shù)據(jù)中心,會(huì)發(fā)現(xiàn)數(shù)據(jù)中心里會(huì)存在各種各樣的問題?!笔堑驴萍即笾腥A區(qū)高速數(shù)字市場(chǎng)部經(jīng)理 李堅(jiān)分享到,“總結(jié)來說,人工智能發(fā)展需要非常大的模型、大的算力和大的帶寬,而這些都給我們的技術(shù)和產(chǎn)業(yè)帶來很大的挑戰(zhàn)。”
數(shù)據(jù)中心基礎(chǔ)設(shè)施的復(fù)雜挑戰(zhàn)
AI數(shù)據(jù)中心是支持AI應(yīng)用的核心基礎(chǔ)設(shè)施,但其復(fù)雜性帶來了多方面的挑戰(zhàn),主要集中在計(jì)算與內(nèi)存擴(kuò)展、網(wǎng)絡(luò)性能優(yōu)化以及多重故障點(diǎn)的管理上。首先,計(jì)算與內(nèi)存擴(kuò)展是AI訓(xùn)練集群的基礎(chǔ)需求?,F(xiàn)代AI模型,如大型語(yǔ)言模型(LLM),可能包含數(shù)千億個(gè)參數(shù),需要數(shù)千個(gè)GPU組成的集群進(jìn)行訓(xùn)練。這對(duì)數(shù)據(jù)中心的計(jì)算能力和內(nèi)存帶寬提出了極高的要求。研究表明,GPU在AI訓(xùn)練中的利用率往往不高,超過50%的GPU時(shí)間因數(shù)據(jù)等待而閑置:通信延遲占62%,計(jì)算占20%,內(nèi)存訪問占2%,其他重疊因素占16%(Keysight AI計(jì)算視覺GPU利用率,2025)。這種低效的資源利用率直接導(dǎo)致了訓(xùn)練成本的增加和開發(fā)周期的延長(zhǎng)。
其次,網(wǎng)絡(luò)性能是AI數(shù)據(jù)中心的一個(gè)關(guān)鍵瓶頸。AI數(shù)據(jù)中心的流量模式已經(jīng)從傳統(tǒng)的南北向(客戶端到服務(wù)器)轉(zhuǎn)向東西向(服務(wù)器到服務(wù)器),這意味著集群內(nèi)部的數(shù)據(jù)傳輸需求大幅增加。低延遲和高吞吐量成為網(wǎng)絡(luò)設(shè)計(jì)的核心目標(biāo)。為了滿足這一需求,業(yè)界正在采用Scale Out(如InfiniBand和Ultra Ethernet)來減少延遲和擁堵,同時(shí)采用Scale Up(如NVLink、Infinity、UALink)將多個(gè)GPU集群視為一個(gè)統(tǒng)一的計(jì)算單元,支持超過10萬(wàn)個(gè)GPU的超大規(guī)模訓(xùn)練集群(Keysight網(wǎng)絡(luò)組件影響,2025)。然而,這種復(fù)雜的網(wǎng)絡(luò)架構(gòu)也增加了測(cè)試的難度:測(cè)試工具需要能夠在高負(fù)載下驗(yàn)證網(wǎng)絡(luò)的穩(wěn)定性,同時(shí)識(shí)別潛在的擁堵點(diǎn)和延遲問題。
最后,多重故障點(diǎn)是AI數(shù)據(jù)中心的一個(gè)顯著挑戰(zhàn)。AI訓(xùn)練任務(wù)的失敗率高達(dá)43%,其中網(wǎng)絡(luò)問題占21%,計(jì)算和驅(qū)動(dòng)錯(cuò)誤占22%,只有57%的任務(wù)能夠成功完成(Keysight訓(xùn)練任務(wù)失敗分布,2025)。這些故障可能發(fā)生在硬件層面(如GPU過熱、網(wǎng)絡(luò)連接中斷)、軟件層面(如驅(qū)動(dòng)兼容性問題)或數(shù)據(jù)層面(如數(shù)據(jù)損壞或丟失)。因此,測(cè)試方案必須能夠全面覆蓋所有可能的故障點(diǎn),并提供有效的診斷工具,幫助工程師快速定位和解決問題。
網(wǎng)絡(luò)與組件的協(xié)同重要性
AI系統(tǒng)的性能高度依賴于其基礎(chǔ)設(shè)施中每個(gè)組件的協(xié)同工作。一個(gè)次優(yōu)的組件可能成為整個(gè)系統(tǒng)的瓶頸,拖慢整體性能。例如,在一個(gè)AI數(shù)據(jù)中心中,如果網(wǎng)絡(luò)交換機(jī)的延遲過高,可能導(dǎo)致GPU集群之間的數(shù)據(jù)傳輸效率下降,進(jìn)而影響訓(xùn)練速度。同樣,如果內(nèi)存帶寬不足,GPU可能無(wú)法及時(shí)獲取所需的數(shù)據(jù),導(dǎo)致計(jì)算資源的閑置。測(cè)試工具需要能夠在系統(tǒng)級(jí)別模擬這些組件的交互,驗(yàn)證其協(xié)同工作的能力,并識(shí)別潛在的性能瓶頸。
此外,隨著AI數(shù)據(jù)中心規(guī)模的不斷擴(kuò)大,測(cè)試的復(fù)雜性也在增加。傳統(tǒng)的測(cè)試方法往往專注于單個(gè)組件的性能,而忽視了系統(tǒng)級(jí)別的交互效應(yīng)。在AI場(chǎng)景下,這種方法已經(jīng)不再適用。測(cè)試方案需要能夠模擬真實(shí)的AI工作負(fù)載(如模型訓(xùn)練、推理任務(wù)),并在高負(fù)載下驗(yàn)證整個(gè)系統(tǒng)的性能和穩(wěn)定性。
是德科技KAI解決方案:應(yīng)對(duì)AI測(cè)試挑戰(zhàn)的利器
針對(duì)AI帶來的測(cè)試挑戰(zhàn),是德科技推出了KAI系列解決方案,旨在通過集成先進(jìn)的硬件、軟件和AI驅(qū)動(dòng)的分析能力,提供端到端的測(cè)試支持。KAI方案的核心目標(biāo)是幫助工程師驗(yàn)證AI系統(tǒng)的性能,優(yōu)化資源利用率,并加速開發(fā)和部署過程。通過結(jié)合是德科技在測(cè)試與測(cè)量領(lǐng)域的深厚經(jīng)驗(yàn),KAI為AI數(shù)據(jù)中心、通信網(wǎng)絡(luò)和其他關(guān)鍵應(yīng)用場(chǎng)景提供了強(qiáng)大的支持。
KAI方案的一個(gè)顯著優(yōu)勢(shì)是其能夠模擬真實(shí)的工作負(fù)載,并提供系統(tǒng)級(jí)別的測(cè)試能力。例如,KAI可以模擬大規(guī)模AI訓(xùn)練集群的工作負(fù)載,驗(yàn)證網(wǎng)絡(luò)、計(jì)算和存儲(chǔ)組件在高負(fù)載下的表現(xiàn)。此外,KAI還集成了AI驅(qū)動(dòng)的分析工具,能夠自動(dòng)識(shí)別性能瓶頸并提供優(yōu)化建議。這種智能化的測(cè)試方法不僅提高了測(cè)試效率,還幫助工程師更快速地解決復(fù)雜問題。
在KAI解決方案的框架下,是德科技推出了一系列新產(chǎn)品,專門針對(duì)AI測(cè)試中的核心挑戰(zhàn)。這些新品包括DCA-M采樣示波器、互連與網(wǎng)絡(luò)性能測(cè)試儀以及KAI數(shù)據(jù)中心構(gòu)建器,每款產(chǎn)品都為AI系統(tǒng)的驗(yàn)證和優(yōu)化提供了獨(dú)特的功能。
DCA-M采樣示波器(型號(hào):N1093A、N1093B)
DCA-M采樣示波器是專為高速通信系統(tǒng)設(shè)計(jì)的測(cè)試工具,支持224 Gb/s單通道和雙通道光學(xué)采樣能力。N1093A和N1093B型號(hào)特別適用于AI數(shù)據(jù)中心光模塊的信號(hào)完整性測(cè)試,能夠精確測(cè)量高速信號(hào)的眼圖、抖動(dòng)等關(guān)鍵參數(shù)。通過其高精度采樣和實(shí)時(shí)分析功能,DCA-M示波器能夠幫助工程師快速識(shí)別信號(hào)傳輸中的潛在問題,確保AI系統(tǒng)的高速通信鏈路的可靠性。
李堅(jiān)總結(jié)了DCA-M采樣示波器的三大特點(diǎn):一是大帶寬;二是低抖動(dòng)、低噪聲;三是全集成?!八饕嫦虻氖枪庑酒?、光模塊領(lǐng)域的客戶。光模塊或者電模塊打出信號(hào)以后,我們主要使用DCA-M采樣示波器來評(píng)估信號(hào)的質(zhì)量。這是一個(gè)純物理層的測(cè)試?!?
互連與網(wǎng)絡(luò)性能測(cè)試儀(型號(hào):1.6T)
互連與網(wǎng)絡(luò)性能測(cè)試儀(型號(hào)1.6T)是專為高速網(wǎng)絡(luò)設(shè)計(jì)的測(cè)試工具,支持1.6T(224 Gb/s * 8通道)的1-3層網(wǎng)絡(luò)性能測(cè)試。該測(cè)試儀能夠模擬AI數(shù)據(jù)中心中的高密度網(wǎng)絡(luò)環(huán)境,驗(yàn)證網(wǎng)絡(luò)設(shè)備的吞吐量、延遲和丟包率。
在AI數(shù)據(jù)中心中,網(wǎng)絡(luò)性能直接影響訓(xùn)練任務(wù)的效率。例如,一個(gè)大型語(yǔ)言模型的訓(xùn)練可能需要數(shù)千個(gè)GPU之間的頻繁數(shù)據(jù)交換。如果網(wǎng)絡(luò)存在擁堵或延遲,訓(xùn)練速度將顯著下降。1.6T測(cè)試儀通過模擬真實(shí)的工作負(fù)載,幫助工程師識(shí)別網(wǎng)絡(luò)中的瓶頸,并優(yōu)化交換機(jī)和路由器的配置。此外,該測(cè)試儀還支持多協(xié)議測(cè)試,確保網(wǎng)絡(luò)設(shè)備能夠在不同的AI應(yīng)用場(chǎng)景中穩(wěn)定運(yùn)行。
“該產(chǎn)品是包含層2、層3測(cè)試功能的分析儀,并且是高度集成的?!崩顖?jiān)總結(jié)道,“它面向的客戶是一些光模塊、電模塊領(lǐng)域的廠商,以及生產(chǎn)網(wǎng)卡交換機(jī)的廠商。無(wú)論是研發(fā)還是生產(chǎn)都可以使用它?!?
KAI數(shù)據(jù)中心構(gòu)建器(工作負(fù)載仿真)
KAI數(shù)據(jù)中心構(gòu)建器是一款專注于工作負(fù)載仿真的軟件工具,旨在優(yōu)化AI數(shù)據(jù)中心的基礎(chǔ)設(shè)施。該工具能夠重放真實(shí)的AI工作負(fù)載(如模型訓(xùn)練、推理任務(wù)),并對(duì)網(wǎng)絡(luò)的性能進(jìn)行基準(zhǔn)測(cè)試。
AI數(shù)據(jù)中心構(gòu)建器的核心功能在于其工作負(fù)載仿真能力。例如,它可以模擬一個(gè)包含多GPU的訓(xùn)練集群,生成真實(shí)的數(shù)據(jù)流量。這種仿真能力對(duì)于驗(yàn)證超大規(guī)模AI系統(tǒng)的穩(wěn)定性至關(guān)重要。此外,該工具還提供了詳細(xì)的性能報(bào)告,幫助工程師識(shí)別系統(tǒng)中的瓶頸,并制定優(yōu)化策略。例如,如果報(bào)告顯示網(wǎng)絡(luò)延遲是主要瓶頸,工程師可以通過調(diào)整交換機(jī)配置或增加帶寬來解決問題。
“現(xiàn)在網(wǎng)絡(luò)更新迭代的速度非常快,GPU基本上1-2年就要更新一代,交換機(jī)其實(shí)也是同樣的情況。原來設(shè)計(jì)好的網(wǎng)絡(luò),換一個(gè)交換機(jī)使用,其原本的性能、參數(shù)可能就會(huì)發(fā)生變化。新安裝到系統(tǒng)中的設(shè)備會(huì)不會(huì)催生出一些新的問題?用戶可以在將設(shè)備安裝上去之前先用測(cè)試工具去測(cè)試一下。”李堅(jiān)解釋道,“我們提供的KAI數(shù)據(jù)中心構(gòu)建器就是這樣的測(cè)試工具,能夠幫助用戶比較好地定義AI網(wǎng)絡(luò)可能會(huì)出現(xiàn)的各種各樣的問題,讓用戶在真正在線網(wǎng)部署實(shí)施時(shí)將設(shè)備調(diào)通,從而將潛在的問題消滅于無(wú)形?!?
未來展望:AI測(cè)試的持續(xù)演進(jìn)
隨著AI技術(shù)的不斷發(fā)展,其對(duì)測(cè)試與測(cè)量的需求也將持續(xù)演進(jìn)。未來,AI系統(tǒng)將更加依賴于超大規(guī)模計(jì)算集群、超高速網(wǎng)絡(luò)和新型存儲(chǔ)技術(shù),這將進(jìn)一步加劇測(cè)試的復(fù)雜性。例如,6G網(wǎng)絡(luò)的部署將帶來更高的帶寬和更低的延遲要求,而新型內(nèi)存技術(shù)(如HBM4)將需要更高的測(cè)試精度。為了應(yīng)對(duì)這些挑戰(zhàn),測(cè)試工具需要不斷創(chuàng)新,融入更多的AI技術(shù),以實(shí)現(xiàn)更高效、更智能的測(cè)試流程。
是德科技的KAI解決方案及其新產(chǎn)品矩陣為AI測(cè)試的未來奠定了堅(jiān)實(shí)的基礎(chǔ)。通過結(jié)合高性能硬件、智能軟件和AI驅(qū)動(dòng)的分析能力,KAI不僅能夠應(yīng)對(duì)當(dāng)前的測(cè)試挑戰(zhàn),還能夠適應(yīng)未來的技術(shù)演進(jìn)。例如,DCA-M示波器的高速采樣能力可以擴(kuò)展到支持448 Gb/s的信號(hào)測(cè)試。此外,AI數(shù)據(jù)中心構(gòu)建器的工作負(fù)載仿真功能可以通過更新模型庫(kù),支持新型AI工作負(fù)載的測(cè)試。
隨著AI市場(chǎng)的持續(xù)增長(zhǎng),是德科技的KAI解決方案將繼續(xù)在測(cè)試與測(cè)量領(lǐng)域發(fā)揮關(guān)鍵作用,推動(dòng)AI技術(shù)以更高的可靠性和效率落地,為行業(yè)的未來發(fā)展注入新的動(dòng)力。





