AI訓(xùn)練：從算力到網(wǎng)絡(luò)的系統(tǒng)工程優(yōu)化——是德科技KAI解決方案的應(yīng)對(duì)之道

時(shí)間：2025-05-13 14:56:33

關(guān)鍵字： AI 是德科技 KAI 光模塊網(wǎng)分儀 1.6T 示波器

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]AI訓(xùn)練不僅是“算力游戲”，更是“網(wǎng)絡(luò)與系統(tǒng)工程”。在資源最密集的LLM訓(xùn)練中，僅靠算力是不夠的——網(wǎng)絡(luò)可靠性和系統(tǒng)組件的穩(wěn)定性同樣至關(guān)重要，必須在系統(tǒng)級(jí)別優(yōu)化網(wǎng)絡(luò)吞吐、延遲及通信協(xié)議，否則大量算力浪費(fèi)在重試或錯(cuò)誤恢復(fù)上。網(wǎng)絡(luò)性能和組件協(xié)同工作是AI集群效率的關(guān)鍵，任何單一環(huán)節(jié)的不足都可能顯著影響整體系統(tǒng)表現(xiàn)，凸顯了系統(tǒng)級(jí)驗(yàn)證和優(yōu)化需求的重要性。

AI訓(xùn)練不僅是“算力游戲”，更是“網(wǎng)絡(luò)與系統(tǒng)工程”。根據(jù)實(shí)際案例，GPU在“真正計(jì)算”的工作時(shí)間不超過20%；超過一半時(shí)間被網(wǎng)絡(luò)／數(shù)據(jù)傳輸拖慢。而且訓(xùn)練成功率也差強(qiáng)人意，總體成功率僅57%，意味著>43%的訓(xùn)練任務(wù)被中斷或失敗。在資源最密集的LLM訓(xùn)練中，僅靠算力是不夠的——網(wǎng)絡(luò)可靠性和系統(tǒng)組件的穩(wěn)定性同樣至關(guān)重要，必須在系統(tǒng)級(jí)別優(yōu)化網(wǎng)絡(luò)吞吐、延遲及通信協(xié)議，否則大量算力浪費(fèi)在重試或錯(cuò)誤恢復(fù)上。網(wǎng)絡(luò)性能和組件協(xié)同工作是AI集群效率的關(guān)鍵，任何單一環(huán)節(jié)的不足都可能顯著影響整體系統(tǒng)表現(xiàn)，凸顯了系統(tǒng)級(jí)驗(yàn)證和優(yōu)化需求的重要性。

人工智能（AI）技術(shù)的飛速發(fā)展正在深刻改變?nèi)蚩萍几窬?，其在?shù)據(jù)中心、通信網(wǎng)絡(luò)、自動(dòng)駕駛、醫(yī)療健康和工業(yè)制造等領(lǐng)域的廣泛應(yīng)用，不僅推動(dòng)了技術(shù)創(chuàng)新，也對(duì)測(cè)試與測(cè)量領(lǐng)域提出了前所未有的挑戰(zhàn)。AI的高計(jì)算需求、大規(guī)模數(shù)據(jù)處理以及實(shí)時(shí)決策能力，使傳統(tǒng)測(cè)試方法顯得力不從心。尤其是隨著AI系統(tǒng)復(fù)雜性的不斷提升，如何在開發(fā)和部署過程中確保其性能、穩(wěn)定性和可靠性，成為了行業(yè)亟待解決的難題。

是德科技（Keysight Technologies），作為測(cè)試與測(cè)量領(lǐng)域的全球領(lǐng)導(dǎo)者，深刻認(rèn)識(shí)到AI帶來的這些挑戰(zhàn)，并推出了KAI（Keysight Artificial Intelligence）系列解決方案，旨在通過創(chuàng)新的測(cè)試工具和策略，為AI系統(tǒng)的開發(fā)和部署提供強(qiáng)有力的支持。

是德科技大中華區(qū)高速數(shù)字市場(chǎng)部經(jīng)理李堅(jiān)

AI帶來的測(cè)試挑戰(zhàn)

AI技術(shù)的快速發(fā)展為各行業(yè)帶來了巨大的市場(chǎng)機(jī)遇，但同時(shí)也伴隨著嚴(yán)峻的測(cè)試挑戰(zhàn)。綜合多家市場(chǎng)研究機(jī)構(gòu)的預(yù)測(cè)，全球AI市場(chǎng)規(guī)模預(yù)計(jì)將從2022年的869億美元增長(zhǎng)到2030年的1.3萬(wàn)億美元，2024年到2030年的年均復(fù)合增長(zhǎng)率高達(dá)35.7%，并將為美國(guó)GDP貢獻(xiàn)21%的凈增長(zhǎng)（到2030年）。這一迅猛增長(zhǎng)的背后，是AI系統(tǒng)對(duì)計(jì)算能力、數(shù)據(jù)處理和網(wǎng)絡(luò)性能的極高要求，而這些需求直接導(dǎo)致了測(cè)試領(lǐng)域的多重挑戰(zhàn)。

AI系統(tǒng)的核心在于其高性能計(jì)算和大規(guī)模數(shù)據(jù)處理能力，這直接推動(dòng)了對(duì)帶寬的極高需求。當(dāng)前的AI應(yīng)用場(chǎng)景，如大規(guī)模語(yǔ)言模型訓(xùn)練、實(shí)時(shí)圖像識(shí)別和自動(dòng)駕駛決策，要求系統(tǒng)能夠在極短時(shí)間內(nèi)處理海量數(shù)據(jù)。這意味著測(cè)試驗(yàn)證必須在系統(tǒng)級(jí)別進(jìn)行，以確保所有組件能夠在高負(fù)載下協(xié)同工作。未來3到5年內(nèi)，技術(shù)將迎來顯著的轉(zhuǎn)折點(diǎn)：以太網(wǎng)速度將從400/800G升級(jí)至1.6/3.2T，帶寬提升4倍；內(nèi)存技術(shù)將從DDR5 8.4 GT/s發(fā)展到DDR6/HBM3 12.8 GT/s，速度提升1.5倍；銅纜和光纖傳輸速率將從100 Gb/s提升至224/448 Gb/s，增長(zhǎng)4倍；PCIe和CXL傳輸速率將從32 GT/s提升至128 GT/s，同樣增長(zhǎng)4倍；無(wú)線通信將從5G的10 Gbit/s躍升至6G的100+ Gbit/s，速度提升10倍。這些技術(shù)升級(jí)對(duì)測(cè)試工具提出了更高的要求：測(cè)試設(shè)備不僅需要支持更高的帶寬，還必須能夠模擬和驗(yàn)證這些高速系統(tǒng)在實(shí)際應(yīng)用中的表現(xiàn)。

此外，帶寬需求的增長(zhǎng)并非僅通過提升硬件性能就能完全解決，優(yōu)化系統(tǒng)效率同樣至關(guān)重要。AI系統(tǒng)的性能瓶頸往往出現(xiàn)在數(shù)據(jù)傳輸和計(jì)算資源的協(xié)調(diào)上。例如，在AI訓(xùn)練過程中，數(shù)據(jù)傳輸?shù)难舆t可能導(dǎo)致計(jì)算資源的閑置，進(jìn)而影響整體效率。因此，測(cè)試工具需要能夠在系統(tǒng)級(jí)別模擬真實(shí)的工作負(fù)載，識(shí)別潛在的瓶頸，并提供優(yōu)化建議。

“坦白說，現(xiàn)在的算力中心、數(shù)據(jù)中心里，很多設(shè)備和系統(tǒng)其實(shí)是還未完善便被在短時(shí)間內(nèi)部署上崗的，它們的穩(wěn)定性并不理想。如果仔細(xì)去觀察和深入數(shù)據(jù)中心，會(huì)發(fā)現(xiàn)數(shù)據(jù)中心里會(huì)存在各種各樣的問題?！笔堑驴萍即笾腥A區(qū)高速數(shù)字市場(chǎng)部經(jīng)理李堅(jiān)分享到，“總結(jié)來說，人工智能發(fā)展需要非常大的模型、大的算力和大的帶寬，而這些都給我們的技術(shù)和產(chǎn)業(yè)帶來很大的挑戰(zhàn)。”

數(shù)據(jù)中心基礎(chǔ)設(shè)施的復(fù)雜挑戰(zhàn)

AI數(shù)據(jù)中心是支持AI應(yīng)用的核心基礎(chǔ)設(shè)施，但其復(fù)雜性帶來了多方面的挑戰(zhàn)，主要集中在計(jì)算與內(nèi)存擴(kuò)展、網(wǎng)絡(luò)性能優(yōu)化以及多重故障點(diǎn)的管理上。首先，計(jì)算與內(nèi)存擴(kuò)展是AI訓(xùn)練集群的基礎(chǔ)需求?，F(xiàn)代AI模型，如大型語(yǔ)言模型（LLM），可能包含數(shù)千億個(gè)參數(shù)，需要數(shù)千個(gè)GPU組成的集群進(jìn)行訓(xùn)練。這對(duì)數(shù)據(jù)中心的計(jì)算能力和內(nèi)存帶寬提出了極高的要求。研究表明，GPU在AI訓(xùn)練中的利用率往往不高，超過50%的GPU時(shí)間因數(shù)據(jù)等待而閑置：通信延遲占62%，計(jì)算占20%，內(nèi)存訪問占2%，其他重疊因素占16%（Keysight AI計(jì)算視覺GPU利用率，2025）。這種低效的資源利用率直接導(dǎo)致了訓(xùn)練成本的增加和開發(fā)周期的延長(zhǎng)。

其次，網(wǎng)絡(luò)性能是AI數(shù)據(jù)中心的一個(gè)關(guān)鍵瓶頸。AI數(shù)據(jù)中心的流量模式已經(jīng)從傳統(tǒng)的南北向（客戶端到服務(wù)器）轉(zhuǎn)向東西向（服務(wù)器到服務(wù)器），這意味著集群內(nèi)部的數(shù)據(jù)傳輸需求大幅增加。低延遲和高吞吐量成為網(wǎng)絡(luò)設(shè)計(jì)的核心目標(biāo)。為了滿足這一需求，業(yè)界正在采用Scale Out（如InfiniBand和Ultra Ethernet）來減少延遲和擁堵，同時(shí)采用Scale Up（如NVLink、Infinity、UALink）將多個(gè)GPU集群視為一個(gè)統(tǒng)一的計(jì)算單元，支持超過10萬(wàn)個(gè)GPU的超大規(guī)模訓(xùn)練集群（Keysight網(wǎng)絡(luò)組件影響，2025）。然而，這種復(fù)雜的網(wǎng)絡(luò)架構(gòu)也增加了測(cè)試的難度：測(cè)試工具需要能夠在高負(fù)載下驗(yàn)證網(wǎng)絡(luò)的穩(wěn)定性，同時(shí)識(shí)別潛在的擁堵點(diǎn)和延遲問題。

最后，多重故障點(diǎn)是AI數(shù)據(jù)中心的一個(gè)顯著挑戰(zhàn)。AI訓(xùn)練任務(wù)的失敗率高達(dá)43%，其中網(wǎng)絡(luò)問題占21%，計(jì)算和驅(qū)動(dòng)錯(cuò)誤占22%，只有57%的任務(wù)能夠成功完成（Keysight訓(xùn)練任務(wù)失敗分布，2025）。這些故障可能發(fā)生在硬件層面（如GPU過熱、網(wǎng)絡(luò)連接中斷）、軟件層面（如驅(qū)動(dòng)兼容性問題）或數(shù)據(jù)層面（如數(shù)據(jù)損壞或丟失)。因此，測(cè)試方案必須能夠全面覆蓋所有可能的故障點(diǎn)，并提供有效的診斷工具，幫助工程師快速定位和解決問題。

網(wǎng)絡(luò)與組件的協(xié)同重要性

AI系統(tǒng)的性能高度依賴于其基礎(chǔ)設(shè)施中每個(gè)組件的協(xié)同工作。一個(gè)次優(yōu)的組件可能成為整個(gè)系統(tǒng)的瓶頸，拖慢整體性能。例如，在一個(gè)AI數(shù)據(jù)中心中，如果網(wǎng)絡(luò)交換機(jī)的延遲過高，可能導(dǎo)致GPU集群之間的數(shù)據(jù)傳輸效率下降，進(jìn)而影響訓(xùn)練速度。同樣，如果內(nèi)存帶寬不足，GPU可能無(wú)法及時(shí)獲取所需的數(shù)據(jù)，導(dǎo)致計(jì)算資源的閑置。測(cè)試工具需要能夠在系統(tǒng)級(jí)別模擬這些組件的交互，驗(yàn)證其協(xié)同工作的能力，并識(shí)別潛在的性能瓶頸。

此外，隨著AI數(shù)據(jù)中心規(guī)模的不斷擴(kuò)大，測(cè)試的復(fù)雜性也在增加。傳統(tǒng)的測(cè)試方法往往專注于單個(gè)組件的性能，而忽視了系統(tǒng)級(jí)別的交互效應(yīng)。在AI場(chǎng)景下，這種方法已經(jīng)不再適用。測(cè)試方案需要能夠模擬真實(shí)的AI工作負(fù)載（如模型訓(xùn)練、推理任務(wù)），并在高負(fù)載下驗(yàn)證整個(gè)系統(tǒng)的性能和穩(wěn)定性。

是德科技KAI解決方案：應(yīng)對(duì)AI測(cè)試挑戰(zhàn)的利器

針對(duì)AI帶來的測(cè)試挑戰(zhàn)，是德科技推出了KAI系列解決方案，旨在通過集成先進(jìn)的硬件、軟件和AI驅(qū)動(dòng)的分析能力，提供端到端的測(cè)試支持。KAI方案的核心目標(biāo)是幫助工程師驗(yàn)證AI系統(tǒng)的性能，優(yōu)化資源利用率，并加速開發(fā)和部署過程。通過結(jié)合是德科技在測(cè)試與測(cè)量領(lǐng)域的深厚經(jīng)驗(yàn)，KAI為AI數(shù)據(jù)中心、通信網(wǎng)絡(luò)和其他關(guān)鍵應(yīng)用場(chǎng)景提供了強(qiáng)大的支持。

KAI方案的一個(gè)顯著優(yōu)勢(shì)是其能夠模擬真實(shí)的工作負(fù)載，并提供系統(tǒng)級(jí)別的測(cè)試能力。例如，KAI可以模擬大規(guī)模AI訓(xùn)練集群的工作負(fù)載，驗(yàn)證網(wǎng)絡(luò)、計(jì)算和存儲(chǔ)組件在高負(fù)載下的表現(xiàn)。此外，KAI還集成了AI驅(qū)動(dòng)的分析工具，能夠自動(dòng)識(shí)別性能瓶頸并提供優(yōu)化建議。這種智能化的測(cè)試方法不僅提高了測(cè)試效率，還幫助工程師更快速地解決復(fù)雜問題。

在KAI解決方案的框架下，是德科技推出了一系列新產(chǎn)品，專門針對(duì)AI測(cè)試中的核心挑戰(zhàn)。這些新品包括DCA-M采樣示波器、互連與網(wǎng)絡(luò)性能測(cè)試儀以及KAI數(shù)據(jù)中心構(gòu)建器，每款產(chǎn)品都為AI系統(tǒng)的驗(yàn)證和優(yōu)化提供了獨(dú)特的功能。

DCA-M采樣示波器（型號(hào)：N1093A、N1093B）

DCA-M采樣示波器是專為高速通信系統(tǒng)設(shè)計(jì)的測(cè)試工具，支持224 Gb/s單通道和雙通道光學(xué)采樣能力。N1093A和N1093B型號(hào)特別適用于AI數(shù)據(jù)中心光模塊的信號(hào)完整性測(cè)試，能夠精確測(cè)量高速信號(hào)的眼圖、抖動(dòng)等關(guān)鍵參數(shù)。通過其高精度采樣和實(shí)時(shí)分析功能，DCA-M示波器能夠幫助工程師快速識(shí)別信號(hào)傳輸中的潛在問題，確保AI系統(tǒng)的高速通信鏈路的可靠性。

李堅(jiān)總結(jié)了DCA-M采樣示波器的三大特點(diǎn)：一是大帶寬；二是低抖動(dòng)、低噪聲；三是全集成?！八饕嫦虻氖枪庑酒?、光模塊領(lǐng)域的客戶。光模塊或者電模塊打出信號(hào)以后，我們主要使用DCA-M采樣示波器來評(píng)估信號(hào)的質(zhì)量。這是一個(gè)純物理層的測(cè)試?！?

互連與網(wǎng)絡(luò)性能測(cè)試儀（型號(hào)：1.6T）

互連與網(wǎng)絡(luò)性能測(cè)試儀（型號(hào)1.6T）是專為高速網(wǎng)絡(luò)設(shè)計(jì)的測(cè)試工具，支持1.6T（224 Gb/s * 8通道）的1-3層網(wǎng)絡(luò)性能測(cè)試。該測(cè)試儀能夠模擬AI數(shù)據(jù)中心中的高密度網(wǎng)絡(luò)環(huán)境，驗(yàn)證網(wǎng)絡(luò)設(shè)備的吞吐量、延遲和丟包率。

在AI數(shù)據(jù)中心中，網(wǎng)絡(luò)性能直接影響訓(xùn)練任務(wù)的效率。例如，一個(gè)大型語(yǔ)言模型的訓(xùn)練可能需要數(shù)千個(gè)GPU之間的頻繁數(shù)據(jù)交換。如果網(wǎng)絡(luò)存在擁堵或延遲，訓(xùn)練速度將顯著下降。1.6T測(cè)試儀通過模擬真實(shí)的工作負(fù)載，幫助工程師識(shí)別網(wǎng)絡(luò)中的瓶頸，并優(yōu)化交換機(jī)和路由器的配置。此外，該測(cè)試儀還支持多協(xié)議測(cè)試，確保網(wǎng)絡(luò)設(shè)備能夠在不同的AI應(yīng)用場(chǎng)景中穩(wěn)定運(yùn)行。

“該產(chǎn)品是包含層2、層3測(cè)試功能的分析儀，并且是高度集成的?！崩顖?jiān)總結(jié)道，“它面向的客戶是一些光模塊、電模塊領(lǐng)域的廠商，以及生產(chǎn)網(wǎng)卡交換機(jī)的廠商。無(wú)論是研發(fā)還是生產(chǎn)都可以使用它?！?

KAI數(shù)據(jù)中心構(gòu)建器（工作負(fù)載仿真）

KAI數(shù)據(jù)中心構(gòu)建器是一款專注于工作負(fù)載仿真的軟件工具，旨在優(yōu)化AI數(shù)據(jù)中心的基礎(chǔ)設(shè)施。該工具能夠重放真實(shí)的AI工作負(fù)載（如模型訓(xùn)練、推理任務(wù)），并對(duì)網(wǎng)絡(luò)的性能進(jìn)行基準(zhǔn)測(cè)試。

AI數(shù)據(jù)中心構(gòu)建器的核心功能在于其工作負(fù)載仿真能力。例如，它可以模擬一個(gè)包含多GPU的訓(xùn)練集群，生成真實(shí)的數(shù)據(jù)流量。這種仿真能力對(duì)于驗(yàn)證超大規(guī)模AI系統(tǒng)的穩(wěn)定性至關(guān)重要。此外，該工具還提供了詳細(xì)的性能報(bào)告，幫助工程師識(shí)別系統(tǒng)中的瓶頸，并制定優(yōu)化策略。例如，如果報(bào)告顯示網(wǎng)絡(luò)延遲是主要瓶頸，工程師可以通過調(diào)整交換機(jī)配置或增加帶寬來解決問題。

“現(xiàn)在網(wǎng)絡(luò)更新迭代的速度非常快，GPU基本上1-2年就要更新一代，交換機(jī)其實(shí)也是同樣的情況。原來設(shè)計(jì)好的網(wǎng)絡(luò)，換一個(gè)交換機(jī)使用，其原本的性能、參數(shù)可能就會(huì)發(fā)生變化。新安裝到系統(tǒng)中的設(shè)備會(huì)不會(huì)催生出一些新的問題？用戶可以在將設(shè)備安裝上去之前先用測(cè)試工具去測(cè)試一下。”李堅(jiān)解釋道，“我們提供的KAI數(shù)據(jù)中心構(gòu)建器就是這樣的測(cè)試工具，能夠幫助用戶比較好地定義AI網(wǎng)絡(luò)可能會(huì)出現(xiàn)的各種各樣的問題，讓用戶在真正在線網(wǎng)部署實(shí)施時(shí)將設(shè)備調(diào)通，從而將潛在的問題消滅于無(wú)形?！?

未來展望：AI測(cè)試的持續(xù)演進(jìn)

隨著AI技術(shù)的不斷發(fā)展，其對(duì)測(cè)試與測(cè)量的需求也將持續(xù)演進(jìn)。未來，AI系統(tǒng)將更加依賴于超大規(guī)模計(jì)算集群、超高速網(wǎng)絡(luò)和新型存儲(chǔ)技術(shù)，這將進(jìn)一步加劇測(cè)試的復(fù)雜性。例如，6G網(wǎng)絡(luò)的部署將帶來更高的帶寬和更低的延遲要求，而新型內(nèi)存技術(shù)（如HBM4）將需要更高的測(cè)試精度。為了應(yīng)對(duì)這些挑戰(zhàn)，測(cè)試工具需要不斷創(chuàng)新，融入更多的AI技術(shù)，以實(shí)現(xiàn)更高效、更智能的測(cè)試流程。

是德科技的KAI解決方案及其新產(chǎn)品矩陣為AI測(cè)試的未來奠定了堅(jiān)實(shí)的基礎(chǔ)。通過結(jié)合高性能硬件、智能軟件和AI驅(qū)動(dòng)的分析能力，KAI不僅能夠應(yīng)對(duì)當(dāng)前的測(cè)試挑戰(zhàn)，還能夠適應(yīng)未來的技術(shù)演進(jìn)。例如，DCA-M示波器的高速采樣能力可以擴(kuò)展到支持448 Gb/s的信號(hào)測(cè)試。此外，AI數(shù)據(jù)中心構(gòu)建器的工作負(fù)載仿真功能可以通過更新模型庫(kù)，支持新型AI工作負(fù)載的測(cè)試。

隨著AI市場(chǎng)的持續(xù)增長(zhǎng)，是德科技的KAI解決方案將繼續(xù)在測(cè)試與測(cè)量領(lǐng)域發(fā)揮關(guān)鍵作用，推動(dòng)AI技術(shù)以更高的可靠性和效率落地，為行業(yè)的未來發(fā)展注入新的動(dòng)力。