400G800G 及以上以太網絡,用于高性能計算系統(tǒng)
在過去十年中,高性能計算 (HPC) 系統(tǒng)上的工作流已經大大多樣化,通常將 AI/ML 處理與傳統(tǒng) HPC 相結合。作為回應,已經設計并使用了各種各樣的專用 HPC 計算機系統(tǒng)(集群節(jié)點)來解決特定的應用程序和框架性能優(yōu)化問題。針對這些系統(tǒng)的不同隊列允許每個用戶指示批處理調度程序將作業(yè)分派到與其應用程序的計算要求非常匹配的硬件。高內存節(jié)點、具有一個或多個加速器的節(jié)點、支持高性能并行文件系統(tǒng)的節(jié)點、交互式節(jié)點以及旨在支持容器化或虛擬化工作流的主機只是為 HPC 開發(fā)的專用節(jié)點組的幾個示例。
托管 HPC 集群的數據中心中互連系統(tǒng)的密度和流量要求需要像脊/葉架構這樣的拓撲結構。如果 HPC 系統(tǒng)的容量增長超出單個位置的容量并且正在分布在多個建筑物或數據中心。涉及進程間通信、交互式訪問、共享文件系統(tǒng) I/O 以及 NTP、DNS 和 DHCP 等服務流量的流量模式,其中一些表現出很強的延遲敏感性,否則將不得不競爭可用帶寬。使用脊/葉架構的連接通過啟用可以為任何節(jié)點到節(jié)點通信提供唯一且不受限制的路徑的路由算法來解決這個問題。
HPC 現在正在從幾乎完全專門構建的本地基礎架構進一步發(fā)展為混合甚至完全駐留在云的架構。過去幾十年來,構建、運營和維護用于托管專用 HPC 的基礎設施的高昂成本已促使許多政府實驗室、公司和大學重新思考專用 HPC 的戰(zhàn)略。除了購買構建本地 HPC 集群所需的空間、機架、電源、冷卻、數據存儲、服務器和網絡,更不用說維護和更新這些系統(tǒng)的人員和費用,除了最大的 HPC 從業(yè)者之外,所有的人都在遷移從提供 HPC 服務的云提供商那里獲得更加基于使用的模型。這些變化刺激了對互聯(lián)網連接和帶寬的重新投資,以實現云爆發(fā)、數據遷移、和云駐留基礎架構上的交互性。這為致力于建立自定義環(huán)境以開發(fā)和運行應用程序框架的開發(fā)人員帶來了新的挑戰(zhàn),通常會產生復雜的軟件版本相互依賴性。容器化的使用有助于隔離許多這些軟件和庫依賴項,由于放松了主機映像限制,使云遷移變得更簡單。
400G/800G 以太網的 HPC 網絡基礎設施注意事項
負責提供所有這些流量的互聯(lián)網服務提供商和運營商依賴于以穩(wěn)定可靠的速度增長的技術,當然,他們的成本意識很強,因為他們的底線與建設、升級和管理的投資有關網絡基礎設施的運營成本。超大規(guī)模運營商和云服務提供商還面臨著越來越大的成本壓力,需要在其數據中心聚合和減少交換機設備的數量、電力利用率和冷卻需求。
在將以太網驅動到這些新的速度高度時,成本并不是唯一需要考慮的因素。 PAM-4 信令最初以 25 Gb/s 的信令速率引入,作為 100G 以太網的推動者,但由于誤碼率較高,這種方法需要前向糾錯 (FEC)。包含 FEC 的信令更改會為物理層設計帶來延遲開銷和復雜性,但更快的信令速率也需要強制使用 FEC。雖然多個 100 Gb/s 端口的鏈路聚合以實現更高的帶寬(通過 NRZ 信令速率仍然可以實現)可能是解決此問題的臨時方法,但由于它所需要的密度限制以及所需的成倍增加的端口數量的成本增加。對于超過 400G 的以太網,
布線是高速以太網的另一個挑戰(zhàn)。即使在短距離內,銅纜在這些速度下通常噪音太大且耗電 光纜必須更靠近核心物理編碼子系統(tǒng) (PCS) 層,以避免由于使用外部電光子連接器而引入的信號損失和功率需求。一個用例需要中斷布線選項,因為具有足夠高帶寬的單個交換機端口可以支持多個計算機系統(tǒng)。另一個用例側重于匯聚層交換機到交換機或站點到站點的連接。用于長距離連接(每個重復段約 80 公里)的密集波分復用 (DWDM) 和用于較短距離連接的單模光纖 (SMF) 將逐漸取代多模光纖和銅線技術,以實現 200 Gb/s 的信號速率,但 100G 電信號速率和多模光纖成本優(yōu)勢將在未來幾年內難以克服和取代。CWDM 和 DWDM 引入了相干光信號作為 PAM-4 的替代方案,但需要更大的功率、成本和復雜性才能實現更長的傳輸距離。在數據中心內,向后兼容性、交換機聚合和交換機數量減少以及節(jié)能潛力的壓力是靈活的板載光學設計的強大誘因,該設計還可以容納現有的可插拔模塊以實現降速連接。和復雜性,以實現他們實現的更遠距離。在數據中心內,向后兼容性、交換機聚合和交換機數量減少以及節(jié)能潛力的壓力是靈活的板載光學設計的強大誘因,該設計還可以容納現有的可插拔模塊以實現降速連接。和復雜性,以實現他們實現的更遠距離。在數據中心內,向后兼容性、交換機聚合和交換機數量減少以及節(jié)能潛力的壓力是靈活的板載光學設計的強大誘因,該設計還可以容納現有的可插拔模塊以實現降速連接。
使用 IP 啟用 400G/800G 以太網
那么 SoC 設計人員如何開發(fā)支持 400G 及以上以太網的芯片呢?網絡交換機和計算機系統(tǒng)必須使用支持這些高數據速率的組件來提供它們所承諾的應用程序加速。無論是降低網絡結構的復雜性以實現更高級別的聚合,將超大規(guī)模器的基礎架構擴展至超出先前較慢網絡技術所施加的限制,還是加快將數據傳輸到運行在一組網絡連接計算機上的神經網絡——數據路徑中的所有元素都必須能夠支持所需的較低延遲和較高帶寬,而不會產生過多的功率或成本損失。當然,與較慢組件的向后兼容性將確保 400G/800G 以太網及更高版本的無縫采用和集成到現有數據中心。
在 400G/800G 網絡中提供這種性能涉及物理和電子領域的多重挑戰(zhàn)。具有更快時鐘速度、并行路徑和復雜信號要求的電效率難以實現,而更快的通信速度所固有的更高錯誤率產生了對高效 FEC 的需求,以確保在低重傳率的情況下實現最小延遲。如前所述,布線介質必須支持機架、數據中心甚至城市規(guī)模的更高數據速率。沒有一種布線技術能在如此多樣化的長度范圍內達到理想狀態(tài),因此開發(fā)的任何解決方案都必須支持多種媒體類型。
SoC 設計人員需要在考慮所有這些因素的情況下開發(fā)硅 IP,Synopsys 在多代協(xié)議中一直是以太網硅 IP 的領先開發(fā)商,并且在推動 400G/800G 以太網及更高版本的標準化方面仍然不可或缺。Synopsys 提供集成的400G/800G 以太網 IP解決方案,該解決方案符合行業(yè)標準,可配置以滿足當今 HPC 的各種需求,即使是 AI/ML 工作負載,同時保持向后兼容較低的速度和較舊的標準化。





