日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 芯聞號 > 美通社全球TMT
[導讀] 亞馬遜云科技計算和機器學習服務副總裁 David Brown 北京 2025年7月10日 /美通社/ -- 設想這樣一個系統(tǒng),它可以探索解決復雜問題的多種方法,依托對海量數(shù)據(jù)的理解——從科學數(shù)據(jù)集到源代碼,再到商業(yè)文檔——并能夠實時推理各種可能性。這種閃電般極速的推理不是...

亞馬遜云科技計算和機器學習服務副總裁 David Brown

北京 2025年7月10日 /美通社/ -- 設想這樣一個系統(tǒng),它可以探索解決復雜問題的多種方法,依托對海量數(shù)據(jù)的理解——從科學數(shù)據(jù)集到源代碼,再到商業(yè)文檔——并能夠實時推理各種可能性。這種閃電般極速的推理不是未來的設想,而是如今亞馬遜云科技客戶AI生產(chǎn)環(huán)境中正在發(fā)生的事情。當前我們的客戶在藥物研發(fā)、企業(yè)搜索、軟件開發(fā)等多個領域構建的AI系統(tǒng)規(guī)模令人驚嘆,而這僅是開始。

為了加速推理模型、Agentic AI系統(tǒng)等新興生成式AI技術的發(fā)展,亞馬遜云科技宣布由NVIDIA Grace Blackwell Superchips加速的Amazon EC2 P6e-GB200 UltraServer現(xiàn)已正式可用。P6e-GB200 UltraServer專為訓練和部署最大規(guī)模、最復雜的AI模型而設計。今年早些時候,亞馬遜云科技已推出了基于NVIDIA Blackwell GPU的Amazon EC2 P6-B200實例,支持多樣化的AI和高性能計算工作負載。 

基于亞馬遜云科技在大規(guī)模、安全可靠GPU基礎設施的豐富經(jīng)驗,Amazon EC2 P6e-GB200 UltraServer和Amazon P6-B200實例能夠幫助客戶持續(xù)推動AI技術的邊界。

滿足 AI 工作負載不斷增長的計算需求

Amazon EC2 P6e-GB200 UltraServer是亞馬遜云科技迄今為止最強大的GPU產(chǎn)品,配備最多72個NVIDIA Blackwell GPU,這些GPU通過第五代NVIDIA NVLink互連,并作為單一計算單元運行。每臺UltraServer可提供高達360 petaflops的高密度FP8算力,以及13.4TB的高帶寬顯存(HBM3e)——相比P5en實例,在單個NVLink域內(nèi)的計算能力提升超過20倍,內(nèi)存容量提升超過11倍。Amazon EC2 P6e-GB200 UltraServer支持高達28.8 Tbps的第四代Elastic Fabric Adapter(EFAv4)網(wǎng)絡帶寬。

Amazon EC2 P6-B200實例為廣泛AI場景提供靈活選擇。每個實例配備8個通過NVLink互連的NVIDIA Blackwell GPU,擁有1.4TB高帶寬顯存和最高3.2 Tbps的EFAv4網(wǎng)絡帶寬,以及第五代Intel Xeon Scalable處理器。與Amazon EC2 P5en實例相比,Amazon EC2 P6-B200實例的GPU計算能力是其2.25倍,顯存容量為其1.27倍,顯存帶寬為其1.6倍。

如何在Amazon EC2 P6e-GB200與Amazon EC2 P6-B200之間進行選擇?關鍵取決于客戶的具體工作負載需求和架構偏好:

  • Amazon EC2 P6e-GB200 UltraServer非常適合對計算與內(nèi)存要求最為嚴苛的AI工作負載,例如訓練和部署萬億參數(shù)級的前沿模型。NVIDIA GB200 NVL72架構在這種規(guī)模下表現(xiàn)尤為出色。可以想象,72個GPU協(xié)同運作、共享統(tǒng)一內(nèi)存空間并實現(xiàn)協(xié)調(diào)的負載分配。這種架構通過降低GPU節(jié)點之間的通信開銷,提高分布式訓練效率。對于推理任務,能夠在單一NVLink域內(nèi)容納萬億參數(shù)模型,這意味著可在大規(guī)模場景下實現(xiàn)更快、更穩(wěn)定的響應時間。當與如NVIDIA Dynamo支持的解耦式推理等優(yōu)化技術結合使用時,GB200 NVL72架構具備的大規(guī)模域優(yōu)勢,可為專家混合模型等多種模型架構帶來顯著的推理效率提升。特別是在處理超長上下文窗口或實時運行高并發(fā)應用時,GB200 NVL72展現(xiàn)出強大的性能表現(xiàn)。

  • Amazon EC2 P6-B200實例支持廣泛的AI工作負載,是面向中到大型訓練與推理任務的理想選擇。對于希望遷移現(xiàn)有GPU工作負載的客戶,Amazon EC2 P6-B200提供了熟悉的8-GPU配置,可最大程度減少代碼修改,簡化從當前代實例的遷移過程。此外,盡管英偉達的AI軟件棧已針對Arm和x86架構進行了優(yōu)化,但對于構建于x86環(huán)境的工作負載,配備Intel Xeon處理器的Amazon EC2 P6-B200實例將更為契合。

基于亞馬遜云科技核心優(yōu)勢的持續(xù)創(chuàng)新

將NVIDIA Blackwell引入亞馬遜云科技不僅僅是一項技術突破,更是對基礎設施的全面創(chuàng)新?;谠谟嬎?、網(wǎng)絡、運維和托管服務等領域的多年深耕與實踐,亞馬遜云科技將NVIDIA Blackwell的全部功能融入其中,同時滿足客戶期望在亞馬遜云科技獲得的高可靠性和性能。

實例強大的安全性與穩(wěn)定性

客戶在選擇將GPU工作負載部署在亞馬遜云科技上的原因中,有一點反復被提及:他們高度認可亞馬遜云科技在云端對實例安全性與穩(wěn)定性上的重視。Amazon Nitro系統(tǒng)的專用硬件、軟件和固件具備強制隔離機制,確保包括亞馬遜云科技員工在內(nèi)的任何人都無法訪問客戶的敏感AI負載與數(shù)據(jù)。

除了安全性,Amazon Nitro系統(tǒng)還從根本上革新了基礎設施的維護與優(yōu)化方式。該系統(tǒng)負責處理網(wǎng)絡、存儲及其他I/O功能,并支持在系統(tǒng)持續(xù)運行的情況下完成固件升級、漏洞修復和性能優(yōu)化。這種無需停機即可更新的能力,被稱為"實時更新",在當前對連續(xù)性要求極高的AI生產(chǎn)環(huán)境中尤為關鍵,任何中斷都可能對業(yè)務進度造成嚴重影響。

Amazon EC2 P6e-GB200和Amazon EC2 P6-B200均搭載第六代Nitro系統(tǒng)。但這些安全與穩(wěn)定性的優(yōu)勢并非首次出現(xiàn),自2017年起,創(chuàng)新型Nitro架構就已在持續(xù)保護和優(yōu)化Amazon EC2上的工作負載。

大規(guī)模環(huán)境下的可靠性能保障

對于AI基礎設施的挑戰(zhàn)不僅在于實現(xiàn)超大規(guī)模,更在于如何在這一規(guī)模下持續(xù)保障性能和可靠性。Amazon EC2 P6e-GB200 UltraServer已部署至第三代Amazon EC2 UltraCluster中,創(chuàng)建了單一架構,可覆蓋亞馬遜云科技規(guī)模最大的數(shù)據(jù)中心。第三代UltraCluster最多可將功耗降低40%、布線需求減少超過80%,不僅顯著提升了能效,也有效減少了潛在故障點。

為了在超大規(guī)模部署中提供一致性能,亞馬遜云科技采用了Elastic Fabric Adapter(EFA)及其可擴展可靠數(shù)據(jù)報協(xié)議(Scalable Reliable Datagram),該協(xié)議可在多條網(wǎng)絡路徑之間智能路由流量,即使在出現(xiàn)擁堵或故障的情況下,也能保持系統(tǒng)穩(wěn)定運行。亞馬遜云科技持續(xù)對四代EFA進行性能優(yōu)化。配備EFAv4的Amazon EC2 P6e-GB200和Amazon EC2 P6-B200實例,在分布式訓練中的集體通信速度相比使用EFAv3的Amazon EC2 P5en實例提升最高可達18%。

基礎設施效率

Amazon EC2 P6-B200 實例采用經(jīng)過驗證的空氣冷卻架構,而Amazon EC2 P6e-GB200 UltraServer 則采用液冷方案,使大型 NVLink 域架構能夠實現(xiàn)更高的計算密度,從而提升系統(tǒng)整體性能。P6e-GB200 配備創(chuàng)新的機械冷卻設計,可在新建和既有數(shù)據(jù)中心中實現(xiàn)靈活的芯片級液冷,從而在同一設施內(nèi)同時支持液冷加速器與空氣冷卻的網(wǎng)絡和存儲設備。憑借這一靈活的冷卻架構,亞馬遜云科技能夠以更低成本實現(xiàn)更高性能與效率。

在亞馬遜云科技上啟用 NVIDIA Blackwell

亞馬遜云科技通過多種部署路徑簡化Amazon EC2 P6e-GB200 UltraServer和Amazon EC2 P6-B200實例的啟用過程,客戶可快速開始使用Blackwell GPU,同時保持其現(xiàn)有的運維模式。

Amazon SageMaker HyperPod

如果客戶希望加速AI開發(fā),并減少對基礎設施和集群運維的投入,Amazon SageMaker HyperPod正是理想之選。該服務提供托管式、可靠的基礎設施,能夠自動完成大型GPU集群的配置與管理。亞馬遜云科技也在持續(xù)增強Amazon SageMaker HyperPod,新增靈活訓練計劃等創(chuàng)新功能,幫助客戶獲得可預測的訓練周期,并將訓練任務控制在預算范圍內(nèi)。

Amazon SageMaker HyperPod將支持Amazon EC2 P6e-GB200 UltraServer和Amazon EC2 P6-B200實例,并通過優(yōu)化使工作負載保持在同一NVLink域內(nèi),以實現(xiàn)性能最大化。亞馬遜云科技還在構建一套完整的多層級恢復機制:Amazon SageMaker HyperPod可在同一NVLink域內(nèi)自動用預配置的備用實例替換故障節(jié)點。內(nèi)置儀表板將提供從GPU利用率、內(nèi)存使用情況到工作負載指標和UltraServer運行狀態(tài)的全面可視化信息。

Amazon EKS

對于大規(guī)模AI工作負載,如果客戶更傾向于使用Kubernetes管理基礎設施,Amazon Elastic Kubernetes Service(Amazon EKS)通常是首選控制平面。Amazon EKS持續(xù)推動Amazon EKS的創(chuàng)新,例如Amazon EKS Hybrid Nodes功能,可支持在同一個集群中同時管理本地和Amazon EC2 GPU,從而為AI工作負載帶來更大靈活性。

Amazon EKS將通過托管節(jié)點組支持對Amazon EC2 P6e-GB200 UltraServer和Amazon EC2 P6-B200實例的自動配置與生命周期管理。針對Amazon EC2 P6e-GB200 UltraServer,亞馬遜云科技正在為其構建拓撲感知能力,以識別GB200 NVL72架構,并自動為節(jié)點添加UltraServer ID和網(wǎng)絡拓撲信息,從而實現(xiàn)最優(yōu)的工作負載調(diào)度??蛻艨蛇x擇將節(jié)點組部署在多個UltraServer之間,或專用于單個UltraServer,從而在訓練基礎設施架構上獲得更高的靈活性。Amazon EKS還會監(jiān)控GPU和加速器錯誤,并將相關信息傳遞至Kubernetes控制平面,以支持后續(xù)處理。

亞馬遜云科技上的 NVIDIA DGX Cloud

Amazon EC2 P6e-GB200 UltraServer也將通過NVIDIA DGX Cloud提供。DGX Cloud是一個統(tǒng)一的AI平臺,在各層架構均經(jīng)過優(yōu)化,具備多節(jié)點AI訓練與推理能力,并集成英偉達完整的AI軟件棧。客戶可充分利用英偉達最新的性能優(yōu)化方案、基準測試方法和技術專長,以提升效率與性能。該平臺還提供靈活的服務期限選擇,以及由英偉達專家提供的全面支持與服務,助力客戶加速推進AI項目。

此次發(fā)布是一個重要的里程碑,但這僅僅是一個開始。隨著AI能力持續(xù)的快速演進,客戶需要的基礎設施不僅要滿足當下需求,更要為未來的多種可能性提供支撐。通過在計算、網(wǎng)絡、運維和托管服務等多個層面的持續(xù)創(chuàng)新,Amazon EC2 P6e-GB200 UltraServer和Amazon EC2 P6-B200實例已做好充分準備來實現(xiàn)這些可能。我們期待看到客戶的未來構建。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: 驅動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設備,其驅動電源的性能直接關系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅動電源設計中至關重要的兩個環(huán)節(jié),集成化方案的設計成為提升電機驅動性能的關鍵。

關鍵字: 工業(yè)電機 驅動電源

LED 驅動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而,在實際應用中,LED 驅動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設計、生...

關鍵字: 驅動電源 照明系統(tǒng) 散熱

根據(jù)LED驅動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關鍵字: LED 設計 驅動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術之一是電機驅動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅動系統(tǒng)中的關鍵元件,其性能直接影響到電動汽車的動力性能和...

關鍵字: 電動汽車 新能源 驅動電源

在現(xiàn)代城市建設中,街道及停車場照明作為基礎設施的重要組成部分,其質量和效率直接關系到城市的公共安全、居民生活質量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關鍵字: 發(fā)光二極管 驅動電源 LED

LED通用照明設計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關鍵字: LED 驅動電源 功率因數(shù)校正

在LED照明技術日益普及的今天,LED驅動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關鍵字: LED照明技術 電磁干擾 驅動電源

開關電源具有效率高的特性,而且開關電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅動電源

關鍵字: LED 驅動電源 開關電源

LED驅動電源是把電源供應轉換為特定的電壓電流以驅動LED發(fā)光的電壓轉換器,通常情況下:LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: LED 隧道燈 驅動電源
關閉