TrendForce集邦咨詢: 英偉達(dá)多元產(chǎn)品線分攻AI訓(xùn)練與推理需求,以應(yīng)對(duì)CSP自研ASIC規(guī)模升級(jí)
March 18, 2026 ---- 根據(jù)TrendForce集邦咨詢最新AI Server研究,在大型云端服務(wù)供應(yīng)商(CSP)加大自研芯片力道的情況下,NVIDIA(英偉達(dá))在GTC 2026大會(huì)改為著重各領(lǐng)域的AI推理應(yīng)用落地,有別于以往專注云端AI訓(xùn)練市場(chǎng)。通過(guò)推動(dòng)GPU、CPU以及LPU等多元產(chǎn)品軸線分攻AI訓(xùn)練、AI推理需求,并借由Rack整合方案帶動(dòng)供應(yīng)鏈成長(zhǎng)。
TrendForce集邦咨詢表示,隨著以Google(谷歌)、Amazon(亞馬遜)等CSP為首的自研芯片態(tài)勢(shì)擴(kuò)大,預(yù)估ASIC AI Server占整體AI Server的出貨比例將從2026年的27.8%,上升至2030年的近40%。
為鞏固在AI市場(chǎng)的領(lǐng)導(dǎo)地位,NVIDIA采取的其中一項(xiàng)策略為積極推動(dòng)GB300、VR200等整合CPU、GPU的整柜式方案,強(qiáng)調(diào)可擴(kuò)展至AI推理應(yīng)用。本次在GTC發(fā)表的Vera Rubin被定義為高度垂直整合的完整系統(tǒng),涵蓋七款芯片和五款機(jī)柜。
觀察Rubin供應(yīng)鏈進(jìn)度,預(yù)計(jì)2026年第二季存儲(chǔ)器原廠可提供HBM4給Rubin GPU搭載使用,助力NVIDIA于第三季前后陸續(xù)出貨Rubin芯片。至于NVIDIA GB300、VR200 Rack系統(tǒng)出貨進(jìn)程,前者已于2025年第四季取代GB200成為主力,預(yù)估至2026年出貨占比將達(dá)近80%,而VR200 Rack則約在2026年第三季度末可望逐步釋放出貨量能,后續(xù)發(fā)展仍需視ODM實(shí)際進(jìn)度而定。
另外,AI從生成跨入代理模型時(shí)代,在生成Token的譯碼(Decode)階段面臨嚴(yán)重的延遲與存儲(chǔ)器帶寬瓶頸。為此,NVIDIA整合Groq團(tuán)隊(duì)技術(shù),推出專為低延遲推理設(shè)計(jì)的Groq 3 LPU,單顆內(nèi)建500MB SRAM、整機(jī)柜可達(dá)128GB。
然而,LPU本身的存儲(chǔ)器容量無(wú)法容納Vera Rubin等級(jí)的龐大參數(shù)與KV Cache。NVIDIA因此于本次GTC提出“解耦合推理(Disaggregated Inference)”架構(gòu),通過(guò)名為Dynamo的AI工廠作業(yè)系統(tǒng),將推理流水線一分為二:處理代理型AI時(shí),需進(jìn)行大量數(shù)學(xué)運(yùn)算并儲(chǔ)存龐大KV Cache的Pre-fill、Attention運(yùn)算階段,交由具備極高吞吐量與巨量存儲(chǔ)器的Vera Rubin執(zhí)行。而受限于帶寬且對(duì)延遲極度敏感的譯碼與Token生成階段,則直接卸載至擴(kuò)充了巨量存儲(chǔ)器的LPU機(jī)柜上。
在供應(yīng)鏈進(jìn)度上,第三代Groq LP30由Samsung(三星)代工,已進(jìn)入全面量產(chǎn)階段,預(yù)計(jì)于2026年下半年正式出貨,未來(lái)更規(guī)劃在下一代Feynman架構(gòu)中推出效能更高的LP40芯片。





