安謀科技Arm China開啟“All in AI”戰(zhàn)略,押注本土AI產(chǎn)業(yè)創(chuàng)新
陳鋒表示,中國市場是安謀科技(Arm China)戰(zhàn)略布局的核心所在。在“AI Arm CHINA”戰(zhàn)略的引領(lǐng)下,公司正積極推動Arm全球技術(shù)生態(tài)與本土自主研發(fā)IP的深度融合,全面助力中國AI計算生態(tài)的繁榮發(fā)展。
依托“AI Arm CHINA”這一戰(zhàn)略方向,安謀科技的各項自研IP產(chǎn)品在“AI+”領(lǐng)域均取得顯著突破。近期,公司推出了專為大模型優(yōu)化的新一代NPU IP——“周易”X3,聚焦終端側(cè)AI推理,其大模型處理性能較前代提升10倍;而不久前發(fā)布的全新CPU IP“星辰”STAR-MC3,則成功為傳統(tǒng)MCU無縫注入AI能力,實現(xiàn)智能化升級。
在媒體的專訪環(huán)節(jié),安謀科技(Arm China)產(chǎn)品總監(jiān)鮑敏祺進一步給媒體分享了公司圍繞AI而生的產(chǎn)品策略。面對“中外云端算力卡單卡性能5倍差距”的物理現(xiàn)實,以及大模型快速向端側(cè)下沉的趨勢,國內(nèi)AI產(chǎn)業(yè)或可以通過安謀科技全新“周易”NPU——“周易”X3,求出一種“基于架構(gòu)創(chuàng)新與云端協(xié)同”的破局新解。
制程受限下的“云端協(xié)同”,亟待解決的大模型落端痛點
在當前的AI芯片競爭格局中,中美市場的底層邏輯存在顯著差異,算力底座上制程差異導(dǎo)致的性能代差,是所有從業(yè)者必須直面的“房間里的大象”。
國外大廠的端側(cè)AI演進,往往伴隨著半導(dǎo)體工藝的最前沿迭代,最先進制程已經(jīng)推進到3nm。然而,受限于供應(yīng)鏈環(huán)境,國內(nèi)大算力芯片的主流工藝目前仍集中在6nm水平左右。
“工藝限制是客觀存在的,這直接導(dǎo)致了整體算力規(guī)格的差距,單卡性能差距可能達到5倍?!滨U敏祺坦言。
這種物理層面的“硬傷”意味著國內(nèi)廠商不能簡單照搬國外的“堆料”模式。鮑敏祺提出的解題思路是“云端協(xié)同的差異化技術(shù)”。在電池技術(shù)未有革命性突破(手機功耗限制在5W,車載受限于300T算力及BIS限制)的前提下,端側(cè)NPU不再追求像云端那樣無限堆疊算力,而是通過高效的架構(gòu),承接云端蒸餾或量化后的模型。中國龐大的用戶基數(shù)是獨特的市場優(yōu)勢,這使得云跟端協(xié)同的部署在國內(nèi)比國外更具緊迫性和落地價值。
針對前段時間發(fā)布的“周易”X3 NPU IP,鮑敏祺詳解了其背后的技術(shù)取舍。他強調(diào),在同樣的工藝下,基于馮·諾依曼架構(gòu)的芯片在面積和功耗上很難拉開本質(zhì)差距,真正的決勝點在于“產(chǎn)品導(dǎo)向”,特別是對大模型浮點運算精度的支持。
鮑總在專訪環(huán)節(jié)中解釋道,傳統(tǒng)的端側(cè)NPU可能只擅長跑INT8(整數(shù)),但面對大模型,精度不夠。安謀科技的“周易”X3 NPU,重點增強了浮點計算能力,特別是支持了類似 FP8 這種兼顧速度與精度的先進格式,并且配合了WC16/W4A8(Weight 4-bit, Activation 8-bit)等混合量化技術(shù)。 這樣最終能夠確保大模型壓縮到端側(cè)后,不僅跑得動,而且足夠“聰明”,精度沒有折扣損失。
“真正難的是在量化后的精度下把模型功能跑起來。”鮑敏祺解釋道。如果只關(guān)注壓縮率而忽視精度,大模型在端側(cè)就會“變傻”?!爸芤住盭3的核心邏輯,就是通過軟硬結(jié)合的優(yōu)化,在極度苛刻的端側(cè)功耗限制下,依然保證大模型的推理精度。
端側(cè)模型算法收斂帶來機會窗,但通用性仍必不可少
長期以來,英偉達CUDA生態(tài)構(gòu)建的護城河是國產(chǎn)AI芯片難以逾越的高墻,但當AI走向端側(cè),大模型在端側(cè)落地時,國內(nèi)AI產(chǎn)業(yè)就有了生態(tài)優(yōu)勢。當前AI技術(shù)范式正在發(fā)生變化,這給ASIC路線帶來了新機會。
過去在CNN時代,算子繁多且高度依賴CUDA優(yōu)化,遷移難度極大。但進入大模型(Transformer)時代,底層計算邏輯變得統(tǒng)一且簡潔?,F(xiàn)在大模型大概只要支持15個算子,就可以跑起來了。這種計算范式的收斂,極大地降低了國產(chǎn)NPU適配生態(tài)的門檻。相比于通用性極強但能效有天花板的GPGPU,針對特定算子優(yōu)化的NPU(ASIC路線)在能效比上更具優(yōu)勢。當場景確定(如推理)、算法收斂時,專用架構(gòu)的效率優(yōu)勢將最大化。
關(guān)于端側(cè)NPU未來的演進方向,鮑敏祺提出了一個看似矛盾的觀點:為了適應(yīng)未來的Agentic AI(智能體)和Physical AI(具身智能),NPU需要適當“開倒車”——即在追求極致專用效率的同時,回歸一定的通用性。
“周易”X3 NPU架構(gòu)就是這一理念的體現(xiàn),采用“DSP+DSA”的混合架構(gòu):Tensor Core負責(zé)處理大模型中確定性的矩陣計算,這部分越強越好,越專用越好。Vector Core負責(zé)處理通用計算,解決非標準算子。
“未來發(fā)展的方向是要更加通用?!滨U敏祺解釋說,雖然推理可以通過編譯解決大部分問題,但類似DeepSeek等前沿算法的演進表明,微觀算子層面對通用性提出了更高要求。如果在架構(gòu)上只做“偏科”的專用計算,一旦算法微調(diào),芯片可能就無法適配。因此,安謀科技在架構(gòu)設(shè)計上,正試圖在“專用效率”與“通用靈活性”之間尋找新的平衡點。
結(jié)語
從媒體視角觀察,端側(cè)AI加速計算是一個明確的“藍?!辟惖?,而端側(cè)NPU既要有極強的Tensor能力,又必須增強Vector能力。安謀科技的“周易”X3 NPU IP作為公司在“AIl in AI”戰(zhàn)略下的首個重磅產(chǎn)品,正是完美契合了端側(cè)AI計算的硬件架構(gòu)要求。不止于此,還在軟件生態(tài)上下足了功夫??梢哉f,用上了“周易”X3 NPU IP,不僅能幫芯片設(shè)計公司省時間,同時還能幫算法公司解決底層適配麻煩的問題。黏合了端側(cè)算法和硬件之間的適配難題。
在采訪最后,鮑敏祺重申了安謀科技“AI Arm China”的戰(zhàn)略定位。作為一家具有雙重屬性的公司,安謀科技一方面繼續(xù)作為橋梁,在國內(nèi)代理Arm的CPU等IP;另一方面,則通過自研的“周易”NPU、VPU、DPU等產(chǎn)品線,構(gòu)建本土化的AI解決方案。
“端側(cè)AI時代已經(jīng)到來?!滨U敏祺總結(jié)道。在制程追趕尚需時日的背景下,通過架構(gòu)創(chuàng)新提升能效,通過軟件生態(tài)彌補算力短板,或許是國產(chǎn)芯片在AI下半場突圍的最務(wù)實路徑。





