邊緣計(jì)算與存內(nèi)計(jì)算一體:后摩爾時(shí)代數(shù)字集成電路的新架構(gòu)介紹
摩爾定律的放緩正在迫使芯片設(shè)計(jì)行業(yè)尋找全新的計(jì)算范式。傳統(tǒng)馮·諾依曼架構(gòu)中,處理器與存儲(chǔ)器分離,數(shù)據(jù)在兩者之間反復(fù)搬運(yùn),這一“存儲(chǔ)墻”瓶頸在數(shù)據(jù)密集型應(yīng)用中愈發(fā)突出。以邊緣計(jì)算場(chǎng)景為例,圖像識(shí)別、語音處理、傳感器融合等任務(wù)中,數(shù)據(jù)搬運(yùn)所消耗的能量可達(dá)實(shí)際計(jì)算能量的數(shù)十倍甚至上百倍。存內(nèi)計(jì)算技術(shù)的核心理念正是打破這一壁壘——讓存儲(chǔ)器本身具備計(jì)算能力,在數(shù)據(jù)存儲(chǔ)的位置直接完成運(yùn)算。當(dāng)存內(nèi)計(jì)算與邊緣計(jì)算需求相遇,一種全新的數(shù)字集成電路架構(gòu)應(yīng)運(yùn)而生。
存內(nèi)計(jì)算的數(shù)學(xué)本質(zhì)是將計(jì)算操作映射到存儲(chǔ)陣列的模擬域操作中。以最常見的向量矩陣乘法為例,這是神經(jīng)網(wǎng)絡(luò)推理中最核心的計(jì)算原語。在傳統(tǒng)架構(gòu)中,權(quán)重矩陣存儲(chǔ)在SRAM或閃存中,輸入向量從處理器寄存器加載,乘法累加操作由ALU順序執(zhí)行。而在存內(nèi)計(jì)算架構(gòu)中,權(quán)重被編程到存儲(chǔ)單元的導(dǎo)通特性中,輸入向量以電壓形式施加到位線,輸出電流在位線末端自然累加,直接得到向量矩陣乘法的結(jié)果。
這一過程的物理實(shí)現(xiàn)基于歐姆定律和基爾霍夫電流定律。每個(gè)存儲(chǔ)單元等效為一個(gè)可變電導(dǎo)G,當(dāng)施加電壓V時(shí),產(chǎn)生電流I等于V乘以G。將同一列上所有單元的電流相加,即得到輸入向量與權(quán)重列向量的點(diǎn)積。整個(gè)計(jì)算過程在內(nèi)存陣列內(nèi)部完成,無需將任何權(quán)重?cái)?shù)據(jù)搬移到處理器。對(duì)于一次8乘8的向量矩陣乘法,傳統(tǒng)架構(gòu)需要從內(nèi)存讀取64個(gè)權(quán)重值、執(zhí)行64次乘法與56次加法,而存內(nèi)計(jì)算架構(gòu)只需8次電壓施加和一次電流讀出操作。數(shù)據(jù)搬運(yùn)量減少至原來的八分之一,能耗降低一到兩個(gè)數(shù)量級(jí)。
數(shù)字存內(nèi)計(jì)算與模擬存內(nèi)計(jì)算存在本質(zhì)區(qū)別。模擬方案直接在位線上進(jìn)行電荷共享或電流求和,速度快但易受工藝、電壓、溫度波動(dòng)影響。數(shù)字方案則在存儲(chǔ)陣列外圍集成加法樹和累加器,存儲(chǔ)單元只輸出數(shù)字值0或1,通過數(shù)字邏輯完成累加。數(shù)字方案犧牲了一定的面積效率,但換來了更好的噪聲容限和量產(chǎn)一致性。當(dāng)前產(chǎn)業(yè)界的主流選擇是混合方案:存儲(chǔ)陣列采用模擬電流求和,但在讀出后立即進(jìn)行模數(shù)轉(zhuǎn)換,后續(xù)累加在數(shù)字域完成。
邊緣計(jì)算場(chǎng)景對(duì)存內(nèi)計(jì)算架構(gòu)提出了特殊要求。云端AI芯片可以承受數(shù)十瓦乃至數(shù)百瓦功耗,但邊緣設(shè)備往往被限制在百毫瓦級(jí)別。同時(shí),邊緣設(shè)備需要處理的任務(wù)類型更加多樣化,從關(guān)鍵詞喚醒到異常檢測(cè),從圖像分類到振動(dòng)分析,單一的矩陣乘法加速無法滿足需求。
某款面向智能傳感節(jié)點(diǎn)的存內(nèi)計(jì)算芯片采用了異構(gòu)存內(nèi)計(jì)算單元的設(shè)計(jì)。芯片內(nèi)部集成了三種不同類型的存內(nèi)計(jì)算宏:基于SRAM的高速宏用于緩存和計(jì)算激活值,訪問延遲僅為2納秒;基于阻變存儲(chǔ)器的非易失宏用于存儲(chǔ)權(quán)重,斷電后數(shù)據(jù)不丟失;基于閃存的超大容量宏用于存儲(chǔ)離線訓(xùn)練的基準(zhǔn)模型。三種宏的存儲(chǔ)密度分別為10、50和1000千比特每平方毫米,形成從高速緩存到大容量存儲(chǔ)的完整層次。
在實(shí)際的人體活動(dòng)識(shí)別任務(wù)中,該芯片展示了存內(nèi)計(jì)算架構(gòu)的能效優(yōu)勢(shì)。使用公開數(shù)據(jù)集進(jìn)行三軸加速度傳感器數(shù)據(jù)分類,模型為一個(gè)三層全連接網(wǎng)絡(luò),共計(jì)12萬個(gè)權(quán)重參數(shù)。傳統(tǒng)ARM Cortex-M4方案完成一次推理耗時(shí)4.2毫秒,消耗能量342微焦。存內(nèi)計(jì)算芯片完成同樣推理僅耗時(shí)0.31毫秒,消耗能量18.7微焦。能效提升達(dá)18倍,延遲降低13倍。更重要的是,存內(nèi)計(jì)算方案的能耗與模型參數(shù)量呈亞線性關(guān)系,而傳統(tǒng)方案呈線性關(guān)系。這意味著隨著模型規(guī)模增大,存內(nèi)計(jì)算的相對(duì)優(yōu)勢(shì)進(jìn)一步擴(kuò)大。
存內(nèi)計(jì)算并非孤立的技術(shù),它與邊緣計(jì)算系統(tǒng)的其他組件需要深度協(xié)同。一個(gè)完整的存算融合邊緣芯片通常包含以下層次:最底層是存內(nèi)計(jì)算陣列,執(zhí)行核心的矩陣運(yùn)算;之上是輕量級(jí)RISC-V控制核心,負(fù)責(zé)任務(wù)調(diào)度和數(shù)據(jù)流管理;再之上是片上網(wǎng)絡(luò),連接多個(gè)存內(nèi)計(jì)算宏和專用加速器;最頂層是運(yùn)行時(shí)固件,支持動(dòng)態(tài)工作負(fù)載劃分。
某工業(yè)缺陷檢測(cè)系統(tǒng)的部署案例展示了這一架構(gòu)的實(shí)際效果。該系統(tǒng)在一條電子元器件生產(chǎn)線上檢測(cè)電容表面缺陷,需要實(shí)時(shí)處理200萬像素圖像。傳統(tǒng)方案采用Jetson Nano模塊,功耗約10瓦,需配合主動(dòng)散熱風(fēng)扇,在粉塵環(huán)境下風(fēng)扇易堵塞導(dǎo)致過熱降頻?;诖鎯?nèi)計(jì)算芯片的邊緣節(jié)點(diǎn)將功耗降至1.2瓦,實(shí)現(xiàn)無風(fēng)扇全被動(dòng)散熱,體積縮小至原來的四分之一。更重要的是,存內(nèi)計(jì)算芯片的確定性延遲特性使系統(tǒng)能夠?qū)崿F(xiàn)微秒級(jí)響應(yīng),而GPU方案因內(nèi)核調(diào)度和內(nèi)存搬運(yùn)存在數(shù)十微秒的不可預(yù)測(cè)抖動(dòng)。
數(shù)據(jù)隱私是邊緣計(jì)算的另一核心訴求。存內(nèi)計(jì)算架構(gòu)天然適合隱私保護(hù)場(chǎng)景,因?yàn)樗杏?jì)算都在存儲(chǔ)器內(nèi)部完成,原始數(shù)據(jù)無需暴露給外部處理器。某醫(yī)療可穿戴設(shè)備廠商利用這一特性,在心電圖異常檢測(cè)任務(wù)中實(shí)現(xiàn)了本地化推理。用戶的原始心電數(shù)據(jù)始終存儲(chǔ)并計(jì)算在芯片內(nèi)部,只有最終的分類結(jié)果通過藍(lán)牙傳輸?shù)绞謾C(jī)。第三方安全審計(jì)報(bào)告確認(rèn),該方案消除了云端推理中存在的中間數(shù)據(jù)泄露風(fēng)險(xiǎn)。
存內(nèi)計(jì)算芯片的量產(chǎn)面臨獨(dú)特的工藝挑戰(zhàn)。模擬存內(nèi)計(jì)算對(duì)存儲(chǔ)單元的導(dǎo)通一致性要求極高,單個(gè)單元10%的誤差會(huì)導(dǎo)致計(jì)算精度顯著下降。目前的主流解決方案是采用單次可編程修調(diào)技術(shù),在晶圓測(cè)試階段測(cè)量每個(gè)單元的實(shí)際導(dǎo)通值,并寫入補(bǔ)償系數(shù)。這一步驟增加了測(cè)試成本,但對(duì)于保證量產(chǎn)良率必不可少。
產(chǎn)業(yè)進(jìn)展方面,臺(tái)積電在2025年發(fā)布了面向存內(nèi)計(jì)算優(yōu)化的22納米超低漏電工藝,專門優(yōu)化了存儲(chǔ)單元的讀寫噪聲特性。三星則將存內(nèi)計(jì)算宏作為其SAFE生態(tài)系統(tǒng)的標(biāo)準(zhǔn)IP核,可供客戶直接集成。中國(guó)廠商方面,知存科技、閃憶半導(dǎo)體等創(chuàng)業(yè)公司已推出商用存內(nèi)計(jì)算芯片,主要面向智能語音和可穿戴設(shè)備市場(chǎng)。據(jù)市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè),存內(nèi)計(jì)算芯片的市場(chǎng)規(guī)模將從2024年的約3億美元增長(zhǎng)至2028年的25億美元,年復(fù)合增長(zhǎng)率超過70%。
需要指出的是,存內(nèi)計(jì)算并非解決所有問題的萬能方案。對(duì)于控制流密集而非數(shù)據(jù)流密集的任務(wù),存內(nèi)計(jì)算的收益有限。產(chǎn)業(yè)界在實(shí)踐中發(fā)展出了近存計(jì)算的折中方案:將計(jì)算邏輯放置于存儲(chǔ)陣列的緊鄰位置,但不完全融入存儲(chǔ)單元。近存計(jì)算保留了存內(nèi)計(jì)算的低數(shù)據(jù)搬運(yùn)優(yōu)勢(shì),同時(shí)避免了模擬計(jì)算的精度損失。主流趨勢(shì)是采用混合架構(gòu),將存內(nèi)計(jì)算用于神經(jīng)網(wǎng)絡(luò)推理等數(shù)據(jù)密集型任務(wù),將傳統(tǒng)邏輯用于控制和通用計(jì)算。
邊緣計(jì)算與存內(nèi)計(jì)算的融合正在重新定義數(shù)字集成電路的能力邊界。它不是對(duì)馮·諾依曼架構(gòu)的局部改良,而是從計(jì)算模型出發(fā)的重新思考。當(dāng)數(shù)據(jù)在產(chǎn)生的位置被就地處理,當(dāng)存儲(chǔ)單元同時(shí)扮演計(jì)算單元的角色,功耗與性能之間的傳統(tǒng)權(quán)衡曲線被徹底改寫。從智能傳感器到可穿戴設(shè)備,從工業(yè)檢測(cè)到醫(yī)療監(jiān)測(cè),這一新架構(gòu)正在將邊緣設(shè)備的智能邊界推向更低功耗、更小體積、更強(qiáng)隱私的維度。后摩爾時(shí)代的計(jì)算圖景中,存算一體不再是實(shí)驗(yàn)室中的前沿探索,而是走向規(guī)模商用的關(guān)鍵技術(shù)路徑。





