日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

<p id="g9479"><form id="g9479"><blockquote id="g9479"></blockquote></form></p>

<ruby id="g9479"></ruby><menuitem id="g9479"></menuitem>

<span id="g9479"><progress id="g9479"></progress></span>

當(dāng)前位置：首頁 > 嵌入式 > 嵌入式分享

邊緣計(jì)算與存內(nèi)計(jì)算一體：后摩爾時(shí)代數(shù)字集成電路的新架構(gòu)介紹

時(shí)間：2026-04-07 14:03:34

關(guān)鍵字：邊緣計(jì)算存內(nèi)計(jì)算

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]摩爾定律的放緩正在迫使芯片設(shè)計(jì)行業(yè)尋找全新的計(jì)算范式。傳統(tǒng)馮·諾依曼架構(gòu)中，處理器與存儲(chǔ)器分離，數(shù)據(jù)在兩者之間反復(fù)搬運(yùn)，這一“存儲(chǔ)墻”瓶頸在數(shù)據(jù)密集型應(yīng)用中愈發(fā)突出。以邊緣計(jì)算場(chǎng)景為例，圖像識(shí)別、語音處理、傳感器融合等任務(wù)中，數(shù)據(jù)搬運(yùn)所消耗的能量可達(dá)實(shí)際計(jì)算能量的數(shù)十倍甚至上百倍。存內(nèi)計(jì)算技術(shù)的核心理念正是打破這一壁壘——讓存儲(chǔ)器本身具備計(jì)算能力，在數(shù)據(jù)存儲(chǔ)的位置直接完成運(yùn)算。當(dāng)存內(nèi)計(jì)算與邊緣計(jì)算需求相遇，一種全新的數(shù)字集成電路架構(gòu)應(yīng)運(yùn)而生。

摩爾定律的放緩正在迫使芯片設(shè)計(jì)行業(yè)尋找全新的計(jì)算范式。傳統(tǒng)馮·諾依曼架構(gòu)中，處理器與存儲(chǔ)器分離，數(shù)據(jù)在兩者之間反復(fù)搬運(yùn)，這一“存儲(chǔ)墻”瓶頸在數(shù)據(jù)密集型應(yīng)用中愈發(fā)突出。以邊緣計(jì)算場(chǎng)景為例，圖像識(shí)別、語音處理、傳感器融合等任務(wù)中，數(shù)據(jù)搬運(yùn)所消耗的能量可達(dá)實(shí)際計(jì)算能量的數(shù)十倍甚至上百倍。存內(nèi)計(jì)算技術(shù)的核心理念正是打破這一壁壘——讓存儲(chǔ)器本身具備計(jì)算能力，在數(shù)據(jù)存儲(chǔ)的位置直接完成運(yùn)算。當(dāng)存內(nèi)計(jì)算與邊緣計(jì)算需求相遇，一種全新的數(shù)字集成電路架構(gòu)應(yīng)運(yùn)而生。

存內(nèi)計(jì)算的數(shù)學(xué)本質(zhì)是將計(jì)算操作映射到存儲(chǔ)陣列的模擬域操作中。以最常見的向量矩陣乘法為例，這是神經(jīng)網(wǎng)絡(luò)推理中最核心的計(jì)算原語。在傳統(tǒng)架構(gòu)中，權(quán)重矩陣存儲(chǔ)在SRAM或閃存中，輸入向量從處理器寄存器加載，乘法累加操作由ALU順序執(zhí)行。而在存內(nèi)計(jì)算架構(gòu)中，權(quán)重被編程到存儲(chǔ)單元的導(dǎo)通特性中，輸入向量以電壓形式施加到位線，輸出電流在位線末端自然累加，直接得到向量矩陣乘法的結(jié)果。

這一過程的物理實(shí)現(xiàn)基于歐姆定律和基爾霍夫電流定律。每個(gè)存儲(chǔ)單元等效為一個(gè)可變電導(dǎo)G，當(dāng)施加電壓V時(shí)，產(chǎn)生電流I等于V乘以G。將同一列上所有單元的電流相加，即得到輸入向量與權(quán)重列向量的點(diǎn)積。整個(gè)計(jì)算過程在內(nèi)存陣列內(nèi)部完成，無需將任何權(quán)重?cái)?shù)據(jù)搬移到處理器。對(duì)于一次8乘8的向量矩陣乘法，傳統(tǒng)架構(gòu)需要從內(nèi)存讀取64個(gè)權(quán)重值、執(zhí)行64次乘法與56次加法，而存內(nèi)計(jì)算架構(gòu)只需8次電壓施加和一次電流讀出操作。數(shù)據(jù)搬運(yùn)量減少至原來的八分之一，能耗降低一到兩個(gè)數(shù)量級(jí)。

數(shù)字存內(nèi)計(jì)算與模擬存內(nèi)計(jì)算存在本質(zhì)區(qū)別。模擬方案直接在位線上進(jìn)行電荷共享或電流求和，速度快但易受工藝、電壓、溫度波動(dòng)影響。數(shù)字方案則在存儲(chǔ)陣列外圍集成加法樹和累加器，存儲(chǔ)單元只輸出數(shù)字值0或1，通過數(shù)字邏輯完成累加。數(shù)字方案犧牲了一定的面積效率，但換來了更好的噪聲容限和量產(chǎn)一致性。當(dāng)前產(chǎn)業(yè)界的主流選擇是混合方案：存儲(chǔ)陣列采用模擬電流求和，但在讀出后立即進(jìn)行模數(shù)轉(zhuǎn)換，后續(xù)累加在數(shù)字域完成。

邊緣計(jì)算場(chǎng)景對(duì)存內(nèi)計(jì)算架構(gòu)提出了特殊要求。云端AI芯片可以承受數(shù)十瓦乃至數(shù)百瓦功耗，但邊緣設(shè)備往往被限制在百毫瓦級(jí)別。同時(shí)，邊緣設(shè)備需要處理的任務(wù)類型更加多樣化，從關(guān)鍵詞喚醒到異常檢測(cè)，從圖像分類到振動(dòng)分析，單一的矩陣乘法加速無法滿足需求。

某款面向智能傳感節(jié)點(diǎn)的存內(nèi)計(jì)算芯片采用了異構(gòu)存內(nèi)計(jì)算單元的設(shè)計(jì)。芯片內(nèi)部集成了三種不同類型的存內(nèi)計(jì)算宏：基于SRAM的高速宏用于緩存和計(jì)算激活值，訪問延遲僅為2納秒;基于阻變存儲(chǔ)器的非易失宏用于存儲(chǔ)權(quán)重，斷電后數(shù)據(jù)不丟失;基于閃存的超大容量宏用于存儲(chǔ)離線訓(xùn)練的基準(zhǔn)模型。三種宏的存儲(chǔ)密度分別為10、50和1000千比特每平方毫米，形成從高速緩存到大容量存儲(chǔ)的完整層次。

在實(shí)際的人體活動(dòng)識(shí)別任務(wù)中，該芯片展示了存內(nèi)計(jì)算架構(gòu)的能效優(yōu)勢(shì)。使用公開數(shù)據(jù)集進(jìn)行三軸加速度傳感器數(shù)據(jù)分類，模型為一個(gè)三層全連接網(wǎng)絡(luò)，共計(jì)12萬個(gè)權(quán)重參數(shù)。傳統(tǒng)ARM Cortex-M4方案完成一次推理耗時(shí)4.2毫秒，消耗能量342微焦。存內(nèi)計(jì)算芯片完成同樣推理僅耗時(shí)0.31毫秒，消耗能量18.7微焦。能效提升達(dá)18倍，延遲降低13倍。更重要的是，存內(nèi)計(jì)算方案的能耗與模型參數(shù)量呈亞線性關(guān)系，而傳統(tǒng)方案呈線性關(guān)系。這意味著隨著模型規(guī)模增大，存內(nèi)計(jì)算的相對(duì)優(yōu)勢(shì)進(jìn)一步擴(kuò)大。

存內(nèi)計(jì)算并非孤立的技術(shù)，它與邊緣計(jì)算系統(tǒng)的其他組件需要深度協(xié)同。一個(gè)完整的存算融合邊緣芯片通常包含以下層次：最底層是存內(nèi)計(jì)算陣列，執(zhí)行核心的矩陣運(yùn)算;之上是輕量級(jí)RISC-V控制核心，負(fù)責(zé)任務(wù)調(diào)度和數(shù)據(jù)流管理;再之上是片上網(wǎng)絡(luò)，連接多個(gè)存內(nèi)計(jì)算宏和專用加速器;最頂層是運(yùn)行時(shí)固件，支持動(dòng)態(tài)工作負(fù)載劃分。

某工業(yè)缺陷檢測(cè)系統(tǒng)的部署案例展示了這一架構(gòu)的實(shí)際效果。該系統(tǒng)在一條電子元器件生產(chǎn)線上檢測(cè)電容表面缺陷，需要實(shí)時(shí)處理200萬像素圖像。傳統(tǒng)方案采用Jetson Nano模塊，功耗約10瓦，需配合主動(dòng)散熱風(fēng)扇，在粉塵環(huán)境下風(fēng)扇易堵塞導(dǎo)致過熱降頻?；诖鎯?nèi)計(jì)算芯片的邊緣節(jié)點(diǎn)將功耗降至1.2瓦，實(shí)現(xiàn)無風(fēng)扇全被動(dòng)散熱，體積縮小至原來的四分之一。更重要的是，存內(nèi)計(jì)算芯片的確定性延遲特性使系統(tǒng)能夠?qū)崿F(xiàn)微秒級(jí)響應(yīng)，而GPU方案因內(nèi)核調(diào)度和內(nèi)存搬運(yùn)存在數(shù)十微秒的不可預(yù)測(cè)抖動(dòng)。

數(shù)據(jù)隱私是邊緣計(jì)算的另一核心訴求。存內(nèi)計(jì)算架構(gòu)天然適合隱私保護(hù)場(chǎng)景，因?yàn)樗杏?jì)算都在存儲(chǔ)器內(nèi)部完成，原始數(shù)據(jù)無需暴露給外部處理器。某醫(yī)療可穿戴設(shè)備廠商利用這一特性，在心電圖異常檢測(cè)任務(wù)中實(shí)現(xiàn)了本地化推理。用戶的原始心電數(shù)據(jù)始終存儲(chǔ)并計(jì)算在芯片內(nèi)部，只有最終的分類結(jié)果通過藍(lán)牙傳輸?shù)绞謾C(jī)。第三方安全審計(jì)報(bào)告確認(rèn)，該方案消除了云端推理中存在的中間數(shù)據(jù)泄露風(fēng)險(xiǎn)。

存內(nèi)計(jì)算芯片的量產(chǎn)面臨獨(dú)特的工藝挑戰(zhàn)。模擬存內(nèi)計(jì)算對(duì)存儲(chǔ)單元的導(dǎo)通一致性要求極高，單個(gè)單元10%的誤差會(huì)導(dǎo)致計(jì)算精度顯著下降。目前的主流解決方案是采用單次可編程修調(diào)技術(shù)，在晶圓測(cè)試階段測(cè)量每個(gè)單元的實(shí)際導(dǎo)通值，并寫入補(bǔ)償系數(shù)。這一步驟增加了測(cè)試成本，但對(duì)于保證量產(chǎn)良率必不可少。

產(chǎn)業(yè)進(jìn)展方面，臺(tái)積電在2025年發(fā)布了面向存內(nèi)計(jì)算優(yōu)化的22納米超低漏電工藝，專門優(yōu)化了存儲(chǔ)單元的讀寫噪聲特性。三星則將存內(nèi)計(jì)算宏作為其SAFE生態(tài)系統(tǒng)的標(biāo)準(zhǔn)IP核，可供客戶直接集成。中國(guó)廠商方面，知存科技、閃憶半導(dǎo)體等創(chuàng)業(yè)公司已推出商用存內(nèi)計(jì)算芯片，主要面向智能語音和可穿戴設(shè)備市場(chǎng)。據(jù)市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè)，存內(nèi)計(jì)算芯片的市場(chǎng)規(guī)模將從2024年的約3億美元增長(zhǎng)至2028年的25億美元，年復(fù)合增長(zhǎng)率超過70%。

需要指出的是，存內(nèi)計(jì)算并非解決所有問題的萬能方案。對(duì)于控制流密集而非數(shù)據(jù)流密集的任務(wù)，存內(nèi)計(jì)算的收益有限。產(chǎn)業(yè)界在實(shí)踐中發(fā)展出了近存計(jì)算的折中方案：將計(jì)算邏輯放置于存儲(chǔ)陣列的緊鄰位置，但不完全融入存儲(chǔ)單元。近存計(jì)算保留了存內(nèi)計(jì)算的低數(shù)據(jù)搬運(yùn)優(yōu)勢(shì)，同時(shí)避免了模擬計(jì)算的精度損失。主流趨勢(shì)是采用混合架構(gòu)，將存內(nèi)計(jì)算用于神經(jīng)網(wǎng)絡(luò)推理等數(shù)據(jù)密集型任務(wù)，將傳統(tǒng)邏輯用于控制和通用計(jì)算。

邊緣計(jì)算與存內(nèi)計(jì)算的融合正在重新定義數(shù)字集成電路的能力邊界。它不是對(duì)馮·諾依曼架構(gòu)的局部改良，而是從計(jì)算模型出發(fā)的重新思考。當(dāng)數(shù)據(jù)在產(chǎn)生的位置被就地處理，當(dāng)存儲(chǔ)單元同時(shí)扮演計(jì)算單元的角色，功耗與性能之間的傳統(tǒng)權(quán)衡曲線被徹底改寫。從智能傳感器到可穿戴設(shè)備，從工業(yè)檢測(cè)到醫(yī)療監(jiān)測(cè)，這一新架構(gòu)正在將邊緣設(shè)備的智能邊界推向更低功耗、更小體積、更強(qiáng)隱私的維度。后摩爾時(shí)代的計(jì)算圖景中，存算一體不再是實(shí)驗(yàn)室中的前沿探索，而是走向規(guī)模商用的關(guān)鍵技術(shù)路徑。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除（郵箱：macysun@21ic.com ）。

換一批

延伸閱讀

關(guān)閉