在嵌入式系統(tǒng)與邊緣計(jì)算場(chǎng)景中,矩陣運(yùn)算作為圖像處理、信號(hào)分析、機(jī)器學(xué)習(xí)等領(lǐng)域的核心操作,其性能直接影響系統(tǒng)實(shí)時(shí)性與能效。傳統(tǒng)CPU架構(gòu)受限于串行執(zhí)行模式,難以滿足高吞吐、低延遲的矩陣計(jì)算需求。FPGA(現(xiàn)場(chǎng)可編程門陣列)憑借其硬件并行性、可定制化架構(gòu)及低功耗特性,成為嵌入式矩陣運(yùn)算硬件加速的理想選擇。