CLB是PL部分的基礎(chǔ)邏輯單元,每個CLB包含多個 SLICE,每個 SLICE 集成查找表(LUT)、觸發(fā)器、多路選擇器等組件。Zynq UltraScale的CLB采用升級后的架構(gòu),LUT支持6輸入配置,可靈活實現(xiàn)組合邏輯功能,同時部分LUT可配置為分布式RAM或移位寄存器,提升資源利用率;觸發(fā)器支持異步復位/置位與同步使能功能,滿足時序邏輯設(shè)計的多樣化需求。通過CLB的組合與互聯(lián),用戶可實現(xiàn)自定義邏輯電路,如傳感器數(shù)據(jù)預處理模塊、協(xié)議解析電路、狀態(tài)機控制器等,適配不同應用場景的定制化需求。
DSP48單元是PL部分的數(shù)值計算核心,針對乘法、累加、濾波等數(shù)字信號處理任務優(yōu)化設(shè)計,Zynq UltraScale的DSP48單元支持18x18位乘法運算,部分高端型號集成數(shù)千個DSP48單元,形成大規(guī)模并行計算陣列。該單元支持浮點運算、復數(shù)運算等高級功能,可通過流水線設(shè)計實現(xiàn)高頻次、低延遲的數(shù)值計算,在自動駕駛的激光雷達點云處理、圖像目標檢測、雷達信號濾波等計算密集型場景中發(fā)揮核心作用,相比軟件串行計算效率提升數(shù)十倍甚至上百倍。
Block RAM為PL部分提供高速片上存儲資源,每個Block RAM的容量通常為36KB,支持單端口、雙端口、偽雙端口等多種配置模式,可靈活實現(xiàn)數(shù)據(jù)緩存、FIFO隊列、ROM等存儲功能。Block RAM的讀寫延遲僅為幾個時鐘周期,且支持字節(jié)使能、奇偶校驗等功能,能夠為并行處理模塊提供低延遲的數(shù)據(jù)支撐,例如在視頻編解碼中用于幀緩存,在傳感器數(shù)據(jù)處理中用于臨時數(shù)據(jù)存儲。部分高端型號還集成了UltraRAM資源,單塊容量可達288KB,進一步提升片上存儲的容量與帶寬。
GT高速串行收發(fā)器是PL部分實現(xiàn)高速數(shù)據(jù)傳輸?shù)年P(guān)鍵組件,Zynq UltraScale的GT收發(fā)器支持多種速率等級,從10Gbps到100Gbps以上不等,適配不同高速接口標準。通過GT收發(fā)器,可實現(xiàn)PCIe 4.0、100G以太網(wǎng)、CPRI、JESD204B等高速協(xié)議的硬件實現(xiàn),滿足自動駕駛中多傳感器數(shù)據(jù)的高速傳輸、車路協(xié)同中的大容量數(shù)據(jù)交互等場景需求。此外,GT收發(fā)器還支持信號均衡、時鐘恢復、誤碼檢測等功能,確保高速信號傳輸?shù)目煽啃浴?
針對人工智能與深度學習場景,部分Zynq UltraScale+型號集成了專用的深度學習處理單元(DPU, Deep Learning Processing Unit),該單元基于硬件化的深度學習算法架構(gòu),支持CNN、RNN等主流神經(jīng)網(wǎng)絡(luò)模型的加速運行。DPU通過并行計算陣列與優(yōu)化的指令集,可高效完成卷積、池化、激活等神經(jīng)網(wǎng)絡(luò)運算,相比通用處理器的軟件實現(xiàn),算力密度提升顯著,且延遲更低,能夠滿足自動駕駛中實時目標檢測、語義分割等AI任務的需求。
Zynq UltraScale通過高速互聯(lián)總線與DMA控制器,實現(xiàn)了PS與PL之間的低延遲、高帶寬數(shù)據(jù)交互,為異構(gòu)協(xié)同提供了堅實的硬件支撐。其互聯(lián)架構(gòu)以AXI(Advanced eXtensible Interface)總線為核心,包括AXI-Lite、AXI-Stream、AXI-MM(Memory-Mapped)三種主要總線類型,分別承擔不同的交互任務:AXI-Lite總線用于PS對PL模塊的配置與狀態(tài)讀取,具有控制簡單、帶寬需求低的特點;AXI-Stream總線用于流式數(shù)據(jù)的傳輸,如視頻幀、傳感器數(shù)據(jù)流等,支持無地址的連續(xù)數(shù)據(jù)傳輸,延遲極低;AXI-MM總線用于內(nèi)存映射的數(shù)據(jù)交互,支持PS與PL對外部內(nèi)存的共享訪問,帶寬高且靈活性強。