當(dāng)前位置：首頁 > 電源 > 數(shù)字電源

充分發(fā)揮FPGA浮點IP內(nèi)核的優(yōu)勢

時間：2009-12-04 22:51:17

關(guān)鍵字：內(nèi)核 FPGA IP 矩陣

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] 最近出現(xiàn)的 FPGA設(shè)計工具和 IP有效減少了計算占用的資源，大大簡化了浮點數(shù)據(jù)通路的實現(xiàn)。而且，與數(shù)字信號處理器不同， FPGA能夠支持浮點和定點混合工作的 DSP數(shù)據(jù)通路，實現(xiàn)的性能超過了 100 GFLOPS。在所有信

最近出現(xiàn)的 FPGA設(shè)計工具和 IP有效減少了計算占用的資源，大大簡化了浮點數(shù)據(jù)通路的實現(xiàn)。而且，與數(shù)字信號處理器不同， FPGA能夠支持浮點和定點混合工作的 DSP數(shù)據(jù)通路，實現(xiàn)的性能超過了 100 GFLOPS。在所有信號處理算法中，對于只需要動態(tài)范圍浮點算法的很多高性能 DSP應(yīng)用，這是非常重要的優(yōu)點。選擇 FPGA并結(jié)合浮點工具和 IP，設(shè)計人員能夠靈活的處理定點數(shù)據(jù)寬度、浮點數(shù)據(jù)精度和達(dá)到的性能等級，而這是處理器體系結(jié)構(gòu)所無法實現(xiàn)的。

引言

對于通信、軍事、醫(yī)療等應(yīng)用中的很多復(fù)雜系統(tǒng)，首先要使用浮點數(shù)據(jù)處理算法，利用 C或者 MATLAB軟件進(jìn)行仿真和建模。而最終實現(xiàn)幾乎都采用定點或者整數(shù)算法。算法被仔細(xì)映射到有限動態(tài)范圍內(nèi)，調(diào)整數(shù)據(jù)通路中的每一功能。這就需要很多取整和飽和步驟，如果處理的不合適，就會對算法性能有不利的影響。在集成過程中一般還需要進(jìn)行大量的驗證工作，以確保系統(tǒng)工作符合仿真結(jié)果。

以前，由于缺乏 FPGA工具包的支持， FPGA設(shè)計人員一般不選擇浮點算法。使用很多浮點 FPGA運(yùn)算符時，由于需要大量邏輯和布線資源，因此，它的另一個缺點是性能太差。 FPGA高效實現(xiàn)復(fù)數(shù)浮點函數(shù)的關(guān)鍵是使用基于乘法器的算法，利用大量集成在 FPGA器件中的硬件乘法器資源。用于實現(xiàn)這些非線性函數(shù)的乘法器必須有很高的精度，以保證乘法迭代過程中的精度要求。而且，高精度乘法器不需要在每一次乘法迭代中進(jìn)行歸一化和逆歸一化處理，大大降低了對邏輯和布線的要求。

FPGA采用硬件數(shù)字信號處理 (DSP)模塊，能夠?qū)崿F(xiàn)高效的 36位x36位乘法器，對于單精度浮點算法，提供足夠的位數(shù)，滿足一般的單精度 24位尾數(shù)要求。這些乘法器還能夠用于構(gòu)建更大的乘法器，實現(xiàn)高達(dá) 72位 x72位的雙精度浮點算法。

由于浮點算法動態(tài)范圍較大，相對于浮點仿真，大大簡化了系統(tǒng)性能驗證任務(wù)，因此，對于設(shè)計人員而言，這種算法通常能夠提高性能。在某些應(yīng)用中，定點算法是不可行的。動態(tài)范圍要求使用浮點算法的一個常見的例子是矩陣求逆運(yùn)算。

浮點 IP內(nèi)核
Altera現(xiàn)在提供業(yè)界最全面的單精度和雙精度浮點 IP內(nèi)核，其性能非常高。目前提供的浮點 IP內(nèi)核包括：

■加法 /減法
■乘法
■除法
■倒數(shù)
■指數(shù)
■對數(shù)
■平方根
■逆平方根
■矩陣乘法
■矩陣求逆
■快速傅立葉變換 (FFT)
■對比
■整數(shù)和分?jǐn)?shù)轉(zhuǎn)換
f本白皮書只提供單精度指標(biāo)。對于雙精度指標(biāo)，請參考浮點宏功能用戶指南。

WP-01116-1.0

2009年 10月， 1.0版

充分發(fā)揮 FPGA浮點 IP內(nèi)核的優(yōu)勢 Altera公司

基本功能
圖1詳細(xì)列出了基本浮點功能及其性能。對比浮點除法與加減法所需要的資源及其性能，表明系統(tǒng)設(shè)計人
員不需要在算法中避開除法運(yùn)算以簡化硬件實現(xiàn)。

圖1. 邏輯和寄存器使用對比(左側(cè))，以及乘法器和 fMAX對比(右側(cè))

矩陣乘法
Altera在提供基于 FPGA的參數(shù)賦值浮點矩陣IP內(nèi)核方面有其獨到之處。這些運(yùn)算符集成了數(shù)十甚至上百個
浮點運(yùn)算符，保持了較高的性能。矩陣乘法內(nèi)核還可以用于完成標(biāo)準(zhǔn)測試或者 GFLOP/S和 GFLOP/W。
SGEMM矩陣乘法內(nèi)核的性能結(jié)果如表1所示，它實際是后編譯時序逼近結(jié)果，與確定 GFLOP/S通常使用的 Altera公司充分發(fā)揮 FPGA浮點 IP內(nèi)核的優(yōu)勢紙筆浮點計算方法不同。任何其他 FPGA供應(yīng)商都不支持這類基準(zhǔn)測試，用戶使用 Altera Quartus. II軟件中提供的參數(shù)賦值矩陣乘法 IP內(nèi)核，很容易自己進(jìn)行測試。[!--empirenews.page--]

表 1. 單精度矩陣乘法性能結(jié)果

MatrixAA大小
MatrixBB大小
Vectorsize
使用的邏輯
GFLOPSf MAX (MHz)
功耗 (mW)
ALM (1)
DSP使用 (2)
M9KM144K
存儲器 (bits)
靜態(tài)
動態(tài)
I/O
總計
36x112 112x36 8 4,604 32 43 2 576,200 4 291 2,008 1,063 300 3,334
36x224 224x36 16 7,882 64 77 4 1,101,920 9 291 2,045 1,821 300 4,165
36x448 448x36 32 14,257 128 137 8 2,153,040 18 291 2,110 3,448 300 5,858
64x64 64x64 32 13,154 128 41 8 1,333,233 18 292 2,112 2,604 306 5,023
128x128 128x128 64 25,636 256 141 16 3,173,189 37 293 2,244 5,384 306 7,934

注釋：

(1) 自適應(yīng)邏輯模塊
(2) 18x18 DSP模塊
使用 Quartus II功耗估算器，很容易計算得到實際的每瓦每秒 giga浮點結(jié)果 (GFLOPS/W)。使用 Altera.
Stratix. IV EP4SE230 FPGA部分資源時，結(jié)果達(dá)到了 5 GFLOPS/W。使用 Stratix IV EP4SE530器件中更大的
矩陣乘法內(nèi)核，結(jié)果大約為 7 GFLOPS/W，計算密度為 200 GFLOPS。利用整個器件實現(xiàn)大規(guī)模浮點算法
時，分散了 FPGA靜態(tài)功耗，效率非常高。

Altera開發(fā)的浮點技術(shù)大大降低了實現(xiàn)大規(guī)模浮點數(shù)據(jù)通路的邏輯和布線資源要求。使用浮點數(shù)據(jù)通路優(yōu)化
工具非常關(guān)鍵，對資源要求的降低使得單位浮點邏輯/布線運(yùn)算比達(dá)到了高端 FPGA的水平。這反映在工
具能夠?qū)崿F(xiàn)接近 300 MHz的 fMAX，與例化的矩陣乘法規(guī)模無關(guān)。通過這種方式，在大規(guī)模浮點設(shè)計中，用
戶能夠可靠的使用 FPGA 80%以上的資源，實現(xiàn)大于 200-MHz的 fMAX性能。

矩陣求逆
FPGA中浮點算法最常見的應(yīng)用是矩陣求逆。大部分無線多輸入多輸出 (MIMO)算法、雷達(dá) STAP系統(tǒng)、醫(yī)療
成像聚束和很多高性能計算應(yīng)用都需要進(jìn)行矩陣求逆。參數(shù)賦值矩陣求逆浮點 IP內(nèi)核的實例性能 (表2)
顯示了非常高的矩陣吞吐量。 4x4矩陣求逆內(nèi)核能夠進(jìn)行每秒 2千萬次矩陣求逆運(yùn)算，速度足以支持 LTE
無線 MIMO應(yīng)用。

表 2. 單精度浮點矩陣求逆 (Cholesky算法 )性能

快速傅立葉變換
FFT是另一種大動態(tài)范圍應(yīng)用實例。由于 FFT算法的內(nèi)在特性，位精度一般會隨著 FFT長度增加而增大。某些應(yīng)用使用級聯(lián) FFT，需要更大的動態(tài)范圍。很多雷達(dá)應(yīng)用使用 FFT進(jìn)行定點算法，裝入測距數(shù)據(jù)。這一般還需要第二次 FFT，裝入多普勒測距數(shù)據(jù)，動態(tài)范圍足夠高，需要采用浮點算法。如圖3和圖4所示，相對于定點算法，需要增加邏輯以實現(xiàn)單精度浮點算法，而電路 fMAX、存儲器和乘法器基本相似。

充分發(fā)揮 FPGA浮點 IP內(nèi)核的優(yōu)勢 Altera公司

圖3. FFT邏輯和寄存器使用對比

結(jié)論
Altera新的浮點電路優(yōu)化技術(shù)集成到浮點 IP內(nèi)核中，同時提高了密度，并提供更多的邏輯資源，實現(xiàn)了優(yōu)異
的 FPGA浮點性能。其他供應(yīng)商提供專用浮點處理器解決方案，但是，大部分都達(dá)不到 Altera FPGA解決
方案的 GFLOPS高性能水平，而且沒有一個能夠?qū)崿F(xiàn) Stratix IV FPGA解決方案的 GFLOP/W性能。國家科
學(xué)基金會 (NSF)高性能配置計算中心 (CHREC)的獨立基準(zhǔn)測試證明了這一點，認(rèn)為 Stratix IV EP4SE530雙
精度浮點處理的性能最好。

Altera FPGA的其他優(yōu)點包括業(yè)界領(lǐng)先的外部存儲器帶寬資源以及性能達(dá)到 12.5 Gbps的SERDES收發(fā)器等。
FPGA平臺還提供性能最好的定點數(shù)據(jù)通路，實現(xiàn)了非常靈活的 I/O和存儲器接口。通過這些功能， Stratix
IV FPGA成為構(gòu)建高性能浮點數(shù)據(jù)通路的理想平臺，可以用在多種應(yīng)用中，從高性能計算到雷達(dá)和電子戰(zhàn)，
直至基于 MIMO的 SDR/無線系統(tǒng)，以及無線聚束應(yīng)用等。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

Alphawave IP第三季度許可和非經(jīng)常性工程預(yù)訂額同比增長169%

（全球TMT2022年10月17日訊）為全球技術(shù)基礎(chǔ)設(shè)施提供高速連接的企業(yè)Alphawave IP Group plc發(fā)布其截至2022年9月30日的三個月交易和業(yè)務(wù)更新文告。公司從2022年9月1日起整合了已收購的O...

關(guān)鍵字： ALPHA IP GROUP PLC

[芯榜]

FPGA?用戶強(qiáng)大?AI?幫手：開源?PipeCNN

最近為什么越來越多的研究開始利用FPGA作為CNN加速器？FPGA與CNN的相遇究竟能帶來什么神奇效果呢？原來，F(xiàn)PGA擁有大量的可編程邏輯資源，相對于GPU，它的可重構(gòu)性以及高功耗能效比的優(yōu)點，是GPU無法比擬的；同時...

關(guān)鍵字： FPGA 可編程邏輯資源 GPU

[芯榜]

FPGA 應(yīng)用的無限想象，打造熱情、健康地球村

FPGA的應(yīng)用領(lǐng)域包羅萬象，我們今天來看看在音樂科技領(lǐng)域及醫(yī)療照護(hù)的智能巧思。

關(guān)鍵字： FPGA 科技領(lǐng)域智能

[快訊]

東芝計劃與國內(nèi)基金“日本產(chǎn)業(yè)合作伙伴”優(yōu)先展開談判

東芝公司(Toshiba)關(guān)于經(jīng)營重組方案，計劃與國內(nèi)基金“日本產(chǎn)業(yè)合作伙伴”(JIP)為核心的企業(yè)聯(lián)盟優(yōu)先展開談判。JIP向中部電力、歐力士等多家日企尋求出資參與東芝重組。東芝9月30日宣布，從通過第一輪招標(biāo)的多個陣營...

關(guān)鍵字：東芝 IP TOSHIBA 電力

[快訊]