日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 嵌入式 > 嵌入式硬件
[導(dǎo)讀] 自動目標識別(ATR)算法通常包括自動地對目標進行檢測、跟蹤、識別和選擇攻擊點等算法。戰(zhàn)場環(huán)境的復(fù)雜性和目標類型的不斷增長使ATR算法的運算量越來越大,因此ATR算法對微處理器的處理能力提出了更高.

自動目標識別(ATR)算法通常包括自動地對目標進行檢測、跟蹤、識別和選擇攻擊點等算法。戰(zhàn)場環(huán)境的復(fù)雜性和目標類型的不斷增長使ATR算法的運算量越來越大,因此ATR算法對微處理器的處理能力提出了更高的要求。由于通用數(shù)字信號處理芯片能夠通過編程實現(xiàn)各種復(fù)雜的運算,處理精度高,具有較大的靈活性,而且尺寸小、功耗低、速度快,所以一般選擇DSP芯片作為微處理器來實現(xiàn)ATR算法的工程化和實用化。

為了保證在DSP處理器上實時地實現(xiàn)ATR算法,用算法并行化技術(shù)。算法并行化處理的三要素是:①并行體系結(jié)構(gòu);②并行軟件系統(tǒng);③并行算法。并行體系結(jié)構(gòu)是算法并行化的硬件基礎(chǔ),并行算法都是針對特定的并行體系結(jié)構(gòu)開發(fā)的并行程序。根據(jù)DSP處理器的數(shù)目,ATR算法的并行實現(xiàn)可以分為處理器間并行和處理器內(nèi)并行。處理器間并行是指多個DSP處理器以某種方式連接起來的多處理器并行系統(tǒng),ATR算法在多個處理器上并行招待。根據(jù)處理器使用存儲器的情況,多處理器并行系統(tǒng)又可分為共享存儲器多處理器并行系統(tǒng)和分布式多處理器并行系統(tǒng)。處理器內(nèi)并行是指在單個DSP處理器內(nèi)通過多個功能單元的指令級并行(ILP)來實現(xiàn)ATR算法的并行化。本文分別對在共享存儲器多處理器并行系統(tǒng)、分布式多處理器并行系統(tǒng)和指令級并行DSP處理器上并行實現(xiàn)ATR算法進行了探討。

1 在共享存儲器多處理并行系統(tǒng)上實現(xiàn)ATR算法

在共享存儲器多處理器并行系統(tǒng)中,各個處理器通過共享總線對所有的存儲器進行操作,實現(xiàn)各個處理器之間的數(shù)據(jù)通信。而在任一時刻,只允許一個處理器對共享總線進行操作。所以處理器對存儲器進行讀/寫操作時就必須先獲得對共享總線的控制權(quán),這通過總線仲裁電路實現(xiàn)。然而,由于所有的處理器只能通過一條共享總線對存儲器進行訪問,這在處理器數(shù)目比較多或者處理器之間頻繁交換數(shù)據(jù)的情況下容易引起總線沖突和等待而降低整個并行系統(tǒng)的運行速度。共享存儲器多處理器并行系統(tǒng)的優(yōu)點是結(jié)構(gòu)簡單,當處理器的數(shù)目較少時,可以達到較高的加速比。

ADSP2106x處理器支持最為常用的共享存儲器多處理器并行系統(tǒng),組成多處理器系統(tǒng)的每一片ADSP2106x的片內(nèi)存儲器統(tǒng)一編址,任一ADSP2106x可以訪問其它任何一片ADSP2106x的片內(nèi)存儲器。由于片內(nèi)SRAM為雙口存儲器,因而這種訪問并不中斷被訪問處理器的正常工作。每個處理器片內(nèi)SRAM既是該處理器的局部存儲器,又是共享存儲器的部分。在不增加輔助電容的情況下,通過外部總線接口直接相連的處理器數(shù)量最多為6個。由于每個處理器的工作程序放在其片內(nèi)的雙口SRAM中,因此各個處理器可以實現(xiàn)并行處理,這是ADSP2106x的存儲器結(jié)構(gòu)所決定的。

ATR算法在共享存儲器多處理器并行系統(tǒng)中實現(xiàn)時,在編寫并行算法程序方面應(yīng)當重點考慮的問題包括:

(1)均衡地把任務(wù)分配給各個處理器

ATR算法在共享存儲器多處理器并行系統(tǒng)中實現(xiàn)任務(wù)級并行,因此必須把ATR算法劃分為計算量均衡的多個任務(wù),把各個任務(wù)分配給多個處理器,才能發(fā)揮多處理器并行系統(tǒng)的最大并行效率。

(2)盡量減少多處理器之間數(shù)據(jù)通信

由于多處理器只能通過一條共享總線對存儲器進行訪問,這在多處理器之間頻繁交換數(shù)據(jù)的情況下容易引起總線競爭而降低整個并行系統(tǒng)的運行速度。

(3)利用單個處理器的并行編程特性

充分應(yīng)用單個處理器的并行編程特性,有利于縮短各個處理器上任務(wù)的運行時間。例如,ADSP2106x的32位浮點運算單元包含一個乘法器、一個加法器和移位邏輯電路,它們并行工作;比特倒轉(zhuǎn)尋址在傅立葉變換運算時非常有用;循環(huán)尋址在作卷積、數(shù)字濾波運算時經(jīng)常用到等。

2 在分布式多處理器并行系統(tǒng)上實現(xiàn)ATR算法

在分布式多處理器并行系統(tǒng)中,多處理器有各自獨立的存儲器,多個處理器通過通信口相連構(gòu)成分布式多處理器并行系統(tǒng)。分布式多處理器并行系統(tǒng)的加速比和處理器的數(shù)目呈線性關(guān)系,所以只要增加處理器的數(shù)目,分布式多處理器并行系統(tǒng)的處理能力就能夠成比例地增加。分布式多處理器比較適合于構(gòu)成大規(guī)模并行系統(tǒng)。

目前,計算量過大仍然是制約許多有效的ATR算法實時實現(xiàn)的個主要因素。ATR算法在分布式多處理器并行系統(tǒng)上實時實現(xiàn)是一個很有潛力的研究領(lǐng)域,特別在地基和天基雷達信號處理系統(tǒng)中有廣闊的應(yīng)用前景。分布式多處理器并行系統(tǒng)的連接方式有線形、樹形、星形、網(wǎng)孔和超立方體結(jié)構(gòu)等。樹形和星形網(wǎng)絡(luò)的優(yōu)點是網(wǎng)絡(luò)管理容易、數(shù)據(jù)通信進尋徑簡單;缺點是樹形網(wǎng)絡(luò)的根節(jié)點處理器和星形網(wǎng)絡(luò)的中央節(jié)點處理器的輸入/輸出吞吐量大,易造成通信瓶頸。所以樹形和星形網(wǎng)絡(luò)不適合ATR算法各個任務(wù)數(shù)據(jù)通信量較大的應(yīng)用場合。

在分布式多處理器并行系統(tǒng)中并行實現(xiàn)ATR算法目前還處于研究的初始階段,在編寫并行算法程序應(yīng)當重點考慮兩個方面:

(1)各處理器任務(wù)的均衡分配

在分布式多處理器并行系統(tǒng)中處理器的數(shù)目通常較多,只有合理地對眾多的處理器均衡地分配任務(wù),才能最大地發(fā)揮并行系統(tǒng)的總體性能,提高并行系統(tǒng)的加速比。

(2)處理器節(jié)點間的高效通信

在分布式多處理器并行系統(tǒng)中數(shù)據(jù)通信都是點對點通信。即兩個相鄰的處理器之間通過通信口通信。因此需要合理安排各個處理器節(jié)點在網(wǎng)絡(luò)結(jié)構(gòu)中的位置,盡可能地縮短處理器節(jié)點間的通信路徑長度,從而實現(xiàn)處理器節(jié)點間的高效數(shù)據(jù)通信。

3 在指令級并行DSP處理器上實現(xiàn)ATR算法

在單片DSP處理器內(nèi)通過多個功能單元的指令級并行(ILP)實現(xiàn)ATR算法的并行化處理,目前適合ATR算法實時處理的指令級并行芯片是TI公司的TMS320C6x系列DSP。TMS320C6x系列DSP處理器是第一個使用超長指令字(VLIW)體系結(jié)構(gòu)的數(shù)字信號處理芯片。下面以TMS320C62x定點系列DSP為例說明指令級并行的原理和ATR并行算法軟件開發(fā)方法。

3.1 VLIW體系結(jié)構(gòu)

TMS320C62x的內(nèi)核結(jié)構(gòu)如圖1所示。內(nèi)核中的8個功能單元可以完全并行運行,功能單元執(zhí)行邏輯、位移、乘法、加法和數(shù)據(jù)尋址等操作。內(nèi)核采用VLIW體系結(jié)構(gòu),單指令字長32位,取指令、指令分配和指令譯碼單元每周期可以從程序存儲器傳遞8條指令到功能單元。這8條指令組成一個指令包,總字長為256位。芯片內(nèi)部設(shè)置了專門的指令分配模塊,可以將每個256位的指令分配到8個功能單元中,并由8個功能單元并行運行。TMS320C62x芯片的最高時鐘頻率可以達到200MHz。當8個功能單元同時運行時,該芯片的處理能力高達1600MIPS。

3.2 基于TMS320C62x的并行算法軟件開發(fā)方法

基于TMS320C62x的并行編譯系統(tǒng)支持C語言和匯編語言開發(fā)并行程序代碼。通常,開發(fā)ATR并行算法按照代碼開發(fā)流程的三個階段進行并行程序設(shè)計:第一階段是開發(fā)C代碼;第二階段是優(yōu)化C代碼;第三階段是編寫線性匯編代碼。以上三個階段不是必須的,如果在某一階段已經(jīng)實現(xiàn)了ATR算法的功能和性能要求,就不必進入下一階段。

(1)開發(fā)C代碼

開發(fā)C代碼需要考慮的要點包括:

①數(shù)據(jù)結(jié)構(gòu)

TMS320C62x編譯器定義了各種數(shù)據(jù)結(jié)構(gòu)的長度:字符型(char)為8位,短整型(short)為16位,整型(int)為32位,長整形(long)為40位,浮點型(float)為32位,雙精度浮點型(double)為64位。在編寫C代碼時應(yīng)當遵循的規(guī)則是:避免在代碼中將int和long型作為同樣長度處理;對于定點乘法,應(yīng)當盡可能使用short型數(shù)據(jù);對循環(huán)計數(shù)器使用int或者無符號int類型,避免不必要的符號擴展。

②提高C代碼性能

應(yīng)用調(diào)試器的Profile工具可以得到一個關(guān)于C代碼中各特定代碼段執(zhí)行情況的統(tǒng)計表,也可以得到特定代碼段招待所用的CPU時鐘周期數(shù)。因此可以找出影響軟件程序總體性能的C代碼段加以改進,通常是循環(huán)代碼段影響軟件程序總體性能。

③數(shù)據(jù)的定標

由于TMS320C62x是定點系列芯片,不支持浮點操作。在程序編寫過程中,應(yīng)當盡量采用定點的數(shù)據(jù)結(jié)構(gòu)。而實際處理的數(shù)據(jù)通常都是浮點的,所以需要把浮點數(shù)據(jù)通過定標轉(zhuǎn)化為整型數(shù)據(jù)處理,提高程序的處理速度。數(shù)據(jù)的定標是十分關(guān)鍵的步驟,既要使數(shù)據(jù)處理精度滿足性能要求,又要防止在數(shù)據(jù)處理過程中出現(xiàn)溢出。

(2)優(yōu)化C代碼

優(yōu)化C代碼包括向編譯器指明不相關(guān)的指令、循環(huán)展開、循環(huán)合并、使用內(nèi)聯(lián)函數(shù)、使用字訪問短整型數(shù)據(jù)和軟件流水等方法。

①向編譯器指明不相關(guān)的指令

為使指令并行操作,編譯器必須確定指令間的相關(guān)性,只有不相關(guān)的指令才可以并行執(zhí)行。如果編譯器不能確定兩條指令是不相關(guān)的,則認為是相關(guān)的,安排它們串行招待。用戶可通過如下方法指明相關(guān)的指令:

·關(guān)鍵字const可以指定一個目標,const表示一個變量或者一個變量的存儲單元保持不變,使用const可以提高代碼的性能和適應(yīng)性。

·一起使用-pm選項和-03選項可以確定程序優(yōu)先級。在程序優(yōu)先級中,所有源文件都被編譯成一個模塊,從而使編譯器更有效地消除相關(guān)性。

·使用-mt選項向編譯器說明在代碼中不存在存儲器相關(guān)性,即允許編譯器在無存儲器相關(guān)性的假設(shè)下進行優(yōu)化。

②循環(huán)展開

循環(huán)展開就是把循環(huán)計數(shù)小的循環(huán)展開,成為非循環(huán)形式的串行程序,或者把循環(huán)計數(shù)大的循環(huán)部分展開,減少循環(huán)迭代次數(shù),增加單個循環(huán)內(nèi)的代碼,使得循環(huán)內(nèi)的操作可以均勻分布在各個功能單元上,保持DSP處理器的各個功能單元滿負荷運行。

③循環(huán)合并

如果兩個循環(huán)計數(shù)差不多、循環(huán)執(zhí)行互不相同的操作,可以把它們合并在一起組成一個循不。當兩個循環(huán)的負荷都不滿時,這是非常有用的。

④使用內(nèi)聯(lián)函數(shù)

TMS320C62x編譯器提供的內(nèi)聯(lián)函數(shù)是直接映射為內(nèi)聯(lián)指令的特殊函數(shù),內(nèi)聯(lián)函數(shù)的代碼高效、代碼長度短。用戶可以使用內(nèi)聯(lián)函數(shù)并行優(yōu)化C代碼。

⑤使用字節(jié)訪問短整型數(shù)據(jù)

內(nèi)聯(lián)函數(shù)中有些指令是對存儲在32位寄存器的高16位和低16位字段進行操作的。當有大量短整型數(shù)據(jù)進行操作時,可以使用字(整型數(shù))一次訪問兩個短整型數(shù)據(jù)。然后使用內(nèi)聯(lián)函數(shù)對這些數(shù)據(jù)進行操作,從而減少對內(nèi)存的訪問。

⑥軟件流水

軟件流水是用來安排循環(huán)指令,使這個循環(huán)多次迭代并行執(zhí)行的一種技術(shù)。在編譯時使用-o2和-o3選項,編譯器可對循環(huán)代碼實現(xiàn)軟件流水;使用-o3和-pm選項,使優(yōu)化器訪問整個程序,了解循環(huán)次數(shù);使用_nassert內(nèi)聯(lián)函數(shù),防止冗余循環(huán)產(chǎn)生;使用投機執(zhí)行(_mh選項)消除軟件注流水循環(huán)的排空,從而減少代碼尺寸。

在嵌套循環(huán)中,編譯器僅對最里面的循環(huán)執(zhí)行軟件流水,因此對招待周期很少的內(nèi)循環(huán)作循環(huán)展開,外循環(huán)進行軟件流水,這樣可以改進C代碼并行執(zhí)行的性能。使用軟件流水還應(yīng)當注意:盡管軟件流水循環(huán)可以包含內(nèi)聯(lián)函數(shù),但是不能包含函數(shù)調(diào)用;在循環(huán)中不可以有條件終止指令;在循環(huán)體中不可以修改循環(huán)控制變量。

(3)編寫線性匯編代碼

編寫線性匯編代碼是并行算法軟件開發(fā)流程的第三個階段。了提高并行算法軟件代碼的性能,對影響并行程序速度的關(guān)鍵C代碼可以用線性編重新編寫。編寫線性匯編代碼不需要指明使用的寄存器、指令的并行與否、指令的延遲周期和指令使用的功能單元,匯編優(yōu)化器會根據(jù)情況確定這些住處。優(yōu)化線性匯編代碼的方法包括:為線性匯編指令指定功能單元,使得最后的匯編指令并行執(zhí)行;使用字訪問短整型數(shù)據(jù);使用軟件流水對循環(huán)進行優(yōu)化。編寫線性匯編代碼的工作量非常大,需要很長的開發(fā)周期,而且開發(fā)后的匯編代碼不能像C代碼那樣移植在其它的DSP平臺上。

應(yīng)用上述并行程序開發(fā)方法,在TMS320C6201 EVM板上實現(xiàn)了寬帶毫米波雷達目標時延神經(jīng)網(wǎng)絡(luò)識別算法。經(jīng)過實際測試,并行算法程序執(zhí)行時間為0.850ms,滿足了目標識別算法的實時性需求。


本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

2025年8月14日,致力于亞太地區(qū)市場的國際領(lǐng)先半導(dǎo)體元器件分銷商---大聯(lián)大控股宣布,其旗下詮鼎推出基于新突思(Synaptics)SL1680嵌入式處理器的AI疲勞駕駛檢測方案。

關(guān)鍵字: AI 嵌入式處理器 Type-C

嵌入式處理器是嵌入式系統(tǒng)的核心,是控制、輔助系統(tǒng)運行的硬件單元。范圍極其廣闊,從最初的4位處理器,目前仍在大規(guī)模應(yīng)用的8位單片機,到最新的受到廣泛青睞的32位,64位嵌入式CPU。

關(guān)鍵字: 嵌入式處理器 ARM

米爾發(fā)布基于STM32MP257設(shè)計的嵌入式處理器模塊MYC-LD25X核心板及開發(fā)板。核心板基于STM32MP2系列是意法半導(dǎo)體推出最新一代工業(yè)級64位微處理器,采用LGA 252 PIN設(shè)計,存儲配置1GB/2GB...

關(guān)鍵字: 核心板 開發(fā)板 嵌入式處理器

隨著全球?qū)沙掷m(xù)發(fā)展的日益關(guān)注,新能源技術(shù)作為替代傳統(tǒng)能源的重要選擇,正迅速發(fā)展并深入各個領(lǐng)域。在這一技術(shù)革新的浪潮中,嵌入式技術(shù)作為關(guān)鍵的智能化解決方案,正在為新能源行業(yè)的發(fā)展注入新的動力和創(chuàng)新。

關(guān)鍵字: 核心板 嵌入式處理器

嵌入式處理器是一種特殊的計算機處理器,它被設(shè)計用于嵌入到各種設(shè)備和系統(tǒng)中,以實現(xiàn)特定的功能。由于其低功耗、高性能和可靠性等特點,嵌入式處理器在許多領(lǐng)域都有廣泛的應(yīng)用,如汽車電子、工業(yè)控制、醫(yī)療設(shè)備等。本文將對嵌入式處理器...

關(guān)鍵字: 嵌入式處理器 嵌入式系統(tǒng)

2023年10月10日, [恩智浦創(chuàng)新技術(shù)論壇] 在深圳灣萬麗酒店舉行,眾多工業(yè)、物聯(lián)網(wǎng)、新能源和醫(yī)療等行業(yè)的企業(yè)出席論壇,深入交流市場趨勢與行業(yè)洞察,一同討論如何協(xié)同面對市場的機遇與挑戰(zhàn),共同促進未來市場的發(fā)展。米爾電...

關(guān)鍵字: NXP 嵌入式處理器

據(jù)業(yè)內(nèi)信息報道,昨天 AMD 在 Embedded World 上宣布了其第四代 EPYC 嵌入式處理器,該處理器采用其 Zen 4 架構(gòu),旨在云和企業(yè)計算以及工廠車間工業(yè)邊緣服務(wù)器中的嵌入式網(wǎng)絡(luò)、安全、防火墻和存儲。

關(guān)鍵字: Zen 4 AMD EPYC 嵌入式處理器

摘 要 :智能電網(wǎng)以優(yōu)良的性能服務(wù)于國民生產(chǎn),主要依靠接入電力系統(tǒng)設(shè)備間的網(wǎng)絡(luò)通信。便攜式電力設(shè)備的網(wǎng)絡(luò)通信性能測試對于智能電網(wǎng)的運行具有重要意義。以嵌入式處理器為核心,提出了一種智能電網(wǎng)設(shè)備網(wǎng)絡(luò)通信性能的便攜式測試裝置...

關(guān)鍵字: 智能電網(wǎng) 嵌入式處理器 WinCE操作系統(tǒng) 通信 便攜式測試裝置 人機接口

隨著對高處理能力、實時多任務(wù)、網(wǎng)絡(luò)通信、超低功耗需求的增長,傳統(tǒng)8位機已遠遠滿足不了新產(chǎn)品的要求,高端嵌入式處理器已經(jīng)進入了國內(nèi)開發(fā)人員的視野,并在國內(nèi)得到了普遍的重視和應(yīng)用。

關(guān)鍵字: 32位 ARM 嵌入式處理器 調(diào)試技術(shù)
關(guān)閉