dsp編程優(yōu)化方法

時間：2018-12-19 16:10:01

關鍵字： DSP 嵌入式處理器方法

手機看文章

掃描二維碼
隨時隨地手機看文章

工作階段：　　工作流程一般分為三個階段。

　　階段一：直接按照需要用c語言實現(xiàn)功能。在實際的dsp應用中，許多算法都是非常復雜，直接用匯編代碼編寫，雖然優(yōu)化效率很高，可是實現(xiàn)的難度卻很大，所以一般都采用先用c語言來實現(xiàn)，然后編譯運行，利用c64x開發(fā)環(huán)境的profile?clock工具測試程序運行時間，若不能滿足要求，則進行第二階段。

　　階段二：c語言級的優(yōu)化。選擇c64x開發(fā)環(huán)境提供的優(yōu)化方式以及充分運用其他技巧，優(yōu)化c代碼，若還不能滿足效率要求，則進行第三步。

　　階段三：匯編級的優(yōu)化。將上一階段c程序中優(yōu)化效率較低的部分提出來，用線性匯編語言編寫，利用匯編優(yōu)化器進行優(yōu)化。匯編優(yōu)化器的作用是讓開發(fā)人員在不考慮c64x流水線結構和分配其內部寄存器的情況下，編寫線形匯編語言程序，然后匯編優(yōu)化器通過分配寄存器和循環(huán)優(yōu)化將匯編語言程序轉化為利用流水線方式的高速并行匯編程序。
上述的三個階段不是都必須經過，當在某一階段獲得了期望的性能，就不必進行下一階段的優(yōu)化。
　　1) 選用c編譯器提供的優(yōu)化選項
　　在編譯器中提供了分為若干等級和種類的自動優(yōu)化選項，如下：

　　● -o：使能軟件流水和其他優(yōu)化方法
　　● -pm：使能程序級優(yōu)化
　　● -mt：使能編譯器假設程序中沒有數(shù)據(jù)存儲混淆，可進一步優(yōu)化代碼。
　　● -mg：使能分析（profile）優(yōu)化代碼
　　● -ms：確保不產生冗余循環(huán)，從而減小代碼尺寸
　　● -mh：允許投機執(zhí)行
　　● -mx：使能軟件流水循環(huán)重試，基于循環(huán)次數(shù)對循環(huán)試用多個方案，以便選擇最佳方案。
根據(jù)實際編譯的程序，選擇合適的優(yōu)化選項，進行源程序的優(yōu)化。
　　2) 減小存儲器相關性

　　為使指令達到最大效率，c64x編譯器盡可能將指令安排為并行執(zhí)行。為使指令并行操作，編譯器必須知道指令間的關系，因為只有不相關的指令才可以并行執(zhí)行。當編譯器不能確定兩條指令是否相關時，則編譯器假定它們是相關的，從而不能并行執(zhí)行。設計中常采用關鍵字const來指定目標，const表示一個變量或一個變量的存儲單元保持不變。因此，在代碼中加入關鍵字const，可以去除指令間的相關性。例如下面的程序：

void vecsum(short *sum,short*in1,short*in2,unsigned int n)
{
int i;
for(i=0;i<n;i++)
sum[i]=in1[i]+in2[i];
}
由其相關圖2(a)可見，寫sum可能對指針in1、in2所指向的地址有影響，從而in1和in2的讀操作必須等到寫sum操作完成之后才能進行，降低了流水效率，為幫助編譯器確定存儲器的相關性，使用const關鍵字來指定一個目標，上面的源程序可改為含關鍵字const的優(yōu)化源代碼：
void vecsum(short * sum, const short*in1,const short*in2,unsigned int n)
{
int i;
for(i=0;i<n;i++)
sum[i]=in1[i]+in2[i];
}　　由其相關圖2(b)可見，由于使用了關鍵字const，消除了指令之間的相關路徑，從而使編譯器能夠判別內存操作之間的相關性，找到更好的指令執(zhí)行方案。

　　3) 使用內聯(lián)函數(shù)（intrinsics）

　　內聯(lián)函數(shù)是c64x編譯器提供的專門函數(shù)，它們與嵌入式的匯編指令是一一對應的，其目的是快速優(yōu)化c源程序。在源程序中調用內聯(lián)函數(shù)，與調用一般的函數(shù)相同，只不過內聯(lián)函數(shù)名稱前有下劃線作特殊標識。當匯編指令功能不易采用c語言表達時，可采用內聯(lián)函數(shù)表示。例如在定點運算中經常要求出源操作數(shù)的冗余符號位數(shù)，這一功能如果用c完成的話，需要如下的代碼：

unsigned int norm(int src1)
{
unsigned int sign, result = 0;
sign = src1 & 0×80000000;
while(1)
{
if(sign)
{
if((src1 = src1 << 1) & sign)
result += 1;
else
return result;
}
else
{
if((src1 = src1 << 1) | sign)
return result;
else
result += 1;
}
}
}
　　該源程序代碼冗長，有較多的邏輯操作和判斷跳轉，運行效率低下。若用內聯(lián)函數(shù)，則是result =_norm(src1)，減少了代碼長度，提高了運行效率。因此對于需要大量c代碼才能表示的復雜功能，應該盡量用c64x的內聯(lián)函數(shù)來表示。