工作階段: 工作流程一般分為三個階段。
階段一:直接按照需要用c語言實現(xiàn)功能。在實際的dsp應用中,許多算法都是非常復雜,直接用匯編代碼編寫,雖然優(yōu)化效率很高,可是實現(xiàn)的難度卻很大,所以一般都采用先用c語言來實現(xiàn),然后編譯運行,利用c64x開發(fā)環(huán)境的profile?clock工具測試程序運行時間,若不能滿足要求,則進行第二階段。
階段二:c語言級的優(yōu)化。選擇c64x開發(fā)環(huán)境提供的優(yōu)化方式以及充分運用其他技巧,優(yōu)化c代碼,若還不能滿足效率要求,則進行第三步。
階段三:匯編級的優(yōu)化。將上一階段c程序中優(yōu)化效率較低的部分提出來,用線性匯編語言編寫,利用匯編優(yōu)化器進行優(yōu)化。匯編優(yōu)化器的作用是讓開發(fā)人員在不考慮c64x流水線結構和分配其內部寄存器的情況下,編寫線形匯編語言程序,然后匯編優(yōu)化器通過分配寄存器和循環(huán)優(yōu)化將匯編語言程序轉化為利用流水線方式的高速并行匯編程序。
上述的三個階段不是都必須經過,當在某一階段獲得了期望的性能,就不必進行下一階段的優(yōu)化。
1) 選用c編譯器提供的優(yōu)化選項
在編譯器中提供了分為若干等級和種類的自動優(yōu)化選項,如下:
● -o:使能軟件流水和其他優(yōu)化方法
● -pm:使能程序級優(yōu)化
● -mt:使能編譯器假設程序中沒有數(shù)據(jù)存儲混淆,可進一步優(yōu)化代碼。
● -mg:使能分析(profile)優(yōu)化代碼
● -ms:確保不產生冗余循環(huán),從而減小代碼尺寸
● -mh:允許投機執(zhí)行
● -mx:使能軟件流水循環(huán)重試,基于循環(huán)次數(shù)對循環(huán)試用多個方案,以便選擇最佳方案。
根據(jù)實際編譯的程序,選擇合適的優(yōu)化選項,進行源程序的優(yōu)化。
2) 減小存儲器相關性
為使指令達到最大效率,c64x編譯器盡可能將指令安排為并行執(zhí)行。為使指令并行操作,編譯器必須知道指令間的關系,因為只有不相關的指令才可以并行執(zhí)行。當編譯器不能確定兩條指令是否相關時,則編譯器假定它們是相關的,從而不能并行執(zhí)行。設計中常采用關鍵字const來指定目標,const表示一個變量或一個變量的存儲單元保持不變。因此,在代碼中加入關鍵字const,可以去除指令間的相關性。例如下面的程序:
void vecsum(short *sum,short*in1,short*in2,unsigned int n)
{
int i;
for(i=0;i<n;i++)
sum[i]=in1[i]+in2[i];
}
由其相關圖2(a)可見,寫sum可能對指針in1、in2所指向的地址有影響,從而in1和in2的讀操作必須等到寫sum操作完成之后才能進行,降低了流水效率,為幫助編譯器確定存儲器的相關性,使用const關鍵字來指定一個目標,上面的源程序可改為含關鍵字const的優(yōu)化源代碼:
void vecsum(short * sum, const short*in1,const short*in2,unsigned int n)
{
int i;
for(i=0;i<n;i++)
sum[i]=in1[i]+in2[i];
} 由其相關圖2(b)可見,由于使用了關鍵字const,消除了指令之間的相關路徑,從而使編譯器能夠判別內存操作之間的相關性,找到更好的指令執(zhí)行方案。
3) 使用內聯(lián)函數(shù)(intrinsics)
內聯(lián)函數(shù)是c64x編譯器提供的專門函數(shù),它們與嵌入式的匯編指令是一一對應的,其目的是快速優(yōu)化c源程序。在源程序中調用內聯(lián)函數(shù),與調用一般的函數(shù)相同,只不過內聯(lián)函數(shù)名稱前有下劃線作特殊標識。當匯編指令功能不易采用c語言表達時,可采用內聯(lián)函數(shù)表示。例如在定點運算中經常要求出源操作數(shù)的冗余符號位數(shù),這一功能如果用c完成的話,需要如下的代碼:
unsigned int norm(int src1)
{
unsigned int sign, result = 0;
sign = src1 & 0×80000000;
while(1)
{
if(sign)
{
if((src1 = src1 << 1) & sign)
result += 1;
else
return result;
}
else
{
if((src1 = src1 << 1) | sign)
return result;
else
result += 1;
}
}
}
該源程序代碼冗長,有較多的邏輯操作和判斷跳轉,運行效率低下。若用內聯(lián)函數(shù),則是result =_norm(src1),減少了代碼長度,提高了運行效率。因此對于需要大量c代碼才能表示的復雜功能,應該盡量用c64x的內聯(lián)函數(shù)來表示。





