特征金字塔網(wǎng)絡(luò)(FPN):多尺度視覺任務(wù)中的特征融合架構(gòu)與范式革新(二)
自上而下路徑是實(shí)現(xiàn)語義信息傳遞的關(guān)鍵,其核心是將深層高語義特征圖通過上采樣(通常為 2 倍插值)提升至與淺層特征圖相同的分辨率,使深層語義能夠 “滲透” 到淺層。例如,C5(25×25)首先經(jīng)過 1×1 卷積調(diào)整通道數(shù)(如從 2048 通道降至 256 通道,降低計(jì)算量并統(tǒng)一后續(xù)融合的通道維度),再通過 2 倍上采樣生成與 C4(50×50)分辨率一致的特征圖 P5';接著,P5' 與經(jīng)過同樣通道調(diào)整的 C4 特征圖進(jìn)行融合,生成新的特征圖 P4;隨后,P4 再經(jīng)過上采樣與通道調(diào)整后的 C3 融合生成 P3,以此類推,最終生成一組分辨率從 25×25 到 200×200(對(duì)應(yīng) P5 至 P3)的融合特征圖,構(gòu)成完整的特征金字塔。這一路徑的創(chuàng)新在于打破了傳統(tǒng)特征提取中 “層級(jí)割裂” 的局限,使淺層特征圖在保留細(xì)節(jié)的同時(shí),獲得了深層特征的語義支持,從而具備區(qū)分小目標(biāo)類別的能力。
橫向連接(Lateral Connection)是確保特征融合有效性的核心設(shè)計(jì),其作用是 “對(duì)齊” 深層上采樣特征與淺層原始特征的維度與信息分布,避免融合過程中細(xì)節(jié)信息被語義信息掩蓋。在 FPN 中,橫向連接并非簡單的特征疊加,而是先對(duì)淺層原始特征圖(如 C4)進(jìn)行 1×1 卷積操作,將其通道數(shù)調(diào)整為與上采樣后的深層特征圖(如 P5')一致(如均為 256 通道),消除通道維度差異導(dǎo)致的融合偏差;同時(shí),1×1 卷積還能對(duì)淺層特征進(jìn)行 “語義增強(qiáng)”,過濾冗余細(xì)節(jié)信息,使淺層特征與深層特征的語義分布更匹配。調(diào)整后的淺層特征與上采樣深層特征通過元素相加(Element-wise Addition)進(jìn)行融合,這種融合方式既能保留淺層特征中對(duì)小目標(biāo)定位至關(guān)重要的細(xì)節(jié)(如邊緣坐標(biāo)),又能注入深層特征中對(duì)類別判斷關(guān)鍵的語義(如 “是否為行人” 的特征),最終生成的融合特征圖(如 P4)實(shí)現(xiàn)了 “細(xì)節(jié)精準(zhǔn) + 語義明確” 的雙重優(yōu)勢(shì)。
FPN 的技術(shù)優(yōu)勢(shì)在多尺度視覺任務(wù)中表現(xiàn)得尤為突出,其核心競(jìng)爭力體現(xiàn)在 “特征利用率”“多尺度適配性” 與 “泛化能力” 三個(gè)維度。在特征利用率方面,FPN 通過多路徑融合,充分利用了基礎(chǔ)網(wǎng)絡(luò)不同層級(jí)的特征信息 —— 傳統(tǒng)方法通常僅使用深層特征(如 Faster R-CNN 用 C5)或淺層特征(如早期 SSD 用 C3-C7 但不融合),導(dǎo)致部分信息浪費(fèi);而 FPN 將 C2 至 C5 的特征全部納入融合,使每一層特征都能為特定尺度目標(biāo)的感知貢獻(xiàn)價(jià)值,特征利用率提升 30% 以上。在多尺度適配性方面,FPN 生成的特征金字塔天然適配不同尺度目標(biāo)的檢測(cè)需求:金字塔頂層(P5,25×25)感受野大,適合檢測(cè)大目標(biāo)(如 > 200 像素的車輛);中層(P4,50×50)適合中等目標(biāo)(80-200 像素的行人);底層(P3,100×100)適合小目標(biāo)(<80 像素的交通標(biāo)志),這種 “分層適配” 策略使小目標(biāo)檢測(cè)精度較傳統(tǒng)方法提升 20%-40%,解決了長期困擾多尺度檢測(cè)的 “小目標(biāo)漏檢” 難題。





