RetinaNet 的密集預(yù)測(cè):破解類(lèi)別不平衡難題的單階段目標(biāo)檢測(cè)范式(一)
在目標(biāo)檢測(cè)技術(shù)的演進(jìn)歷程中,“密集預(yù)測(cè)” 始終是實(shí)現(xiàn)高精度與實(shí)時(shí)性平衡的核心方向之一 —— 其核心邏輯是在圖像的全空間范圍內(nèi)生成預(yù)測(cè),通過(guò)密集覆蓋潛在目標(biāo)位置,減少漏檢風(fēng)險(xiǎn)。然而,傳統(tǒng)單階段密集預(yù)測(cè)算法(如 YOLO v1、SSD)長(zhǎng)期面臨 “類(lèi)別不平衡” 的致命瓶頸:密集的預(yù)測(cè)位置中,絕大多數(shù)屬于背景(負(fù)樣本),僅有極少數(shù)是目標(biāo)(正樣本),這種極端失衡導(dǎo)致模型訓(xùn)練偏向于簡(jiǎn)單負(fù)樣本,對(duì)難分目標(biāo)(如小目標(biāo)、遮擋目標(biāo))的學(xué)習(xí)不足,最終精度遠(yuǎn)低于兩階段算法(如 Faster R-CNN)。正是在這一技術(shù)困境下,RetinaNet 于 2017 年被提出,其創(chuàng)新性地將 “特征金字塔網(wǎng)絡(luò)(FPN)” 與 “Focal Loss” 深度結(jié)合,既通過(guò) FPN 構(gòu)建了支持多尺度目標(biāo)的密集預(yù)測(cè)架構(gòu),又通過(guò) Focal Loss 解決了類(lèi)別不平衡導(dǎo)致的訓(xùn)練低效問(wèn)題,首次實(shí)現(xiàn)了單階段密集預(yù)測(cè)算法在精度上超越兩階段算法,為后續(xù)單階段目標(biāo)檢測(cè)的爆發(fā)式發(fā)展奠定了范式基礎(chǔ)。本文將系統(tǒng)闡述 RetinaNet 中密集預(yù)測(cè)的技術(shù)原理、實(shí)現(xiàn)架構(gòu)、性能突破及應(yīng)用價(jià)值,揭示其在目標(biāo)檢測(cè)技術(shù)演進(jìn)中的里程碑意義。
RetinaNet 中密集預(yù)測(cè)的核心前提是構(gòu)建 “多尺度特征表達(dá)體系”,而這一體系的實(shí)現(xiàn)依賴于特征金字塔網(wǎng)絡(luò)(FPN)的引入。在傳統(tǒng)單階段算法(如 SSD)中,雖也利用多尺度特征圖進(jìn)行檢測(cè),但不同層級(jí)的特征圖相互獨(dú)立,淺層特征圖(負(fù)責(zé)小目標(biāo))缺乏深層語(yǔ)義信息支撐,對(duì)小目標(biāo)的類(lèi)別區(qū)分能力有限;深層特征圖(負(fù)責(zé)大目標(biāo))雖語(yǔ)義豐富,但分辨率低,對(duì)目標(biāo)細(xì)節(jié)的捕捉不足。RetinaNet 的 FPN 架構(gòu)則通過(guò) “自上而下的特征融合” 與 “橫向連接”,打破了這種層級(jí)割裂:首先,基礎(chǔ)網(wǎng)絡(luò)(如 ResNet)自下而上提取特征,生成不同分辨率的特征圖(稱為 “骨干特征圖”),淺層特征圖(如 C2)分辨率高、感受野小,深層特征圖(如 C5)分辨率低、感受野大;隨后,自上而下的路徑將深層高語(yǔ)義特征圖(如 C5)通過(guò)上采樣(如 2 倍插值)提升至與淺層特征圖相同分辨率,同時(shí)通過(guò)橫向連接將骨干網(wǎng)絡(luò)中對(duì)應(yīng)層級(jí)的淺層特征圖(如 C4)與上采樣后的深層特征圖融合 —— 這種融合既保留了淺層特征圖的細(xì)節(jié)信息(如小目標(biāo)的邊緣、紋理),又補(bǔ)充了深層特征圖的語(yǔ)義信息(如小目標(biāo)的類(lèi)別特征),最終生成一組 “語(yǔ)義 - 細(xì)節(jié)均衡” 的多尺度特征圖(稱為 “預(yù)測(cè)特征圖”,如 P3 至 P7)。
這組預(yù)測(cè)特征圖構(gòu)成了 RetinaNet 密集預(yù)測(cè)的 “空間基座”:每個(gè)預(yù)測(cè)特征圖對(duì)應(yīng)特定尺度的目標(biāo),P3(分辨率最高)負(fù)責(zé)檢測(cè)小目標(biāo)(如 32×32 像素以下),P7(分辨率最低)負(fù)責(zé)檢測(cè)大目標(biāo)(如 256×256 像素以上),中間層級(jí)(P4、P5、P6)覆蓋中等尺度目標(biāo);同時(shí),每個(gè)預(yù)測(cè)特征圖上的每個(gè)空間位置都作為預(yù)測(cè)單元,生成多個(gè)不同寬高比的錨點(diǎn)(Anchor),這些錨點(diǎn)以密集網(wǎng)格的形式覆蓋整個(gè)圖像空間 —— 例如,每個(gè)位置生成 9 個(gè)錨點(diǎn)(3 種尺度 ×3 種寬高比),一張 512×512 輸入圖像最終會(huì)生成超過(guò) 10 萬(wàn)個(gè)錨點(diǎn),這種 “全尺度 + 全空間” 的錨點(diǎn)覆蓋,確保了對(duì)圖像中任意位置、任意尺度目標(biāo)的密集捕捉,從根本上解決了傳統(tǒng)算法對(duì)小目標(biāo)、邊緣目標(biāo)的漏檢問(wèn)題。





