隨著深度學(xué)習(xí)技術(shù)的不斷迭代,出現(xiàn)了一系列適用于特征提取的經(jīng)典CNN模型,從淺層CNN(AlexNet)到深層CNN(ResNet、VGG),再到CNN與Transformer融合的模型(Swin Transformer),各類模型的特征提取能力不斷提升,適配的場景也不斷拓展,以下詳細(xì)拆解各類經(jīng)典模型的特征提取原理及應(yīng)用場景。
1. AlexNet:深度學(xué)習(xí)特征提取的開創(chuàng)性模型,2012年由Hinton團(tuán)隊提出,包含5個卷積層、3個池化層、2個全連接層,是第一個將深度學(xué)習(xí)應(yīng)用于圖像特征提取和分類的模型,徹底打破了傳統(tǒng)特征提取技術(shù)的局限。其特征提取原理是:通過淺層卷積層(第1-2層)提取圖像的邊緣、角點等底層特征,采用ReLU激活函數(shù)解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的梯度消失問題,通過Dropout技術(shù)解決過擬合問題;通過中層卷積層(第3-5層)提取圖像的紋理、局部部件等中層特征,逐步實現(xiàn)特征的抽象;通過全連接層,將中層特征融合為高層語義特征,輸出特征向量,用于后續(xù)分類任務(wù)。AlexNet的優(yōu)勢是首次實現(xiàn)了模型自主學(xué)習(xí)特征,提取的特征具備較強(qiáng)的區(qū)分性和抗干擾能力,在ImageNet數(shù)據(jù)集上的Top-5錯誤率降至16.4%,遠(yuǎn)超傳統(tǒng)方法;局限性是網(wǎng)絡(luò)層數(shù)較淺(僅5個卷積層),特征提取能力有限,無法捕捉復(fù)雜目標(biāo)的深層語義特征,且對海量數(shù)據(jù)的依賴較強(qiáng)。AlexNet的應(yīng)用場景主要是簡單圖像分類、基礎(chǔ)目標(biāo)識別(如簡單物體分類),為后續(xù)深度學(xué)習(xí)特征提取模型的發(fā)展奠定了基礎(chǔ)。
2. VGGNet:2014年由牛津大學(xué)提出,核心改進(jìn)是“更深的網(wǎng)絡(luò)層數(shù)+更小的卷積核”,包含16-19個卷積層、5個池化層、3個全連接層,卷積核主要采用3×3的小卷積核,通過多個小卷積核的疊加,替代傳統(tǒng)的大卷積核,提升特征提取的精度。其特征提取原理是:通過更多的卷積層,實現(xiàn)特征的分層抽象,淺層卷積層提取底層視覺特征,中層卷積層提取中層特征,深層卷積層提取高層語義特征;3×3小卷積核的優(yōu)勢是能夠捕捉更細(xì)微的特征,同時減少網(wǎng)絡(luò)參數(shù),提升計算效率;通過連續(xù)的卷積和池化操作,逐步降低特征圖的維度,保留核心特征。VGGNet的優(yōu)勢是特征提取精度高,能夠捕捉更復(fù)雜的局部特征和中層特征,泛化能力比AlexNet更強(qiáng);局限性是網(wǎng)絡(luò)層數(shù)加深,導(dǎo)致計算量大幅增加,容易出現(xiàn)梯度消失問題,且參數(shù)數(shù)量較多(約1.38億),訓(xùn)練成本高。VGGNet的應(yīng)用場景主要是高精度圖像分類、目標(biāo)檢測、語義分割的特征提取 backbone(基礎(chǔ)網(wǎng)絡(luò)),例如,在醫(yī)療影像分類、工業(yè)零件高精度質(zhì)檢等場景中,常用VGGNet作為特征提取 backbone,提取精準(zhǔn)的圖像特征。
3. ResNet(殘差網(wǎng)絡(luò)):2015年由微軟團(tuán)隊提出,核心改進(jìn)是引入“殘差連接(Skip Connection)”技術(shù),解決了深層網(wǎng)絡(luò)的梯度消失、梯度爆炸問題,將網(wǎng)絡(luò)層數(shù)提升至152層,甚至上千層,徹底打破了“網(wǎng)絡(luò)層數(shù)無法無限加深”的瓶頸。其特征提取原理是:在傳統(tǒng)CNN的卷積層之間,引入殘差連接,將淺層卷積層的輸出直接連接到深層卷積層的輸入,讓深層網(wǎng)絡(luò)能夠?qū)W習(xí)到“殘差”(即深層特征與淺層特征的差異),從而避免梯度消失;通過深層卷積層的疊加,實現(xiàn)特征的深度抽象,提取更精準(zhǔn)、更具區(qū)分性的高層語義特征;同時,采用Batch Normalization技術(shù),加速網(wǎng)絡(luò)訓(xùn)練,提升特征的穩(wěn)定性。ResNet的優(yōu)勢是特征提取能力極強(qiáng),能夠捕捉復(fù)雜目標(biāo)的深層語義特征,泛化能力和抗干擾能力遠(yuǎn)超AlexNet、VGGNet,在ImageNet數(shù)據(jù)集上的Top-5錯誤率降至3.57%,首次低于人類的5.1%;局限性是計算量和參數(shù)數(shù)量較大,訓(xùn)練需要強(qiáng)大的算力支撐。ResNet的應(yīng)用場景非常廣泛,是目前計算機(jī)視覺領(lǐng)域最常用的特征提取 backbone,適用于高精度目標(biāo)識別、語義分割、目標(biāo)跟蹤、3D視覺、醫(yī)療影像分析等復(fù)雜場景,例如,自動駕駛中的目標(biāo)檢測、醫(yī)學(xué)影像中的病灶識別、工業(yè)領(lǐng)域的復(fù)雜缺陷檢測等。
4. MobileNet:2017年由Google提出,核心改進(jìn)是采用“深度可分離卷積”技術(shù),實現(xiàn)了模型的輕量化,解決了深層CNN計算量大、部署困難的問題,適用于移動端、邊緣設(shè)備等算力有限的場景。其特征提取原理是:將傳統(tǒng)的3×3卷積拆分為“深度卷積”和“點卷積”,深度卷積負(fù)責(zé)對每個通道的特征圖進(jìn)行單獨卷積,提取單通道的局部特征;點卷積負(fù)責(zé)將多個通道的特征進(jìn)行融合,提取多通道的綜合特征,通過這種拆分,大幅減少網(wǎng)絡(luò)參數(shù)和計算量(參數(shù)數(shù)量僅為VGGNet的1/32),同時保留核心特征提取能力;通過輕量化的卷積和池化操作,實現(xiàn)淺層到深層特征的分層提取,兼顧特征提取精度和實時性。MobileNet的優(yōu)勢是輕量化、速度快,計算量小,能夠部署在移動端、邊緣設(shè)備上,同時具備較強(qiáng)的特征提取能力;局限性是特征提取精度略低于ResNet、VGGNet,適用于對實時性要求高、算力有限的場景。MobileNet的應(yīng)用場景主要是移動端視覺應(yīng)用(如手機(jī)人臉識別、移動端目標(biāo)檢測)、邊緣設(shè)備視覺應(yīng)用(如智能門鎖、邊緣監(jiān)控)、實時目標(biāo)跟蹤等,例如,手機(jī)端的人臉解鎖、智能攝像頭的實時行人檢測等,都采用MobileNet作為特征提取模型。
5. Swin Transformer:2021年由Microsoft提出,核心改進(jìn)是將Transformer架構(gòu)與CNN的局部特征提取優(yōu)勢相結(jié)合,解決了傳統(tǒng)CNN難以捕捉長距離全局關(guān)聯(lián)的局限,實現(xiàn)了全局語義特征的精準(zhǔn)提取。其特征提取原理是:將原始圖像分割成一系列固定大小的圖像塊,將每個圖像塊視為一個“詞元”,通過Transformer的自注意力機(jī)制,捕捉圖像塊之間的全局關(guān)聯(lián),實現(xiàn)全局語義特征的提??;同時,引入“分層特征圖”和“移動窗口”機(jī)制,將自注意力計算限制在局部窗口內(nèi),并允許跨窗口的信息交流,大幅降低計算復(fù)雜度,兼顧全局關(guān)聯(lián)和局部特征提??;通過分層結(jié)構(gòu),實現(xiàn)從底層圖像塊特征到高層全局語義特征的抽象,提取的特征具備更強(qiáng)的全局關(guān)聯(lián)性和區(qū)分性。Swin Transformer的優(yōu)勢是能夠捕捉圖像的全局關(guān)聯(lián)特征,解決了傳統(tǒng)CNN局部性的局限,特征提取精度高,適用于復(fù)雜場景的視覺任務(wù);局限性是計算量較大,部署門檻較高。Swin Transformer的應(yīng)用場景主要是復(fù)雜語義分割、高精度目標(biāo)檢測、3D視覺、多模態(tài)融合等場景,例如,城市遙感圖像的語義分割、自動駕駛中的復(fù)雜場景理解、醫(yī)療影像的精準(zhǔn)分割等。