掩碼重建:自監(jiān)督學習中的特征學習范式與視覺任務(wù)革新(二)
隨著 Transformer 在自然語言處理中的成功,研究者將 “掩碼語言模型”(Masked Language Model)的思想引入計算機視覺,推動掩碼重建進入 “密集掩碼 + 特征重建” 的新階段。以掩碼自編碼器(MAE)為例,其創(chuàng)新性地采用高達 75% 的密集掩碼比例,隨機遮擋圖像中大部分區(qū)域(以非重疊塊為單位),僅保留 25% 的可見塊;編碼器僅處理可見塊,大幅降低計算成本;解碼器則基于編碼器輸出的特征與掩碼位置信息,重建被遮擋塊的像素值。MAE 的密集掩碼策略迫使模型依賴全局上下文進行重建,避免了對局部像素相關(guān)性的過度依賴,從而學習到更豐富的語義特征 —— 例如,重建被遮擋的 “貓爪” 時,模型需要結(jié)合 “貓的身體”“地面” 等全局信息,而非僅依賴相鄰像素。
另一類代表性方法如 BEiT(BERT Pre-training of Image Transformers)則進一步將重建目標從像素級升級為特征級:首先使用預訓練的教師模型(如 ViT)對圖像塊提取特征,作為 “語義標簽”;掩碼重建時,模型不再預測像素值,而是預測被遮擋塊對應(yīng)的語義標簽。這種方式使模型直接學習高層語義特征,減少了像素級重建中冗余細節(jié)(如光照變化導致的像素波動)的干擾,學習到的特征在下游任務(wù)中表現(xiàn)更優(yōu)。例如,在 ImageNet 分類任務(wù)中,BEiT 的預訓練特征微調(diào)后準確率較像素級重建方法提升 3-5 個百分點,證明了特征級重建的優(yōu)勢。
掩碼重建的技術(shù)創(chuàng)新還體現(xiàn)在掩碼策略的精細化設(shè)計上。早期隨機掩碼對所有區(qū)域一視同仁,而現(xiàn)代方法則根據(jù)圖像特性動態(tài)調(diào)整掩碼方式:例如,有的方法對紋理復雜區(qū)域(如植被、人臉)采用更高的掩碼比例,迫使模型學習更魯棒的特征;有的方法采用結(jié)構(gòu)化掩碼(如遮擋完整物體的一部分),增強模型對物體完整性的理解;還有的方法在視頻掩碼重建中引入時間維度的掩碼,要求模型同時考慮空間與時間上下文(如預測視頻中被遮擋幀的內(nèi)容),從而學習到時空特征。這些精細化的掩碼策略使模型能夠針對性地捕捉數(shù)據(jù)中的關(guān)鍵信息,進一步提升特征質(zhì)量。
掩碼重建學習的特征在下游視覺任務(wù)中展現(xiàn)出強大的遷移能力,其應(yīng)用已覆蓋圖像分類、目標檢測、語義分割、醫(yī)學影像分析等多個領(lǐng)域,尤其在標注數(shù)據(jù)有限的場景中優(yōu)勢顯著。在圖像分類任務(wù)中,基于掩碼重建預訓練的模型(如 MAE、BEiT)在 ImageNet 數(shù)據(jù)集上的微調(diào)準確率已接近甚至超過監(jiān)督預訓練模型,且在小樣本情況下表現(xiàn)更優(yōu) —— 當訓練數(shù)據(jù)僅為 10% 的 ImageNet 樣本時,掩碼重建預訓練模型的準確率較監(jiān)督預訓練高 5-8 個百分點,證明其特征的泛化能力更強。這一優(yōu)勢在長尾分布數(shù)據(jù)集(如細分類別樣本極少的動物分類)中尤為明顯,掩碼重建學習的全局特征能夠更好地捕捉類別間的共性與差異。





