大家好,這是專欄《AI不惑境》的第七篇文章,講述計算機視覺中的多尺度問題。
進入到不惑境界,就是向高手邁進的開始了,在這個境界需要自己獨立思考。如果說學習是一個從模仿,到追隨,到創(chuàng)造的過程,那么到這個階段,應該躍過了模仿和追隨的階段,進入了創(chuàng)造的階段。從這個境界開始,講述的問題可能不再有答案,更多的是激發(fā)大家一起來思考。
作者&編輯 | 言有三
在計算機視覺中,尺度始終是一個大問題,小物體與超大尺度物體往往都會嚴重影響性能。
1 什么是多尺度
1.1 什么是多尺度
所謂多尺度,實際上就是對信號的不同粒度的采樣,通常在不同的尺度下我們可以觀察到不同的特征,從而完成不同的任務。
如上兩個圖是同樣的一維信號在不同采樣頻率下的結果,這是一條精度曲線。通常來說粒度更小/更密集的采樣可以看到更多的細節(jié),粒度更大/更稀疏的采樣可以看到整體的趨勢,不過此處由于使用了不同的顏色,曲線本身也存在較大的波動,所以粒度更小的右圖反而能更直觀的看到各個曲線的整體性能比較結果。
如上展示了3個尺度的圖像,如果要完成的任務只是判斷圖中是否有前景,那么12×8的圖像尺度就足夠了。如果要完成的任務是識別圖中的水果種類,那么64×48的尺度也能勉強完成。如果要完成的任務是后期合成該圖像的景深,則需要更高分辨率的圖像,比如640×480。
1.2 圖像金字塔
很多時候多尺度的信號實際上已經包含了不同的特征,為了獲取更加強大的特征表達,在傳統圖像處理算法中,有一個很重要的概念,即圖像金字塔和高斯金字塔。
圖像金字塔,即一組不同分辨率的圖像,如下圖,
采樣的方式可以是不重疊或者重疊的,如果是不重疊的,采樣尺度因子為2,那就是每增加一層,行列分辨率為原來的1/2。
當然,為了滿足采樣定理,每一個采樣層還需要配合平滑濾波器,因此更常用的就是高斯金字塔,每一層內用了不同的平滑參數,在經典的圖像算子SIFT中被使用。
不過這不是本文要聚焦的內容,請大家去自行了解尺度空間理論,接下來聚焦深度學習中的多尺度模型設計。
2 計算機視覺中的多尺度模型架構
卷積神經網絡通過逐層抽象的方式來提取目標的特征,其中一個重要的概念就是感受野。如果感受野太小,則只能觀察到局部的特征,如果感受野太大,則獲取了過多的無效信息,因此研究人員一直都在設計各種各樣的多尺度模型架構,主要是圖像金字塔和特征金字塔兩種方案,但是具體的網絡結構可以分為以下幾種:(1) 多尺度輸入。(2) 多尺度特征融合。(3) 多尺度特征預測融合。(4) 以上方法的組合。
2.1 多尺度輸入網絡
顧名思義,就是使用多個尺度的圖像輸入(圖像金字塔),然后將其結果進行融合,傳統的人臉檢測算法V-J框架就采用了這樣的思路。
深度學習中模型以MTCNN[1]人臉檢測算法為代表,其流程如下,在第一步檢測PNet中就使用了多個分辨率的輸入,各個分辨率的預測結果(檢測框)一起作為RNet的輸入。
值得一提的是,多尺度模型集成的方案在提高分類任務模型性能方面是不可或缺的,許多的模型僅僅采用多個尺度的預測結果進行平均值融合,就能在ImageNet等任務中提升2%以上的性能。
2.2 多尺度特征融合網絡
多尺度特征融合網絡常見的有兩種,第一種是并行多分支網絡,第二種是串行的跳層連接結構,都是在不同的感受野下進行特征提取。
(1) 并行多分支結構
比如Inception網絡中的Inception基本模塊,包括有四個并行的分支結構,分別是1×1卷積,3×3卷積,5×5卷積,3×3最大池化,最后對四個通道進行組合。
除了更高卷積核大小,還可以使用帶孔卷積來控制感受野。在圖像分割網絡Deeplab V3[2]和目標檢測網絡trident networks[3]中都使用了這樣的策略,網絡結構如下圖:
還有一種比不同大小的卷積核和帶孔卷積計算代價更低的控制感受野的方法,即直接使用不同大小的池化操作,被PSPNet[4]采用。
值得注意的是,這樣的多分支結構對于模型壓縮也是有益處的,以Big-little Net[5]為代表,它采用不同的尺度對信息進行處理。
對于分辨率大的分支,使用更少的卷積通道,對于分辨率小的分支,使用更多的卷積通道,這樣的方案能夠更加充分地使用通道信息。
(2) 串行多分支結構
串行的多尺度特征結構以FCN[6],U-Net為代表,需要通過跳層連接來實現特征組合,這樣的結構在圖像分割/目標檢測任務中是非常常見的。
從上面這些模型可以看出,并行的結構能夠在同一層級獲取不同感受野的特征,經過融合后傳遞到下一層,可以更加靈活地平衡計算量和模型能力。串行的結構將不同抽象層級的特征進行融合,對于邊界敏感的圖像分割任務是不可缺少的。
2.3 多尺度特征預測融合
即在不同的特征尺度進行預測,最后將結果進行融合,以目標檢測中的SSD[7]為代表。
SSD在不同stride不同大小的特征圖上進行預測。低層特征圖stride較小,尺寸較大,感受野較小,期望能檢測到小目標。高層特征圖stride較大,尺寸較小,感受野較大,期望能檢測到大目標。
類似的思想還有SSH[8],從分辨率較大的特征圖開始分為多個分支,然后各個分支單獨預測不同尺度大小的目標。
在多個特征通道進行預測的思想與多個輸入的方案其實是異曲同工的,但是它的計算效率更高。
2.4 多尺度特征和預測融合
既然可以將不同尺度的特征進行融合,也可以在不同的尺度進行預測,為何不同時將這兩種機制一起使用呢?這樣的結構以目標檢測中的FPN[9]為代表。
即將高層的特征添加到相鄰的低層組合成新的特征,每一層單獨進行預測。當然,也可以反過來將低層的特征也添加到高層,比如PAN[10]。
當然,對于不同尺度的特征圖的融合,還可以基于學習的融合方案。
3 后話
上面說了這么多的方法,相信動手能力強的同學一定可以基于這些方法進行排列組合和拓展。另外,對于某些領域中的專用技巧,比如目標檢測中的不同尺度的Anchor設計,不同尺度的訓練技巧,在這里沒有講述。
以上就是多尺度的常用設計方法,從圖像分辨率的控制,到卷積核,池化的大小和不同的方案,到不同特征的融合,現在有很多相關的研究,本文不一一詳述,作為計算機視覺中的老大難問題,我們會持續(xù)關注,相關自動架構搜索的研究也已經出現[11]。
更多相關模型的解讀,我們會在有三AI知識星球中進行剖析,每日兩篇網絡結構解讀,感興趣的可以來。
參考文獻
[1] Zhang K, Zhang Z, Li Z, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503.
[2] Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv preprint arXiv:1706.05587, 2017.
[3] Li Y, Chen Y, Wang N, et al. Scale-aware trident networks for object detection[J]. arXiv preprint arXiv:1901.01892, 2019.
[4] Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2881-2890.
[5] Chen C F, Fan Q, Mallinar N, et al. Big-little net: An efficient multi-scale feature representation for visual and speech recognition[J]. arXiv preprint arXiv:1807.03848, 2018.
[6]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3431-3440.
[7] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.
[8] Najibi M, Samangouei P, Chellappa R, et al. Ssh: Single stage headless face detector[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 4875-4884.
[9] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.
[10] Liu S, Qi L, Qin H, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8759-8768.
[11] Ghiasi G, Lin T Y, Le Q V. Nas-fpn: Learning scalable feature pyramid architecture for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 7036-7045.
多尺度不僅對檢測和分割不同尺度的目標很重要,對于提高模型的參數使用效率也非常關鍵,是必須深刻理解和掌握的方法。
下期預告:深度學習中的Attention機制。
有三AI夏季劃
暑期正濃,有三AI夏季劃進行中,相比春季劃內容更難更全,且更加貼近工業(yè)界實戰(zhàn),目標是系統性成長為中級CV算法工程師。這一次的報名周期會持續(xù)到國慶,請有需要的同學持續(xù)關注,點擊圖片閱讀詳細信息。
轉載文章請后臺聯系
侵權必究