啪啪色影音先锋色资源网站,久久中文精品

關鍵詞——智能車輛、交通場景分割、多特征地圖、深度學習

作者：Linhui Li, Weina Zheng, Lingchao Kong, ümit ?zgüner, Wenbin Hou, Jing Lian*

Ⅰ.介紹

交通場景分割是智能車輛在檢測障礙物、規(guī)劃路徑和自主導航中的基本任務。語義分割，也稱為圖像分析或圖像理解[1]，旨在將圖像劃分為預定義的非重疊區(qū)域并將其轉(zhuǎn)換為抽象語義信息。近年來，隨著計算機硬件特別是圖形處理單元（GPU）的快速發(fā)展，大規(guī)模標記數(shù)據(jù)的出現(xiàn)，深度卷積神經(jīng)網(wǎng)絡（CNNs）在圖像分類和目標檢測中的應用迅速發(fā)展，并已成為當前主流的圖像分割方法。最近，大多數(shù)研究都致力于通過使網(wǎng)絡更深更廣來提高語義分割的準確性。然而，增加參數(shù)往往以犧牲計算機的內(nèi)存為代價，并導致網(wǎng)絡速度較慢。因此，如何在保證實時功能的前提下提高準確性是深度學習中最重要的任務之一。

深度傳感器的出現(xiàn)使得可以獲得深度信息，其包含比RGB圖像更多的位置信息。將深度圖應用于圖像語義分割有兩種方法：一種是將原始深度圖像和RGB圖像組合成四通道RGB-D圖像作為CNN輸入[2] - [4]；另一種是將包含更豐富深度信息和RGB圖像的圖像分別輸入到兩個CNN中[5] - [7]。具體地，借助于關于深度圖像中提供的對象關系的豐富信息，兩種方法都可以實現(xiàn)比僅使用RGB圖像更好的性能。但是，將數(shù)據(jù)輸入兩個CNN會增加導致網(wǎng)絡速度變慢的參數(shù)數(shù)量。因此，在本文中，為了提高精度，將視差、高度和角度圖（DHA）與RGB圖像融合成6通道RGB-DHA圖并直接用作輸入數(shù)據(jù)。

本文著重于構(gòu)建一個性能良好的快速功能語義分割網(wǎng)絡，特別是對于駕駛員更關心的道路目標。因此，提出了一種新的網(wǎng)絡架構(gòu)，然后添加深度圖及其導出的高度和范數(shù)角度圖來訓練網(wǎng)絡以獲得更高的精度。主要工作如下：

一個名為D-AlexNet網(wǎng)絡的完全卷積神經(jīng)網(wǎng)絡是基于AlexNet [8]開發(fā)的，它具有一個包含多個卷積層的簡單結(jié)構(gòu)，以提高網(wǎng)絡的前向速度。
D-AlexNet實現(xiàn)2.2x +參考加速，并將參數(shù)減少39倍以上。
6通道RGB-DHA地圖可以在語義分割中獲得比僅使用RGB圖像作為輸入更好的結(jié)果，尤其是用于識別交通場景中的道路目標，例如行人和汽車。

Ⅱ. 相關工作

A.RGB語義分割

完全卷積網(wǎng)絡（FCN）[9]用卷積層替換傳統(tǒng)神經(jīng)網(wǎng)絡的最后一個完全連接層，這為FCN應用于語義分割奠定了基礎。由L.C.Chen等人提出的Deeplab [10]通過使用孔算法減小步幅和條件隨機場來微調(diào)網(wǎng)絡獲得了更好的結(jié)果。 SegNet [11]，[12]通過使用編碼器 - 解碼器結(jié)構(gòu)從較高層恢復具有來自較低層的空間信息的特征圖來實現(xiàn)像素級語義分割。在[13]，[14]中，使用多尺度特征集合來提高性能。 PSPNet [15]通過聚合上下文信息來完成預測。

在現(xiàn)有硬件上實時執(zhí)行分段。一些方法已被用于加速網(wǎng)絡。 SegNet [12]通過減少網(wǎng)絡中的層數(shù)來提高前向速度。 A. Chaurasia等。 [16]直接將編碼器塊鏈接到相應的解碼器以減少處理時間。 Z. Hengshuang等[17] 提出了基于壓縮PSPNet的圖像級聯(lián)網(wǎng)絡，該網(wǎng)絡在適當?shù)臉撕炛笇掳喾直媛史种?，以產(chǎn)生實時推斷。

B.具有深度信息的語義分割

與單個RGB圖像相比，深度圖包含更多位置信息，這有利于語義分割。在[18]中，原始深度圖像被簡單地視為單通道圖像，然后應用CNN來提取室內(nèi)語義分割的特征。在[5]中，深度信息被用作三個通道：水平視差、地面高度和范數(shù)角。Qi等人 [19]提出了一個3D圖形神經(jīng)網(wǎng)絡（3DGNN），它建立了k-最近鄰圖，并最終提升了預測。上述工作證明，使用更多特征信息作為訓練網(wǎng)絡的輸入有助于提高語義分割的準確性。

III.網(wǎng)絡體系結(jié)構(gòu)

一般而言，使用更深層的網(wǎng)絡結(jié)構(gòu)將得到更好的語義分割，盡管它通常以犧牲具有許多訓練參數(shù)和更長的運行時間為代價，這不能滿足智能駕駛的實時要求。為了直觀地解決這個問題，我們認為減少網(wǎng)絡參數(shù)和簡化網(wǎng)絡模型可以加速網(wǎng)絡，而且，添加深度信息可以提高網(wǎng)絡性能。由AlexNet [8]和N. Hyeonwoo [20]提出的基于VGG16網(wǎng)絡的編碼器 - 解碼器網(wǎng)絡架構(gòu)的推動，我們提出的深度完全卷積神經(jīng)網(wǎng)絡架構(gòu)如圖1所示，包括11個卷積層、3個匯集層、3個上采樣層和1個softmax層。

在新的網(wǎng)絡結(jié)構(gòu)中，AlexNet通過以下方式進行修改，使其適用于像素級語義分段任務：

為了使網(wǎng)絡適應不同大小的圖像，刪除了AlexNet的完整連接層。然后，第一卷積層的步幅從4變?yōu)?，最大匯集層的內(nèi)核大小從3×3變?yōu)?×2。
實驗結(jié)果表明，卷積層中包結(jié)構(gòu)的存在不能提高最終語義分割的準確性。因此，我們刪除了第二、第四和第五卷積數(shù)據(jù)包并刪除了兩個LRN層。
內(nèi)部協(xié)變量的存在將增加深度網(wǎng)絡訓練的難度。本文在每個卷積層和ReLU層之間添加了批量歸一化層來解決這個問題。
所有卷積層的卷積核被統(tǒng)一為3×3大小，卷積核輸出的數(shù)量為96。

參考Z.D.Matthew等人使用的上采樣方法[21]，我們在匯集過程中記錄每個匯集窗口的最大特征值位置，并將其置于上采樣過程中的相應位置。解碼器是編碼器的鏡像結(jié)構(gòu)，除了其內(nèi)核大小為1×1的第六個卷積層。解碼器網(wǎng)絡的輸出是K個特征映射，然后將其饋送到softmax層以產(chǎn)生K通道類概率圖，其中K是類的數(shù)量。分割的結(jié)果是圖像的每個像素對應于具有最大預測概率的類。

Ⅳ.多特征地圖

與使用原始深度信息學習深度網(wǎng)絡相比，DHA圖像可以包含更豐富的圖像特征信息。該過程包括以下步驟。

A.水平視差圖

從Cityscapes數(shù)據(jù)集獲得的左圖像和右圖像可用于生成具有立體匹配算法的視差圖。根據(jù)匹配程度，立體視覺匹配算法可以分為三類：局部匹配算法、半全局匹配算法和全局匹配算法。全局匹配算法獲得最高的匹配精度和最差的實時性能。局部匹配算法是最快的，但其匹配精度非常低。

圖1. D-AlexNet網(wǎng)絡的結(jié)構(gòu)

半全局匹配算法可以更好地匹配精度和實時計算需求，因此本文選擇此方法來獲取視差圖。

M. Dongbo [22]提出的邊緣保持平滑方法用于通過優(yōu)化粗略視差圖并使視差值更連續(xù)來提高分割精度。

B. 地面以上的高度

基于所獲得的視差圖，可以通過等式（1）和（2）獲得對應于圖像坐標系中的P'（u，v）像素的世界坐標系中的P（x，y，z）點，

其中x和y是世界坐標系中點P的坐標，z是點P和相機之間的距離，f和b分別是攝像機的焦距和兩個攝像機的基線長度，fy和Cy是相機的內(nèi)部參數(shù)，y是像素的高度。由于攝像機的安裝不能保證與地平面完全平行，因此需要進行校正。選擇視差圖中的地面區(qū)域的一部分，并且使用最小二乘法來擬合地面。通過假設擬合的地平面方程是Y = aX + bZ + c，a，b和c的值可以通過等式（3）獲得。在校正地之后，可以通過等式（4）獲得實際像素高度。

在高度圖中，天空、建筑物和樹對應于較大的高度值，而諸如車輛和行人的較重要的對象對應于相對較小的高度值。為了突出重要目標，使用等式（5）來變換對應于每個像素的高度值，以生成高度值在0到255之間的高度圖像。

C.曲面法線

對于城市交通場景，一般來說，路面是水平的，物體的表面，如建筑物、交通標志、車輛等是垂直的。根據(jù)這些特征，可以使用算法在盡可能多的點上找到與局部估計的表面法線方向最對齊或最正交的方向。因此，為了利用這種結(jié)構(gòu)，由G . Saurabh等人提出的算法[ 5 ]用于確定重力方向。

最后，通過計算像素法線方向和預測重力方向之間的角度，可以獲得所需的角度信息。

V. 實驗與分析

實驗是在Caffe學習平臺上進行的。此外，我們的所有實驗都是在表I所示的軟件和硬件上進行的。

A.數(shù)據(jù)集和評估指標

我們將我們的系統(tǒng)應用于最近的城市場景理解數(shù)據(jù)——城市風景，其中包含5000幅精細和20000幅粗注釋圖像。此外，數(shù)據(jù)集提供由立體相機捕獲的左視圖和右視圖，從而提供獲得視差圖和深度圖的機會。在這篇論文中，選擇了5000幅經(jīng)過精細注釋的圖像，并將其分成訓練、驗證和測試集。這些集合分別包含2，975，500和1，525幅圖像。圖像大小被轉(zhuǎn)換為200×400，以縮短訓練時間并減少內(nèi)存消耗。為了標記重要的交通信息，交通場景分為11種類別包括道路、道路邊界、建筑物、電線桿、交通標志、樹木、草坪、天空、人、汽車、自行車或摩托車，全局準確率和網(wǎng)絡轉(zhuǎn)發(fā)時間都被用于評估。

B.訓練過程

在訓練過程中，卷積層的權(quán)重以與AlexNet相同的方式初始化，以及H.Kaiming等人使用的方法[23]用于初始化批量標準化層的重量。交叉熵被用作訓練網(wǎng)絡和計算損失值的損失函數(shù)。在反向傳播階段，采用隨機梯度下降來優(yōu)化網(wǎng)絡權(quán)重。初始學習率和動量分別設定為0.01和0.9。另外，將重量衰減設定為0.0005以防止網(wǎng)絡過度擬合。值得注意的是，為了保持數(shù)據(jù)的純度并簡化培訓過程，我們在沒有數(shù)據(jù)增加的情況下訓練我們的網(wǎng)絡，并且沒有使用其他數(shù)據(jù)集的預訓練模型。

對于每300個培訓時間，我們對驗證集進行了準確性評估并保存了快照。基于RGB-DHA圖像的驗證準確度，訓練損失值曲線如圖2所示。更多迭代可能意味著更高的準確度。但是，當準確度和損失開始收斂時，停止訓練是可行的。因此，對網(wǎng)絡進行了10000次迭代訓練，選擇具有最高精度的Caffe模型作為最終用于場景分割的模型。

圖2.不同網(wǎng)絡的訓練損失和準確度曲線。

C.比較和分析

我們首先評估了我們提出的網(wǎng)絡如何有效地加速語義分割，將SegNet [11]和SegNet-basic [12]作為基線。當將RGB圖像和RGB-DHA圖像作為輸入數(shù)據(jù)時，網(wǎng)絡的性能結(jié)果如表II所示。我們提出的網(wǎng)絡結(jié)構(gòu)比SegNet快2.2倍，比SegNet-basic快1.8倍。從圖2和表II中我們可以發(fā)現(xiàn)，我們提出的架構(gòu)可以通過競爭性分段結(jié)果獲得更好的實時結(jié)果。此外，對于每個網(wǎng)絡幀，使用RGB-DHA圖像獲得的驗證精度高于使用RGB圖像獲得的驗證精度，這也表明更多特征信息對于改善網(wǎng)絡性能是有用的。

圖3.測試集中的語義分段結(jié)果示例

為了進一步了解每個特征圖中的效率增益，我們首先將從第4節(jié)獲得的三個特征圖與RGB圖像合并為4通道圖像，然后將所有3個特征圖像與RGB圖像合并為6通道圖像。之后，4通道和6通道圖像都被用作訓練網(wǎng)絡的輸入數(shù)據(jù)。測試結(jié)果如表Ⅲ所示，從中可以得出結(jié)論：與基于3通道圖像的圖像相比，基于4通道和6通道圖像的分割精度明顯提高。在相同的訓練參數(shù)下，從RGB-D，RGB-H，RGB-A和RGB-DHA圖像獲得的全局精度比從原始RGB圖像獲得的全局精度分別為3.7％、2.1％、3％和4％。以RDB-DHA 6通道圖像為輸入，我們提出的系統(tǒng)最終實現(xiàn)了73.4％的分割精度。

圖3顯示了我們的網(wǎng)絡模型的測試集上的語義分段結(jié)果，分別以3通道，4通道和6通道作為輸入。如圖所示，基于RGB圖像獲得的分割結(jié)果有時是粗糙的，并且在道路上或在不同類別的邊界輪廓周圍存在許多錯誤分類的像素。例如，在圖3（b）的左圖中，路面中的許多像素被錯誤分類為人行道?；谒耐ǖ缊D像的效果通常比基于RGB三通道圖像的效果更好，并且RGB-DHA圖像可以進一步提高分割精度，其顯示更少的錯誤分類點。

此外，當使用RGB-DHA圖像作為凈輸入時，諸如行人和汽車的道路目標比使用RGB圖像作為凈輸入具有更高的分段精度。例如，行人段準確度從79％上升到84％，汽車段精度從85.8％上升到91％。一些細節(jié)比較如圖4所示。可以看出，圖4（c）和圖4（f）中的行人和汽車具有比圖4（b）和圖4（e）更清晰的輪廓，這將有助于不同道路目標的行為分析。

圖4.行人和汽車的詳細比較示例。

VI.結(jié)論

本文提出了一種基于新型深度完全卷積網(wǎng)絡（D-AlexNet）和多特征映射（RGB-DHA）的交通場景語義分割方法。對于Titan X GPU上的每個400×200分辨率圖像，網(wǎng)絡可以實現(xiàn)22ms的良好實時性能。從原始RGB圖像獲得視差圖、高度圖和角度圖，并融合成6通道圖像以訓練網(wǎng)絡。實驗表明，與使用RGB圖像作為輸入相比，使用多特征圖作為網(wǎng)絡的輸入可以實現(xiàn)4％更高的分割精度。在未來，我們將重點關注更高效的深度網(wǎng)絡，以聯(lián)合語義分割，目標跟蹤和參數(shù)識別。

致謝

作者要感謝鄭仁成博士對富有成果的討論所做的貢獻。

REFERENCES

[1] W. Fan, A. Samia, L. Chunfeng and B.Abdelaziz, “Multimodality semantic segmentation based on polarization and colorimages,” Neurocomputing, vol. 253, pp. 193-200, Aug. 2017.

[2] L. Linhui, Q. Bo, L. Jing, Z. Weina andZ. Yafu, “Traffic scene segmentation based on RGB-D image and deep learning(Periodical style—Submitted for publication),” IEEE Transactions on IntelligentTransportation Systems, submitted for publication.

[3] F. David, B. Emmanuel, B. Stéphane, D,Guillaume, G. Alexander et al, “RGBD object recognition and visual texture classification for indoorsemantic mapping,” in IEEE International Conference on Technologies forPractical Robot Applications, Woburn, 2012, pp. 127-132.

[4] H. Farzad, S. Hannes, D. Babette, T.Carme and B. Sven, “Combining semantic and geometric features for object classsegmentation of indoor scenes,” IEEE Robotics & Automation Letters, vol. 2,no. 1, pp. 49-55, Jan. 2017.

[5] G. Saurabh, G. Ross, A. Pablo and M. Jitendra,“Learning rich features from RGB-D images for object detection andsegmentation,” Lecture Notes in Computer Science, vol. 8695 LNCS, no. PART 7,pp. 345-360, 2014.

[6] G. Yangrong and C. Tao, “Semanticsegmentation of RGBD images based on deep depth regression (Periodicalstyle—Submitted for publication),” Pattern Recognition Letters, submitted forpublication.

[7] E. David and F. Rob, “Predicting Depth,Surface Normals and Semantic Labels with a Common Multi-scale Convolutional Architecture,”in Proceedings of the IEEE International Conference on

Computer Vision, Santiago, Feb. 2015, pp.2650-2658.

[8] K. Alex, S. Ilya and H. E. Geoffrey,“ImageNet classification with deep convolutional neural networks,” Communicationsof the ACM, vol. 60, no. 6, pp. 84-90, June 2017.

[9] S. Evan, L. Jonathan and D. Trevor, “Fullyconvolutional networks for semantic segmentation,” IEEE Transactions on PatternAnalysis and Machine Intelligence, vol. 39, no. 4, pp. 640-651, Apr. 2017.

[10] L. C. Chen, G. Papandreou, I. Kokkinos,K. Murphy and A. L. Yuille, “Deeplab: semantic image segmentation with deep convolutional nets, atrousconvolution, and fully connected CRFs (Periodical style—Submitted forpublication),” IEEE Transactions on Pattern Analysis and Machine Intelligence,submitted for publication.

[11] V. Badrinarayanan, A. Handa and R.Cipolla. “Segnet: a deep convolutional encoder-decoder architecture for robustsemantic pixel-wise labelling,” Computer Science, May 2015.

[12] V. Badrinarayanan, A. Kendall and R.Cipolla, “Segnet: a deep convolutional encoder-decoder architecture for scenesegmentation,” IEEE Transactions on Pattern Analysis and Machine Intelligence,vol. 39, no. 12, pp. 2481-2495, Dec. 2017.

[13] F. Xia, P. Wang, L. C. Chen and A. L.Yuille, “Zoom better to see clearer: human and object parsing with hierarchicalauto-zoom net,” in European Conference on Computer Vision, Switzerland, 2016,pp.648-663.

[14] C. Liang-Chieh, Y. Yi, W. Jiang, X. Weiand Y. L. Alan, “Attention to scale: Scale-aware semantic image segmentation,”in Proceedings of the IEEE Computer Society Conference on Computer Vision and PatternRecognition, Las Vegas, July 2016, pp. 3640-3649.

[15] Z. Hengshuang, S. Jianping, Q. Xiaojuan,W. Xiaogang and J. Jiaya,“Pyramid scene parsing network,” in the IEEE Conference on ComputerVision and Pattern Recognition, Honolulu, 2017, pp. 2881-2890.

[16] A. Chaurasia, and E. Culurciello,“Linknet: exploiting encoder representations for efficient semanticsegmentation,” arXiv preprint arXiv: 1707.03718, 2017.

[17] Z. Hengshuang, Q. Xiaojuan, S. Xiaoyong,S. Jianping and J. Jiaya,“ICNet for Real-Time Semantic Segmentation on High-Resolution Images,”arXiv preprint, arXiv:1704.08545, 2017.

[18] H. Caner, M. Lingni, D. Csaba and C. Daniel.“FuseNet: Incorporating depth into semantic segmentation via fusion-based CNNarchitecture,” in 13th Asian Conference on Computer Vision, Taipei, Nov. 2016,vol. 10111 LNCS, pp. 213-228.

[19] Q. Xiaojuan, L.Renjie, J. Jiaya, F.Sanja and U. Raquel, “3D Graph Neural Networks for RGBD Semantic Segmentation,”in IEEE International Conference on Computer Vision, Venice, Oct, 2017, pp. 5209-5218.

[20] N. Hyeonwoo, H. Seunghoon and H.Bohyung, “Learning deconvolution network for semantic segmentation,” inProceedings of the IEEE International Conference on Computer Vision, Santiago,Feb. 2015, pp. 1520-1528.

[21] Z. D. Matthew and F. Rob, “Visualizingand Understanding Convolutional Networks,” in 13th European Conference onComputer Vision. Sep. 2014, Vol. 8689 LNCS, no. PART 1, pp. 818-833.

[22] M. Dongbo, C. Sunghwan, L. Jiangbo, H.Bumsub, S. Kwanghoon and D. N. Minh, “Fast global image smoothing based onweighted least squares,” IEEE Transactions on Image Processing, vol. 23, no.12, pp. 5638-5653, Dec. 2014.

[23] H. Kaiming, Z. Xiangyu, R. Shaoqing andS. Jian. “Delving deep into rectifiers: Surpassing human-level performance onimagenet classification,” in Proceedings of the IEEE International Conference onComputer Vision, Santiago, Dec. 2015, pp. 1026-1034.

作者情況：

*Resrach supported by the National Natural Science Foundation of China (Grant Nos. 51775082, 61473057 and 61203171) and the China Fundamental Research Funds for the Central Universities (Grant Nos. DUT17LAB11 and DUT15LK13).

L. Li, W. Zheng, L. Kong, W. Hou and J. Lian are with the School of Automotive Engineering, Faculty of Vehicle Engineering and Mechanics, Dalian University of Technology, Dalian 116024, China. And J. Lian is the corresponding author. (e-mail: lilinhui@dlut.edu.cn;zhengweina_1993@mail.dlut.edu.cn;31703177klc@mail.dlut.edu.cn;houwb@dlut.edu.cn; lianjing@dlut.edu.cn).

ümit ?zgüner is with the Department of Electrical and Computer Engineering, The Ohio State University, Columbus, OH, 43210 USA (e-mail: ozguner.1@osu.edu).

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版