題目:Displets:Resolving Stereo Ambiguities using Object Knowledge
來源:Conferenceon Computer Vision and Pattern Recognition (CVPR)
時(shí)間:2015.6
作者:Fatma Guney, Andreas Geiger
立體技術(shù)近年來發(fā)展迅速,但仍然存在一些具有挑戰(zhàn)性的問題。一個(gè)比較顯著的問題是,傳統(tǒng)的方法不易對(duì)具有反射性和無紋理的平面恢復(fù)重建。該論文在較大的距離上進(jìn)行規(guī)范,使用圖像分類技術(shù)確定目標(biāo)視差位置(displets),采樣時(shí)使用基于稀疏視差評(píng)估的逆圖像技術(shù)以及語(yǔ)義分割技術(shù)。Displets指出,特定類別的物體形狀不是隨意的,它具有典型有規(guī)律的結(jié)構(gòu)。綜合上述思路,針對(duì)“車”這一類別進(jìn)行試驗(yàn),利用CRF框架將目標(biāo)轉(zhuǎn)化為超像素,在KITTI立體評(píng)估中,該方法排名第一。
計(jì)算機(jī)視覺的目標(biāo)是從攝像機(jī)得到的二維圖像中提取三維信息,從而重建三維世界模型,主要分為四個(gè)步驟,如圖所示:
該論文主要針對(duì)立體匹配階段,其基本原理是從兩個(gè)視點(diǎn)觀察同一景物以獲取立體圖相對(duì),匹配出相應(yīng)像點(diǎn),從而計(jì)算出視差并獲得三維信息。一般情況下,一幅圖像中的某一特征基元在另一幅圖像中可能會(huì)有很多候選匹配對(duì)象,可真正同名的結(jié)構(gòu)基元只有一個(gè),因此可能會(huì)出現(xiàn)歧義匹配。該論文就是為了解決立體歧義問題。
大部分的雙目視覺立體匹配算法集中對(duì)文字特征和平滑假設(shè)做處理,忽略了語(yǔ)義信息的重要性。該論文集中研究中級(jí)階段的目標(biāo)識(shí)別和語(yǔ)義分割技術(shù),而且注重目前研究較少的三維重建部分。如下圖所示,當(dāng)前算法面臨的主要問題是由于目標(biāo)類的弱紋理性,反射性,半透明性,通過使用目標(biāo)識(shí)別知識(shí),增加可能的目標(biāo)之間的距離,提高匹配效果。使用SLIC算法將圖像分解為一系列的超像素平面,關(guān)于displets的說明:
采樣三維CAD模型結(jié)構(gòu)(上,中圖),通過局部平面和視差圖的匹配獲取平面參數(shù),其實(shí)S代表超像素平面,ni表示平面的法向量。
1)能量函數(shù)
立體匹配算法主要是通過建立一個(gè)能量代價(jià)函數(shù),通過此能量代價(jià)函數(shù)最小化來估計(jì)像素點(diǎn)視差值。立體匹配算法的實(shí)質(zhì)就是一個(gè)最優(yōu)化求解問題,通過建立合理的能量函數(shù),增加一些約束,采用最優(yōu)化理論的方法進(jìn)行方程求解。該論文的能量函數(shù)如下:
(1)DataTerm(能量函數(shù)第一部分)
該數(shù)據(jù)項(xiàng)指出,左圖像和右圖像中一致的點(diǎn)在外觀上應(yīng)該相似。由于可能存在很多相似的點(diǎn),因此用一個(gè)半密集的特征區(qū)域匹配算法從初始的稀疏視差圖得到懲罰偏差如下:
(2)LocalSmoothness(能量函數(shù)第二部分)
在能量函數(shù)中,鼓勵(lì)局部平滑度,通過懲罰超像素邊緣的不連續(xù)性,鼓勵(lì)具有相似方向的相鄰像素。平滑項(xiàng)可分解為:
表示超像素i和超像素j之間一系列共享的邊界像素,和控制每個(gè)式子的重要性。如果相鄰的超像素i和j很容易被一個(gè)閉塞的邊界分開,就降低和的權(quán)值。
(3)DispletPotentials(能量函數(shù)第三部分)
Displet Potentials標(biāo)識(shí)一個(gè)符合特定語(yǔ)義類的可能的幾何區(qū)域。Displet的一元可能性(unary potential)被定義為,該可能性用來描述圖像中形狀符合特定目標(biāo)類的區(qū)域被指定給語(yǔ)義類標(biāo)簽
在每個(gè)displet和所有超像素之間定義一個(gè)可能性,加上一個(gè)變量代表平面的法向量,確保displet不會(huì)重疊。
2)Rapid Inverse Graphics(快速逆圖像)
該部分描述如何使用逆圖像從無限大空間的視差圖中再次采樣,用MCMC畫一組符合特定目標(biāo)類的代表性采樣。該過程從原始攝像機(jī)中生成視差圖,呈現(xiàn)的視差圖和輸入的視差圖進(jìn)行對(duì)比,返回一個(gè)表示一致程度的分?jǐn)?shù)。這確保該算法可以抵抗不能程度的光照變化,特別是反射性和半透明的表面。
(1)Semi-ConvexHull(半凸面車身)
從Google上得到的CAD模型中有成千上萬的頂點(diǎn)和面,常用的QSlim算法和MATLAB處理不適用,因此提出一個(gè)簡(jiǎn)單方法用來進(jìn)行網(wǎng)格簡(jiǎn)化,可以減少CAD模型中的幾何類,同時(shí)保留車身形狀,不影響呈現(xiàn)的深度圖。初始化一個(gè)凸面車身的網(wǎng)格,在該模型的體積約束下逐漸平滑逼近,該表達(dá)被稱為Semi-Convex Hull。其最小化了所有網(wǎng)格頂點(diǎn)之間的距離,并且對(duì)原始模型上的點(diǎn)進(jìn)行密集采樣。簡(jiǎn)化算法如下:
(2)Samplingthe Space of Displets(采樣Displets空間)
對(duì)于一個(gè)指定的物體類,c重點(diǎn)研究對(duì)得到的半密集視差圖中可能的displet空間的二次采樣。用MCMC解決逆圖像問題,直接從觀察模型中采樣參數(shù)。
該指標(biāo)對(duì)區(qū)域O中的每一個(gè)像素都進(jìn)行解釋同事避免其他物體的遮擋。使用目標(biāo)proposals可以避免通過語(yǔ)義類S直接采樣。論文提出一個(gè)適用于該場(chǎng)景的簡(jiǎn)單有效的方法去確定圖像的proposals。首先,我們將類C中的所有有效的像素用三維表達(dá),然后,我們沿著相機(jī)主坐標(biāo)的x軸和z軸計(jì)算核心密度評(píng)估(KDE)。由于目標(biāo)邊界經(jīng)常和KDE的最小值一致,通過將三維的點(diǎn)轉(zhuǎn)化為圖像從而確定目標(biāo)的區(qū)域O為每對(duì)相鄰的最小值。
1)我們?cè)u(píng)估所有圖像區(qū)域(b)和僅僅是反射性區(qū)域(a)的匹配錯(cuò)誤率。
SGM:Census and Sobelfeatures;
CNN:recently proposedfeatures based on convolutional neural networks.
下圖表示使用模型結(jié)構(gòu)中的不同項(xiàng)時(shí)的錯(cuò)誤率;
下圖表示不同匹配算法的錯(cuò)誤率:
下圖表示當(dāng)分別限制目標(biāo)proposals和模型樹時(shí),反射性區(qū)域的效果。橫軸為0時(shí)表示一直的Displets為0,為1時(shí)表示用了所有可能相關(guān)的proposals.可以發(fā)現(xiàn)Displets越多,算法性能越好。
下圖對(duì)超像素的個(gè)數(shù)對(duì)算法性能的影響進(jìn)行評(píng)估,分別評(píng)估所有的區(qū)域和反射性區(qū)域。最后,在準(zhǔn)確度和性能的綜合考量下,選擇了1000個(gè)超像素。
下圖表示不使用displets(左)和使用displets(右)的效果差別,每個(gè)圖都從上往下看。將有大幅度改善的區(qū)域用矩形標(biāo)識(shí)出。(大幅度的改善是指物體的反射性,半透明性減低。)最下面的兩個(gè)是失敗的案例,左圖中由于三維CAD模型中沒有收集罕見的大篷車類的交通工具的距離信息,因此錯(cuò)誤率上升。右圖失敗的原因是由于車和建筑的聯(lián)系使得語(yǔ)義分割失敗,但是整體的重建效果提高了。
該方法可以減少在弱紋理區(qū)域和反射性區(qū)域匹配的錯(cuò)誤率,大概可以減少50%。該篇論文中,將目標(biāo)約束在特定的物體類別(車)上,計(jì)劃將Displets運(yùn)用到其他的幾何類別中,比如建筑,通常是無紋理的但是形狀是易于描述的。另一個(gè)研究方向是將Displets擴(kuò)展到花,因?yàn)樗且粋€(gè)事先特定的基于光流和場(chǎng)景流非局部類別。
1.建立了一個(gè)較好的能量函數(shù),通過綜合各個(gè)影響因素并將函數(shù)優(yōu)化,估計(jì)像素點(diǎn)視差值,實(shí)現(xiàn)立體匹配。
2.結(jié)合了圖像部分的知識(shí),確定圖像中的Proposals。結(jié)合三維知識(shí),使用超像素的知識(shí)劃分圖像。首先對(duì)圖像CAD模型進(jìn)行網(wǎng)格簡(jiǎn)化,然后利用三維知識(shí)計(jì)算KDE確定目標(biāo)的區(qū)域。
易理解錯(cuò)的點(diǎn):
1.立體匹配并不是確定的物體和物體之間的匹配,不是一幅圖像中有一個(gè)物體(車),然后去匹配另一個(gè)圖像,看是否含有這個(gè)物體(車)。立體匹配,匹配的是匹配基元,匹配基元有不同的種類。該論文中匹配的應(yīng)該是像素,計(jì)算兩幅圖像對(duì)應(yīng)位置的視差。立體匹配是計(jì)算機(jī)視覺中的一個(gè)步驟,計(jì)算機(jī)視覺的目標(biāo)是從攝像機(jī)得到的二維圖像中提取三維信息,從而重建三維世界模型。解決立體匹配過程中的歧義問題是為了更好地實(shí)現(xiàn)三維重建。
2.最后的效果展示圖7,圈框的部分并不是找到了和左圖中對(duì)應(yīng)的物體所以把它圈出來了,圈出的部分是使用該論文中的方法后改善效果很明顯的區(qū)域。論文在開始指出,該方法可以解決傳統(tǒng)算法不能解決的無紋理的,反射性,半透明區(qū)域的匹配問題。右邊的圖是使用了Displets方法的,肉眼可以看出,右圖相較于左圖變暗了,反射性變?nèi)?,可以推測(cè)出,匹配效果變好了。
剛開始接觸該方面,理解有誤的,歡迎更正交流。
聯(lián)系客服