原文:
作者: Alex Kendall
編譯: KK4SBB
如今,深度學(xué)習(xí)已顛覆計(jì)算機(jī)視覺領(lǐng)域,端到端的深度學(xué)習(xí)模型幾乎是任何問題的最佳解決方案。尤其是卷積神經(jīng)網(wǎng)絡(luò),因?yàn)樗Ч稳憾鴱V受歡迎??墒牵@些深度學(xué)習(xí)模型都像是一個(gè)個(gè)黑盒子,盒子內(nèi)的奧秘仍然不為人所知。筆者認(rèn)為,現(xiàn)在的研究人員只是簡(jiǎn)單地寫少量代碼來調(diào)用深度學(xué)習(xí)接口,盡管這種直白的使用方式能解決大多數(shù)計(jì)算機(jī)視覺問題,但是最終效果顯然還存在更大的提升空間。
PoseNet是筆者曾經(jīng)開發(fā)的一種使用深度學(xué)習(xí)技術(shù)判斷攝像頭姿態(tài)的算法。這是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)經(jīng)典問題,并且有非常完整的相關(guān)理論研究。作為一名剛剛?cè)腴T的研究生,當(dāng)時(shí)用深度學(xué)習(xí)訓(xùn)練了一個(gè)端到端的模型,這個(gè)模型取得了很好的效果。可是,現(xiàn)在回想,覺得當(dāng)時(shí)自己完全忽略了這個(gè)問題的已有理論背景。在本文的末尾作者補(bǔ)充了相關(guān)工作的最新進(jìn)展,從更偏向理論的角度重新審視了問題,并用基于幾何的方法取得了巨大的效果提升。
簡(jiǎn)單地調(diào)用深度學(xué)習(xí)接口就能解決問題的時(shí)代即將結(jié)束,計(jì)算機(jī)視覺領(lǐng)域的下一次進(jìn)步將源自對(duì)幾何形態(tài)的深入研究。
在計(jì)算機(jī)視覺領(lǐng)域,幾何描述這個(gè)世界的結(jié)構(gòu)和形狀,涉及深度、體積、形狀、姿態(tài)、視差、運(yùn)動(dòng)和光流等測(cè)量角度。
幾何在視覺模型中地位較高的原因在于幾何定義了這個(gè)世界的結(jié)構(gòu),而且我們?nèi)祟惸芾斫膺@種結(jié)構(gòu)(比如,從經(jīng)典的教科書中學(xué)習(xí))。因此,有很多復(fù)雜的幾何關(guān)系并不需要利用深度學(xué)習(xí)技術(shù)從頭學(xué)起,比如,物體的深度和運(yùn)動(dòng)狀態(tài)等。通過使用已有的幾何知識(shí)構(gòu)建體系結(jié)構(gòu),我們可以將它們對(duì)應(yīng)到現(xiàn)實(shí)中,簡(jiǎn)化了學(xué)習(xí)過程。本文結(jié)尾的一些示例將介紹如何使用幾何來提高深度學(xué)習(xí)架構(gòu)的性能。
另一種范式是使用語(yǔ)義表示。語(yǔ)義表示指的是用語(yǔ)言來描述物體在現(xiàn)實(shí)中的關(guān)系。例如,我們可以將物體描述為“貓”或“狗”。但是,幾何在語(yǔ)義上有兩大特性:
為什么這些屬性很重要呢?其中一個(gè)重要的原因在于這些屬性對(duì)非監(jiān)督式學(xué)習(xí)非常有幫助。
英國(guó)劍橋中心,幾何結(jié)構(gòu)的運(yùn)動(dòng)重建,來自于手機(jī)的視頻拍攝。
無(wú)監(jiān)督學(xué)習(xí)無(wú)需標(biāo)注數(shù)據(jù)就能學(xué)習(xí)物體的表示和結(jié)構(gòu)。獲取大量的已標(biāo)注訓(xùn)練數(shù)據(jù)需要耗費(fèi)財(cái)力物力,因此無(wú)監(jiān)督學(xué)習(xí)提供了更具擴(kuò)展性的框架。
作者上面提到幾何學(xué)的兩個(gè)特性正好可以用來訓(xùn)練無(wú)監(jiān)督學(xué)習(xí)模型:可觀察性和連續(xù)表示。
例如筆者去年發(fā)表的一篇作品,介紹了如何利用無(wú)監(jiān)督訓(xùn)練和幾何形態(tài)來預(yù)測(cè)物體的深度,這篇論文給出了幾何學(xué)原理與上述兩個(gè)特性結(jié)合形成無(wú)監(jiān)督學(xué)習(xí)模型的絕佳案例,也有幾篇思路類似的論文。
語(yǔ)義在計(jì)算機(jī)視覺領(lǐng)域一直備受關(guān)注,許多高引用論文成果都來自圖像分類和語(yǔ)義分割領(lǐng)域。
僅依靠語(yǔ)義來設(shè)計(jì)一套表達(dá)方式會(huì)存在問題,因?yàn)檎Z(yǔ)義是由人類定義的。人工智能系統(tǒng)理解語(yǔ)義并提供與人類交互的接口必不可少,而語(yǔ)義是人類定義的,很有可能這種定義并不是最合理的定義方式。直接從觀察到的幾何世界學(xué)習(xí)可能更自然。
與此同時(shí),低層次的幾何形態(tài)也是嬰兒學(xué)習(xí)觀察世界的形式。根據(jù)美國(guó)眼科協(xié)會(huì)的調(diào)查,人類在出生后的前九個(gè)月學(xué)習(xí)協(xié)調(diào)眼睛的聚焦和感知深度、顏色和幾何形狀等屬性。直到第十二個(gè)月才學(xué)會(huì)如何識(shí)別物體和語(yǔ)義。這說明在人類視覺中學(xué)習(xí)幾何學(xué)的基礎(chǔ)是非常重要的,人類會(huì)很好地把這些洞察融入到計(jì)算機(jī)視覺模型中。
PoseNet是一種單目六自由度的重定位算法。此算法可以解決著名的“被綁架的機(jī)器人”問題。
在ICCV 2015上發(fā)表的第一篇論文中,筆者通過訓(xùn)練端到端的映射模型來解決此問題,將輸入圖像映射到六自由度的照相機(jī)姿態(tài)。此方法把整個(gè)問題看做一只黑盒。在今年CVPR發(fā)表的論文中,有用幾何學(xué)原理做了改進(jìn),不再將學(xué)習(xí)照相機(jī)姿態(tài)和方向作為兩個(gè)獨(dú)立的回歸目標(biāo),而是用幾何重投影誤差聯(lián)合訓(xùn)練。效果得到了顯著提升。
立體算法通常是指通過觀察兩幅校準(zhǔn)圖像對(duì)之間的差異來獲得人造立體效應(yīng)的過程。這就是所謂的視差,它在相應(yīng)的像素位置與場(chǎng)景深度成反比。因此,基本上可以將問題簡(jiǎn)化為一個(gè)匹配問題,即從左、右圖像分別找到對(duì)象之間的對(duì)應(yīng)關(guān)系,以此來計(jì)算深度。
最先進(jìn)的立體算法還是以深度學(xué)習(xí)技術(shù)為主導(dǎo),但也僅用于構(gòu)建匹配特征。深度估計(jì)所需的匹配和正則化步驟還未用到深度學(xué)習(xí)。
筆者從幾何學(xué)的角度提出了GC-Net網(wǎng)絡(luò)結(jié)構(gòu)。眾所周知,我們可以利用沿著單目視差線構(gòu)成的cost volume來估計(jì)視差。該文的新穎之處在于如何用回歸模型來對(duì)cost volume的幾何形狀建模。更多細(xì)節(jié)可以參考這篇論文。
GC-Net結(jié)構(gòu)圖,它利用幾何形狀的顯示表示來預(yù)測(cè)深度。
總結(jié)本文的主要內(nèi)容可以歸納為以下兩點(diǎn):
聯(lián)系客服