軟件所&人大&騰訊提出第一個(gè)動(dòng)作分割領(lǐng)域的純Transformer 結(jié)構(gòu),通過U型Transformer結(jié)構(gòu)實(shí)現(xiàn)高效的動(dòng)作分割!
摘要
動(dòng)作分類已經(jīng)取得了很大進(jìn)展,但從長時(shí)間的視頻中分割和識(shí)別動(dòng)作仍然是一個(gè)具有挑戰(zhàn)性的問題。大多數(shù)最先進(jìn)的方法側(cè)重于設(shè)計(jì)基于時(shí)間卷積的模型,但對(duì)長期時(shí)間依賴性建模的局限性和時(shí)間卷積的靈活性限制了這些模型的潛力。近年來,基于Transformer的模型以其靈活和強(qiáng)大的序列建模能力被應(yīng)用于各種任務(wù)中。然而,由于缺乏inductive bias和處理長視頻序列的低效性,限制了Transformer在動(dòng)作分割中的應(yīng)用。在本文中,作者結(jié)合U-Net架構(gòu)設(shè)計(jì)了一個(gè)無時(shí)間卷積的純Transformer模型。U-Transformer架構(gòu)降低了復(fù)雜性,同時(shí)引入了一種inductive bias,即相鄰幀更可能屬于同一類。作者觀察到,邊界幀與其相鄰幀之間的相似性分布取決于邊界幀是動(dòng)作片段的開始還是結(jié)束。因此,作者進(jìn)一步提出了一種邊界感知損失函數(shù),以增強(qiáng)邊界識(shí)別能力。大量實(shí)驗(yàn)表明了該模型的有效性。由于上傳到各種平臺(tái)(如YouTube、Tiktok等)的視頻和短視頻數(shù)量呈指數(shù)級(jí)增長,視頻內(nèi)容理解在過去幾年中受到了越來越多的關(guān)注。視頻中的動(dòng)作識(shí)別是視頻內(nèi)容理解中最活躍的任務(wù)之一,它可以分為兩類:用單個(gè)活動(dòng)對(duì)修剪過的視頻進(jìn)行分類和在未修剪過的視頻中分割活動(dòng),后者也稱為動(dòng)作分割(action segmentation)。雖然已經(jīng)提出了基于各種結(jié)構(gòu)的方法來大大提高視頻分類的準(zhǔn)確性,但它們的性能受到未經(jīng)修剪視頻的動(dòng)作分割任務(wù)的限制。動(dòng)作分割可以看作是一個(gè)逐幀分類問題。以前的大多數(shù)深度學(xué)習(xí)方法都將時(shí)間卷積網(wǎng)絡(luò)(temporal convolutional networks,TCN)作為其主干,利用一維卷積來捕獲不同幀之間的時(shí)間關(guān)系。然而,TCN需要很深的層來捕捉長期的依賴性,并且很難確定最佳的感受野。最流行的基于TCN的模型MS-TCN采用的策略是在1D擴(kuò)張卷積中將擴(kuò)張因子加倍,使感受野隨層數(shù)呈指數(shù)增長,但Global2Local已證明存在比這種手工設(shè)計(jì)的模式更有效的感受野組合。但是不同的數(shù)據(jù)分布也會(huì)導(dǎo)致不同的最佳感受野組合。因此,需要更靈活的模型,從數(shù)據(jù)本身提取幀之間的依賴關(guān)系,而不是具有固定權(quán)重和手工設(shè)計(jì)模式的擴(kuò)展卷積結(jié)構(gòu)。由于靈活的建模能力,Transformer在對(duì)各個(gè)領(lǐng)域的序列數(shù)據(jù)建模方面優(yōu)于其他深度模型。然而,除了ASFormer之外,利用Transformer處理動(dòng)作分割任務(wù)的工作很少。將Transformer應(yīng)用于動(dòng)作分割時(shí)存在兩個(gè)問題。一方面,Transformer對(duì)輸入數(shù)據(jù)的結(jié)構(gòu)歸納偏置較少,因此需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。然而,受幀注釋難度的限制,在動(dòng)作分割任務(wù)中,注釋良好的大多數(shù)數(shù)據(jù)集只有數(shù)千個(gè)視頻樣本,遠(yuǎn)遠(yuǎn)小于其他領(lǐng)域的數(shù)據(jù)規(guī)模。另一方面,時(shí)間和空間復(fù)雜性隨著輸入長度的增加呈二次曲線增加。由數(shù)千幀組成的未修剪視頻樣本太長,無法由Transformer中的自注意力層直接處理。ASFormer結(jié)合了稀疏注意機(jī)制和一維卷積來解決這兩個(gè)問題,但它更像是將額外的注意模塊納入MS-TCN。因此,沒有一維卷積的純Transformer模型是否適用于動(dòng)作分割以及如何使其工作仍然是一個(gè)懸而未決的問題。為了能夠處理長視頻,作者首先將vanilla Transformer中的完全注意力替換為局部注意力,其中每個(gè)幀只關(guān)注同一局部窗口中的幀。但局部注意會(huì)降低感受野,因此模型仍然無法捕獲長期依賴性。為此,作者結(jié)合U-Net架構(gòu)和local-attended Transformer,提出了一種無1D卷積的純Transformer模型,即高效U-Transformer(EUT)。利用編碼器中的時(shí)間下采樣和解碼器中的上采樣來構(gòu)建U-Transformer結(jié)構(gòu)。U-Transformer中的時(shí)間采樣不僅使感受野隨層數(shù)呈指數(shù)增長,而且進(jìn)一步降低了復(fù)雜性。此外,作者發(fā)現(xiàn)U-Transformer架構(gòu)非常適合密集預(yù)測任務(wù),因?yàn)樗肓硕喑叨刃畔⒑拖噜弾赡軐儆谕活惖南闰?yàn)信息,這彌補(bǔ)了動(dòng)作分割方面缺乏足夠的訓(xùn)練數(shù)據(jù)。然而,U-Transformer架構(gòu)加劇了邊界的錯(cuò)誤分類,因?yàn)榇至6忍卣鞅火佀偷浇獯a器中。如果邊界上的幀被編碼為不適當(dāng)?shù)拇至6忍卣?,那么在解碼器中從中向上采樣的幀將被錯(cuò)誤分類。為了更好地感知邊界信息,作者將視頻中的邊界幀分為兩種類型:開始幀和結(jié)束幀,它們分別表示動(dòng)作片段的開始和結(jié)束。直觀地說,開始幀應(yīng)該與之后的相鄰幀更相似,而結(jié)束幀應(yīng)該與之前的幀更相似,這對(duì)應(yīng)于兩種不同的相似性分布。作者將一幀與其鄰居的相似性分布定義為該幀的局部注意分布,該分布可以從局部注意模塊中獲得。因此,作者通過最小化邊界幀的局部注意分布與預(yù)定義的先驗(yàn)分布之間的距離來引入邊界感知損失,這可以作為一種正則化來強(qiáng)制模型更加關(guān)注邊界。作者首次提出了一種無1D卷積的純Transformer模型用于動(dòng)作分割。本文的模型將局部注意力和U-Net架構(gòu)結(jié)合到Transformer中,與普通Transformer相比,它降低了復(fù)雜性,并且擺脫了一維卷積的限制。
基于注意模塊和邊界標(biāo)簽的幀間相似度分布,作者提出了一種基于分布的邊界感知損失,使本文的模型能夠更準(zhǔn)確地分類邊界。
方法
3.1. U-Transformer Architecture
在本節(jié)中,作者將詳細(xì)介紹本文的模型。EUT包含一個(gè)預(yù)測生成階段和M個(gè)細(xì)化階段,遵循MS-TCN中的多階段架構(gòu)。生成階段生成初始分段預(yù)測,而每個(gè)細(xì)化階段細(xì)化前一階段的預(yù)測。如上圖所示,每個(gè)階段可分為四個(gè)部分:輸入投影、由N個(gè)相同編碼器層組成的編碼器、由N個(gè)相同解碼器層組成的解碼器和輸出分類器。輸入投影和輸出分類器都是全連接層,它們減少了輸入維度,分別為編碼器和解碼器的輸出提供信息。Local Attention
在Transformer原有的自注意模塊中,任何查詢都需要計(jì)算所有鍵的相似度得分來生成注意矩陣A,這導(dǎo)致了二次復(fù)雜性,即復(fù)雜性為。將注意力計(jì)算限制在一個(gè)固定大小的局部窗口上,可以將操作降低到線性復(fù)雜度,稱為局部注意力。此時(shí),每個(gè)查詢只需要計(jì)算與窗口中以其位置為中心的那些鍵的相似度,即,其中和分別表示開始和結(jié)束位置。因此,第i個(gè)位置的輸出為:局部注意力不會(huì)縮小模型的整體感受野。由于層之間的時(shí)間采樣,感受野隨層數(shù)呈指數(shù)增長,足以覆蓋整個(gè)視頻序列,以捕獲全局和局部依賴性。Scale-Shared Positional Encoding
由于Transformer中的注意力機(jī)制無法感知元素的位置,許多作品采用各種策略來引入位置信息。由于動(dòng)作分割任務(wù)中未修剪視頻的長度通常過長且變化劇烈,絕對(duì)位置編碼將影響性能。因此,作者采用了可學(xué)習(xí)的相對(duì)位置編碼,其基本思想是將所有查詢-鍵對(duì)的相對(duì)距離嵌入為標(biāo)量,并將其添加到注意力矩陣中。考慮到局部窗口內(nèi)任意兩個(gè)元素之間的距離不超過窗口大小w,可以通過可學(xué)習(xí)的嵌入矩陣得到和之間的相對(duì)位置編碼,其中表示位置下標(biāo),h表示head的數(shù)量。產(chǎn)生的位置編碼R將被添加到不同頭中注意力矩陣的相應(yīng)位置。不同階段具有相同層索引的圖層處理具有相同時(shí)間分辨率的輸入,其相對(duì)位置編碼應(yīng)相同。因此,作者采用了規(guī)模共享策略(scale-shared strategy),即不同階段具有相同規(guī)模的對(duì)應(yīng)層共享相同的。此外,作者只在編碼器層應(yīng)用相對(duì)位置編碼。Fine-to-Abstract Encoder
編碼器由N個(gè)相同的編碼器層組成。如上圖所示,它類似于vanilla Transformer中的編碼器,但有三個(gè)區(qū)別。首先,在每一層的開始處存在一個(gè)最近鄰下采樣過程,該過程將輸入時(shí)間維度減半。第二,用尺度共享相對(duì)位置編碼的局部注意力代替完全注意力。第三,作者使用 instance normalization來代替layer normalization??傊趌個(gè)編碼器層的操作集可以描述如下:Abstract-to-Fine Decoder
如上圖所示,由N個(gè)相同層組成的解碼器與編碼器對(duì)稱。在每個(gè)解碼器層中,利用時(shí)間上采樣來逐漸恢復(fù)輸入幀的原始時(shí)間分辨率。上采樣過程也通過最近插值實(shí)現(xiàn)。作者沒有像原來的U-Net那樣將編碼器層輸入和前一層輸入concat為解碼器層輸入,因?yàn)檫@將占用更多內(nèi)存。為了保持隱藏維度,作者修改了原始Transformer中的交叉注意力,以利用編碼器中的信息。具體來說,在局部交叉注意力中,查詢和鍵都來自前一個(gè)解碼器層的輸出,而值是由與鍵具有相同時(shí)間維度的相應(yīng)編碼器層的輸出生成的。因此,第l個(gè)解碼器層生成的表示如下所示:3.2. Boundary-aware Loss
在訓(xùn)練階段,作者結(jié)合了三種不同的損失:幀級(jí)別分類損失、平滑損失和本文提出的邊界感知損失。由于每一階段的損失函數(shù)完全相同,這里只分析了第s級(jí)的損失。作者使用交叉熵?fù)p失作為,在第s個(gè)階段使用逐幀對(duì)數(shù)概率的均方誤差作為:其中,是屬于第類的預(yù)測概率,θ=4是預(yù)設(shè)閾值。在中,不計(jì)算的梯度。動(dòng)作邊界對(duì)于視頻動(dòng)作分割至關(guān)重要。逐幀分類將邊界幀和中間幀同等對(duì)待,這導(dǎo)致所學(xué)習(xí)的特征對(duì)邊界不敏感。作者提出了一種新的邊界感知損失算法來增強(qiáng)邊界識(shí)別能力。邊界感知損失通過對(duì)局部注意力模塊中的注意力矩陣施加額外的約束來正則化特征學(xué)習(xí)。Prior Distribution
直觀地說,如果一個(gè)幀在其向后方向上與相鄰幀具有較小的相似性,而在其向前方向上與相鄰幀具有較大的相似性,則它很有可能成為起始幀;如果幀在其前進(jìn)方向上與相鄰幀相似,但在其后退方向上與相鄰幀不同,則它可能是結(jié)束幀。因此,根據(jù)anchor是起始幀還是結(jié)束幀,邊界幀j(anchor)與其相鄰幀之間的相似性分布應(yīng)呈現(xiàn)兩種不同的模式。作者使用自適應(yīng)sign函數(shù)作為與上述兩種模式相對(duì)應(yīng)的兩個(gè)先驗(yàn)分布:其中(i? j) 指第i幀和第j個(gè)anchor幀之間的距離,σ=0.8表示比例系數(shù)。符號(hào)±為正或負(fù),分別對(duì)應(yīng)于開始幀和結(jié)束幀。當(dāng)x大于或等于0時(shí),Sgn(x)為1;當(dāng)x小于0時(shí),Sgn(x)為-1。此外,作者使用Rescale[·]將概率之和轉(zhuǎn)換為1。Local-Attention Distribution
局部注意力模塊中的注意矩陣由查詢-鍵對(duì)之間的所有相似性得分組成??梢詮淖⒁饬仃嘇中提取anhor及其相鄰幀的相似性分布,稱為anchor的局部注意力分布:如上圖所示,作者引入了邊界感知損失,以將邊界的局部注意力分布近似為相應(yīng)的先驗(yàn)分布,這可以通過最小化分布之間的對(duì)稱KL散度來實(shí)現(xiàn):我們可以類標(biāo)簽中獲取邊界標(biāo)簽,并從局部注意模塊中獲取每個(gè)邊界的相似性分布。因此,計(jì)算邊界感知損失無需額外的模塊和標(biāo)注。考慮到時(shí)間下采樣模糊了高層邊界,作者只在低層進(jìn)行計(jì)算。因此,第s階段的最終損失是三個(gè)損失的加權(quán)和:作者設(shè)置λ=0.15。β是一個(gè)可調(diào)的超參數(shù)。訓(xùn)練階段所有階段的總體損失函數(shù)為。在測試階段,作者使用最后細(xì)化階段的幀分類結(jié)果作為分割結(jié)果。
實(shí)驗(yàn)
在上表中,作者將本文提出的模型與三個(gè)數(shù)據(jù)集上的最新方法進(jìn)行了比較。為了公平比較所有模型,作者列出了在沒有額外邊界感知損失的情況下對(duì)模型進(jìn)行訓(xùn)練的結(jié)果,這對(duì)應(yīng)于EUT?。為了證明本文提出的邊界感知損失的有效性,作者還報(bào)告了本文的模型與額外的邊界感知損失(稱為EUT)聯(lián)合訓(xùn)練的結(jié)果。為了驗(yàn)證EUT中相對(duì)位置編碼(RPE)的有效性,作者比較了上表中的不同位置編碼(PE)方法。由于視頻樣本的長度在很大范圍內(nèi)變化,作者觀察到不靈活的絕對(duì)位置編碼(APE)會(huì)導(dǎo)致性能下降。為了探索模型架構(gòu)和注意力方法的影響,作者比較了兩種模型結(jié)構(gòu)和三種注意力模式,共有6種組合。為了進(jìn)行公平比較,作者控制所有模型配置和訓(xùn)練參數(shù)保持一致。考慮到RPE引入了額外的參數(shù),作者在這些消融實(shí)驗(yàn)中不使用RPE。U-Transformer結(jié)構(gòu)實(shí)現(xiàn)了比標(biāo)準(zhǔn)體系結(jié)構(gòu)更好的性能,GPU內(nèi)存消耗更少。無論體系結(jié)構(gòu)如何,完全注意力都會(huì)失敗,這表明對(duì)小數(shù)據(jù)的訓(xùn)練需要更稀疏的注意力模式。由于相鄰幀在動(dòng)作分割中通常具有較強(qiáng)的相關(guān)性,因此局部注意的表現(xiàn)比對(duì)數(shù)稀疏注意要好得多。作者將在上圖中顯示了邊界感知損失的定性可視化結(jié)果??梢杂^察到,用邊界感知損失訓(xùn)練的EUT模型預(yù)測的兩個(gè)邊界幀的位置更接近Ground Truth中邊界幀的位置。
總結(jié)
在動(dòng)作分割任務(wù)中,最流行的深度學(xué)習(xí)方法使用1D卷積網(wǎng)絡(luò)作為其主干。作者首次提出了一個(gè)將U-Net結(jié)構(gòu)與Transformer相結(jié)合的純Transformer模型。時(shí)間下采樣和局部注意力模塊使本文的模型能夠有效地處理長視頻。此外,作者提出了一種新的基于邊界幀局部注意分布的邊界感知丟失方法,該方法作為正則化項(xiàng)來訓(xùn)練模型,可以進(jìn)一步提高邊界識(shí)別能力。參考資料
[1]https://arxiv.org/abs/2205.13425
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。