詳細(xì)信息如下：

論文鏈接：https://arxiv.org/abs/2205.13425

摘要

動(dòng)作分類已經(jīng)取得了很大進(jìn)展，但從長時(shí)間的視頻中分割和識(shí)別動(dòng)作仍然是一個(gè)具有挑戰(zhàn)性的問題。大多數(shù)最先進(jìn)的方法側(cè)重于設(shè)計(jì)基于時(shí)間卷積的模型，但對(duì)長期時(shí)間依賴性建模的局限性和時(shí)間卷積的靈活性限制了這些模型的潛力。

近年來，基于Transformer的模型以其靈活和強(qiáng)大的序列建模能力被應(yīng)用于各種任務(wù)中。然而，由于缺乏inductive bias和處理長視頻序列的低效性，限制了Transformer在動(dòng)作分割中的應(yīng)用。

在本文中，作者結(jié)合U-Net架構(gòu)設(shè)計(jì)了一個(gè)無時(shí)間卷積的純Transformer模型。U-Transformer架構(gòu)降低了復(fù)雜性，同時(shí)引入了一種inductive bias，即相鄰幀更可能屬于同一類。作者觀察到，邊界幀與其相鄰幀之間的相似性分布取決于邊界幀是動(dòng)作片段的開始還是結(jié)束。因此，作者進(jìn)一步提出了一種邊界感知損失函數(shù)，以增強(qiáng)邊界識(shí)別能力。大量實(shí)驗(yàn)表明了該模型的有效性。

Motivation

由于上傳到各種平臺(tái)（如YouTube、Tiktok等）的視頻和短視頻數(shù)量呈指數(shù)級(jí)增長，視頻內(nèi)容理解在過去幾年中受到了越來越多的關(guān)注。視頻中的動(dòng)作識(shí)別是視頻內(nèi)容理解中最活躍的任務(wù)之一，它可以分為兩類：用單個(gè)活動(dòng)對(duì)修剪過的視頻進(jìn)行分類和在未修剪過的視頻中分割活動(dòng)，后者也稱為動(dòng)作分割（action segmentation）。雖然已經(jīng)提出了基于各種結(jié)構(gòu)的方法來大大提高視頻分類的準(zhǔn)確性，但它們的性能受到未經(jīng)修剪視頻的動(dòng)作分割任務(wù)的限制。

動(dòng)作分割可以看作是一個(gè)逐幀分類問題。以前的大多數(shù)深度學(xué)習(xí)方法都將時(shí)間卷積網(wǎng)絡(luò)（temporal convolutional networks，TCN）作為其主干，利用一維卷積來捕獲不同幀之間的時(shí)間關(guān)系。然而，TCN需要很深的層來捕捉長期的依賴性，并且很難確定最佳的感受野。最流行的基于TCN的模型MS-TCN采用的策略是在1D擴(kuò)張卷積中將擴(kuò)張因子加倍，使感受野隨層數(shù)呈指數(shù)增長，但Global2Local已證明存在比這種手工設(shè)計(jì)的模式更有效的感受野組合。但是不同的數(shù)據(jù)分布也會(huì)導(dǎo)致不同的最佳感受野組合。因此，需要更靈活的模型，從數(shù)據(jù)本身提取幀之間的依賴關(guān)系，而不是具有固定權(quán)重和手工設(shè)計(jì)模式的擴(kuò)展卷積結(jié)構(gòu)。

由于靈活的建模能力，Transformer在對(duì)各個(gè)領(lǐng)域的序列數(shù)據(jù)建模方面優(yōu)于其他深度模型。然而，除了ASFormer之外，利用Transformer處理動(dòng)作分割任務(wù)的工作很少。將Transformer應(yīng)用于動(dòng)作分割時(shí)存在兩個(gè)問題。

一方面，Transformer對(duì)輸入數(shù)據(jù)的結(jié)構(gòu)歸納偏置較少，因此需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。然而，受幀注釋難度的限制，在動(dòng)作分割任務(wù)中，注釋良好的大多數(shù)數(shù)據(jù)集只有數(shù)千個(gè)視頻樣本，遠(yuǎn)遠(yuǎn)小于其他領(lǐng)域的數(shù)據(jù)規(guī)模。

另一方面，時(shí)間和空間復(fù)雜性隨著輸入長度的增加呈二次曲線增加。由數(shù)千幀組成的未修剪視頻樣本太長，無法由Transformer中的自注意力層直接處理。ASFormer結(jié)合了稀疏注意機(jī)制和一維卷積來解決這兩個(gè)問題，但它更像是將額外的注意模塊納入MS-TCN。

因此，沒有一維卷積的純Transformer模型是否適用于動(dòng)作分割以及如何使其工作仍然是一個(gè)懸而未決的問題。

為了能夠處理長視頻，作者首先將vanilla Transformer中的完全注意力替換為局部注意力，其中每個(gè)幀只關(guān)注同一局部窗口中的幀。但局部注意會(huì)降低感受野，因此模型仍然無法捕獲長期依賴性。

為此，作者結(jié)合U-Net架構(gòu)和local-attended Transformer，提出了一種無1D卷積的純Transformer模型，即高效U-Transformer（EUT）。利用編碼器中的時(shí)間下采樣和解碼器中的上采樣來構(gòu)建U-Transformer結(jié)構(gòu)。U-Transformer中的時(shí)間采樣不僅使感受野隨層數(shù)呈指數(shù)增長，而且進(jìn)一步降低了復(fù)雜性。此外，作者發(fā)現(xiàn)U-Transformer架構(gòu)非常適合密集預(yù)測任務(wù)，因?yàn)樗肓硕喑叨刃畔⒑拖噜弾赡軐儆谕活惖南闰?yàn)信息，這彌補(bǔ)了動(dòng)作分割方面缺乏足夠的訓(xùn)練數(shù)據(jù)。

然而，U-Transformer架構(gòu)加劇了邊界的錯(cuò)誤分類，因?yàn)榇至６忍卣鞅火佀偷浇獯a器中。如果邊界上的幀被編碼為不適當(dāng)?shù)拇至６忍卣?，那么在解碼器中從中向上采樣的幀將被錯(cuò)誤分類。為了更好地感知邊界信息，作者將視頻中的邊界幀分為兩種類型：開始幀和結(jié)束幀，它們分別表示動(dòng)作片段的開始和結(jié)束。

直觀地說，開始幀應(yīng)該與之后的相鄰幀更相似，而結(jié)束幀應(yīng)該與之前的幀更相似，這對(duì)應(yīng)于兩種不同的相似性分布。作者將一幀與其鄰居的相似性分布定義為該幀的局部注意分布，該分布可以從局部注意模塊中獲得。因此，作者通過最小化邊界幀的局部注意分布與預(yù)定義的先驗(yàn)分布之間的距離來引入邊界感知損失，這可以作為一種正則化來強(qiáng)制模型更加關(guān)注邊界。

本文的貢獻(xiàn)包括：

作者首次提出了一種無1D卷積的純Transformer模型用于動(dòng)作分割。本文的模型將局部注意力和U-Net架構(gòu)結(jié)合到Transformer中，與普通Transformer相比，它降低了復(fù)雜性，并且擺脫了一維卷積的限制。
基于注意模塊和邊界標(biāo)簽的幀間相似度分布，作者提出了一種基于分布的邊界感知損失，使本文的模型能夠更準(zhǔn)確地分類邊界。

方法

3.1. U-Transformer Architecture

在本節(jié)中，作者將詳細(xì)介紹本文的模型。EUT包含一個(gè)預(yù)測生成階段和M個(gè)細(xì)化階段，遵循MS-TCN中的多階段架構(gòu)。生成階段生成初始分段預(yù)測，而每個(gè)細(xì)化階段細(xì)化前一階段的預(yù)測。如上圖所示，每個(gè)階段可分為四個(gè)部分：輸入投影、由N個(gè)相同編碼器層組成的編碼器、由N個(gè)相同解碼器層組成的解碼器和輸出分類器。輸入投影和輸出分類器都是全連接層，它們減少了輸入維度，分別為編碼器和解碼器的輸出提供信息。

Local Attention

在Transformer原有的自注意模塊中，任何查詢都需要計(jì)算所有鍵的相似度得分來生成注意矩陣A，這導(dǎo)致了二次復(fù)雜性，即復(fù)雜性為。將注意力計(jì)算限制在一個(gè)固定大小的局部窗口上，可以將操作降低到線性復(fù)雜度，稱為局部注意力。此時(shí)，每個(gè)查詢只需要計(jì)算與窗口中以其位置為中心的那些鍵的相似度，即，其中和分別表示開始和結(jié)束位置。因此，第i個(gè)位置的輸出為：

局部注意力不會(huì)縮小模型的整體感受野。由于層之間的時(shí)間采樣，感受野隨層數(shù)呈指數(shù)增長，足以覆蓋整個(gè)視頻序列，以捕獲全局和局部依賴性。

Scale-Shared Positional Encoding

由于Transformer中的注意力機(jī)制無法感知元素的位置，許多作品采用各種策略來引入位置信息。由于動(dòng)作分割任務(wù)中未修剪視頻的長度通常過長且變化劇烈，絕對(duì)位置編碼將影響性能。因此，作者采用了可學(xué)習(xí)的相對(duì)位置編碼，其基本思想是將所有查詢-鍵對(duì)的相對(duì)距離嵌入為標(biāo)量，并將其添加到注意力矩陣中。

考慮到局部窗口內(nèi)任意兩個(gè)元素之間的距離不超過窗口大小w，可以通過可學(xué)習(xí)的嵌入矩陣得到和之間的相對(duì)位置編碼，其中表示位置下標(biāo)，h表示head的數(shù)量。產(chǎn)生的位置編碼R將被添加到不同頭中注意力矩陣的相應(yīng)位置。不同階段具有相同層索引的圖層處理具有相同時(shí)間分辨率的輸入，其相對(duì)位置編碼應(yīng)相同。因此，作者采用了規(guī)模共享策略（scale-shared strategy），即不同階段具有相同規(guī)模的對(duì)應(yīng)層共享相同的。此外，作者只在編碼器層應(yīng)用相對(duì)位置編碼。

Fine-to-Abstract Encoder

編碼器由N個(gè)相同的編碼器層組成。如上圖所示，它類似于vanilla Transformer中的編碼器，但有三個(gè)區(qū)別。首先，在每一層的開始處存在一個(gè)最近鄰下采樣過程，該過程將輸入時(shí)間維度減半。第二，用尺度共享相對(duì)位置編碼的局部注意力代替完全注意力。第三，作者使用 instance normalization來代替layer normalization?？傊趌個(gè)編碼器層的操作集可以描述如下：

Abstract-to-Fine Decoder

如上圖所示，由N個(gè)相同層組成的解碼器與編碼器對(duì)稱。在每個(gè)解碼器層中，利用時(shí)間上采樣來逐漸恢復(fù)輸入幀的原始時(shí)間分辨率。上采樣過程也通過最近插值實(shí)現(xiàn)。作者沒有像原來的U-Net那樣將編碼器層輸入和前一層輸入concat為解碼器層輸入，因?yàn)檫@將占用更多內(nèi)存。

為了保持隱藏維度，作者修改了原始Transformer中的交叉注意力，以利用編碼器中的信息。具體來說，在局部交叉注意力中，查詢和鍵都來自前一個(gè)解碼器層的輸出，而值是由與鍵具有相同時(shí)間維度的相應(yīng)編碼器層的輸出生成的。因此，第l個(gè)解碼器層生成的表示如下所示：

3.2. Boundary-aware Loss

在訓(xùn)練階段，作者結(jié)合了三種不同的損失：幀級(jí)別分類損失、平滑損失和本文提出的邊界感知損失。由于每一階段的損失函數(shù)完全相同，這里只分析了第s級(jí)的損失。

作者使用交叉熵?fù)p失作為，在第s個(gè)階段使用逐幀對(duì)數(shù)概率的均方誤差作為：

其中，是屬于第類的預(yù)測概率，θ=4是預(yù)設(shè)閾值。在中，不計(jì)算的梯度。

動(dòng)作邊界對(duì)于視頻動(dòng)作分割至關(guān)重要。逐幀分類將邊界幀和中間幀同等對(duì)待，這導(dǎo)致所學(xué)習(xí)的特征對(duì)邊界不敏感。作者提出了一種新的邊界感知損失算法來增強(qiáng)邊界識(shí)別能力。邊界感知損失通過對(duì)局部注意力模塊中的注意力矩陣施加額外的約束來正則化特征學(xué)習(xí)。

Prior Distribution

直觀地說，如果一個(gè)幀在其向后方向上與相鄰幀具有較小的相似性，而在其向前方向上與相鄰幀具有較大的相似性，則它很有可能成為起始幀；如果幀在其前進(jìn)方向上與相鄰幀相似，但在其后退方向上與相鄰幀不同，則它可能是結(jié)束幀。因此，根據(jù)anchor是起始幀還是結(jié)束幀，邊界幀j（anchor）與其相鄰幀之間的相似性分布應(yīng)呈現(xiàn)兩種不同的模式。作者使用自適應(yīng)sign函數(shù)作為與上述兩種模式相對(duì)應(yīng)的兩個(gè)先驗(yàn)分布：

其中（i? j）指第i幀和第j個(gè)anchor幀之間的距離，σ=0.8表示比例系數(shù)。符號(hào)±為正或負(fù)，分別對(duì)應(yīng)于開始幀和結(jié)束幀。當(dāng)x大于或等于0時(shí)，Sgn（x）為1；當(dāng)x小于0時(shí)，Sgn（x）為-1。此外，作者使用Rescale[·]將概率之和轉(zhuǎn)換為1。

Local-Attention Distribution

局部注意力模塊中的注意矩陣由查詢-鍵對(duì)之間的所有相似性得分組成?？梢詮淖⒁饬仃嘇中提取anhor及其相鄰幀的相似性分布，稱為anchor的局部注意力分布：

如上圖所示，作者引入了邊界感知損失，以將邊界的局部注意力分布近似為相應(yīng)的先驗(yàn)分布，這可以通過最小化分布之間的對(duì)稱KL散度來實(shí)現(xiàn)：

我們可以類標(biāo)簽中獲取邊界標(biāo)簽，并從局部注意模塊中獲取每個(gè)邊界的相似性分布。因此，計(jì)算邊界感知損失無需額外的模塊和標(biāo)注。考慮到時(shí)間下采樣模糊了高層邊界，作者只在低層進(jìn)行計(jì)算。因此，第s階段的最終損失是三個(gè)損失的加權(quán)和：

作者設(shè)置λ=0.15。β是一個(gè)可調(diào)的超參數(shù)。

訓(xùn)練階段所有階段的總體損失函數(shù)為。在測試階段，作者使用最后細(xì)化階段的幀分類結(jié)果作為分割結(jié)果。

實(shí)驗(yàn)

在上表中，作者將本文提出的模型與三個(gè)數(shù)據(jù)集上的最新方法進(jìn)行了比較。為了公平比較所有模型，作者列出了在沒有額外邊界感知損失的情況下對(duì)模型進(jìn)行訓(xùn)練的結(jié)果，這對(duì)應(yīng)于EUT?。為了證明本文提出的邊界感知損失的有效性，作者還報(bào)告了本文的模型與額外的邊界感知損失（稱為EUT）聯(lián)合訓(xùn)練的結(jié)果。

為了驗(yàn)證EUT中相對(duì)位置編碼（RPE）的有效性，作者比較了上表中的不同位置編碼（PE）方法。由于視頻樣本的長度在很大范圍內(nèi)變化，作者觀察到不靈活的絕對(duì)位置編碼（APE）會(huì)導(dǎo)致性能下降。

為了探索模型架構(gòu)和注意力方法的影響，作者比較了兩種模型結(jié)構(gòu)和三種注意力模式，共有6種組合。為了進(jìn)行公平比較，作者控制所有模型配置和訓(xùn)練參數(shù)保持一致。

考慮到RPE引入了額外的參數(shù)，作者在這些消融實(shí)驗(yàn)中不使用RPE。U-Transformer結(jié)構(gòu)實(shí)現(xiàn)了比標(biāo)準(zhǔn)體系結(jié)構(gòu)更好的性能，GPU內(nèi)存消耗更少。無論體系結(jié)構(gòu)如何，完全注意力都會(huì)失敗，這表明對(duì)小數(shù)據(jù)的訓(xùn)練需要更稀疏的注意力模式。由于相鄰幀在動(dòng)作分割中通常具有較強(qiáng)的相關(guān)性，因此局部注意的表現(xiàn)比對(duì)數(shù)稀疏注意要好得多。

作者將在上圖中顯示了邊界感知損失的定性可視化結(jié)果?？梢杂^察到，用邊界感知損失訓(xùn)練的EUT模型預(yù)測的兩個(gè)邊界幀的位置更接近Ground Truth中邊界幀的位置。

總結(jié)

在動(dòng)作分割任務(wù)中，最流行的深度學(xué)習(xí)方法使用1D卷積網(wǎng)絡(luò)作為其主干。作者首次提出了一個(gè)將U-Net結(jié)構(gòu)與Transformer相結(jié)合的純Transformer模型。時(shí)間下采樣和局部注意力模塊使本文的模型能夠有效地處理長視頻。此外，作者提出了一種新的基于邊界幀局部注意分布的邊界感知丟失方法，該方法作為正則化項(xiàng)來訓(xùn)練模型，可以進(jìn)一步提高邊界識(shí)別能力。

參考資料

[1]https://arxiv.org/abs/2205.13425

END

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

摘要

方法