免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
聊聊愷明大神MAE的成功之處!

這兩天忍不住又卷去看CV領(lǐng)域的論文了,主要是前些日子愷明大神的MAE太過強(qiáng)大,感覺不看會(huì)錯(cuò)過一個(gè)億。看了之后果然不負(fù)我的期待,大道至簡(jiǎn),思路太清晰了、太深刻了,給他投光我的幾百個(gè)B幣都不為過。

不過,相信很多NLP領(lǐng)域的同學(xué)和我的第一反應(yīng)一樣,聽到CV領(lǐng)域終于出了一個(gè)類似BERT的模型,卻內(nèi)心有一絲絲的疑惑:BERT都出來三年了,CV領(lǐng)域的為什么現(xiàn)在才出來?而明明看起來這么簡(jiǎn)單的做法,為什么只有愷明大神成功了?

沒錯(cuò),我也有這個(gè)疑惑,于是我去翻了一下愷明大神在相關(guān)工作提到的iGPT、ViT、BEiT。把這三篇看下來,我才真正領(lǐng)略到了大神思想的高度。

難道之前的工作沒試過提升mask ratio嗎?不是的。

難道之前的工作沒試過用ViT預(yù)測(cè)pixel嗎?不是的。

而這就是大神的NB之處,明明別人都試過了,覺得不work,而MAE就是能把這兩個(gè)核心問題想清楚,然后做出效果

到底怎么做出來的呢?不急,我來幫大家捋一捋。

iGPT

我們這個(gè)故事,要從2020年OpenAI的iGPT講起。OpenAI是一個(gè)想把一切GPT化的公司,到了圖像這里,自然的想法就是用GPT來訓(xùn)一個(gè)圖像模型。但是圖像是個(gè)三維的數(shù)據(jù)(長x寬x通道),不像文字一樣可以變成一維向量的序列。如果直接把圖像的三維矩陣拼成二維也可以,但這樣數(shù)量就太多了。于是iGPT就想到了一個(gè)方法,把圖像馬賽克掉,變成一個(gè)個(gè)色塊,數(shù)量一下就減少了,可以像NLP一樣愉快地輸入到Transformer了:

解決這個(gè)核心難點(diǎn)之后就很愉快了,可以無腦用GPT和BERT啦。

最后實(shí)驗(yàn)下來,BERT在兩個(gè)數(shù)據(jù)集的平均表現(xiàn)比GPT差一點(diǎn)點(diǎn)(橙色):

而且BERT因?yàn)閙ask的方式,存在訓(xùn)練預(yù)測(cè)不一致的問題,OpenAI嘗試對(duì)測(cè)試數(shù)據(jù)隨機(jī)mask 5個(gè)token,最終ImageNet結(jié)果果然上升了一些(紅色)。但還是改變不了OpenAI要用GPT統(tǒng)治一切的事實(shí),這篇文章還是用GPT-2(攤手。

iGPT雖然嘗試過形式與BERT接近的預(yù)訓(xùn)練,但卻連一個(gè)MAE的關(guān)鍵點(diǎn)都沒碰到。其中我覺得問題最大的主要是這個(gè)馬賽克操作,就拿文中貼的例子來看,都被馬賽克成那樣子了,還學(xué)習(xí)什么呢。。。雖然事實(shí)證明還是有效果的,但還是從輸入上就降低了模型的擬合能力。

但別急,這個(gè)問題馬上就被解決了。

ViT

第二個(gè)出場(chǎng)的嘉賓,就是紅遍大江南北的Vision Transformer——ViT。

它對(duì)上面問題的解決辦法,就是思想上借鑒了CNN的局部特征抽取,把圖片分割成一個(gè)個(gè)patch,再通過線性映射成一個(gè)類似NLP的token embedding。同時(shí)為了保留位置信息,加上了可學(xué)習(xí)的position embedding。

從ViT開始,CVer們終于可以更優(yōu)雅地使用Transformer了。然而ViT的實(shí)驗(yàn)還是跟傳統(tǒng)CV一樣,進(jìn)行有監(jiān)督的預(yù)訓(xùn)練。為什么不試試MLM呢?其實(shí)他們?cè)囘^了,但效果不好,所以沒重點(diǎn)放出來。

在附錄中,ViT其實(shí)嘗試過三種預(yù)訓(xùn)練方法,首先mask掉50%的patch,然后:

  1. 只預(yù)測(cè)patch的mean color
  2. 只預(yù)測(cè)一個(gè)馬賽克版的patch
  3. 用L2損失預(yù)測(cè)所有pixel

第三種方法真的很接近有木有?。?!然而實(shí)驗(yàn)發(fā)現(xiàn)第三種更差一些,第一種最好,但也比有監(jiān)督的落后4個(gè)點(diǎn)。

看到這里,如果去翻翻MAE的分析實(shí)驗(yàn),就會(huì)發(fā)現(xiàn)MAE mask 50%之后的效果也很好:

怎么辦,就導(dǎo)致我這個(gè)旁觀者很著急。雖然ViT已經(jīng)是很厲害的工作了,如果當(dāng)時(shí)再想想,簡(jiǎn)直神上加神。到底是什么點(diǎn)呢?我們留到MAE再說。

BEiT

第三位出場(chǎng)的嘉賓是BEiT,微軟今年年中的工作,作者之一是知乎的董力大佬。

BEiT的形式同樣很接近BERT,只不過用了一個(gè)dVAE對(duì)patch進(jìn)行離散化(就像NLP的token也是離散化的)。dVAE需要先在語料上訓(xùn)練出一個(gè)encoder和一個(gè)decoder,encoder用來當(dāng)作tokenizer,把圖像離散化(對(duì)應(yīng)一個(gè)個(gè)patch),然后給Transformer輸入patch,預(yù)測(cè)離散后的圖像,再用decoder還原。

在預(yù)訓(xùn)練階段,最多會(huì)mask 40%的patch(同樣很接近MAE了)。

另外,作者們其實(shí)也試過復(fù)原pixel,但效果會(huì)有1.8%的下降。對(duì)于這個(gè)現(xiàn)象,BEiT給出的猜想是,就像多層CNN一樣,編碼器最終得到的應(yīng)該是一個(gè)更全局、高維的表示,而復(fù)現(xiàn)pixel會(huì)讓后幾層太關(guān)注局部細(xì)節(jié)。

MAE

終于輪到MAE出場(chǎng)了,了解了上述幾個(gè)模型的背景,我們?cè)賮砜磹鹈鞔笊裨陂_篇提出的問題:到底是什么原因?qū)е乱曈X和語言用的masked autoencoder不一樣?

核心的三個(gè)點(diǎn)是:

  1. 結(jié)構(gòu):CNN天然適合圖像領(lǐng)域,而應(yīng)用Transformer卻顯得不那么自然,不過這個(gè)問題已經(jīng)被ViT解了。再看上面幾篇工作,會(huì)發(fā)現(xiàn)相比iGPT的馬賽克、dVAE的離散化來說,patch形態(tài)是對(duì)信息損失最少且相對(duì)高效的
  2. 信息密度:人類的語言太博大精深了,你女朋友的每一句話,都有18層含義。而照片(ImageNet)不一樣,它就那么多信息,兩三個(gè)詞就能概括。所以預(yù)測(cè)的時(shí)候,預(yù)測(cè)patch要比預(yù)測(cè)詞語容易很多,只需要對(duì)周邊的patch稍微有些信息就夠了。所以我們可以放心大膽地mask。這點(diǎn)ViT、BEiT其實(shí)也都有,但主要就是最后一點(diǎn)沒有深究
  3. 需要一個(gè)Decoder:首先,是不是一定要復(fù)原pixel呢?我覺得是的,因?yàn)閳D片信息密度有限,復(fù)原pixel這種細(xì)粒度信息會(huì)讓模型強(qiáng)上加強(qiáng)。那怎么優(yōu)雅地復(fù)原呢?BEiT已經(jīng)說過了,在預(yù)訓(xùn)練圖像encoder的時(shí)候,太關(guān)注細(xì)節(jié)就損失了高維抽象能力。所以凱明大神加了一個(gè)decoder。到這里分工就很明確了,encoder負(fù)責(zé)抽取高維表示,decoder則負(fù)責(zé)細(xì)粒度還原

羅馬不是一天建成的,MAE真正成功的點(diǎn),就在于把后兩個(gè)問題想清楚,并且給出了解決方案。

當(dāng)然還有一些細(xì)節(jié),比如:

  • 輸入側(cè)直接丟掉mask token,效果+0.7,效率x3.3
  • 預(yù)測(cè)normalize之后的pixel,效果+0.5
  • 選取數(shù)據(jù)增強(qiáng)策略,效果+0.2

另外,BEiT和MAE用的預(yù)訓(xùn)練數(shù)據(jù)都是ImageNet-1K,再仔細(xì)看他們的預(yù)訓(xùn)練超參數(shù),不一樣的地方也有很多,但具體造成多大diff還不清楚。

總結(jié)

好了,我們的故事接近尾聲了。由于時(shí)間有限,我只看了以上幾篇MAE引用比較的重點(diǎn)工作,肯定還有很多預(yù)訓(xùn)練的嘗試沒有看到,不足之處還請(qǐng)指正。

不同人對(duì)科研的品味都不一樣,我剛?cè)腴TNLP的時(shí)候,恰好是BERT誕生的時(shí)候,記得特別清楚,是18年十月初的一個(gè)周末,我達(dá)摩院的朋友來找我玩,躺我床上刷手機(jī)時(shí),跟我說出了一個(gè)很大的工作。再加上后續(xù)的一系列預(yù)訓(xùn)練進(jìn)展,導(dǎo)致我越來越喜歡大道至簡(jiǎn)的方法。知乎上也有人質(zhì)疑MAE的novelty,而當(dāng)我們真正順著看下來時(shí),卻可以看到MAE是真的多走了一步,深入淺出,最終呈現(xiàn)給大家一個(gè)「這都可以」的結(jié)果

最后,其實(shí)預(yù)訓(xùn)練模型的價(jià)值,不僅是可以更簡(jiǎn)單、有效的遷移到下游任務(wù),更是它scale的性質(zhì),試想如果增加算力、無監(jiān)督數(shù)據(jù)就能提升效果的話,你對(duì)那個(gè)還未到達(dá)的天花板好不好奇呢?

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
[預(yù)訓(xùn)練模型]一文串起從NLP到CV 預(yù)訓(xùn)練技術(shù)和范式演進(jìn)
《Video MAE》何愷明團(tuán)隊(duì)提出視頻版本的MAE,進(jìn)行高效視頻預(yù)訓(xùn)練!Mask Ratio高達(dá)90%時(shí)效果很好!
模型跨界成潮流OpenAI用GPT
CV和NLP中的無監(jiān)督預(yù)訓(xùn)練(生成式BERT/iGPT和判別式SimCLR/SimCSE)
OpenAI首席科學(xué)家:通向無監(jiān)督學(xué)習(xí)之路
凱明大神新作MAE,又一次刷新我的認(rèn)知了
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服