選自arXiv
作者:Jeff Donahue、Karen Simonyan
機(jī)器之心編譯
機(jī)器之心編輯部
無(wú)所不能的 GAN 又攻占了一個(gè)山頭。
近年來(lái),GAN 在圖像合成領(lǐng)域取得了驚人的成果,例如先前 DeepMind 提出的 BigGAN。近日,DeepMind 提出全新的 BigBiGAN,引起了社區(qū)極大的關(guān)注。
該論文提出的方法建立在 SOTA 模型 BigGAN 之上,通過(guò)對(duì)其表征學(xué)習(xí)和生成能力進(jìn)行廣泛評(píng)估,證明這些基于生成的模型在 ImageNet 數(shù)據(jù)集的無(wú)監(jiān)督表征學(xué)習(xí)和無(wú)條件圖像生成方面均實(shí)現(xiàn)了 SOTA 效果。
機(jī)器學(xué)習(xí)社區(qū)眾多研究者認(rèn)為這是一篇極為有趣的工作,如 GAN 之父 Ian Goodfellow 在 Twitter 上表示,在他們寫(xiě)最初的 GAN那篇論文時(shí),合作者也在做類似于 BigGAN 的表征學(xué)習(xí)研究。5 年后終見(jiàn)這樣的成果。
論文:Large Scale Adversarial Representation Learning
論文地址:https://arxiv.org/abs/1907.02544
用 GAN 來(lái)做表征學(xué)習(xí)真的能行?
其實(shí)在 GAN 的早期,它也是能用于無(wú)監(jiān)督表征學(xué)習(xí)的,只不過(guò)后來(lái)自編碼器等自監(jiān)督學(xué)習(xí)有了更好的效果。在這篇論文中,研究者表示圖像生成質(zhì)量的提升能大幅度提升表征學(xué)習(xí)的性能。并且相比自編碼器等關(guān)注「底層細(xì)節(jié)」的模型,GAN 通過(guò)判別器能捕捉語(yǔ)義層面的差異,從而顯著提升效果。
研究者所采用的的 BigBiGAN 方法是在 SOTA 模型 BigGAN 上建立的,并通過(guò)添加編碼器和修改判別器將該方法擴(kuò)展到表征學(xué)習(xí)領(lǐng)域。作者展示了一系列圖像重構(gòu)效果,這些圖像都不是像素級(jí)的完美重建,因?yàn)槟P蜕踔炼疾粫?huì)有目標(biāo)函數(shù)強(qiáng)制拉近像素間的距離。
但是用 BigBiGAN 做表征學(xué)習(xí),用來(lái)重建圖像有個(gè)優(yōu)勢(shì):它能直觀地理解編碼器所學(xué)到的特征。例如當(dāng)輸入圖像有「狗」或「人」等目標(biāo)時(shí),重建圖像通常都會(huì)包含該類別的目標(biāo),且它們的姿勢(shì)狀態(tài)也差不多。下面我們可以看看 BigBiGAN 的重建效果,體會(huì)用來(lái)做無(wú)監(jiān)督表征學(xué)習(xí)的優(yōu)勢(shì)。
真實(shí)圖片(第一行)和針對(duì)真實(shí)圖片重建的圖片(第二行)。
隨機(jī)挑選的生成圖片。
GAN 為什么能做表征學(xué)習(xí)
GAN 框架中的生成器是一個(gè)從隨機(jī)采樣的潛變量(也叫「噪聲」)到生成數(shù)據(jù)之間的前饋映射,學(xué)習(xí)信號(hào)由一個(gè)判別器提供,該判別器被訓(xùn)練用于區(qū)分真實(shí)和生成的數(shù)據(jù)樣本。
很多 GAN 的擴(kuò)展都在增強(qiáng)編碼器的能力,并且有些研究發(fā)現(xiàn) BiGAN 的行為類似與自編碼器,它會(huì)最大化降低圖像重構(gòu)成本。然而重構(gòu)誤差是由參數(shù)化的判別器決定的,而不是簡(jiǎn)單的像素級(jí)度量,這就要比自編碼器好得多。因?yàn)榕袆e器通常都是強(qiáng)大的神經(jīng)網(wǎng)絡(luò),因此我們可以期待它引入的誤差度量是「語(yǔ)義」層面的差異。
這對(duì)于表征學(xué)習(xí)非常重要,因?yàn)槲覀兿M[藏表征能學(xué)習(xí)到最具語(yǔ)義信息的特征,而不僅僅是底層細(xì)節(jié)上的特征。鑒于這一點(diǎn),用 GAN 來(lái)進(jìn)行表征學(xué)習(xí)就非常合理與了。
盡管對(duì)于下游任務(wù)來(lái)說(shuō),基于 BiGAN 或 ALI 框架學(xué)習(xí)的編碼器在 ImageNet 上是一種有效的可視化表征學(xué)習(xí)方法。然而,這些模型用到了一個(gè) DCGAN 風(fēng)格的生成器,生成器無(wú)法在該數(shù)據(jù)集上生成高質(zhì)量的圖像,因此編碼器所能建模的語(yǔ)義非常有限。在本文中,研究者利用 BigGAN 作為生成器重新探究了這一方法。BigGAN 似乎能夠捕捉 ImageNet 圖像中的諸多模式和結(jié)構(gòu)。研究者表明,在 ImageNet 上,BigBiGAN(BiGAN+BigGAN 生成器)的無(wú)監(jiān)督表征學(xué)習(xí)能力能夠達(dá)到當(dāng)前最佳性能。
BigBiGAN 模型
BiGAN 或 ALI 方法都是 GAN 的變體,用于學(xué)習(xí)一個(gè)編碼器,用于推斷模型或作為圖像的表征。
雖然 BigBiGAN 的核心與 BiGAN 的方法相同,但研究者采用了來(lái)自 SOTA BigGAN 的生成器和判別器架構(gòu)。除此之外,研究者發(fā)現(xiàn),改進(jìn)的判別器結(jié)構(gòu)可以在不影響生成效果的前提下帶來(lái)更好的表征學(xué)習(xí)結(jié)果(見(jiàn)圖 1)。也就是說(shuō),除了 BiGAN 或 ALI 中提出的聯(lián)合判別器(該判別器將數(shù)據(jù)和潛在判別器連接到一起),研究者還在學(xué)習(xí)目標(biāo)中提出了額外的一元項(xiàng)(unary term)。
盡管 BiGAN 或 ALI 的相關(guān)研究證明,原始的 BiGAN 目標(biāo)已經(jīng)強(qiáng)制要求所學(xué)習(xí)的聯(lián)合分布匹配到全局最優(yōu),但這些一元項(xiàng)通過(guò)顯式地強(qiáng)制執(zhí)行此屬性,直觀地指導(dǎo)優(yōu)化朝著「正確的方向」進(jìn)行。例如,在圖像生成任務(wù)中,一元損失項(xiàng)匹配原始的 GAN 目標(biāo),并提供了一個(gè)學(xué)習(xí)信號(hào),該信號(hào)僅引導(dǎo)生成器與潛在輸入無(wú)關(guān)的圖像分布進(jìn)行匹配。
圖 1:BigBiGAN 框架的結(jié)構(gòu)。
實(shí)驗(yàn)
研究者在未標(biāo)注的 ImageNet 數(shù)據(jù)集上訓(xùn)練 BigBiGAN,凍結(jié)學(xué)到的表征,然后在輸出中訓(xùn)練線性分類器,使用所有的訓(xùn)練集標(biāo)簽進(jìn)行全監(jiān)督。他們還衡量了圖像生成性能,并以初始分?jǐn)?shù)(IS)和 Fréchet 初始距離(FID)作為標(biāo)準(zhǔn)度量。
訓(xùn)練和數(shù)據(jù)集
研究者使用了和 BigGAN 相同的優(yōu)化器——Adam,批大小為 2048,學(xué)習(xí)率和其他超參數(shù)也和 BigGAN 相同。在訓(xùn)練時(shí),研究者對(duì)輸入圖像使用了 ResNet 風(fēng)格的數(shù)據(jù)增強(qiáng)方法,但裁剪大小為 128 或 256,而非 224。
在表 1 的實(shí)驗(yàn)中,研究者隨機(jī)采樣了 10K 來(lái)自官方 ImageNet 訓(xùn)練集的圖片,作為驗(yàn)證集,并報(bào)告準(zhǔn)確率。這一數(shù)據(jù)集被稱為「train_val」。表 1 實(shí)驗(yàn)運(yùn)行了 500K 步,并基于 train_val 數(shù)據(jù)集上線性分類器的準(zhǔn)確率進(jìn)行 early-stop。
在表 2 中,研究者將 BigBiGAN 的訓(xùn)練次數(shù)提升到 1M 步,并報(bào)告驗(yàn)證集在 50K 張圖像上的準(zhǔn)確率。分類器訓(xùn)練了 100K 步,使用 Adam 優(yōu)化器,學(xué)習(xí)率分別為 {10^?4, 3 · 10^?4, 10^?3, 3 · 10^?3, 10^?2}。
實(shí)驗(yàn)結(jié)果
研究人員將模型的最佳效果和最近的無(wú)監(jiān)督學(xué)習(xí)結(jié)果進(jìn)行了對(duì)比。
表 1:BigBiGAN 變體的性能結(jié)果,其中生成圖像的初始分?jǐn)?shù)(IS)和 Fréchet 初始距離(FID)、監(jiān)督式 logistic 回歸分類器 ImageNet top-1 準(zhǔn)確率百分比(CIs)由編碼器特征訓(xùn)練,并根據(jù)從訓(xùn)練集中隨機(jī)采樣的 10K 圖像進(jìn)行分割計(jì)算,研究者稱之為「train-val」分割。
表 2:BigBiGAN 模型在官方驗(yàn)證集上與最近使用監(jiān)督式 logistic 回歸分類器的同類方法進(jìn)行比較。
表 3:BigBiGAN 用于無(wú)監(jiān)督(無(wú)條件的)生成 vs [24] 中的無(wú)監(jiān)督 BigGAN 之前得出的結(jié)果。
聯(lián)系客服