轉(zhuǎn)載自 新智元 編輯:Aeneas 好困【新智元導(dǎo)讀】讓我們回顧一下AI圖像合成的十年歷史上,「the names to be remembered」。
深度學(xué)習(xí)模型在生成圖像上的表現(xiàn),已經(jīng)如此出色。很顯然,它在未來會(huì)給我們更多的驚喜。在下面的時(shí)間線里,我們會(huì)追溯一些里程碑式的時(shí)刻,也就是那些影響了AI圖像合成的論文、架構(gòu)、模型、數(shù)據(jù)集、實(shí)驗(yàn)登場(chǎng)的時(shí)候。深度神經(jīng)網(wǎng)絡(luò)面世之后,人們意識(shí)到:它將徹底改變圖像分類。
同時(shí),研究人員開始探索相反的方向,如果使用一些對(duì)分類非常有效的技術(shù)(例如卷積層)來制作圖像,會(huì)發(fā)生什么?這一年,論文《深度卷積神經(jīng)網(wǎng)絡(luò)的ImageNet分類》橫空出世。論文作者之一,就是「AI三巨頭」之一的Hinton。它首次將深度卷積神經(jīng)網(wǎng)絡(luò) (CNN)、GPU和巨大的互聯(lián)網(wǎng)來源數(shù)據(jù)集(ImageNet)結(jié)合在一起。Ian Goodfellow等AI巨佬發(fā)表了史詩性論文巨作《生成式對(duì)抗網(wǎng)絡(luò)》。GAN是第一個(gè)致力于圖像合成而非分析的現(xiàn)代神經(jīng)網(wǎng)絡(luò)架構(gòu)(「現(xiàn)代」的定義即2012年后)。它引入了一種基于博弈論的獨(dú)特學(xué)習(xí)方法,由兩個(gè)子網(wǎng)絡(luò)“生成器”和“鑒別器”進(jìn)行競(jìng)爭(zhēng)。最終,只有「生成器」被保留在系統(tǒng)之外,并用于圖像合成。Hello World!來自Goodfellow等人2014年論文的GAN生成人臉樣本。該模型是在Toronto Faces數(shù)據(jù)集上訓(xùn)練的,該數(shù)據(jù)集已從網(wǎng)絡(luò)上刪除具有重大意義的論文《使用深度卷積生成對(duì)抗網(wǎng)絡(luò)進(jìn)行無監(jiān)督代表學(xué)習(xí)》發(fā)表。在這篇論文中,作者描述了第一個(gè)實(shí)際可用的GAN 架構(gòu) (DCGAN)。這篇論文還首次提出了潛在空間操縱的問題——概念是否映射到潛在空間方向?這五年間,GAN被應(yīng)用于各種圖像處理任務(wù),例如風(fēng)格轉(zhuǎn)換、修復(fù)、去噪和超分辨率。項(xiàng)目地址:https://github.com/nightrome/really-awesome-gan與此同時(shí),GAN的藝術(shù)實(shí)驗(yàn)開始興起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出現(xiàn)。第一個(gè)「AI 藝術(shù)」丑聞發(fā)生在2018年。三位法國學(xué)生使用「借來」的代碼生成一副AI肖像,這副肖像成為第一幅在佳士得被拍賣的AI畫像。與此同時(shí),transformer架構(gòu)徹底改變了NLP。在不久的將來,這件事會(huì)對(duì)圖像合成產(chǎn)生重大影響。《Attention Is All You Need》論文發(fā)布。在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里,也有詳實(shí)的解釋。自此,Transformer架構(gòu)(以BERT等預(yù)訓(xùn)練模型的形式)徹底改變了自然語言處理 (NLP) 領(lǐng)域。《概念性標(biāo)注:用于自動(dòng)圖像字幕的清理、上位化、圖像替代文本數(shù)據(jù)集》論文發(fā)表。這個(gè)和其他多模態(tài)數(shù)據(jù)集對(duì)于 CLIP 和 DALL-E 等模型將變得極其重要。NVIDIA的研究人員對(duì)GAN 架構(gòu)進(jìn)行了一系列徹底改進(jìn)。在《使用有限數(shù)據(jù)訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)》這篇論文中,介紹了最新的StyleGAN2-ada。GAN 生成的圖像第一次變得與自然圖像無法區(qū)分,至少對(duì)于像Flickr-Faces-HQ (FFHQ)這樣高度優(yōu)化的數(shù)據(jù)集來說是這樣。Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是該地區(qū)AI藝術(shù)的典型代表,其中生成模型的非寫實(shí)性是藝術(shù)探索的重點(diǎn)論文《語言模型是小樣本學(xué)習(xí)者》發(fā)表。OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了變壓器架構(gòu)的強(qiáng)大功能。論文《用于高分辨率圖像合成的Taming transformers》發(fā)表。ViT表明,Transformer架構(gòu)可用于圖像。本文中介紹的方法VQGAN在基準(zhǔn)測(cè)試中產(chǎn)生了SOTA結(jié)果。2010年代后期的GAN架構(gòu)的質(zhì)量主要根據(jù)對(duì)齊的面部圖像進(jìn)行評(píng)估,對(duì)于更多異構(gòu)數(shù)據(jù)集的效果很有限。因此,在學(xué)術(shù)/工業(yè)和藝術(shù)實(shí)驗(yàn)中,人臉仍然是一個(gè)重要的參考點(diǎn)。Transformer的時(shí)代(2020-2022)
Transformer架構(gòu)的出現(xiàn),徹底改寫了圖像合成的歷史。「多模態(tài)」深度學(xué)習(xí)整合了NLP和計(jì)算機(jī)視覺的技術(shù),「即時(shí)工程」取代了模型訓(xùn)練和調(diào)整,成為圖像合成的藝術(shù)方法。《從自然語言監(jiān)督中學(xué)習(xí)可遷移視覺模型》這篇論文中,提出了CLIP 架構(gòu)。可以說,當(dāng)前的圖像合成熱潮,是由CLIP首次引入的多模態(tài)功能推動(dòng)的。論文《零樣本文本到圖像生成》發(fā)表(另請(qǐng)參閱OpenAI 的博客文章),其中介紹了即將轟動(dòng)全世界的DALL-E的第一個(gè)版本。這個(gè)版本通過將文本和圖像(由VAE壓縮為「TOKEN」)組合在單個(gè)數(shù)據(jù)流中來工作。該模型只是「continues」the「sentence」。數(shù)據(jù)(250M 圖像)包括來自維基百科的文本圖像對(duì)、概念說明和YFCM100M的過濾子集。CLIP為圖像合成的「多模態(tài)」方法奠定了基礎(chǔ)。論文《從自然語言監(jiān)督學(xué)習(xí)可遷移視覺模型》發(fā)表。論文中介紹了CLIP,這是一種結(jié)合了ViT和普通Transformer的多模態(tài)模型。CLIP會(huì)學(xué)習(xí)圖像和標(biāo)題的「共享潛在空間」,因此可以標(biāo)記圖像。模型在論文附錄A.1中列出的大量數(shù)據(jù)集上進(jìn)行訓(xùn)練。論文《擴(kuò)散模型的發(fā)布在圖像合成方面擊敗了GAN》發(fā)表。擴(kuò)散模型引入了一種不同于GAN方法的圖像合成方法。研究者通過從人工添加的噪聲中重建圖像來學(xué)習(xí)。它們與變分自動(dòng)編碼器 (VAE) 相關(guān)。它是DALL-E的復(fù)制品(體積更小,對(duì)架構(gòu)和數(shù)據(jù)的調(diào)整很少)。數(shù)據(jù)包括Conceptual 12M、Conceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同過濾子集。因?yàn)闆]有任何內(nèi)容過濾器或 API 限制,DALL-E mini為創(chuàng)造性探索提供了巨大的潛力,并導(dǎo)致推特上「怪異的 DALL-E」圖像呈爆炸式增長。Katherine Crowson發(fā)布了一系列CoLab筆記,探索制作 CLIP 引導(dǎo)生成模型的方法。例如512x512CLIP-guided diffusion和VQGAN-CLIP(Open domain image generation and editing with natural language guidance,僅在2022年作為預(yù)印本發(fā)布但VQGAN一發(fā)布就出現(xiàn)了公共實(shí)驗(yàn))。就像在早期的GAN時(shí)代一樣,藝術(shù)家和開發(fā)者以非常有限的手段對(duì)現(xiàn)有架構(gòu)進(jìn)行重大改進(jìn),然后由公司簡(jiǎn)化,最后由wombo.ai等「初創(chuàng)公司」商業(yè)化。論文《具有 CLIP 潛能的分層文本條件圖像生成》發(fā)表。它建立在僅幾周前發(fā)布的 GLIDE論文(《 GLIDE:使用文本引導(dǎo)擴(kuò)散模型實(shí)現(xiàn)逼真圖像生成和編輯》的基礎(chǔ)上。同時(shí),由于 DALL-E 2 的訪問受限和有意限制,人們對(duì)DALL-E mini重新產(chǎn)生了興趣。根據(jù)模型卡,數(shù)據(jù)包括「公開可用資源和我們?cè)S可的資源的組合」,以及根據(jù)該論文的完整CLIP和 DALL-E數(shù)據(jù)集。「金發(fā)女郎的人像照片,用數(shù)碼單反相機(jī)拍攝,中性背景,高分辨率」,使用 DALL-E 2 生成?;?Transformer 的生成模型與后來的 GAN 架構(gòu)(如 StyleGAN 2)的真實(shí)感相匹配,但允許創(chuàng)建廣泛的各種主題和圖案5月,論文《具有深度語言理解的真實(shí)感文本到圖像擴(kuò)散模型》發(fā)表。6月,論文《用于內(nèi)容豐富的文本到圖像生成的縮放自回歸模型》發(fā)表。這兩篇論文中,介紹了Imagegen和Parti。「你知道我今天為什么阻止你嗎?」由DALL-E 2生成,「prompt engineering」從此成為藝術(shù)圖像合成的主要方法雖然DALL-E 2為圖像模型設(shè)定了新標(biāo)準(zhǔn),但它迅速商業(yè)化,也意味著在使用上從一開始就受到限制。用戶仍繼續(xù)嘗試DALL-E mini等較小的模型。緊接著,隨著石破天驚的Stable Diffusion的發(fā)布,所有這一切都發(fā)生了變化。可以說,Stable Diffusion標(biāo)志著圖像合成「Photoshop時(shí)代」的開始。「有四串葡萄的靜物,試圖創(chuàng)造出像古代畫家 Zeuxis Juan El Labrador Fernandez,1636 年,馬德里普拉多的葡萄一樣栩栩如生的葡萄」,Stable Diffusion產(chǎn)生的六種變化Stability.ai發(fā)布Stable Diffusion模型。在論文《具有潛在擴(kuò)散模型的高分辨率圖像合成》中,Stability.ai隆重推出了Stable Diffusion。這個(gè)模型可以實(shí)現(xiàn)與DALL-E 2同等的照片級(jí)真實(shí)感。除了DALL-E 2,模型幾乎立即向公眾開放,并且可以在CoLab和Huggingface平臺(tái)上運(yùn)行。谷歌發(fā)表論文《DreamBooth:為主題驅(qū)動(dòng)生成微調(diào)文本到圖像擴(kuò)散模型》。DreamBooth提供了對(duì)擴(kuò)散模型越來越細(xì)粒度的控制。然而,即使沒有此類額外的技術(shù)干預(yù),使用像 Photoshop 這樣的生成模型也變得可行,從草圖開始,逐層添加生成的修改。最大的圖庫公司之一Shutterstock宣布與 OpenAI 合作提供/許可生成圖像,可以預(yù)計(jì),圖庫市場(chǎng)將受到Stable Diffusion等生成模型的嚴(yán)重影響。https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis猜您喜歡:
深入淺出stable diffusion:AI作畫技術(shù)背后的潛在擴(kuò)散模型論文解讀
拆解組新的GAN:解耦表征MixNMatch
StarGAN第2版:多域多樣性圖像生成
附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》
附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享
《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》
《零樣本圖像分類綜述: 十年進(jìn)展》
《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》
《禮記·學(xué)記》有云:獨(dú)學(xué)而無友,則孤陋而寡聞
歡迎加入 GAN/擴(kuò)散模型 —交流微信群 !
掃描下面二維碼,添加運(yùn)營小妹好友,拉你進(jìn)群。發(fā)送申請(qǐng)時(shí),請(qǐng)備注,格式為:研究方向+地區(qū)+學(xué)校/公司+姓名。如 擴(kuò)散模型+北京+北航+吳彥祖
請(qǐng)備注格式:研究方向+地區(qū)+學(xué)校/公司+姓名
點(diǎn)擊 一頓午飯外賣,成為CV視覺的前沿弄潮兒!,領(lǐng)取優(yōu)惠券,加入 AI生成創(chuàng)作與計(jì)算機(jī)視覺 知識(shí)星球!
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。