免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
AI 圖像生成10年,一些值得記住的論文
轉(zhuǎn)載自  新智元  編輯:Aeneas 好困
【新智元導(dǎo)讀】讓我們回顧一下AI圖像合成的十年歷史上,「the names to be remembered」。

現(xiàn)在,已是2022年底。
深度學(xué)習(xí)模型在生成圖像上的表現(xiàn),已經(jīng)如此出色。很顯然,它在未來會(huì)給我們更多的驚喜。
十年來,我們是如何走到今天這一步的?
在下面的時(shí)間線里,我們會(huì)追溯一些里程碑式的時(shí)刻,也就是那些影響了AI圖像合成的論文、架構(gòu)、模型、數(shù)據(jù)集、實(shí)驗(yàn)登場(chǎng)的時(shí)候。
一切,都要從十年前的那個(gè)夏天說起。

開端(2012-2015)

深度神經(jīng)網(wǎng)絡(luò)面世之后,人們意識(shí)到:它將徹底改變圖像分類。

同時(shí),研究人員開始探索相反的方向,如果使用一些對(duì)分類非常有效的技術(shù)(例如卷積層)來制作圖像,會(huì)發(fā)生什么?
這就是「人工智能之夏」誕生的伊始。
2012 年 12 月
一切發(fā)端于此。
這一年,論文《深度卷積神經(jīng)網(wǎng)絡(luò)的ImageNet分類》橫空出世。
論文作者之一,就是「AI三巨頭」之一的Hinton。
它首次將深度卷積神經(jīng)網(wǎng)絡(luò) (CNN)、GPU和巨大的互聯(lián)網(wǎng)來源數(shù)據(jù)集(ImageNet)結(jié)合在一起。
2014 年 12 月
Ian Goodfellow等AI巨佬發(fā)表了史詩性論文巨作《生成式對(duì)抗網(wǎng)絡(luò)》。
GAN是第一個(gè)致力于圖像合成而非分析的現(xiàn)代神經(jīng)網(wǎng)絡(luò)架構(gòu)(「現(xiàn)代」的定義即2012年后)。
它引入了一種基于博弈論的獨(dú)特學(xué)習(xí)方法,由兩個(gè)子網(wǎng)絡(luò)“生成器”和“鑒別器”進(jìn)行競(jìng)爭(zhēng)。
最終,只有「生成器」被保留在系統(tǒng)之外,并用于圖像合成。
Hello World!來自Goodfellow等人2014年論文的GAN生成人臉樣本。該模型是在Toronto Faces數(shù)據(jù)集上訓(xùn)練的,該數(shù)據(jù)集已從網(wǎng)絡(luò)上刪除
2015 年 11 月
具有重大意義的論文《使用深度卷積生成對(duì)抗網(wǎng)絡(luò)進(jìn)行無監(jiān)督代表學(xué)習(xí)》發(fā)表。
在這篇論文中,作者描述了第一個(gè)實(shí)際可用的GAN 架構(gòu) (DCGAN)。
這篇論文還首次提出了潛在空間操縱的問題——概念是否映射到潛在空間方向?

GAN的五年(2015-2020)

這五年間,GAN被應(yīng)用于各種圖像處理任務(wù),例如風(fēng)格轉(zhuǎn)換、修復(fù)、去噪和超分辨率。
期間,GAN架構(gòu)的論文開始爆炸式井噴。

項(xiàng)目地址:https://github.com/nightrome/really-awesome-gan
與此同時(shí),GAN的藝術(shù)實(shí)驗(yàn)開始興起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出現(xiàn)。
第一個(gè)「AI 藝術(shù)」丑聞發(fā)生在2018年。三位法國學(xué)生使用「借來」的代碼生成一副AI肖像,這副肖像成為第一幅在佳士得被拍賣的AI畫像。
與此同時(shí),transformer架構(gòu)徹底改變了NLP。
在不久的將來,這件事會(huì)對(duì)圖像合成產(chǎn)生重大影響。
2017 年 6 月
《Attention Is All You Need》論文發(fā)布。
在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里,也有詳實(shí)的解釋。
自此,Transformer架構(gòu)(以BERT等預(yù)訓(xùn)練模型的形式)徹底改變了自然語言處理 (NLP) 領(lǐng)域。
2018 年 7 月
《概念性標(biāo)注:用于自動(dòng)圖像字幕的清理、上位化、圖像替代文本數(shù)據(jù)集》論文發(fā)表。
這個(gè)和其他多模態(tài)數(shù)據(jù)集對(duì)于 CLIP 和 DALL-E 等模型將變得極其重要。
2018-20年
NVIDIA的研究人員對(duì)GAN 架構(gòu)進(jìn)行了一系列徹底改進(jìn)。
在《使用有限數(shù)據(jù)訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)》這篇論文中,介紹了最新的StyleGAN2-ada。
GAN 生成的圖像第一次變得與自然圖像無法區(qū)分,至少對(duì)于像Flickr-Faces-HQ (FFHQ)這樣高度優(yōu)化的數(shù)據(jù)集來說是這樣。
Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是該地區(qū)AI藝術(shù)的典型代表,其中生成模型的非寫實(shí)性是藝術(shù)探索的重點(diǎn)
2020 年 5 月
論文《語言模型是小樣本學(xué)習(xí)者》發(fā)表。
OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了變壓器架構(gòu)的強(qiáng)大功能。
2020 年 12 月
論文《用于高分辨率圖像合成的Taming transformers》發(fā)表。
ViT表明,Transformer架構(gòu)可用于圖像。
本文中介紹的方法VQGAN在基準(zhǔn)測(cè)試中產(chǎn)生了SOTA結(jié)果。
2010年代后期的GAN架構(gòu)的質(zhì)量主要根據(jù)對(duì)齊的面部圖像進(jìn)行評(píng)估,對(duì)于更多異構(gòu)數(shù)據(jù)集的效果很有限。
因此,在學(xué)術(shù)/工業(yè)和藝術(shù)實(shí)驗(yàn)中,人臉仍然是一個(gè)重要的參考點(diǎn)。

Transformer的時(shí)代(2020-2022)

Transformer架構(gòu)的出現(xiàn),徹底改寫了圖像合成的歷史。
從此,圖像合成領(lǐng)域開始拋下GAN。
「多模態(tài)」深度學(xué)習(xí)整合了NLP和計(jì)算機(jī)視覺的技術(shù),「即時(shí)工程」取代了模型訓(xùn)練和調(diào)整,成為圖像合成的藝術(shù)方法。
《從自然語言監(jiān)督中學(xué)習(xí)可遷移視覺模型》這篇論文中,提出了CLIP 架構(gòu)。
可以說,當(dāng)前的圖像合成熱潮,是由CLIP首次引入的多模態(tài)功能推動(dòng)的。

論文中的CLIP架構(gòu)
2021 年 1 月
論文《零樣本文本到圖像生成》發(fā)表(另請(qǐng)參閱OpenAI 的博客文章),其中介紹了即將轟動(dòng)全世界的DALL-E的第一個(gè)版本。
這個(gè)版本通過將文本和圖像(由VAE壓縮為「TOKEN」)組合在單個(gè)數(shù)據(jù)流中來工作。
該模型只是「continues」the「sentence」。
數(shù)據(jù)(250M 圖像)包括來自維基百科的文本圖像對(duì)、概念說明和YFCM100M的過濾子集。
CLIP為圖像合成的「多模態(tài)」方法奠定了基礎(chǔ)。
2021 年 1 月
論文《從自然語言監(jiān)督學(xué)習(xí)可遷移視覺模型》發(fā)表。
論文中介紹了CLIP,這是一種結(jié)合了ViT和普通Transformer的多模態(tài)模型。
CLIP會(huì)學(xué)習(xí)圖像和標(biāo)題的「共享潛在空間」,因此可以標(biāo)記圖像。
模型在論文附錄A.1中列出的大量數(shù)據(jù)集上進(jìn)行訓(xùn)練。
2021 年 6 月
論文《擴(kuò)散模型的發(fā)布在圖像合成方面擊敗了GAN》發(fā)表。
擴(kuò)散模型引入了一種不同于GAN方法的圖像合成方法。
研究者通過從人工添加的噪聲中重建圖像來學(xué)習(xí)。
它們與變分自動(dòng)編碼器 (VAE) 相關(guān)。
2021 年 7 月
DALL-E mini發(fā)布。
它是DALL-E的復(fù)制品(體積更小,對(duì)架構(gòu)和數(shù)據(jù)的調(diào)整很少)。
數(shù)據(jù)包括Conceptual 12M、Conceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同過濾子集。
因?yàn)闆]有任何內(nèi)容過濾器或 API 限制,DALL-E mini為創(chuàng)造性探索提供了巨大的潛力,并導(dǎo)致推特上「怪異的 DALL-E」圖像呈爆炸式增長。
2021-2022
Katherine Crowson發(fā)布了一系列CoLab筆記,探索制作 CLIP 引導(dǎo)生成模型的方法。
例如512x512CLIP-guided diffusionVQGAN-CLIPOpen domain image generation and editing with natural language guidance,僅在2022年作為預(yù)印本發(fā)布但VQGAN一發(fā)布就出現(xiàn)了公共實(shí)驗(yàn))。
就像在早期的GAN時(shí)代一樣,藝術(shù)家和開發(fā)者以非常有限的手段對(duì)現(xiàn)有架構(gòu)進(jìn)行重大改進(jìn),然后由公司簡(jiǎn)化,最后由wombo.ai等「初創(chuàng)公司」商業(yè)化。
2022 年 4 月
論文《具有 CLIP 潛能的分層文本條件圖像生成》發(fā)表。
該論文介紹了DALL-E 2。
它建立在僅幾周前發(fā)布的 GLIDE論文(《 GLIDE:使用文本引導(dǎo)擴(kuò)散模型實(shí)現(xiàn)逼真圖像生成和編輯》的基礎(chǔ)上。
同時(shí),由于 DALL-E 2 的訪問受限和有意限制,人們對(duì)DALL-E mini重新產(chǎn)生了興趣。
根據(jù)模型卡,數(shù)據(jù)包括「公開可用資源和我們?cè)S可的資源的組合」,以及根據(jù)該論文的完整CLIP和 DALL-E數(shù)據(jù)集。
「金發(fā)女郎的人像照片,用數(shù)碼單反相機(jī)拍攝,中性背景,高分辨率」,使用 DALL-E 2 生成?;?Transformer 的生成模型與后來的 GAN 架構(gòu)(如 StyleGAN 2)的真實(shí)感相匹配,但允許創(chuàng)建廣泛的各種主題和圖案
2022 年 5-6 月
5月,論文《具有深度語言理解的真實(shí)感文本到圖像擴(kuò)散模型》發(fā)表。
6月,論文《用于內(nèi)容豐富的文本到圖像生成的縮放自回歸模型》發(fā)表。
這兩篇論文中,介紹了Imagegen和Parti。
以及谷歌對(duì)DALL-E 2的回答。

「你知道我今天為什么阻止你嗎?」由DALL-E 2生成,「prompt engineering」從此成為藝術(shù)圖像合成的主要方法

AI Photoshop(2022年至今)

雖然DALL-E 2為圖像模型設(shè)定了新標(biāo)準(zhǔn),但它迅速商業(yè)化,也意味著在使用上從一開始就受到限制。
用戶仍繼續(xù)嘗試DALL-E mini等較小的模型。
緊接著,隨著石破天驚的Stable Diffusion的發(fā)布,所有這一切都發(fā)生了變化。
可以說,Stable Diffusion標(biāo)志著圖像合成「Photoshop時(shí)代」的開始。
「有四串葡萄的靜物,試圖創(chuàng)造出像古代畫家 Zeuxis Juan El Labrador Fernandez,1636 年,馬德里普拉多的葡萄一樣栩栩如生的葡萄」,Stable Diffusion產(chǎn)生的六種變化
2022 年 8 月
Stability.ai發(fā)布Stable Diffusion模型。
在論文《具有潛在擴(kuò)散模型的高分辨率圖像合成》中,Stability.ai隆重推出了Stable Diffusion。
這個(gè)模型可以實(shí)現(xiàn)與DALL-E 2同等的照片級(jí)真實(shí)感。
除了DALL-E 2,模型幾乎立即向公眾開放,并且可以在CoLab和Huggingface平臺(tái)上運(yùn)行。
2022 年 8 月
谷歌發(fā)表論文《DreamBooth:為主題驅(qū)動(dòng)生成微調(diào)文本到圖像擴(kuò)散模型》。
DreamBooth提供了對(duì)擴(kuò)散模型越來越細(xì)粒度的控制。
然而,即使沒有此類額外的技術(shù)干預(yù),使用像 Photoshop 這樣的生成模型也變得可行,從草圖開始,逐層添加生成的修改。
2022 年 10 月
最大的圖庫公司之一Shutterstock宣布與 OpenAI 合作提供/許可生成圖像,可以預(yù)計(jì),圖庫市場(chǎng)將受到Stable Diffusion等生成模型的嚴(yán)重影響。
參考資料:
https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis

猜您喜歡:

深入淺出stable diffusion:AI作畫技術(shù)背后的潛在擴(kuò)散模型論文解讀

 戳我,查看GAN的系列專輯~!
一頓午飯外賣,成為CV視覺的前沿弄潮兒!
最新最全100篇匯總!生成擴(kuò)散模型Diffusion Models
ECCV2022 | 生成對(duì)抗網(wǎng)絡(luò)GAN部分論文匯總
CVPR 2022 | 25+方向、最新50篇GAN論文
 ICCV 2021 | 35個(gè)主題GAN論文匯總
超110篇!CVPR 2021最全GAN論文梳理
超100篇!CVPR 2020最全GAN論文梳理

拆解組新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多樣性圖像生成

附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享

《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》

《零樣本圖像分類綜述: 十年進(jìn)展》

《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》

《禮記·學(xué)記》有云:獨(dú)學(xué)而無友,則孤陋而寡聞

歡迎加入 GAN/擴(kuò)散模型 —交流微信群 !

掃描下面二維碼,添加運(yùn)營小妹好友,拉你進(jìn)群。發(fā)送申請(qǐng)時(shí),請(qǐng)備注,格式為:研究方向+地區(qū)+學(xué)校/公司+姓名。如 擴(kuò)散模型+北京+北航+吳彥祖

請(qǐng)備注格式:研究方向+地區(qū)+學(xué)校/公司+姓名

點(diǎn)擊 一頓午飯外賣,成為CV視覺的前沿弄潮兒!,領(lǐng)取優(yōu)惠券,加入 AI生成創(chuàng)作與計(jì)算機(jī)視覺 知識(shí)星球!

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
10年研究積累,推動(dòng)圖像合成進(jìn)入「PS」時(shí)代
普通人也能成為 AI 藝術(shù)家:DALL
蘋果讓機(jī)器訓(xùn)練機(jī)器,首份人工智能論文揭露其中玄機(jī)【中譯全文】
生成對(duì)抗網(wǎng)絡(luò)GAN論文TOP 10
首個(gè)超大規(guī)模GAN模型!生成速度比Diffusion快20 倍,0.13秒出圖,最高支持1600萬像素
55頁生成式Al(AIGC)應(yīng)用商業(yè)化落地,科技與藝術(shù)交匯,AI助美圖騰飛(附下載)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服