免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
Bengio 最新深度學(xué)習(xí)論文:使用深度神經(jīng)網(wǎng)絡(luò)避免難解性

1新智元編譯  

來(lái)源:arXiv.org

譯者:朱煥


【新智元導(dǎo)讀】訓(xùn)練基于能量的概率模型面臨著難解的加和問(wèn)題(intractable sums),Yoshua Bengio 和學(xué)生 Taesup Kim 只使用深度神經(jīng)網(wǎng)絡(luò),提出一個(gè)訓(xùn)練基于能量的概率模型的新框架,用一種非馬爾科夫鏈的深度有向生成模型,繞開(kāi)了使用馬爾科夫鏈蒙特卡洛方法難解性的問(wèn)題。



  • 題目:使用基于能量的概率估計(jì)的深度有向生成模型Deep Directed Generative Models with Energy-Based Probability Estimation)

  • 作者:加拿大蒙特利爾大學(xué) Taesup Kim、Yoshua Bengio


點(diǎn)擊“閱讀原文”下載論文


摘要


訓(xùn)練基于能量的概率模型面臨著難解的加和問(wèn)題(intractable sums),而對(duì)此進(jìn)行蒙特卡洛估計(jì)則要求從訓(xùn)練的內(nèi)循環(huán)過(guò)程中的估計(jì)概率分布中取樣。這可以通過(guò)馬爾科夫鏈蒙特卡洛方法MCMC)近似實(shí)現(xiàn),但仍面臨令人生畏的障礙:把那些尖銳的概率集中分布混合到各個(gè)模式之間去。


盡管 MCMC 常常是從給定的基于數(shù)學(xué)因素的能量方程中推衍出來(lái)的,并需要任意長(zhǎng)的時(shí)間才能獲得好而多的樣本,我們提出可以訓(xùn)練一種(非馬爾科夫鏈的)深度有向生成模型,讓它的樣本分布近似地與正在訓(xùn)練的能量函數(shù)相匹配。


受生成對(duì)抗網(wǎng)絡(luò)的啟發(fā),本框架涉及訓(xùn)練兩個(gè)模型,分別表示對(duì)估計(jì)概率分布的兩種觀點(diǎn):其中能量函數(shù)將輸入的組態(tài)映射到標(biāo)量形式的能量值,而生成器則將噪音向量映射到一個(gè)生成的組態(tài)。這兩種模型都用深度神經(jīng)網(wǎng)絡(luò)來(lái)表示。


1. 引言


基于能量的模型通過(guò)定義能量函數(shù),捕捉到了有價(jià)值的隨機(jī)變量之間的依存度,而且可以通過(guò)對(duì)指數(shù)或負(fù)數(shù)形式的能量函數(shù)進(jìn)行歸一化來(lái)進(jìn)一步獲得概率分布。能量函數(shù)把隨機(jī)變量的每種組態(tài)(configuration)都對(duì)應(yīng)于一個(gè)標(biāo)量能量值,其中較低的能量值對(duì)應(yīng)于那些更可能發(fā)生的組態(tài)。


能量函數(shù)通常被用來(lái)對(duì)無(wú)向圖模型進(jìn)行參數(shù)化,例如在玻爾茲曼機(jī)中,能量函數(shù)就體現(xiàn)為引入了適當(dāng)?shù)臍w一化因子的玻爾茲曼分布??偟膩?lái)說(shuō),歸一化因子在對(duì)基于能量的模型進(jìn)行最大似然訓(xùn)練時(shí)會(huì)帶來(lái)一些困難,因?yàn)樗菍?duì)隨機(jī)變量的所有組態(tài)的加和,而相應(yīng)的梯度則是從模型中得到的樣本組態(tài)的能量梯度的均值。這個(gè)加和不僅是難解的(intractable),而且從它產(chǎn)生的精確蒙特卡洛取樣也是難解的。


為了能對(duì)歸一化因子的梯度進(jìn)行估計(jì),人們通常使用 MCMC 從模型分布中獲取近似樣本。然而,MCMC  方法會(huì)賦予一些小的移動(dòng)以較高的概率,而這些小的移動(dòng)極不可能在彼此分離的模式之間跳躍。當(dāng)模型分布變得更加尖銳、訓(xùn)練過(guò)程中多個(gè)模式被概率極低的區(qū)域分隔開(kāi)時(shí),利用 MCMC 取樣的困難就會(huì)凸顯出來(lái)。


為了避開(kāi)這一問(wèn)題,我們訓(xùn)練了一個(gè)深度有向生成模型,它可以通過(guò)決定論性地對(duì)獨(dú)立同分布的隨機(jī)樣本(例如均勻分布的變量)進(jìn)行轉(zhuǎn)換來(lái)產(chǎn)生樣本。這樣,在為訓(xùn)練基于能量的概率模型而生成樣本時(shí),就可以避免會(huì)導(dǎo)致任意長(zhǎng)的計(jì)算時(shí)間的序列過(guò)程。在本框架中,學(xué)習(xí)到的知識(shí)在兩種互補(bǔ)的模型中通過(guò)能量函數(shù)和生成器這兩種觀點(diǎn)來(lái)表示。


能量函數(shù)以這樣一種方式來(lái)訓(xùn)練:它對(duì)最大似然梯度進(jìn)行估計(jì),這樣來(lái)自模型的近似樣本(需要估計(jì)歸一化因子的梯度)就能通過(guò)生成模型而獲得,而非通過(guò)馬爾科夫鏈來(lái)獲得。我們以類似于生成對(duì)抗網(wǎng)絡(luò)的方式來(lái)訓(xùn)練生成器,也就是說(shuō),我們可以把能量函數(shù)看作一個(gè)甄別器:低能量對(duì)應(yīng)于“真實(shí)”數(shù)據(jù)(因?yàn)槟芰亢瘮?shù)被訓(xùn)練為將低能量分配給訓(xùn)練實(shí)例)而高能量對(duì)應(yīng)于“假的”或生成的數(shù)據(jù)(因?yàn)樯善鲿?huì)把概率質(zhì)量放在錯(cuò)誤的地方)。


因此,能量函數(shù)提供了梯度,能激勵(lì)生成器產(chǎn)生出低能量樣本。由于生成對(duì)抗網(wǎng)絡(luò)的生成器受制于缺失模式問(wèn)題(missing mode problem),我們引入了一種規(guī)則化方式regularization),可以間接地將生成器的訓(xùn)練目標(biāo)的熵最大化;經(jīng)驗(yàn)表明這一點(diǎn)對(duì)于獲取更合理的樣本而言非常重要。


3. 模型


我們提出了一個(gè)新的框架,訓(xùn)練基于能量的概率模型。其中,關(guān)于估計(jì)概率分布的信息以能量函數(shù)和生成器這兩種不同方式來(lái)表示。理想狀況下,它們將完美地互相匹配。但現(xiàn)實(shí)中,它們彼此訓(xùn)練時(shí),每一種方式都可以被視為對(duì)另一種方式的相應(yīng)操作(對(duì)能量的取樣或計(jì)算)的逼近。


我們只使用深度神經(jīng)網(wǎng)絡(luò)來(lái)表示這兩種模型,這樣就不需要為它們以及 MCMC 取樣設(shè)定明確的隱含變量和推理。這兩個(gè)模型中:


  1. 定義了能量函數(shù)的深度能量模型(DEM

  2. 深度生成模型(DGM),它是一個(gè)樣本生成器,用于訓(xùn)練匹配深度能量模型


重要的是,要確保這兩個(gè)模型在訓(xùn)練過(guò)程中近似地對(duì)齊,因?yàn)樗鼈兪菍?duì)所學(xué)到的同一種東西的兩種觀點(diǎn)的近似表示。



圖1:本框架具有兩個(gè)模型,分別表示對(duì)所學(xué)東西的兩種觀點(diǎn):(a) 深度能量模型被定義來(lái)估計(jì)概率分布,方法是從被表達(dá)為特征空間的能量函數(shù)中進(jìn)行學(xué)習(xí),(b) 深度生成模型則決定論性地生成樣本,這些樣本可以近似地與深度能量模型相匹配。為了訓(xùn)練深度能量模型,訓(xùn)練實(shí)例被用來(lái)降低能量(正相),而來(lái)自深度生成模型的樣本則被用來(lái)提高能量(負(fù)相)。此外,深度生成模型通過(guò)與深度能量模型進(jìn)行對(duì)齊而得到訓(xùn)練。


4. 試驗(yàn)



圖4:從深度生成模型中生成的樣本,該模型具有卷積操作,用 64x64的有色圖像訓(xùn)練:
(a) CelebA(面孔)), (b) LSUN (臥室


5. 結(jié)論


基于能量的概率模型被廣泛用來(lái)定義估計(jì)概率分布的生成過(guò)程。本文中,我們表明通過(guò)運(yùn)用兩個(gè)只使用神經(jīng)網(wǎng)絡(luò)的深度模型,可以避免難解性(intractability)。未來(lái)的工作中,我們將明確處理生成器的熵,并將深度能量模型擴(kuò)展應(yīng)用于半監(jiān)督學(xué)習(xí)。此外,將高維數(shù)據(jù)輸入的能量函數(shù)進(jìn)行近似的可視化,也將會(huì)很有用。



本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【AI初識(shí)境】深度學(xué)習(xí)中常用的損失函數(shù)有哪些?
【深度學(xué)習(xí)】GAN背后的數(shù)學(xué)原理
[論文筆記](méi) GAN開(kāi)山之作及最新綜述
R語(yǔ)言BUGS/JAGS貝葉斯分析: 馬爾科夫鏈蒙特卡洛方法(MCMC)采樣
撥開(kāi)迷霧看人工智能
追根溯源!一圖看盡深度學(xué)習(xí)架構(gòu)譜系
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服