免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
譯文 | 批量歸一化 通過減少內(nèi)部協(xié)變量轉(zhuǎn)移加速深度網(wǎng)絡(luò)訓(xùn)練
               

作者:Sergey Ioffe   Christian Szegedy

翻譯:七月在線DL翻譯組

譯者:陳媛媛 管楓 任遠航

責(zé)編:翟惠良 July

聲明:本譯文僅供學(xué)習(xí)交流,有任何翻譯不當之處,敬請留言指正。轉(zhuǎn)載請注明出處。

原文:https://arxiv.org/pdf/1502.03167v3.pdf

——前言: 我們將訓(xùn)練過程中深度網(wǎng)絡(luò)內(nèi)部節(jié)點分布的變化作為內(nèi)部協(xié)變量轉(zhuǎn)移,消除它可以提供一個更快的訓(xùn)練,對此我們提出了一個新的機制——批量歸一化,它將減少內(nèi)部協(xié)變量轉(zhuǎn)移,這樣做可以大大地加快深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

緒論

    在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,先前層參數(shù)的調(diào)整會導(dǎo)致之后每一層輸入值的分布發(fā)生變化,這種現(xiàn)象使模型的訓(xùn)練變得很復(fù)雜。所以在深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練中,通常需要仔細選取初始參數(shù)并采取較小的學(xué)習(xí)率,這不但導(dǎo)致模型訓(xùn)練的效率低下,而且使得飽和非線性模型的訓(xùn)練極為困難。我們把這種現(xiàn)象稱為內(nèi)部協(xié)變量轉(zhuǎn)移(covariate shift),并通過歸一化(normalizing)每層的輸入來解決這個問題。我們方法的強大之處在于把歸一化的步驟作為模型訓(xùn)練架構(gòu)的一部分來實現(xiàn), 并且對每個訓(xùn)練小批量都執(zhí)行歸一化操作。批量歸一化允許我們使用很高的學(xué)習(xí)率并且對初始化不太在意。它在一定情況下也可以起到正則化的作用,并減輕了對Dropout的需求。我們在最先進的圖像分類模型中使用批量歸一化法,在減少了14倍訓(xùn)練步驟的情況下實現(xiàn)了與原模型相同的精度,并以顯著增量擊敗了原始模型。我們使用批量歸一化的網(wǎng)絡(luò)模型,增強了在ImageNet分類上發(fā)布的最佳結(jié)果:獲得了4.9%前5驗證誤差(和4.8%測試誤差),這超出了人類評估者的準確率。

1 簡介

    深度學(xué)習(xí)極大地提升了視覺,語言和許多其他領(lǐng)域。隨機梯度下降(SGD)已經(jīng)被證明是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的一個有效的方法,并且隨機梯度下降變種方法如動量和Adagrad已經(jīng)被用來獲得最先進的性能。 


    使用小批量的樣本,而不是一次一個樣本,在幾個方面是有幫助的。首先,小批量上的損失梯度是訓(xùn)練集上梯度的一個估計,其質(zhì)量隨著批量大小的增加而提高。第二,由于現(xiàn)代計算平臺提供的并行性,對一個批量的計算比每個樣本m次計算更有效。

    雖然隨機梯度是簡單有效的,但是它需要仔細調(diào)整模型超參數(shù),特別是使用在優(yōu)化中的學(xué)習(xí)率以及模型參數(shù)的初始值。由于每層的輸入受所有先前層的參數(shù)影響的事實,使訓(xùn)練復(fù)雜化,以致于網(wǎng)絡(luò)參數(shù)的小變化隨著網(wǎng)絡(luò)變得更深而放大。

    由于層需要不斷地適應(yīng)新的分布,層輸入的分布的變化提出了一個問題。當一個學(xué)習(xí)系統(tǒng)的輸入分布改變時,也就認為經(jīng)歷了協(xié)變量移位,這個通常通過領(lǐng)域適應(yīng)(domainadaptation)來處理。但是,協(xié)變量移位的概念可以作為一個整體延伸超出學(xué)習(xí)系統(tǒng),適用于他自身的部分,比如子網(wǎng)絡(luò)或者一個層。設(shè)想一個計算如下公式的網(wǎng)絡(luò): 


例如,一個梯度下降步驟: 


    因此,輸入分布的屬性使得訓(xùn)練更有效——比如在訓(xùn)練和測試數(shù)據(jù)之間有相同的分布——也適用于子網(wǎng)絡(luò)的訓(xùn)練。因此有利于X的分布隨時間保持不變。

固定一個子網(wǎng)絡(luò)輸入的分布將對子網(wǎng)絡(luò)外的層產(chǎn)生積極的影響。用一個sigmoid激活函數(shù)z=g(Wu b)考慮一個層,其中u是層輸入,權(quán)重矩陣U和閾值是學(xué)習(xí)的層參數(shù),因為X是受W,b和下面所有層參數(shù)的影響,在訓(xùn)練期間對這些參數(shù)的改變將可能將X的許多維度移動到非線性的飽和狀態(tài)并且收斂減慢。這種效果是隨著網(wǎng)絡(luò)的深度的增加而放大的。在實際應(yīng)用中,飽和問題(saturationproblem)和導(dǎo)致的消失梯度通常通過使用Rectified Linear Units(ReLU)來解決。ReLU(x)=max(x,0),仔細的初始化和小的學(xué)習(xí)率。然而,如果我們可以確保非線性輸入的分布在網(wǎng)絡(luò)訓(xùn)練時保持更加穩(wěn)定,那么優(yōu)化將不太可能在飽和狀態(tài)中停滯,并且訓(xùn)練將加速。

    我們將訓(xùn)練過程中深度網(wǎng)絡(luò)內(nèi)部節(jié)點分布的變化作為內(nèi)部協(xié)變量轉(zhuǎn)移,消除它可以提供一個更快的訓(xùn)練,對此我們提出了一個新的機制——批量歸一化,它將減少內(nèi)部協(xié)變量轉(zhuǎn)移,這樣做可以大大地加快深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。它通過一個歸一化步驟——固定層輸入的平均值和方差不變來實現(xiàn)。通過減少梯度對參數(shù)規(guī)?;蚱涑跏贾档囊蕾囆裕繗w一化還對網(wǎng)絡(luò)的梯度流動具有有效的效果,這就允許我們在沒有發(fā)散的風(fēng)險下使用更高的學(xué)習(xí)率。此外,批量歸一化正則化模型可以減少對Dropout的需求。最后,通過防止網(wǎng)絡(luò)陷入飽和模式使得批量歸一化可以使用飽和非線性。

    在實驗過程中,我們將批量歸一化運用到性能最佳的ImageNet分類網(wǎng)絡(luò),結(jié)果表明我們可以只使用7%的訓(xùn)練步驟去匹配其性能,并且可以進一步大幅度的超過其精確度。使用用批量歸一化訓(xùn)練的這種網(wǎng)絡(luò)集合,我們可以獲得前5的誤差率,它增強了在ImageNet上已知的最佳結(jié)果。

2 減少內(nèi)部協(xié)變量轉(zhuǎn)移

    我們把在訓(xùn)練期間由于網(wǎng)絡(luò)參數(shù)的變化而造成的網(wǎng)絡(luò)激活函數(shù)輸出值分布的變化定義為內(nèi)部協(xié)變量轉(zhuǎn)移。為了增強訓(xùn)練,我們要尋求減少內(nèi)部協(xié)變量轉(zhuǎn)移。我們期待通過在訓(xùn)練過程中保持層輸入X的分布來提高訓(xùn)練速度。眾所周知如果層輸入被白化(whitened),也就是說把層輸入線性變換為零均值和單位方差并且去相關(guān),則網(wǎng)絡(luò)訓(xùn)練就會收斂得更快。由于每層的輸入是由下面層產(chǎn)生的輸出,因此對每層輸入進行相同程度的白化將是有利的。通過白化每層輸入,我們就可以向?qū)崿F(xiàn)輸入的固定分布,并向消除內(nèi)部協(xié)變量轉(zhuǎn)移的不良影響的目標前進一步。

    我們可以考慮對每個訓(xùn)練步驟或者以一定間隔的激活函數(shù)進行白化,也可以通過直接修改網(wǎng)絡(luò)或者根據(jù)網(wǎng)絡(luò)激活值改變優(yōu)化算法的參數(shù)。但是,如果僅僅將這些修改與優(yōu)化步驟直接穿插擺放,則梯度下降的步驟對參數(shù)的調(diào)整可能會改變激活輸出的分布并導(dǎo)致重新歸一化,而這有可能會使得梯度下降的效果減弱。

    我們在初始試驗中觀察到,當歸一化參數(shù)在梯度下降步驟外計算時模型就會因為參數(shù)發(fā)散而不收斂。

    上述方法的問題是梯度下降優(yōu)化沒有考慮歸一化發(fā)生的事實。為了解決這個問題,我們要確保對于任何參數(shù)值網(wǎng)絡(luò)都會產(chǎn)生具有期望分布的激活。

可以將歸一化寫成一個轉(zhuǎn)換:  


    這不僅取決于給定的訓(xùn)練樣本,而取決于所有樣本x,后面,計算雅克比: 


    忽略后一項導(dǎo)致上述參數(shù)發(fā)散。在這個框架內(nèi),白化層輸入代價非常大。

我們需要尋找一種歸一化的替代方案,它需要光滑可微,并且不需要在每個參數(shù)更新之后對整個訓(xùn)練集進行計算。

    一些以前的方法使用在單個訓(xùn)練樣本上計算的統(tǒng)計量,或者在圖像網(wǎng)絡(luò)情況下,在一個給定位置上的不同特征。但是,丟棄激活的絕對標量會改變網(wǎng)絡(luò)的表示能力。相對于整個訓(xùn)練數(shù)據(jù)的統(tǒng)計,我們想要通過在一個訓(xùn)練樣本里歸一化激活來保存網(wǎng)絡(luò)中的信息。

3 通過小批量統(tǒng)計歸一化

    由于每層的輸入完全白化代價太大,并且不是處處可微,所以我們做兩個必要簡化。第一個在白化層的輸入的特征向量和輸出向量時,我們將歸一化每個維度 :


    其中期望值和方差是在訓(xùn)練數(shù)據(jù)集上計算的。

    但是值得注意的是,簡單的歸一化層的每一個輸入有可能會改變層表達的內(nèi)容。比如,歸一化sigmoid的輸入會使得這些非線性函數(shù)局限在他們的線性部分上(譯者注:這樣非線性函數(shù)就失去了意義)。為了解決上述問題,我們要確保插入在網(wǎng)絡(luò)中的(歸一化)變換在特定的情況下也可以是單位變換。

    在批量訓(xùn)練模式中(使用全部訓(xùn)練集),訓(xùn)練步驟中的每個步驟都是基于整個訓(xùn)練集,我們可以使用整個集合去歸一化激活。但這在隨機優(yōu)化(使用小批量)中是做不到的。因此,我們做第二個簡化:由于我們在隨機梯度訓(xùn)練中使用小批量,用每個小批量來估計每個激活分布的均值和方差。在這種情況下,用于歸一化的統(tǒng)計量可以完全參與梯度反向傳播。這里再次注意:使用小批量,只能計算每個維度的方差而不是聯(lián)合協(xié)方差;因為在聯(lián)合情況中,由于小批量的大小可能小于被白化的激活的數(shù)量,導(dǎo)致奇異協(xié)方差矩陣的產(chǎn)生,所以可能需要正則化。

    構(gòu)想一個大小為m的小批量B。歸一化被獨立的運用到每個激活函數(shù),有下面的算法:


    BN變換可以被添加到網(wǎng)絡(luò)中任何一個激活上。如上面的算法1:BN變換,應(yīng)用于小批量上的激活x。

    在訓(xùn)練過程中我們需要計算反向傳播損失的梯度,這一過程中也同時計算了BN變換的相關(guān)的參數(shù)的梯度。我們使用的鏈式法則如下所示(在簡化之前): 


    因此BN變換是將歸一化激活引入網(wǎng)絡(luò)的可微分轉(zhuǎn)換。這確保了當模型在訓(xùn)練時,層可以持續(xù)在內(nèi)部協(xié)變量轉(zhuǎn)移較少的輸入狀態(tài)下進行學(xué)習(xí),從而加速訓(xùn)練。

3.1訓(xùn)練和擬合批量歸一化網(wǎng)絡(luò)

    對網(wǎng)絡(luò)進行批量歸一化時,我們先確定一個激活函數(shù)的子集,然后根據(jù)算法1為子集中的每一個激活插入BN變換。任何層由先前的接收x作為輸入到現(xiàn)在的接收BN(x)作為輸入。在加入了批量歸一化的網(wǎng)絡(luò)上,可以使用批量梯度下降,或小批量m>1的隨機梯度下降,或者它的任何一個隨機梯度下降法的變體比如Adagrad來做優(yōu)化。

    在模型訓(xùn)練階段,依賴小批量的激活的歸一化可以有效地加速訓(xùn)練,但是在擬合階段就沒有必要依賴小批量。我們希望在擬合時,輸入能夠完全確定地決定輸出。為此,一旦訓(xùn)練結(jié)束,擬合時我們要使用全部樣本來計算歸一化的統(tǒng)計量: 


    而不是使用小批量。使用這些統(tǒng)計量的移動平均,我們可以追蹤模型訓(xùn)練的精確性。而擬合時,均值和方差都是固定不變的(因為使用了全部樣本),歸一化僅僅是應(yīng)用于每個激活的線性變換。

如此,算法2總結(jié)了訓(xùn)練批量歸一化網(wǎng)絡(luò)的過程。 


算法2:訓(xùn)練一個批量歸一化網(wǎng)絡(luò)

3.2 批量歸一化卷積網(wǎng)絡(luò)

    批量歸一化可以應(yīng)用于網(wǎng)絡(luò)中激活的任何集合。在這里,我們考慮由一個仿射變換與一個一元非線性函數(shù)組成的激活函數(shù): 


    其中W和b是模型的學(xué)習(xí)參數(shù),這個公式涵蓋全連接層和卷積層。我們在非線性函數(shù)作用之前對X=Wu b進行BN歸一化變換。我們之所以不直接歸一化層輸入u,是因為u一般是另一個非線性層的輸出,其分布的形狀可能在訓(xùn)練期間改變,只約束其第一和第二矩將不會消除協(xié)變量轉(zhuǎn)移。相反的,Wu b更可能具有對稱,非稀疏分布,即“更高斯”;歸一化它可能產(chǎn)生具有穩(wěn)定分布的激活。

3.3批量歸一化令使用高學(xué)習(xí)率成為可能

    在傳統(tǒng)深度網(wǎng)絡(luò)中,過高的學(xué)習(xí)率可能會導(dǎo)致梯度發(fā)散或者消失為零,以及使得損失函數(shù)陷入不好的局部最小值。批量歸一化對解決這個問題有所幫助。通過歸一化整個網(wǎng)絡(luò)中的激活,可以防止參數(shù)的微小變化通過深層網(wǎng)絡(luò)擴大為梯度的次優(yōu)變化:比如它阻止了訓(xùn)練陷入非線性的飽和狀態(tài)。

    批量歸一化還使模型訓(xùn)練對參數(shù)值的大小變化有更強的容忍度。通常,大的學(xué)習(xí)率可能增加層參數(shù)的絕對數(shù)值,然后在反向傳播期間放大梯度并導(dǎo)致模型發(fā)散。但是,在批量歸一化下,一個層的反向傳播是不受它的參數(shù)絕對大小影響。事實上,對于一個標量a

    參數(shù)的絕對大小不影響層的雅可比矩陣,也不影響梯度傳播。此外,較大的權(quán)重導(dǎo)致較小的梯度,并且批量歸一化將使參數(shù)穩(wěn)定增長。

3.4 批量歸一化可以正則化模型

    當使用批處理標準化進行訓(xùn)練時,結(jié)合小批量中的其他樣本來看訓(xùn)練樣本,訓(xùn)練網(wǎng)絡(luò)不再為一個給定的訓(xùn)練樣本產(chǎn)生確定的值。在我們的實驗中,我們發(fā)現(xiàn)這種效果有利于網(wǎng)絡(luò)的泛化。Dropout通常用于減少過擬合,在批量歸一化網(wǎng)絡(luò)中,我們發(fā)現(xiàn)它可以被去除或降低強度。

4 實驗

4.1 隨時間的激活

    驗證內(nèi)部協(xié)變量轉(zhuǎn)移對訓(xùn)練的影響,以及批量歸一化消除內(nèi)部協(xié)變量轉(zhuǎn)移的能力,我們考慮了在MNIST數(shù)據(jù)集上預(yù)測數(shù)字類別的問題。我們使用一個非常簡單的網(wǎng)絡(luò),用一個28*28二進制圖像作為輸入,3個全連接隱藏層,每層100個激活神經(jīng)元,每個隱藏層用sigmoid非線性計算y=g(Wu b),權(quán)重W被初始化為小的隨機高斯值。最后一個隱藏層后面是一個有10個激活的完全連接層(一個表表一個類)和交叉熵損失,我們設(shè)置訓(xùn)練網(wǎng)絡(luò)為50000步,每個小批量有60個樣本。我們向網(wǎng)絡(luò)的每個隱藏層添加了批量歸一化,如3.1節(jié)所示。我們對基線和批量歸一化的網(wǎng)絡(luò)之間的對比感興趣,而不是在MNIST上實現(xiàn)的最先進的性能。 


圖1:(a)MNIST分別在有BN和沒有BN訓(xùn)練的網(wǎng)絡(luò)上的測試準確性,對比在不同數(shù)量的訓(xùn)練步驟。批量歸一化網(wǎng)絡(luò)幫助網(wǎng)絡(luò)訓(xùn)練更快并且獲得更高的準確性。(b,c)在訓(xùn)練過程中,一個典型的sigmoid輸入分布的演變,顯示為{15%,50%,85%}。批量歸一化使得分布更加穩(wěn)定并且減少了內(nèi)部協(xié)變量轉(zhuǎn)移。

    圖1(a)顯示的是隨著訓(xùn)練的進展,兩個網(wǎng)絡(luò)對互斥測試數(shù)據(jù)的正確預(yù)測的分數(shù)。批量歸一化的網(wǎng)絡(luò)測試準確性比較高。為了研究為什么,在訓(xùn)練過程中,我們在原始網(wǎng)絡(luò)N和批量歸一化網(wǎng)絡(luò)C中研究了S形的輸入(算法2)。在圖1中,我們顯示,對于來自每個網(wǎng)絡(luò)的最后一個隱藏層的一個典型激活,其分布如何演變。原始網(wǎng)絡(luò)中的分布隨時間在它們的平均值和方差中改變顯著,這使的后續(xù)層的訓(xùn)練變得復(fù)雜。相比之下,批處理歸一化網(wǎng)絡(luò)中的分布隨著訓(xùn)練進展而更加穩(wěn)定,這是有助于訓(xùn)練的。

4.2 ImageNet 分類

    我們將批量標準化應(yīng)用于Inception網(wǎng)絡(luò)的一個新變體,在ImageNet分類任務(wù)上進行了訓(xùn)練。這個網(wǎng)絡(luò)有大量的卷積和池化層,一個預(yù)測圖像類別超出1000個可能性的softmax層。卷積層使用ReLU作為非線性。

在我們的實驗中,我們評估了歸一化的Inception的幾個修改。在所有情況下,批量歸一化應(yīng)用于每個非線性的輸入,以卷積方式(如3.2節(jié)所描述),同時保持架構(gòu)的其余部分不變。

4.2.1 加速BN網(wǎng)絡(luò)

    簡單地將Batch Normalization添加到網(wǎng)絡(luò)并不能充分利用我們的方法。為此,我們進一步改變了網(wǎng)絡(luò)及其訓(xùn)練參數(shù),如下:

  • 增大學(xué)習(xí)率。在一個批量歸一化模型,我們已經(jīng)能夠在較高的學(xué)習(xí)率下實現(xiàn)訓(xùn)練加速,而且沒有不良的副作用。

  • 去除Dropout。如3.4節(jié)所描述,批量歸一化滿足與Dropout相同的目標。從修改的BN-Inception中去除Dropout可加快訓(xùn)練,而切不會增加過擬合。

  • 加速學(xué)習(xí)速率衰減。在訓(xùn)練Inception,學(xué)習(xí)率以指數(shù)方式衰減。因為我們的網(wǎng)絡(luò)訓(xùn)練比Inception快,所以我們將學(xué)習(xí)速度降低了6倍。

  • 去除本地響應(yīng)歸一化,當Inception和其他網(wǎng)絡(luò)從中受益時,我們發(fā)現(xiàn)使用批量歸一化沒有必要。

  • 更徹底地改組訓(xùn)練樣本。我們啟用了訓(xùn)練數(shù)據(jù)的內(nèi)部改組,這防止了相同的樣本總是出現(xiàn)在一個小批量中。 


圖2:Inception的單一作物驗證的準確性及它的批量歸一化變體,對比,訓(xùn)練步驟的數(shù)量。

4.2.2 單個網(wǎng)絡(luò)分類

    我們評估了以下網(wǎng)絡(luò),所有這些網(wǎng)絡(luò)都訓(xùn)練了LSVRC2012訓(xùn)練數(shù)據(jù),并對驗證數(shù)據(jù)進行了測試:

  • Inception:在第4.2節(jié)開頭描述的網(wǎng)絡(luò),訓(xùn)練初始學(xué)習(xí)率為0.0015。

  • BN-Baseline: Inception與每個非線性之前的批量歸一化相同。

  • BN-x5:在4.2.1節(jié)批量歸一化的Inception和修改,初始學(xué)習(xí)率被提高了5倍到0.0075。與原始Inception相同的學(xué)習(xí)速率增加導(dǎo)致模型參數(shù)達到機器無限。

  • BN-x30: 像BN-x5,但初始學(xué)習(xí)率為0.045(是Inception的30倍)。

  • BN-x5-Sigmoid: 像BN-x5,但是用sigmoid代替ReLU。我們也嘗試用sigmoid去訓(xùn)練原始Inception,但該模型保持在相當于機會的準確性。

    事實上,BN-x5-Sigmoid獲得了69.8%的準確率。沒有批量歸一化,具有sigmoid的Inception從未達到比1/1000更高的精度。 

圖3:對于Inception和批量歸一化變體,達到Inception(72.2%)的最大準確率和網(wǎng)絡(luò)達到的最大準確率需要的訓(xùn)練步驟的數(shù)量。

4.2.3集合分類

    由ILSVRC 服務(wù)器評估后者顯示前5誤差率為4.94%。在這,我們報告一個前5驗證誤差率為4.9%和測試誤差率為4.82%(通過ILSVR服務(wù)器)。這改善了先前的最佳結(jié)果,并且超過根據(jù)的人類評估者的估計準確度根據(jù)。

    對于我們的集合,我們使用6個網(wǎng)絡(luò)。每個都基于BN-x30,通過以下一些修改:增加卷積層中的初始權(quán)重,使用Dropout(對原始Inception,Dropout為5%或者10%,對比40%);和使用非卷積,每次激活使用模型的最后一個隱藏層進行批量歸一化。

    我們在圖4中證明,批量歸一化允許我們在ImageNet分類挑戰(zhàn)基準上設(shè)置新的最先進的健康邊緣。

5 總結(jié)

    我們提出了一個新的機制用來以顯著的加速深度網(wǎng)絡(luò)的訓(xùn)練。協(xié)變量轉(zhuǎn)移會使機器學(xué)習(xí)系統(tǒng)的訓(xùn)練復(fù)雜化,我們的方法基于兩個前提,

1. 協(xié)變量轉(zhuǎn)移關(guān)于整個系統(tǒng)的結(jié)論,也適用于子網(wǎng)絡(luò)和層;

2. 從網(wǎng)絡(luò)的內(nèi)部激活中去除協(xié)變量轉(zhuǎn)移可以輔助訓(xùn)練。 


    我們提出的方法強大之處在于歸一化激活,并且將這種歸一化結(jié)合在網(wǎng)絡(luò)架構(gòu)本身中。這確保了歸一化可以與任何訓(xùn)練網(wǎng)絡(luò)的優(yōu)化方法合理融合。為了實現(xiàn)在深度網(wǎng)絡(luò)訓(xùn)練中常用的隨機優(yōu)化方法,我們對每個小批量執(zhí)行歸一化,并且通過歸一化參數(shù)反向傳播梯度。批量歸一化在每個激活只增加了兩個額外參數(shù),而這兩個參數(shù)是為了保存網(wǎng)絡(luò)的表述能力。我們提出了一個用于構(gòu)建,訓(xùn)練和執(zhí)行推理與批量歸一化網(wǎng)絡(luò)的算法。生成的網(wǎng)絡(luò)可以用飽和非線性訓(xùn)練,可以容忍更大的學(xué)習(xí)率,并且可以減少或者減弱對Dropout正則化的使用。

    僅僅將批量歸一化添加到最先進圖像分類模型中,就在訓(xùn)練中產(chǎn)生了實質(zhì)的加速。通過進一步提高學(xué)習(xí)率,去除Dropout,并運用由批量規(guī)一化提供的其他修改,我們只用相對很少的訓(xùn)練步驟就達到了以前的最好結(jié)果——并且在單個網(wǎng)絡(luò)圖像分類上得到了更好的結(jié)果。此外,通過組合使用批量歸一化訓(xùn)練的多個模型,我們在ImageNet上執(zhí)行得比已知最好的系統(tǒng)好得多。

    批量歸一化的目標是在整個訓(xùn)練中實現(xiàn)激活值的一個穩(wěn)定分布。在我們的實驗中,我們在激活函數(shù)的非線性部分之前歸一化一階矩和二階矩,這樣做更容易導(dǎo)致穩(wěn)定的激活函數(shù)值分布。在我們的大規(guī)模圖像分類實驗中,不管是否進行歸一化,我們都沒有觀察到稀疏的非線性輸入。批量歸一化的其他顯著區(qū)別特征包括,BN使用兩個學(xué)習(xí)參數(shù)來保持網(wǎng)絡(luò)的表達能力(標準化層不需要這樣做,因為緊隨其后就是被訓(xùn)練的線性變換,而這個線性變換可以提供必要的縮放與偏移)。除此之外BN的特性還包括其對卷積層的處理;其不依賴于小批量的確定性推理;以及其批量歸一化網(wǎng)絡(luò)中的每個卷積層。

    在這項工作中,我們還沒有探討批量歸一化潛在可能實現(xiàn)的全部可能性。我們未來的工作包括我們的方法到循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用, 其中內(nèi)部協(xié)變量轉(zhuǎn)移和梯度的消失或發(fā)散可能特別嚴重,并且這將允許我們更徹底地測試歸一化改善梯度傳播的假設(shè)。我們也計劃研究一下,批量規(guī)一化是否可以幫助在傳統(tǒng)意義上的域適應(yīng)—比如,對群體均值和方差的重新計算(算法2)的歸一化網(wǎng)絡(luò)是否更容易適應(yīng)新的數(shù)據(jù)分布。最后,我們相信對算法的進一步理論分析將允許更多的改進和應(yīng)用。

完。




            來源:http://www.icode9.com/content-4-165401.html
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
入門 | 從VGG到NASNet,一文概覽圖像分類網(wǎng)絡(luò)
[論文筆記] GAN開山之作及最新綜述
生成對抗網(wǎng)絡(luò)綜述:從架構(gòu)到訓(xùn)練技巧,看這篇論文就夠了
模型泛化不必隨機訓(xùn)練,全批量GD媲美SGD
多層神經(jīng)網(wǎng)絡(luò)——小批量梯度下降法
【連載17】GoogLeNet Inception V2
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服