新智元翻譯1
來(lái)源:Idsia
作者:Jürgen Schmidhuber
翻譯:張巨巖
作者介紹:Jürgen Schmidhuber 被稱(chēng)為是賦予人工智能記憶的人,遞歸神經(jīng)網(wǎng)絡(luò)之父,2004 年到 2009 年,擔(dān)任慕尼黑大學(xué)認(rèn)知與機(jī)器人領(lǐng)域的教授,從 1995 年起就在瑞士人工智能實(shí)驗(yàn)室 IDSIA 擔(dān)任負(fù)責(zé)人。2009至2012年年間,他的研究小組贏得了模式識(shí)別和機(jī)器學(xué)習(xí)的八個(gè)國(guó)際比賽。如今 Jürgen Schmidhuber 創(chuàng)辦了 Nnaisense 公司。
注:這篇文章經(jīng)過(guò)了很多同僚的評(píng)閱。
[A] 1962年:來(lái)自簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞的神經(jīng)生物學(xué)的啟示
Hubel和 Wiesel描述了視覺(jué)皮層的簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞[18],它啟示了后來(lái)的深度人工神經(jīng)網(wǎng)絡(luò)框架,這在某些現(xiàn)代屢獲殊榮的深度學(xué)習(xí)系統(tǒng)中仍在使用。
[A0]1965年:第一代深度學(xué)習(xí)系統(tǒng)
Ivakhnenko和 Lapa [71]公布了,第一款對(duì)于深度監(jiān)督前饋式多層感知器(supervised deep feedforward multilayer perceptrons)的通用而有效的學(xué)習(xí)算法。1971年的一篇文章描述了一個(gè)通過(guò)“數(shù)據(jù)成組處理法(Group Method of Data Handling)”訓(xùn)練的8層深度網(wǎng)絡(luò),仍然在新千年中很流行??紤]到一個(gè)輸入向量的訓(xùn)練集有對(duì)應(yīng)的目標(biāo)輸出向量,層逐漸地增多并通過(guò)回歸分析訓(xùn)練,接著用一個(gè)分離的驗(yàn)證集的幫助改進(jìn),正則化被用于淘汰多余單元。每層的單元和層的總數(shù)可以在與問(wèn)題相關(guān)的環(huán)境中習(xí)得。
[A1] 1970 ±10年左右:反向傳播
復(fù)雜多級(jí)非線性可微分的,與NN相關(guān)的系統(tǒng)的誤差函數(shù)和它們的梯度至少?gòu)?960早期就開(kāi)始討論了,如[56-58,64-66]。在這種系統(tǒng)中的梯度下降可以通過(guò)在動(dòng)態(tài)規(guī)劃風(fēng)格下(dynamic programming style)[67]來(lái)迭代這個(gè)古老的鏈?zhǔn)椒▌t[68,69](與只是用鏈?zhǔn)椒▌t簡(jiǎn)化推倒相比[57b])。然而,高效誤差反向傳播(BP)在任意的、可能是稀疏的,類(lèi)似NN的網(wǎng)絡(luò)中的使用很顯然是第一次被Linnainmaa在1970 [60-61]提出。這也被認(rèn)為是自動(dòng)微分的反向模式,向前傳播的激活值(activation)本質(zhì)上等于反向微分計(jì)算值的成本(cost)。參見(jiàn)早期FORTRAN代碼[60]。比較[62,29c] 和一些與NN有關(guān)的討論[29],和1981年Werbos [29a,29b]第一個(gè)特定NN的高效BP算法。比較[30,31,59]和順序處理遞歸神經(jīng)網(wǎng)絡(luò)的概括,如[32-34,37-39],參見(jiàn)自然梯度(naturalgradients)。到了2013年,BP也仍然是重要的深度學(xué)習(xí)算法。
[A2]1979年:深度新認(rèn)知器(Deep Neocognitron),權(quán)重分享和卷積
Fukushima的深度新認(rèn)知器框架[19a,19, 40]整合了神經(jīng)生理學(xué)的觀點(diǎn)[A,18]并引入了權(quán)重分享卷積神經(jīng)層,還有勝者通吃層(winner-take-all layers)。它與現(xiàn)代屢獲大獎(jiǎng)的前饋式純監(jiān)督以梯度為基礎(chǔ)的深度學(xué)習(xí)系統(tǒng)相似[A11-A12](但它使用了本地非監(jiān)督學(xué)習(xí)規(guī)則)。
[A3]1987年:自動(dòng)編碼器框架
Ballard發(fā)表了自己關(guān)于非監(jiān)督自動(dòng)編碼器的想法 [35] ,這與2000年后的以非監(jiān)督預(yù)訓(xùn)練為基礎(chǔ)的前饋式深度學(xué)習(xí)系統(tǒng)相關(guān),如[15, A8] 。比較調(diào)查[36]和有一定關(guān)系的RAAMs[52]。
[A4] 1989年:CNN的反向傳播算法
LeCun等人應(yīng)用的反向傳播算法[16, 16a] 到Fukushima的權(quán)重分享卷積神經(jīng)層[A2, 19a, 19, 16] 。這種結(jié)合是很多現(xiàn)代在競(jìng)爭(zhēng)中有優(yōu)勢(shì)的前饋式視覺(jué)深度學(xué)習(xí)系統(tǒng)的重要部分。
[A5] 1991年:深度學(xué)習(xí)根本問(wèn)題
20世紀(jì)90年代早期,實(shí)驗(yàn)表明深度前饋式或者遞歸網(wǎng)絡(luò)很難通過(guò)反向傳播訓(xùn)練[A1] 。我的學(xué)生Hochreiter發(fā)現(xiàn)并分析了其中的原因,原因是梯度突然消失或者梯度膨脹(exploding)引起的深度學(xué)習(xí)根本問(wèn)題[3]。比較[4]。
[A6] 1991年:遞歸神經(jīng)網(wǎng)絡(luò)的深度框架
我的第一個(gè)遞歸深度系統(tǒng)(上述提到)[1,2] 通過(guò)在非監(jiān)督情況下的一個(gè)深度RNN棧預(yù)訓(xùn)練(a deep RNN stack pre-trained in unsupervised fashion),部分克服了根本問(wèn)題[A5] ,進(jìn)而加速了后來(lái)的監(jiān)督學(xué)習(xí)。這是在2000年后有效的深度學(xué)習(xí)系統(tǒng),并且也是第一個(gè)神經(jīng)分層時(shí)間記憶模型,也是第一個(gè)“很深的學(xué)習(xí)系統(tǒng)”。
[A7] 1997年:監(jiān)督式深度學(xué)習(xí)系統(tǒng)(LSTM)
長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(LSTM RNN)成為第一個(gè)純監(jiān)督式深度學(xué)習(xí)系統(tǒng),如[5-10,12,A9]。LSTM RNN能夠?qū)W習(xí)找到很多之前無(wú)法解決的問(wèn)題的答案。
[A8] 2006年:深信網(wǎng)絡(luò)(DeepBelief Network)/CNN結(jié)果
Hinton 和Salakhutdinov發(fā)表了文章,主要著重前饋式NN的非監(jiān)督預(yù)訓(xùn)練來(lái)加速后繼的監(jiān)督學(xué)習(xí)(比較 [A6] )。這幫助激起了人們關(guān)于深度人工網(wǎng)絡(luò)的興趣(關(guān)鍵詞:受限玻爾茲曼機(jī),深信網(wǎng)絡(luò))。同年,通過(guò)使用訓(xùn)練模型變形(training pattern deformations)[42, 43],Ranzato等人的監(jiān)督式BP訓(xùn)練[A1, A4] 的CNN [A2, A4] 在MNIST 筆跡數(shù)字圖像數(shù)據(jù)集基準(zhǔn)測(cè)試中創(chuàng)下新紀(jì)錄。
[A9] 2009年:深度學(xué)習(xí)贏得了第一次競(jìng)賽
深度學(xué)習(xí)贏得了第一次官方國(guó)際模式識(shí)別競(jìng)賽(有秘密測(cè)試集):LSTM RNN同時(shí)執(zhí)行分割和識(shí)別 [10, 11] ,在一些2009年ICDAR有聯(lián)系的筆跡競(jìng)賽中取得勝利 [A7] 。
[A10] 2010年:GPUs上的普通反向傳播算法產(chǎn)生了優(yōu)秀的結(jié)果
深度但其他方面——沒(méi)有非監(jiān)督預(yù)訓(xùn)練,無(wú)卷積但是有訓(xùn)練模式變形——很標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)(NN)創(chuàng)下了新的MNIST記錄 [17] ,通過(guò)一個(gè)快速GPU的實(shí)現(xiàn)方法 [17]。(一年之后,第一個(gè)在MNIST上有人類(lèi)級(jí)別表現(xiàn)的系統(tǒng)產(chǎn)生——MCMPCNN [22, A11])。
[A11] 2011年:GPU上的MPCNN——第一個(gè)超人類(lèi)表現(xiàn)的視覺(jué)模式識(shí)別
Ciresan等人介紹了以GPU為基礎(chǔ)的監(jiān)督式最大池化CNN(卷積網(wǎng)絡(luò))[21],今天被大部分(如果不是所有的)在競(jìng)爭(zhēng)中取得優(yōu)勢(shì)的深度神經(jīng)網(wǎng)絡(luò)采用。通過(guò)使用深而廣的多列(Multi-Column,MC)GPU-MPCNN,深度學(xué)習(xí)系統(tǒng)在視覺(jué)模式識(shí)別(在秘密的測(cè)試集上)上第一次超過(guò)人類(lèi)的表現(xiàn)[25,25a-c](比人類(lèi)表現(xiàn)好兩倍,比最接近的參賽人工神經(jīng)網(wǎng)絡(luò)好3倍,比最好的非神經(jīng)方法好6倍)。深而廣的多列(Multi-Column,MC)GPU-MPCNN是當(dāng)前深度前饋式神經(jīng)網(wǎng)絡(luò)的黃金標(biāo)準(zhǔn),現(xiàn)在被用于很多應(yīng)用中。
[A12] 2012年:第一個(gè)在物體識(shí)別和圖像分割上的競(jìng)賽的勝利
一個(gè)圖像掃描[28,28a] GPU-MPCNN [21,A11]成為第一個(gè)在大型圖片上的視覺(jué)物體檢測(cè)競(jìng)賽中獲勝的深度學(xué)習(xí)系統(tǒng)(與僅僅識(shí)別或分類(lèi)相反):2012年ICPR有絲分裂檢測(cè)競(jìng)賽。一個(gè)在電腦視覺(jué)社區(qū)中流行的MC [A11] GPU-MPCNN變體模型,在ImageNet分類(lèi)基準(zhǔn)測(cè)試中創(chuàng)下記錄。深度學(xué)習(xí)系統(tǒng)第一次在純圖片分割競(jìng)賽(ISBI 2012)中取勝(又是一個(gè)圖片掃描GPU-MPCNN)[53,53a,53b]。
[A13] 2013:更多的競(jìng)賽和基準(zhǔn)測(cè)試記錄
LSTM創(chuàng)造的TIMIT音素識(shí)別新記錄 [12] 。使用深度GPU-MCMPCNN的桌面機(jī)器在ICDAR中文筆跡識(shí)別基準(zhǔn)測(cè)試(超過(guò)3700個(gè)類(lèi)別)中創(chuàng)造了新記錄(幾乎達(dá)到人類(lèi)表現(xiàn))[45a]。GPU-MPCNN [54-54b] 贏得了MICCAI2013有絲分裂識(shí)別大獎(jiǎng)挑戰(zhàn)賽。GPU-MPCNN [21] 也幫助取得了在ImageNet分類(lèi)和PASCAL物體識(shí)別 [54e] 中新的最好成績(jī) [26a] 。更多的競(jìng)賽情況在瑞士AI實(shí)驗(yàn)室IDSIA和多倫多大學(xué)的G.H.的網(wǎng)頁(yè)中提到。
(作為一個(gè)機(jī)器學(xué)習(xí)研究人員,我癡迷于合理的信度分配(proper credit assignment))
在2009年,我們的深度學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò)成為了第一批贏得官方國(guó)際模式識(shí)別競(jìng)賽的深度學(xué)習(xí)系統(tǒng)(秘密的測(cè)試集只有主辦方才知道)[A9];2012年之前,它們共贏了八次[A 12],包括在第一次大型圖片中識(shí)別物體的競(jìng)賽[54] (at ICPR 2012)和圖片分割[53] (at ISBI 2012)。在2011年,它們完成了世界第一個(gè)超人類(lèi)視覺(jué)模式識(shí)別的結(jié)果[A11]。自2012年以來(lái),有了其他的系統(tǒng)的一些變體并贏得了另外的一些競(jìng)賽,如[A12,A13]。
然而,深度學(xué)習(xí)領(lǐng)域研究歷史悠久,1965年,Ivakhnenko和 Lapa [71]公布了第一款對(duì)于深度監(jiān)督前饋式多層感知器(supervised deep feedforward multilayer perceptrons)的通用而有效的學(xué)習(xí)算法。1971年的一篇文章描述了一個(gè)通過(guò)“數(shù)據(jù)成組處理法(Group Method of Data Handling)”訓(xùn)練的8層深度網(wǎng)絡(luò),這仍然在新千年中很流行。
我自己的第一款深度學(xué)習(xí)系統(tǒng)要追溯到1991年[1,2]。據(jù)我所知,它也是“很深的學(xué)習(xí)系統(tǒng)”,比深度學(xué)習(xí)之父Ivakhnenko的那些系統(tǒng)要深度:通過(guò)使用非監(jiān)督預(yù)訓(xùn)練來(lái)訓(xùn)練很多遞歸神經(jīng)網(wǎng)(RNN),它能夠在成百上千的非線性操作子(operators)或者神經(jīng)層上執(zhí)行信度分配(這樣的RNN比標(biāo)準(zhǔn)的前饋式神經(jīng)元網(wǎng)絡(luò)更加強(qiáng)大,并能夠編碼所有的系列輸入數(shù)據(jù))。
這種基本的想法在今天仍然很流行。每個(gè)RNN在非監(jiān)督情況下訓(xùn)練一段時(shí)間來(lái)預(yù)測(cè)下一個(gè)輸入。從那時(shí)起,只有非預(yù)期情況下的輸入(誤差)會(huì)傳遞新的信息并被輸入到下一個(gè)更高層的RNN中,更高層的RNN會(huì)在更慢的、自組織時(shí)間尺度上運(yùn)作。很容易知道沒(méi)有信息丟失,信息只是得到了壓縮(注意到機(jī)器學(xué)習(xí)的很多地方本質(zhì)上是關(guān)于壓縮)。經(jīng)過(guò)越來(lái)越來(lái)深的分層時(shí)間記憶模型編碼,我們得到冗余度越來(lái)越小的輸入序列,這在空間(如前饋式神經(jīng)網(wǎng)絡(luò))和時(shí)間上壓縮了數(shù)據(jù)。也有連續(xù)的變體(continuous variant)[47]。
1993年[2] 的一個(gè)古老的具有說(shuō)明性的深度學(xué)習(xí)實(shí)驗(yàn)對(duì)在1200次步驟或者隨后的1200個(gè)非線性虛擬神經(jīng)層進(jìn)行信度分配。然而,初始的、非監(jiān)督RNN棧的最頂層編碼的壓縮程度非常高,以至于通過(guò)附加監(jiān)督學(xué)習(xí)方法的順序分類(lèi)成為可能(之前無(wú)法成功)。
有一種將高層壓縮或者抽取到低層的方式,于是它會(huì)部分地折疊分層時(shí)間記憶模型。解決方法是重新訓(xùn)練低層RNN來(lái)連續(xù)模仿(預(yù)測(cè))已經(jīng)訓(xùn)練過(guò)的、較慢的、高層RNN的隱藏單元,通過(guò)另外附加的可預(yù)測(cè)性輸出神經(jīng)元[1,2]。這幫助了低層RNN發(fā)展成為合適的、很少改變的記憶,這種記憶可能彌補(bǔ)長(zhǎng)時(shí)間的延遲。
1991的深度學(xué)習(xí)系統(tǒng)是第一個(gè)克服深度學(xué)習(xí)根本問(wèn)題的系統(tǒng),這些問(wèn)題由我的第一位學(xué)生(現(xiàn)在是教授)Sepp Hochreiter識(shí)別并分析出來(lái):梯度突然消失或膨脹(explode)問(wèn)題 [3, 4, 4a, 5A]。后者促成了我們后續(xù)在20世紀(jì)90年代和21世紀(jì)的所有深度學(xué)習(xí)研究。
通過(guò)監(jiān)督式深度學(xué)習(xí)LSTM RNN(1997)(例如,[5,6,7,A7]),我們能夠最終得到與1991年系統(tǒng)[1, 2]相似的成果,克服了沒(méi)有任何非監(jiān)督預(yù)訓(xùn)練的深度學(xué)習(xí)根本問(wèn)題。另外,LSTM通過(guò)the partially unsupervised 1991 chunker [1,2],也能夠?qū)W習(xí)無(wú)法習(xí)得的任務(wù)。
特別成功的例子是很多通過(guò)CTC(Connectionist Temporal Classification)[8]訓(xùn)練的LSTM RNN。2009年有了更快的計(jì)算機(jī),并通過(guò)我的PhD學(xué)生和博士后的工作,如Alex Graves [10],這成為第一個(gè)在官方國(guó)際模式識(shí)別競(jìng)賽中取勝的RNN系統(tǒng)[A9]。據(jù)我所知,這也是有史以來(lái)第一個(gè)深度學(xué)習(xí)系統(tǒng)(遞歸與否)贏得這樣的競(jìng)賽。(事實(shí)上,它在三種不同語(yǔ)言有聯(lián)系的筆跡(connected handwriting)方面贏得了3個(gè)不同的ICDAR 2009競(jìng)賽,如[11,A9,A13])。Alex隨后去了Geoffrey Hinton的實(shí)驗(yàn)室(多倫多大學(xué)),在那里我們很多雙向LSTMRNN[7]也打破了著名的TIMIT語(yǔ)音識(shí)別的記錄[12,A13],盡管之前花費(fèi)了很多時(shí)間在HMM為基礎(chǔ)的語(yǔ)音識(shí)別研究。CTC-LSTM也第一次在NIST's OpenHaRT 2013評(píng)估中幫助評(píng)分。在2015年,大型IT公司(谷歌、微軟、IBM、百度等等)也用了我們的遞歸神經(jīng)網(wǎng)絡(luò)(特別是LSTM)來(lái)提高語(yǔ)音識(shí)別、機(jī)器翻譯、圖片捕捉生成、語(yǔ)法分析(syntactic parsing)、文本到語(yǔ)音合成、圖片實(shí)時(shí)談話(huà)頭像(photo-realtalking heads)、韻律檢測(cè)(prosody detection)、視頻到文本翻譯等等很多其他重要的應(yīng)用。例如,谷歌發(fā)表博文描述了我們的以CTC為基礎(chǔ)的LSTM極大的改善了Google Voice(提高了49%);現(xiàn)在已經(jīng)在10億用戶(hù)的手機(jī)中使用了。
著名企業(yè)也對(duì)這樣的分層時(shí)間記憶模型很感興趣。[13, 14]
古老的術(shù)語(yǔ)“深度學(xué)習(xí)”第一次引入到機(jī)器學(xué)習(xí)上是通過(guò)Dechter(1986),引入到人工神經(jīng)網(wǎng)絡(luò)(NNs)中則是通過(guò)Aizenber等人(2000)。后來(lái),它因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)而變得特別流行,深度神經(jīng)網(wǎng)絡(luò)是最成功的深度學(xué)習(xí)算法,雖然它的歷史更悠久,要向前追溯半個(gè)世紀(jì)。在2006年,在使用非監(jiān)督預(yù)訓(xùn)練和較不通用的前饋式網(wǎng)絡(luò)的時(shí)代背景下,一個(gè)深度學(xué)習(xí)系統(tǒng)
在“MNIST筆跡數(shù)據(jù)”這一機(jī)器學(xué)習(xí)中最著名的基準(zhǔn)測(cè)試[16]中,達(dá)到了1.2%的錯(cuò)誤率。我們的團(tuán)隊(duì)接著展現(xiàn)了在GPU上的、古老但好用的向后傳播算法(訓(xùn)練模式扭曲(distortion)但是沒(méi)有任何非監(jiān)督預(yù)訓(xùn)練),能夠提高三倍,將錯(cuò)誤率降到0.35%[17, A10]——在那時(shí),這是一個(gè)世界紀(jì)錄(之前標(biāo)準(zhǔn)的網(wǎng)絡(luò)達(dá)到了0.7%;一個(gè)反向傳播訓(xùn)練(backprop-trained)的卷積神經(jīng)網(wǎng)絡(luò)得到了0.39%;除了小的眼跳式的翻譯(small saccadic eye movement-like translations)以外,沒(méi)有扭曲(distortion)的普通的反向傳播算法得到了0.95%的準(zhǔn)確率)。接著我們替換了我們的標(biāo)準(zhǔn)網(wǎng)絡(luò),使用了一個(gè)生物學(xué)上看起來(lái)很合理的框架,這在當(dāng)時(shí)是受到了早期與神經(jīng)科學(xué)相關(guān)工作[19a,18,19,16]的啟示:深度的,廣泛GPU為基礎(chǔ)的多列最大池化CNN(Deep and Wide GPU-based Multi-Column Max-Pooling CNN ,MCMP CNN)[19,16,23],輔以反向傳播為基礎(chǔ)的、權(quán)重分享的卷積層[19,16,23]和贏家通吃的[19a,19]最大池化層[20,24,50,46](參見(jiàn)55)。MCMPCNN是MPCNN [25a]的決策委員會(huì),它使用了簡(jiǎn)單的民主輸出平均策略(與早期更復(fù)雜的組合起來(lái)的學(xué)習(xí)器方法相比[48])。物體識(shí)別[54,54c,54a,A12]和圖像分割受益于快速以MPCNN為基礎(chǔ)的圖像掃描方法[28,28a]。我們的監(jiān)督GPU-MCMPCNN是在官方國(guó)際競(jìng)賽(主辦方才知道秘密測(cè)試集數(shù)據(jù))中第一個(gè)完成超人類(lèi)表現(xiàn)的方法[25,25a-c,A11](與[51]相比),并且在MNIST測(cè)試集上是第一個(gè)能夠與人類(lèi)競(jìng)爭(zhēng)的表現(xiàn)[22]。自從2011年之后,它也在常規(guī)基礎(chǔ)上贏得了很多其他的競(jìng)賽[A11-A13]。
我們的GPU-MPCNN[21,A11]被多倫多大學(xué)、斯坦福大學(xué)和谷歌等采用,如[26,27,A12,A13]。蘋(píng)果公司,著名智能手機(jī)制造商,雇傭了UeliMeier,他是我們贏得ICDAR 2011中國(guó)筆跡比賽[11,22]的深度學(xué)習(xí)小組中的一員。ArcelorMittal,是世界頂級(jí)鋼鐵制造商,使用我們的方法來(lái)進(jìn)行材料缺陷檢測(cè),例如[28] 。我們技術(shù)最重大的應(yīng)用是生物醫(yī)學(xué)圖像的應(yīng)用[54],如癌癥診斷或者CT心臟掃描的斑塊檢測(cè)。其他的用戶(hù)包括一家領(lǐng)軍汽車(chē)供應(yīng)廠,和如Deepmind公司,該公司的一個(gè)共同創(chuàng)始人是在我們的實(shí)驗(yàn)室中受訓(xùn)的PhD之一。
值得注意的是,自2009年之后,眾多國(guó)際比賽中最成功的深度學(xué)習(xí)算法是對(duì)一個(gè)超過(guò)40歲算法的使用和延伸[A9-A13],也就是,Linnainmaa(1970)的監(jiān)督式高效反向傳播算法[A1,60,29a](與[30,31,58,59,61]相比)或者RNN的BPTT/RTRL方法,如[32-34,37-39]。特別的,在2013年,最先進(jìn)的前饋式網(wǎng)絡(luò)是對(duì)兩種古老概念的以GPU為基礎(chǔ)的多列結(jié)合:向后傳播[A1]應(yīng)用于類(lèi)認(rèn)知機(jī)的卷積框架中[A2](這包括了最大池化層[20,50,46]而不是備選的本地贏者通吃方法[local winner-take-all methods])。(另外還有來(lái)自20世紀(jì)90年代和21世紀(jì)的技巧,如[41a,41b,41c])。在很不同的深度遞歸案例中,監(jiān)督式系統(tǒng)也作為主導(dǎo),如[5,8,10,9,39,12,A9,A13]。
特別地,大部分獲得大獎(jiǎng)的或者保持基準(zhǔn)測(cè)試記錄的深度學(xué)習(xí)系統(tǒng)現(xiàn)在正使用在我們實(shí)驗(yàn)室開(kāi)發(fā)的兩種監(jiān)督方法之一:(1)用CTC(2006)[8]訓(xùn)練的遞歸LSTM(1997)[A7],或者(2)前饋式GPU-MPCNN[2011] [21, A11]。然而,在很多應(yīng)用中,結(jié)合兩個(gè)世界的最好方法——監(jiān)督學(xué)習(xí)和非監(jiān)督預(yù)訓(xùn)練——仍然是最有優(yōu)勢(shì)的,如在以上描述的1991年的我的系統(tǒng)[1, 2, A6]中。
[1] J. Schmidhuber. Learning complex,extended sequences using the principle of history compression, NeuralComputation, 4(2):234-242, 1992 (based on TR FKI-148-91, 1991).
[2] J. Schmidhuber. Habilitation thesis,TUM, 1993. PDF. An ancient experiment with credit assignment across 1200 timesteps or virtual layers and unsupervised pre-training for a stack of recurrentNN can be found here - try Google Translate in your mother tongue.
[3] S. Hochreiter. Untersuchungen zudynamischen neuronalen Netzen. Diploma thesis, TUM, 1991 (advisor J.S.)
[4] S. Hochreiter, Y. Bengio, P. Frasconi,J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learninglong-term dependencies. In S. C. Kremer and J. F. Kolen, eds., A Field Guide toDynamical Recurrent Neural Networks. IEEE press, 2001.
[4a] Y. Bengio, P. Simard, P. Frasconi.Learning long-term dependencies with gradient descent is difficult. IEEE TNN5(2), p 157-166, 1994
[5] S. Hochreiter, J. Schmidhuber. LongShort-Term Memory. Neural Computation, 9(8):1735-1780, 1997.
[6] F. A. Gers, J. Schmidhuber, F. Cummins.Learning to Forget: Continual Prediction with LSTM. Neural Computation,12(10):2451--2471, 2000.
[7] A. Graves, J. Schmidhuber. Framewisephoneme classification with bidirectional LSTM and other neural networkarchitectures. Neural Networks, 18:5-6, pp. 602-610, 2005.
[8] A. Graves, S. Fernandez, F. Gomez, J.Schmidhuber. Connectionist Temporal Classification: Labelling UnsegmentedSequence Data with Recurrent Neural Networks. ICML 06, Pittsburgh, 2006.
[9] A. Graves, M. Liwicki, S. Fernandez, R.Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for ImprovedUnconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysisand Machine Intelligence, vol. 31, no. 5, 2009.
[10] A. Graves, J. Schmidhuber. OfflineHandwriting Recognition with Multidimensional Recurrent Neural Networks.NIPS'22, p 545-552, Vancouver, MIT Press, 2009.
[11] J. Schmidhuber, D. Ciresan, U. Meier,J. Masci, A. Graves. On Fast Deep Nets for AGI Vision. In Proc. FourthConference on Artificial General Intelligence (AGI-11), Google, Mountain View,California, 2011.
[12] A. Graves, A. Mohamed, G. E. Hinton.Speech Recognition with Deep Recurrent Neural Networks. ICASSP 2013, Vancouver,2013.
[12a] T. Bluche, J. Louradour, M. Knibbe,B. Moysset, F. Benzeghiba, C. Kermorvant. The A2iA Arabic Handwritten TextRecognition System at the OpenHaRT2013 Evaluation. Submitted to DAS 2014.
[13] J. Hawkins, D. George. HierarchicalTemporal Memory - Concepts, Theory, and Terminology. Numenta Inc., 2006.
[14] R. Kurzweil. How to Create a Mind: TheSecret of Human Thought Revealed. ISBN 0670025291, 2012.
[15] G. E. Hinton, R. R. Salakhutdinov.Reducing the dimensionality of data with neural networks. Science, Vol. 313.no. 5786, pp. 504 - 507, 2006.
[16] Y. LeCun, B. Boser, J. S. Denker, D.Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Backpropagation Applied toHandwritten Zip Code Recognition, Neural Computation, 1(4):541-551, 1989.
[16a] Y. LeCun, B. Boser, J. S. Denker, D.Henderson, R. E. Howard, W. Hubbard and L. D. Jackel: Handwritten digitrecognition with a back-propagation network. Proc. NIPS 1989, 2, MorganKaufman, Denver, CO, 1990.
[17] Dan Claudiu Ciresan, U. Meier, L. M.Gambardella, J. Schmidhuber. Deep Big Simple Neural Nets For Handwritten DigitRecognition. Neural Computation 22(12): 3207-3220, 2010.
[18] D. H. Hubel, T. N. Wiesel. ReceptiveFields, Binocular Interaction And Functional Architecture In The Cat's VisualCortex. Journal of Physiology, 1962.
[19] K. Fukushima. Neocognitron: Aself-organizing neural network model for a mechanism of pattern recognitionunaffected by shift in position. Biological Cybernetics, 36(4): 193-202, 1980.Scholarpedia.
[19a] K. Fukushima: Neural network modelfor a mechanism of pattern recognition unaffected by shift in position -Neocognitron. Trans. IECE, vol. J62-A, no. 10, pp. 658-665, 1979.
[20] M. Riesenhuber, T. Poggio.Hierarchical models of object recognition in cortex. Nature Neuroscience 11, p1019-1025, 1999.
[20a] J. Schmidhuber. A local learningalgorithm for dynamic feedforward and recurrent networks. Connection Science,1(4):403-412, 1989. PDF. HTML. Local competition in the Neural Bucket Brigade(figures omitted).
[21] D. C. Ciresan, U. Meier, J. Masci, L.M. Gambardella, J. Schmidhuber. Flexible, High Performance Convolutional NeuralNetworks for Image Classification. International Joint Conference on ArtificialIntelligence (IJCAI-2011, Barcelona), 2011.
[22] D. C. Ciresan, U. Meier, J.Schmidhuber. Multi-column Deep Neural Networks for Image Classification. Proc.IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012, p 3642-3649,2012.
[23] Y. LeCun, Y. Bottou, Y. Bengio, P. Haffner.Gradient-based learning applied to document recognition. Proceedings of the IEEE,86(11):2278-2324, 1998
[24] S. Behnke. Hierarchical NeuralNetworks for Image Interpretation. Dissertation, FU Berlin, 2002. LNCS 2766, Springer2003.
[25] D. C. Ciresan, U. Meier, J. Masci, J.Schmidhuber. Multi-Column Deep Neural Network for Traffic Sign Classification.Neural Networks 32: 333-338, 2012.
[25a] D. C. Ciresan, U. Meier, J. Masci, J.Schmidhuber. A Committee of Neural Networks for Traffic Sign Classification.International Joint Conference on Neural Networks (IJCNN-2011, San Francisco),2011.
[25b] J. Stallkamp, M. Schlipsing, J.Salmen, C. Igel. INI Benchmark Website: The German Traffic Sign RecognitionBenchmark for IJCNN 2011.
[25c] Qualifying for IJCNN 2011competition: results of 1st stage (January 2011)
[25d] Results for IJCNN 2011 competition (2August 2011)
[26] A. Krizhevsky, I. Sutskever, G. E.Hinton. ImageNet Classification with Deep Convolutional Neural Networks. NIPS25, MIT Press, 2012.
[26a] M. D. Zeiler, R. Fergus. Visualizingand Understanding Convolutional Networks. TR arXiv:1311.2901 [cs.CV], 2013.
[27] A. Coates, B. Huval, T. Wang, D. J.Wu, Andrew Y. Ng, B. Catanzaro. Deep Learning with COTS HPC Systems, ICML 2013.
[28] J. Masci, A. Giusti, D. Ciresan, G.Fricout, J. Schmidhuber. A Fast Learning Algorithm for Image Segmentation withMax-Pooling Convolutional Networks. ICIP 2013.
[28a] A. Giusti, D. Ciresan, J. Masci, L.M. Gambardella, J. Schmidhuber. Fast Image Scanning with Deep Max-PoolingConvolutional Neural Networks. ICIP 2013.
[29] P. J. Werbos. Beyond Regression: NewTools for Prediction and Analysis in the Behavioral Sciences. PhD thesis,Harvard University, 1974
[29a] P. J. Werbos. Applications ofadvances in nonlinear sensitivity analysis. In R. Drenick, F. Kozin, (eds):System Modeling and Optimization: Proc. IFIP (1981), Springer, 1982.
[29b] P. J. Werbos. BackwardsDifferentiation in AD and Neural Nets: Past Links and New Opportunities. InH.M. Bücker, G. Corliss, P. Hovland, U. Naumann, B. Norris (Eds.), AutomaticDifferentiation: Applications, Theory, and Implementations, 2006.
[29c] S. E. Dreyfus. The computationalsolution of optimal control problems with time lag. IEEE Transactions onAutomatic Control, 18(4):383-385, 1973.
[30] Y. LeCun: Une procedured'apprentissage pour reseau a seuil asymetrique. Proceedings of Cognitiva 85,599-604, Paris, France, 1985.
[31] D. E. Rumelhart, G. E. Hinton, R. J.Williams. Learning internal representations by error propagation. In D. E.Rumelhart and J. L. McClelland, editors, Parallel Distributed Processing,volume 1, pages 318-362. MIT Press, 1986
[32] Ron J. Williams. Complexity of exactgradient computation algorithms for recurrent neural networks. Technical ReportTechnical Report NU-CCS-89-27, Boston: Northeastern University, College ofComputer Science, 1989
[33] A. J. Robinson and F. Fallside. Theutility driven dynamic error propagation network. TR CUED/F-INFENG/TR.1,Cambridge University Engineering Department, 1987
[34] P. J. Werbos. Generalization ofbackpropagation with application to a recurrent gas market model. Neural Networks,1, 1988
[35] D. H. Ballard. Modular learning inneural networks. Proc. AAAI-87, Seattle, WA, p 279-284, 1987
[36] G. E. Hinton. Connectionist learningprocedures. Artificial Intelligence 40, 185-234, 1989.
[37] B. A. Pearlmutter. Learning statespace trajectories in recurrent neural networks. Neural Computation,1(2):263-269, 1989
[38] J. Schmidhuber. A fixed size storageO(n^3) time complexity learning algorithm for fully recurrent continuallyrunning networks. Neural Computation, 4(2):243-248, 1992.
[39] J. Martens and I. Sutskever. TrainingRecurrent Neural Networks with Hessian-Free Optimization. In Proc. ICML 2011.
[40] K. Fukushima: Artificial vision bymulti-layered neural networks: Neocognitron and its advances, Neural Networks,vol. 37, pp. 103-119, 2013. Link.
[41a] G. B. Orr, K.R. Müller, eds., NeuralNetworks: Tricks of the Trade. LNCS 1524, Springer, 1999.
[41b] G. Montavon, G. B. Orr, K. R. Müller,eds., Neural Networks: Tricks of the Trade. LNCS 7700, Springer, 2012.
[41c] Lots of additional tricks forimproving (e.g., accelerating, robustifying, simplifying, regularising) NN canbe found in the proceedings of NIPS (since 1987), IJCNN (of IEEE & INNS,since 1989), ICANN (since 1991), and other NN conferences since the late 1980s.Given the recent attention to NN, many of the old tricks may get revived.
[42] H. Baird. Document image defectmodels. IAPR Workshop, Syntactic & Structural Pattern Recognition, p 38-46,1990
[43] P. Y. Simard, D. Steinkraus, J.C.Platt. Best Practices for Convolutional Neural Networks Applied to VisualDocument Analysis. ICDAR 2003, p 958-962, 2003.
[44] I. J. Goodfellow, A. Courville, Y.Bengio. Spike-and-Slab Sparse Coding for Unsupervised Feature Discovery. Proc.ICML, 2012.
[45] D. Ciresan, U. Meier, J. Schmidhuber.Transfer Learning for Latin and Chinese Characters with Deep Neural Networks.Proc. IJCNN 2012, p 1301-1306, 2012.
[45a] D. Ciresan, J. Schmidhuber.Multi-Column Deep Neural Networks for Offline Handwritten Chinese CharacterClassification. Preprint arXiv:1309.0261, 1 Sep 2013.
[46] D. Scherer, A. Mueller, S. Behnke.Evaluation of pooling operations in convolutional architectures for objectrecognition. In Proc. ICANN 2010.
[47] J. Schmidhuber, M. C. Mozer, and D.Prelinger. Continuous history compression. In H. Hüning, S. Neuhauser, M. Raus,and W. Ritschel, editors, Proc. of Intl. Workshop on Neural Networks, RWTHAachen, pages 87-95. Augustinus, 1993.
[48] R. E. Schapire. The Strength of WeakLearnability. Machine Learning 5 (2): 197-227, 1990.
[49] M. A. Ranzato, C. Poultney, S. Chopra,Y. Lecun. Efficient learning of sparse representations with an energy-basedmodel. Proc. NIPS, 2006.
[50] M. Ranzato, F. J. Huang, Y. Boureau,Y. LeCun. Unsupervised Learning of Invariant Feature Hierarchies withApplications to Object Recognition. Proc. CVPR 2007, Minneapolis, 2007.
等共74項(xiàng)參考文獻(xiàn)
聯(lián)系客服