新的“信息瓶頸”理論幫助我們理解當(dāng)今人工智能算法成功的奧秘,也許還同時能解開人腦學(xué)習(xí)的機制。
以“深度神經(jīng)網(wǎng)絡(luò)”形式出現(xiàn)的人工智能如今學(xué)會了交談,駕駛汽車,打游戲,下圍棋,做夢,畫畫,乃至協(xié)助科學(xué)研究,但作為它們的創(chuàng)造者,人類卻始終沒有太搞清楚所謂“深度學(xué)習(xí)”算法為什么能表現(xiàn)這么好,這些學(xué)習(xí)系統(tǒng)當(dāng)初設(shè)計時沒有任何基本原則可以依循,憑借的只是從大腦架構(gòu)中抽取的模糊靈感。
如大腦一般,深度神經(jīng)網(wǎng)絡(luò)有多層神經(jīng)元。當(dāng)一個神經(jīng)元接受刺激,它會向上層的神經(jīng)元傳遞信號。深度學(xué)習(xí)的時候,網(wǎng)絡(luò)中的信號會根據(jù)需要增強或是減弱,以使系統(tǒng)更好地實現(xiàn)輸入數(shù)據(jù)到發(fā)送信號的過程。例如輸入狗的圖案像素,通過高層級的神經(jīng)輸出“狗”的概念。在深度學(xué)習(xí)網(wǎng)絡(luò)經(jīng)過數(shù)千張狗的照片樣本進行學(xué)習(xí)之后,AI可以像人一樣準(zhǔn)確識別新照片中的狗。正如人類的推理,創(chuàng)造力和其他系統(tǒng)能力稱為“智能”一樣,AI從特殊情況到學(xué)習(xí)過程中的一般概念的神奇飛躍為深層神經(jīng)網(wǎng)絡(luò)的建立提供了強大的基礎(chǔ),科學(xué)家們希望弄清楚是什么實現(xiàn)了這個對一般概念的識別過程,以及現(xiàn)實生活中人腦在多大程度上以同種方式理解現(xiàn)實。
不久前,來自耶路撒冷希伯來大學(xué)的計算機科學(xué)家和神經(jīng)科學(xué)家Naftali Tishby就其提出的機器如何進行學(xué)習(xí)的理論呈現(xiàn)了一些證據(jù)。Tishby稱,深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時會經(jīng)歷一個叫做“信息瓶頸”的過程,他和兩位合作者在1999年從純理論視角首次描述了這一過程。該理論認為,神經(jīng)網(wǎng)絡(luò)在包含大量細節(jié)且充滿噪聲的輸入數(shù)據(jù)中游刃有余,就像是將信息擠壓通過瓶頸,只保留與一般概念最相關(guān)的主要信息。Tishby和他的學(xué)生Ravid Shwartz-Ziv進行了新的計算機實驗,揭示了這種“擠壓”過程在深度學(xué)習(xí)過程中是如何發(fā)生的,至少是在他們研究的案例中存在的共性。
Tishby的研究成果令整個AI研究領(lǐng)域大為震驚。谷歌研究院的Alex Alemi表示,他已經(jīng)開發(fā)出將信息瓶頸分析應(yīng)用于大型深度神經(jīng)網(wǎng)絡(luò)的近似算法。信息瓶頸不僅能成為理解神經(jīng)網(wǎng)絡(luò)運行方式的一種理論工具,還可以作為新目標(biāo)和新網(wǎng)絡(luò)架構(gòu)的構(gòu)建工具。
一些研究者仍然對該理論是否能完全解釋深度學(xué)習(xí)的成功持懷疑態(tài)度,但紐約大學(xué)用機器學(xué)習(xí)來分析大型強子對撞機的粒子碰撞的物理學(xué)家Kyle Cranmer表示,作為一種通用的學(xué)習(xí)原理,該理論感覺是有些道理的。
在谷歌和多倫多大學(xué)工作的深度學(xué)習(xí)先驅(qū)Geoffrey Hinton向Tishby發(fā)郵件說:“我還需要多花些時間才能理解這個理論,現(xiàn)在原創(chuàng)性的想法太少了,你的理論非常有趣,它可能會解決一個真正的難題。”
Tishby認為,信息瓶頸是學(xué)習(xí)背后的基本法則,無論你是一個算法、一只家蠅、一個有意識的存在,還是自發(fā)行為的一種物理計算,學(xué)習(xí)最重要的組成部分其實是忘記。
Tishby很早便開始思考信息瓶頸的問題,那個時候深度神經(jīng)網(wǎng)絡(luò)還只是初現(xiàn)雛形,而且信息瓶頸與深度神經(jīng)網(wǎng)絡(luò)的概念均未被提出。那是二十世紀(jì)八十年代,Tishby在琢磨當(dāng)時很熱門的一個人工智能問題,即人類是如何進行語音識別的。Tishby意識到問題的關(guān)鍵在于有效性或相關(guān)度——口語最關(guān)鍵的特征是什么?我們?nèi)绾螐谋姸嗟奶匦灾腥サ魺o關(guān)的如口音、嚅囁、重音習(xí)慣等,挑選出關(guān)鍵特征從而分辨不同的詞語?通常來說,我們面對現(xiàn)實世界中的海量數(shù)據(jù)時,我們保留哪些信號?
接受采訪時,Tishby說:“歷史上信息相關(guān)度這個想法曾多次被提及,卻從未被系統(tǒng)地提出過。多年來人們一直認為信息論關(guān)注的問題不在相關(guān)度,這種誤解可以追溯到Shannon本人?!?/p>
Claude Shannon是信息理論的創(chuàng)始人,上世紀(jì)40年代,他將信息以抽象的數(shù)學(xué)概念0和1表達出來,某種程度上來說,他解放了信息研究。Shannon認為,信息不關(guān)乎語義,但Tishby認為這是不正確的,他認為,在信息論的基礎(chǔ)上,你可以精確定義“語義”。
假設(shè)X是一個復(fù)雜的數(shù)據(jù)庫,就像狗的照片里的像素一樣,Y是由這些數(shù)據(jù)體現(xiàn)的更簡單的變量,比如“狗”這個詞, 你可以任意壓縮X而不丟失預(yù)測Y的能力,將X中所有與Y“相關(guān)”的信息捕獲下來。Tishby說:“我在各種背景下思考這些問題思考了30年,最大的幸運大概是趕上了現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)變得如此重要。”
盡管深度神經(jīng)網(wǎng)絡(luò)背后的概念已經(jīng)存在了幾十年,但直到2010年代早期,隨著訓(xùn)練方案和計算機處理能力的更進,它在語音和圖像處理方面的能力才起飛。Tishby讀了物理學(xué)家David Schwab和Pankaj Mehta在2014年發(fā)表的一篇論文后,開始注意到深度學(xué)習(xí)與信息瓶頸理論的關(guān)聯(lián)。
David Schwab和Pankaj Mehta發(fā)現(xiàn),由Hinton發(fā)明的“深度信念網(wǎng)絡(luò)”(DBN),在特定的情況下,類似物理學(xué)中的重整(renormalization),也就是以粗粒度的方式獲取物理系統(tǒng)的細節(jié),從而計算其整體狀態(tài)。當(dāng)Schwab和Mehta將深度信念網(wǎng)絡(luò)應(yīng)用于一個處于“臨界點”的磁力模型時(這時該系統(tǒng)是分形,在任意尺度都自相似),他們發(fā)現(xiàn),網(wǎng)絡(luò)會自動經(jīng)過一個類似重整的過程來發(fā)現(xiàn)模型的狀態(tài)。這個現(xiàn)象十分驚人,生物物理學(xué)家Ilya Nemenman評論其表明了“在統(tǒng)計物理的背景下提取相關(guān)特征和在深度學(xué)習(xí)的背景下提取相關(guān)特征并不只是類似,完完全全就是同一件事。”
然而現(xiàn)實世界不是分形的。Cranmer說:“自然界不是單一形狀比如耳朵的疊加,而是眼球在人臉上在畫面里,所以我不會說[重整化步驟]就是深度學(xué)習(xí)在處理自然圖像時效果這么好的原因?!盩ishby的解讀稍有不同,他意識到深度學(xué)習(xí)和粗顆粒過程也許可以用一個更廣義的概念來包含。當(dāng)時正因患胰腺癌而接受化療的Tishby說:“思考科學(xué)和我早期想法可能的啟示是助我戰(zhàn)勝病魔和恢復(fù)的重要療程?!?/p>
2015年開始,Tishby和他的學(xué)生Noga Zaslavsky開始假設(shè)信息瓶頸是深度學(xué)習(xí)的實現(xiàn)過程,他們盡可能地壓縮噪音數(shù)據(jù),并最大可能地保留數(shù)據(jù)代表的主要信息。Tishby和Shwartz-Ziv使用深度神經(jīng)網(wǎng)絡(luò)的新實驗揭示了信息瓶頸發(fā)揮作用的本質(zhì)過程。在一次實驗中,研究人員通過訓(xùn)練小型神經(jīng)網(wǎng)絡(luò),使其能夠以1或0(也即“是狗”或“不是狗”)標(biāo)記輸入數(shù)據(jù),并給出其282個神經(jīng)連接隨機初始強度,然后跟蹤了網(wǎng)絡(luò)在接收3000個樣本輸入數(shù)據(jù)集后發(fā)生了什么。
在實驗中,Tishby與Shwartz-Ziv追蹤了深度神經(jīng)網(wǎng)絡(luò)中每一層的輸入數(shù)據(jù)信息量,以及各輸入數(shù)據(jù)中有多少信息得到保留。他們發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)會逐層向信息瓶頸理論界限收斂:Tishby、Pereira與Bialek的原始論文中設(shè)定了一個理論上限,其代表著系統(tǒng)能夠在進行相關(guān)度信息提取時獲得的最佳結(jié)果。在這一臨界點上,神經(jīng)網(wǎng)絡(luò)能夠盡可能壓縮輸入數(shù)據(jù),同時不會影響到其作出準(zhǔn)確預(yù)測的能力。
Tishby和Shwartz-Ziv還有一個有趣的發(fā)現(xiàn):深度學(xué)習(xí)分兩個階段進行,一個是簡短的“擬合”階段,在此期間網(wǎng)絡(luò)學(xué)習(xí)去標(biāo)記其訓(xùn)練數(shù)據(jù),另一個是較長的“壓縮”階段,在此階段它開始獲得強大的歸納能力,即標(biāo)記新的測試數(shù)據(jù)。
當(dāng)深度神經(jīng)網(wǎng)絡(luò)通過隨機梯度下降來調(diào)整其連接權(quán)重時,首先其存儲的關(guān)于輸入數(shù)據(jù)的比特數(shù)字會保持大致恒定或略微增加,與此同時連接調(diào)整以對輸入中的模型進行編碼,神經(jīng)網(wǎng)絡(luò)本身也將更好地與正確標(biāo)簽相契合。部分專家將這一階段與人類的記憶進行了比較。
然后學(xué)習(xí)過程切換到壓縮階段。網(wǎng)絡(luò)開始篩掉一些輸入數(shù)據(jù)的信息,只追蹤其中最強大的特征——包括與輸出標(biāo)簽相關(guān)度最高的特征。這是因為,在隨機梯度下降的每次迭代中,訓(xùn)練數(shù)據(jù)中或多或少的意外相關(guān)會讓網(wǎng)絡(luò)做不同的判斷,并在隨機游走中引發(fā)上下層調(diào)用以調(diào)整神經(jīng)連接的強度。這種隨機化實際上與壓縮系統(tǒng)的輸入數(shù)據(jù)表示相同。比如,當(dāng)神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)識別狗的時候,一些照片中可能有房屋的背景,一些則沒有,那么它就會選擇性忽略房屋這一特征。在Tishby和Shwartz-Ziv看來,正是這種選擇性忽略帶來了歸納的通用認識。事實上,他們的實驗結(jié)果表明,深層神經(jīng)網(wǎng)絡(luò)在壓縮階段提高了通用化能力,從而改善其在測試數(shù)據(jù)標(biāo)記方面的成效。
那么,“信息瓶頸”理論是否適用所有的深度學(xué)習(xí)?
“信息瓶頸”是否適應(yīng)所有的深度學(xué)習(xí),壓縮之外是否還有其它歸納途徑,都尚待觀察。很多人工智能的專家都十分看重Tishby的這個理論,哈佛大學(xué)人工智能研究員兼理論神經(jīng)科學(xué)家Andrew Saxe指出,某些非常大的深度神經(jīng)網(wǎng)絡(luò)似乎不需要專門的壓縮階段來歸納。相反,研究人員立足所謂“早期停止”方法進行編程,能夠有效減少訓(xùn)練時間和防止網(wǎng)絡(luò)編碼中存在過多相關(guān)性。
Tishby認為,Saxe及其同事分析的網(wǎng)絡(luò)模型與標(biāo)準(zhǔn)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)不同,但無論如何,信息瓶頸提出的理論界限決定了此類網(wǎng)絡(luò)的通用化效能要比其它方法更好。關(guān)于瓶頸是否適用于較大神經(jīng)網(wǎng)絡(luò),Tishby和Shwartz-Ziv的最新實驗部分解決了這一問題。在最新的這項實驗中,Tishby他們訓(xùn)練了擁有33萬連接的深度神經(jīng)網(wǎng)絡(luò),識別美國國家標(biāo)準(zhǔn)和技術(shù)研究所數(shù)據(jù)庫(Modified National Institute of Standards and Technology database)中60,000張手寫數(shù)字的圖像,這套數(shù)據(jù)是衡量深度學(xué)習(xí)算法性能的一個知名基準(zhǔn)??茖W(xué)家們發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)的實際表現(xiàn)與信息瓶頸的理論界限存在趨同性; 他們還發(fā)現(xiàn),相較于小型網(wǎng)絡(luò),這套大規(guī)模深度學(xué)習(xí)網(wǎng)絡(luò)中,Tishby提及的兩個階段更加清晰,他說,“我現(xiàn)在完全相信信息瓶頸屬于一種普遍現(xiàn)象?!?/p>
早期主要驅(qū)動深度學(xué)習(xí)研究者興趣的,是人類感官的信號是如何上升到意識層面的。這一課題推動了人工智能先驅(qū)們研究深層神經(jīng)網(wǎng)絡(luò)的早期興趣,即以逆向方式設(shè)計出大腦的學(xué)習(xí)規(guī)則。但時至今日,人工智能從業(yè)者在很大程度上已經(jīng)放棄了這條鉆研之路,轉(zhuǎn)而開始利用其它途徑小幅提升效能表現(xiàn)。盡管如此,隨著智能機器所取得的成就日益升級——甚至讓某些人開始擔(dān)憂人工智能終有一天將構(gòu)成嚴(yán)重威脅,許多研究人員希望此類探索能夠揭示出關(guān)于機器學(xué)習(xí)與智能實現(xiàn)的一般性結(jié)論。
紐約大學(xué)心理學(xué)和數(shù)據(jù)科學(xué)助理教授Brenden Lake的研究主要專注于人類學(xué)習(xí)和機器學(xué)習(xí)的異同點,他評價Tishby的發(fā)現(xiàn)是“打開神經(jīng)網(wǎng)絡(luò)黑匣的重要一步”,但他強調(diào),大腦是一個更大且更神秘的黑盒子。成年人的大腦,860億個神經(jīng)元之間存在數(shù)百萬億個連接點,一定是存在某些技巧來增強歸納能力的,不僅僅是嬰兒時期發(fā)生的基本圖像和聲音識別過程,這在很多方面可能與深度學(xué)習(xí)類似。
Lake說,Tishby觀察到的擬合和壓縮階段,似乎不能對應(yīng)到兒童學(xué)習(xí)手寫字符的過程中。人類孩子學(xué)習(xí)認字寫字,并不需要看數(shù)千個字符并在比較長的時間中壓縮其在思維中的呈現(xiàn)。事實上,人類兒童可以從單獨一個樣本中學(xué)習(xí)。Lake和其同事們的模型表明,大腦能夠?qū)⑿伦帜附鈽?gòu)成一系列筆畫,即立足原有認知建立字母概念。Lake解釋說:“我不會把信件上的圖像想象成一個個像素,并像標(biāo)準(zhǔn)機器學(xué)習(xí)算法那樣對這些特征加以映射。我的目標(biāo)在于建立一套更為簡單的因果模型,”也就是實現(xiàn)一條更短的歸納路徑。
這種想法可能為人工智能社群提供一些指導(dǎo),進而推動兩個領(lǐng)域之間的交互往來。Tishby認為,他的信息瓶頸理論最終將在兩個學(xué)科中都發(fā)揮作用,但在人類學(xué)習(xí)中可能比在AI領(lǐng)域略遜一籌。從理論層面可以得出的直接見解,能夠幫助人們更好地理解哪些問題類型能夠為神經(jīng)網(wǎng)絡(luò)業(yè)解決,而哪些需要人工介入。Tishby表示:“其對于可學(xué)習(xí)的問題作出了完整的描述。這些都屬于‘我可以消除輸入數(shù)據(jù)中的干擾信息而不損害分類能力’的問題。這一點體現(xiàn)在自然視覺與語音識別當(dāng)中,也同樣屬于我們的大腦能夠解決的實際任務(wù)?!?/p>
同時,真實的與人工的神經(jīng)網(wǎng)絡(luò)也都面臨著同樣的挑戰(zhàn),即每個問題的細節(jié)與細微的差別都可能影響最終結(jié)果。舉個例子,大多數(shù)人無法迅速地進行兩個較大的數(shù)的乘法心算。Tishby指出,“這類問題長期困擾著我們,邏輯問題對某一變量的變化非常敏感。分類、離散乃至密碼問題皆是如此。我認為深度學(xué)習(xí)無法幫助我們破解密碼?!?/p>
歸納——即對信息瓶頸進行遍歷,意味著丟棄部分細節(jié)信息。這對心算不太友好,但此類運算顯然不是大腦的主要任務(wù)。大腦最主要的工作在于幫助我們從人群中尋找熟悉的面孔、認識混亂中的秩序,并發(fā)現(xiàn)嘈雜世界中的其它顯著信號。
正如Naftali Tishby所說,學(xué)習(xí)中最重要的,實際上是遺忘。
2. https://baijiahao.baidu.com/s?id=1589929640
650410321&wfr=spider&for=pc