神經(jīng)網(wǎng)絡是機器學習算法中最流行且最強大的算法。在定量金融中,神經(jīng)網(wǎng)絡通常用于時間序列預測、構(gòu)建專有指標、算法交易、證券分類和信用風險建模,它也被用來構(gòu)建隨機過程模型和價格衍生工具。盡管它很有用,但神經(jīng)網(wǎng)絡往往因為它們的性能是“不可靠的”而聲譽不佳。在我看來,這可能是由于對神經(jīng)網(wǎng)絡工作機制誤解所致。本系列將討論了一些常見的對于神經(jīng)網(wǎng)絡的誤解。本文先介紹兩個錯誤的理解:它是人腦的模型,第二它是統(tǒng)計學的一種弱形式。
人類的大腦是我們這個時代最偉大的奧秘,科學家們尚未就其工作原理達成共識。目前有兩種大腦理論:即祖母細胞理論和分布式表征理論。第一個理論認為,單個神經(jīng)元具有很高的處理信息能力,并且能夠表達復雜的概念。第二種理論認為,神經(jīng)元更簡單,復雜對象的表示分布在許多神經(jīng)元中。人工神經(jīng)網(wǎng)絡貌似是受到第二種理論的啟發(fā)。
我相信目前這一代神經(jīng)網(wǎng)絡不具備感知能力(與智能不同)的一個原因是因為生物神經(jīng)元比人工神經(jīng)元復雜得多。
大腦中的單個神經(jīng)元是一臺令人難以置信的復雜機器,即使在今天我們也不明白。而神經(jīng)網(wǎng)絡中的單個“神經(jīng)元”是一個非常簡單的數(shù)學函數(shù),只能捕捉生物神經(jīng)元復雜性的一小部分。所以說神經(jīng)網(wǎng)絡模仿大腦,這在思路上是真的,但真正的人造神經(jīng)網(wǎng)絡與生物大腦沒有什么相似之處——?Andrew Ng
大腦和神經(jīng)網(wǎng)絡之間的另一大區(qū)別在于規(guī)模和組織。人腦比神經(jīng)網(wǎng)絡包含更多的神經(jīng)元和突觸,他們有自我組織能力和適應性。相比之下,神經(jīng)網(wǎng)絡是根據(jù)架構(gòu)來組織的。神經(jīng)網(wǎng)絡不像大腦那樣是“自組織”的,與有序網(wǎng)絡相比,神經(jīng)網(wǎng)絡更接近圖形。
由大腦成像技術(shù)發(fā)展而來的一些非常有趣的大腦視圖。
先比之下,我們只能說神經(jīng)網(wǎng)絡受大腦啟發(fā),就像北京的奧林匹克體育場受到鳥巢的啟發(fā)。這并不意味著奧林匹克體育場就是鳥巢,它只意味著在體育場的設計中存在一些鳥巢的元素。換句話說,大腦的某些元素存在于神經(jīng)網(wǎng)絡的設計中,但它們比我們想像的要少得多。
事實上,神經(jīng)網(wǎng)絡與統(tǒng)計方法(如曲線擬合和回歸分析)更密切相關(guān)。在定量金融的背景下,我認為重要的是要記憶,因為雖然說“某種東西受到大腦的啟發(fā)”可能聽起來很酷,但這種說法可能會導致不切實際的期望或恐懼。欲了解更多信息,請參閱這篇文章。
曲線擬合也稱為函數(shù)逼近,神經(jīng)網(wǎng)絡常常用來逼近復雜的數(shù)學函數(shù)。
神經(jīng)網(wǎng)絡由相互連接的節(jié)點層組成,單個節(jié)點被稱為感知器,類似于多重線性回歸。在多層感知器中(MLP),感知器被排列成層并且層與層彼此連接。在MLP中,有三種類型的層:即輸入層、隱藏層和輸出層。輸入層接收輸入模式,輸出層輸入映射的分類或輸出信號的列表。隱藏層調(diào)整這些輸入的權(quán)重,直到神經(jīng)網(wǎng)絡的誤差最小化。
感知器可以接收由n個屬性組成的輸入向量z=(z1,z2,...Zn)。這個輸入向量稱為輸入模式,這些輸入根據(jù)該感知器的權(quán)向量加權(quán):v=(v1,v2...,vn)。在多元線性回歸的背景下,這些可以被認為是回歸系數(shù)或貝塔值。感知器的凈輸入信號net通常是輸入模式與其權(quán)重的總和乘積,其使用和積神經(jīng)元網(wǎng)絡被稱為求和單元。
net=∑ni?1zivi
凈輸入信號減去偏差θ然后饋送到某個激活函數(shù)f()。激活函數(shù)通常是在(0,1)或(-1,1)之間有界的單調(diào)遞增函數(shù)(下文將進行進一步討論),另外激活函數(shù)可以是線性或非線性的。
下面顯示了一些神經(jīng)網(wǎng)絡中常用的激活函數(shù):
最簡單的神經(jīng)網(wǎng)絡就是只有一個將輸入映射到輸出的神經(jīng)元。給定一個模式p,這個網(wǎng)絡的目標是使輸出信號op的誤差相對于某些給定訓練模式tp的某個已知目標值的誤差最小化。例如,如果神經(jīng)元應該將p映射到-1,但其映射到了1,那么神經(jīng)元的誤差(如平方和距離測量)將為4。
如上圖所示,感知器被組織成層。第一層輸入感知器,從訓練集PT中接收模式p。最后一層是映射到這些模式的預期輸出。
隱藏層是接收另一層的輸出作為輸入,并且輸出形成輸入到另一層的隱藏層。那么,這些隱藏層是做什么的?其中一種技術(shù)解釋是它們提取輸入數(shù)據(jù)中的顯著特征,這些特征對輸出具有預測能力。這被稱為特征提取,并以某種方式執(zhí)行與統(tǒng)計技術(shù)(如主成分分析)類似的功能。
深度神經(jīng)網(wǎng)絡具有大量的隱藏層,并且能夠從數(shù)據(jù)中提取更多的特征。最近,深度神經(jīng)網(wǎng)絡對于圖像識別問題表現(xiàn)得特別好。下面顯示了圖像識別環(huán)境下的特征提取示例:
我認為使用深度神經(jīng)網(wǎng)絡所面臨的問題之一(除了過度擬合之外)是神經(jīng)網(wǎng)絡的輸入幾乎總是被大量預處理。
如前所述,神經(jīng)網(wǎng)絡的目標是最小化一些誤差測量值ε。最常見的誤差指標是平方和誤差,盡管這一指標對異常值很敏感。
考慮到網(wǎng)絡的目標是最小化ε,我們可以使用優(yōu)化算法來調(diào)整神經(jīng)網(wǎng)絡中的權(quán)重。神經(jīng)網(wǎng)絡最常見的學習算法是梯度下降算法,盡管可以使用其他更好的優(yōu)化算法。梯度下降的工作方式是計算誤差相對于神經(jīng)網(wǎng)絡中每個層的權(quán)重的偏導數(shù),然后向與梯度相反的方向移動(因為我們想要最小化神經(jīng)網(wǎng)絡的誤差)。通過最小化誤差,我們可以最大化神經(jīng)網(wǎng)絡樣本的性能。
在學術(shù)界,一些統(tǒng)計學家認為,神經(jīng)網(wǎng)絡是一個“懶惰分析師的弱統(tǒng)計”方式。但我認為神經(jīng)網(wǎng)絡代表了數(shù)百年統(tǒng)計技術(shù)的抽象,對于神經(jīng)網(wǎng)絡背后統(tǒng)計數(shù)據(jù)的精彩解釋,我建議閱讀這篇文章。我同意一些從業(yè)者喜歡將神經(jīng)網(wǎng)絡視為一個“黑匣子”,可以在不花時間理解問題本質(zhì)以及神經(jīng)網(wǎng)絡是否合適的情況下去研究神經(jīng)網(wǎng)絡。在對于金融市場來說,我認為神經(jīng)網(wǎng)絡并不能完美的展示它的能力。因為市場是動態(tài)的,而神經(jīng)網(wǎng)絡假定輸入模式的分布隨著時間的推移是保持不變。