全文內(nèi)容總共分為六大部分:線型回歸、softmax 回歸、多層神經(jīng)網(wǎng)絡(luò)、模型選擇、必知技巧、思維導(dǎo)圖。
預(yù)測(cè)氣溫、預(yù)測(cè)銷售額、預(yù)測(cè)商品價(jià)格等
模型:權(quán)重,偏差
模型訓(xùn)練:feed 數(shù)據(jù)學(xué)習(xí)模型參數(shù)值,使得誤差盡可能小
訓(xùn)練集、測(cè)試集、驗(yàn)證集、樣本、標(biāo)簽、特征
損失函數(shù):回歸常用平方誤差函數(shù);
優(yōu)化算法:小批量隨機(jī)梯度下降(每次選一小批樣本訓(xùn)練參數(shù)),每批樣本大小叫做 batch size
學(xué)習(xí)率:正數(shù)
超參數(shù):不是通過訓(xùn)練學(xué)出的,如學(xué)習(xí)率,批量大小
網(wǎng)絡(luò)輸出層只有一個(gè)神經(jīng)元節(jié)點(diǎn)
全連接層:輸出層中的神經(jīng)元和輸入層中各個(gè)輸入完全連接
基本要素:模型、訓(xùn)練數(shù)據(jù)、損失函數(shù)和優(yōu)化算法
圖像分類、垃圾郵件識(shí)別、交易詐騙識(shí)別、惡意軟件識(shí)別等
softmax運(yùn)算符將輸出值變換成值為正,且和為1的概率分布
交叉熵?fù)p失函數(shù):更適合衡量?jī)蓚€(gè)概率分布差異
softmax 回歸是一個(gè)單層神經(jīng)網(wǎng)絡(luò),輸出個(gè)數(shù)等于類別個(gè)數(shù)
激活函數(shù):一種非線性函數(shù)
ReLU函數(shù):只保留正數(shù)元素,負(fù)數(shù)元素清零
sigmoid函數(shù):將元素值變換到0到1
tanh(雙曲正切):元素值變換到-1到1
模型在訓(xùn)練集上更準(zhǔn)確時(shí),不代表在測(cè)試集上就一定準(zhǔn)確
訓(xùn)練誤差:訓(xùn)練數(shù)據(jù)集上表現(xiàn)出的誤差;泛化誤差:模型在測(cè)試集上表現(xiàn)的誤差期望
機(jī)器學(xué)習(xí)需要關(guān)注降低泛化誤差
模型選擇:評(píng)估若干候選模型的表現(xiàn)并從中選擇模型
候選模型可以是有著不同超參數(shù)的同類模型
驗(yàn)證集:預(yù)留訓(xùn)練和測(cè)試集之外的數(shù)據(jù); 折交叉驗(yàn)證:訓(xùn)練集分成份,共次輪詢訓(xùn)練集
欠擬合:模型無法得到較低的訓(xùn)練誤差
過擬合:模型的訓(xùn)練誤差遠(yuǎn)小于測(cè)試集上的誤差
模型復(fù)雜度:低,容易欠擬合;高,容易過擬合
數(shù)據(jù)集大小:訓(xùn)練樣本少,尤其少于學(xué)習(xí)參數(shù)數(shù)時(shí),容易過擬合;層數(shù)多時(shí)盡量數(shù)據(jù)大些
過擬合解決措施之一:權(quán)重衰減,常用L2正則
L2懲罰系數(shù)越大,懲罰項(xiàng)在損失函數(shù)中比重就越大
丟棄法(dropout):一定概率丟棄神經(jīng)元
正向傳播:沿著輸入層到輸出層的順序,依次計(jì)算并存儲(chǔ)模型的中間變量
反向傳播:從輸出層到輸入層參數(shù)調(diào)整過程
訓(xùn)練深度學(xué)習(xí)模型時(shí),正向傳播和反向傳播間相互依賴
數(shù)值穩(wěn)定性的問題:衰減和爆炸
層數(shù)較多時(shí)容易暴露,如每層都是一個(gè)神經(jīng)元的30層網(wǎng)絡(luò),如果權(quán)重參數(shù)為0.2,會(huì)出現(xiàn)衰減;如果權(quán)重參數(shù)為2,會(huì)出現(xiàn)爆炸
權(quán)重參數(shù)初始化方法:正態(tài)分布的隨機(jī)初始化;Xavier 隨機(jī)初始化。
以上1-5節(jié)的完整思維導(dǎo)圖,制作出來方便大家更好學(xué)習(xí):
喜歡的朋友可以轉(zhuǎn)發(fā)關(guān)注女神一波哈,希望能多多支持女神!
聯(lián)系客服