免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
【NLP】 NLP中應(yīng)用最廣泛的特征抽取模型-LSTM

本篇介紹在NLP中應(yīng)用最為廣泛的特征抽取模型LSTM。詳細(xì)介紹LSTM提出的由來及其模型結(jié)構(gòu),并由此分析了LSTM能夠解決RNN不能夠?qū)﹂L序列進(jìn)行處理和訓(xùn)練的原因。

作者&編輯 | 小Dream哥

上周介紹了RNN模型結(jié)構(gòu)及其反向傳播和正向傳播機(jī)制。文末提到了RNN會(huì)出現(xiàn)梯度消失等問題,使得訓(xùn)練變得困難,但因?yàn)槠拗疲瑳]有介紹其具體的原因,后面小Dream哥在有三AI-NLP知識(shí)星球里詳細(xì)介紹了這一方面的內(nèi)容,感興趣的同學(xué)可以移步如下鏈接:

RNN梯度消失原因詳解:https://t.zsxq.com/7qzRBeE

那好,既然RNN有這樣的問題,該怎么解決呢?我們今天的主角LSTM(Long Short-Term Memory)就該登場(chǎng)了。

1 LSTM的提出

在LSTM提出之前,RNN的訓(xùn)練基于BPTT(Back-Propagation Through Time)或者RTRL(Real Time Recurrent Learning)。通過這兩種方式對(duì)RNN進(jìn)行訓(xùn)練時(shí),當(dāng)誤差在序列內(nèi)進(jìn)行傳播時(shí),會(huì)出現(xiàn)梯度消失或者爆炸的情況。

當(dāng)出現(xiàn)梯度消失時(shí),在訓(xùn)練時(shí),權(quán)重會(huì)出現(xiàn)搖擺和震蕩;梯度消失使得訓(xùn)練會(huì)耗費(fèi)大量的時(shí)間,甚至干脆就停滯。

基于這樣的情況,兩位大神Sepp Hochreiter和Jürgen Schmidhuber提出了LSTM:

Hochreiter, S, and J. Schmidhuber. "Long short-term memory." Neural Computation 9.8(1997):1735-1780.

我們先回顧一下RNN的誤差傳遞公式:

一個(gè)很簡(jiǎn)單的想法,如果誤差在不同時(shí)刻相互連接的RNN單元之間,傳遞的是一個(gè)常量,即令下式是一個(gè)常量。其中f為激活函數(shù)。

這樣,梯度消失或者爆炸的問題是不是就可以解決了?

因此,Sepp Hochreiter和Jürgen Schmidhuber提出了CEC(Constant Error Carrousel),這也是LSTM的核心特點(diǎn)。

所謂CEC,就是令

Sepp Hochreiter和Jürgen Schmidhuber指出可以選擇恒等函數(shù)作為激活函數(shù),并且令w_j,j=1便可滿足上式,保證梯度在誤差隨時(shí)間傳遞之后不至于出現(xiàn)梯度消失或者梯度爆炸。這個(gè)想法很簡(jiǎn)單和樸素,因此Sepp Hochreiter和Jürgen Schmidhuber稱之為Naive Approach。

但是對(duì)RNN僅僅是做這樣的修改也還會(huì)有一些問題,不管是輸入權(quán)重還是輸出權(quán)重,在更新都既要考慮“記住”前面時(shí)刻的內(nèi)容;又要考慮不要讓前面時(shí)刻的內(nèi)容干擾到當(dāng)前時(shí)刻的輸入,這種矛盾會(huì)使訓(xùn)練變得困難。因此兩位大神針對(duì)這個(gè)問題,設(shè)計(jì)新的模型結(jié)構(gòu),下面介紹LSTM的模型結(jié)構(gòu)。

2 LSTM的結(jié)構(gòu)

現(xiàn)在網(wǎng)絡(luò)上講LSTM結(jié)構(gòu)的文章,實(shí)在是太多了,小Dream哥本來是不想再講的。出于文章完整性和系統(tǒng)性的考慮,這里還是將LSTM的模型結(jié)構(gòu)和前向傳播過程列一下。

可以看到LSTM的結(jié)構(gòu)要比RNN的復(fù)雜的多,其主要是增加了細(xì)胞狀態(tài)和3個(gè)門結(jié)構(gòu)??瓷先ケ容^復(fù)雜,同學(xué)們先不要著急,下面我們一步一步來講一講LSTM的結(jié)構(gòu)。

如上圖,細(xì)胞狀態(tài)C_t橫向穿過,看起來像一條傳送帶,只是經(jīng)過了少量的線性變化,因此狀態(tài)容易保持下來。

上圖是LSTM的第一個(gè)門,遺忘門。這個(gè)門根據(jù)輸入信息(h_t-1和x_t)決定要忘記細(xì)胞狀態(tài)C_t-1的哪些部分。

接下來是信息更新門,決定了細(xì)胞狀態(tài)C_t,它分為兩個(gè)部分。

第一步,根據(jù)輸入信息,用tanh產(chǎn)生該時(shí)刻需要更新到細(xì)胞狀態(tài)中的內(nèi)容;用sigmoid函數(shù)產(chǎn)生更新的比例。

第二步,將需要更新的內(nèi)容更新到細(xì)胞狀態(tài)中去,生成C_t。

最后,是輸出門。根據(jù)新的細(xì)胞狀態(tài)和輸入信息,產(chǎn)生新的輸出h_t。

上面大致介紹了LSTM的結(jié)構(gòu),及其前向傳播過程,圖片來自:

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

這里先總結(jié)一下,LSTM在原本RNN的基礎(chǔ)上增加了CEC的內(nèi)容,CEC保證了誤差以常數(shù)的形式在網(wǎng)絡(luò)中流動(dòng),這部分通過引入細(xì)胞狀態(tài)C來體現(xiàn)。并且,為了解決輸入和輸出在參數(shù)更新時(shí)的矛盾,在CEC的基礎(chǔ)上添加3個(gè)門使得模型變成非線性的,就可以調(diào)整不同時(shí)序的輸出對(duì)模型后續(xù)動(dòng)作的影響。

3 LSTM局限性

LSTM提出之后,在語音處理、機(jī)器翻譯、實(shí)體識(shí)別等NLP領(lǐng)域迅速取得很好的效果,在工業(yè)界獲得很好的應(yīng)用。但其也有一定的局限性,下面我們做一下介紹。

(1) 相較于RNN,LSTM的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜很多,因?yàn)橐肓烁嗟臋?quán)重參數(shù),這增加了計(jì)算的復(fù)雜度。

(2) 不管是RNN,還是它的衍生LSTM等,都需要隨著時(shí)間推移進(jìn)行順序處理。因此對(duì)于輸入序列的處理效率很低。

(3) 特征提取能力不強(qiáng),t時(shí)刻的輸入不能提取到t時(shí)刻之后序列信息的內(nèi)容。這點(diǎn)在transformer出來之后,體現(xiàn)的尤為明顯。

總結(jié)

上文詳細(xì)講述了LSTM提出的由來,大致介紹了其模型結(jié)構(gòu),由此分析了其能夠解決RNN無法訓(xùn)練的問題。最后,介紹了LSTM的局限性。

LSTM是一個(gè)應(yīng)用廣泛的模型,但隨著Attention機(jī)制的提出,transfomer開始作為一種更為強(qiáng)大的特征抽取模型,開始橫掃各大NLP任務(wù)的榜單。不出意外,transformer將會(huì)取代RNN及其衍生(LSTM GRU)模型,成為NLP中,最受歡迎、最為強(qiáng)大的特征抽取模型。

下期預(yù)告:Attention及transformer介紹

知識(shí)星球推薦

知識(shí)星球主要有以下內(nèi)容:

(1) 聊天機(jī)器人。考慮到聊天機(jī)器人是一個(gè)非常復(fù)雜的NLP應(yīng)用場(chǎng)景,幾乎涵蓋了所有的NLP任務(wù)及應(yīng)用。所以小Dream哥計(jì)劃以聊天機(jī)器人作為切入點(diǎn),通過介紹聊天機(jī)器人的原理和實(shí)踐,逐步系統(tǒng)的更新到大部分NLP的知識(shí),會(huì)包括語義匹配,文本分類,意圖識(shí)別,語義匹配命名實(shí)體識(shí)別、對(duì)話管理以及分詞等。

(2) 知識(shí)圖譜。知識(shí)圖譜對(duì)于NLP各項(xiàng)任務(wù)效果好壞的重要性,就好比基礎(chǔ)知識(shí)對(duì)于一個(gè)學(xué)生成績好壞的重要性。他是NLP最重要的基礎(chǔ)設(shè)施,目前各大公司都在著力打造知識(shí)圖譜,作為一個(gè)NLP工程師,必須要熟悉和了解他。

(3) NLP預(yù)訓(xùn)練模型?;诤A繑?shù)據(jù),進(jìn)行超大規(guī)模網(wǎng)絡(luò)的無監(jiān)督預(yù)訓(xùn)練。具體的任務(wù)再通過少量的樣本進(jìn)行Fine-Tune。這樣模式是目前NLP領(lǐng)域最火熱的模式,很有可能引領(lǐng)NLP進(jìn)入一個(gè)全新發(fā)展高度。你怎么不深入的了解?

 

 
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
堪比當(dāng)年的LSTM,Transformer引燃機(jī)器學(xué)習(xí)圈:它是萬能的
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
人工智能300年!LSTM之父萬字長文:詳解現(xiàn)代AI和深度學(xué)習(xí)發(fā)展史
遞歸神經(jīng)網(wǎng)絡(luò)之父jürgen schmidhuber講述現(xiàn)代人工智能簡(jiǎn)史
直觀比較四種NLP模型 - 神經(jīng)網(wǎng)絡(luò),RNN,CNN,LSTM
對(duì)于自然語言處理,你需要了解3種神經(jīng)網(wǎng)絡(luò)架構(gòu)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服