【導(dǎo)讀】:隨著人工智能的再次興起,尤其是深度學(xué)習(xí)的成功應(yīng)用,自然語言處理(NLP)也逐漸受到了科研研所、高校以及相關(guān)企業(yè)的關(guān)注,也成為了人工智能重點(diǎn)研究的課題之一。NLP 的主要目標(biāo)是解決人機(jī)對話中的各種困難,使得計(jì)算機(jī)能夠理解人類的語言,讓用戶能用自己的語言與計(jì)算機(jī)溝通。
最近幾年 NLP 的高速發(fā)展,其相關(guān)技術(shù)和應(yīng)用都取得輝煌的成績,清華大學(xué)的 Aminer 團(tuán)隊(duì)在 2018 年 7 月發(fā)布了 NLP 研究報(bào)告,從 NLP 的概念、技術(shù)、人才、應(yīng)用以及發(fā)展趨勢五個方面總結(jié) NLP 的發(fā)展歷程和所取得成績。那么,在過去這一年中,NLP 取得了哪些發(fā)展呢?
提到 2018 年自然語言處理(NLP)的成就,BERT 將會首先映入眼簾,其性能橫掃了多種不同的 NLP 測試,被譽(yù)為 NLP 新時代的開端。然而,2018 年并不是只有 BERT,無論是學(xué)術(shù)研究還是在企業(yè)應(yīng)用,同樣還有許多激動人心的想法和讓人眼前一亮的應(yīng)用。本文是 AI 前線年終盤點(diǎn)自然語言處理專題系列文章之技術(shù)與應(yīng)用篇,我們將逐一盤點(diǎn)和總結(jié)這些想法和應(yīng)用。
更多優(yōu)質(zhì)內(nèi)容請關(guān)注「AI 應(yīng)用前沿」
學(xué)術(shù)研究是技術(shù)發(fā)展的先行者,我們首先來看看 2018 年 NLP 學(xué)術(shù)研究都有哪些令人激動的想法。愛爾蘭的 NLP 研究科學(xué)家 Sebastian Ruder 盤點(diǎn)了 2018 年 NLP 領(lǐng)域的十大想法,在保留其原文的框架基礎(chǔ)上,我們對內(nèi)容進(jìn)行了重新編輯和補(bǔ)充。
1) 無監(jiān)督機(jī)器翻譯(Unsupervised MT)
EMNLP 2018 上,Guillaume Lample 等人提煉出了無監(jiān)督機(jī)器翻譯的三個關(guān)鍵方法:良好的初始化、語言建模和逆向任務(wù)建模 (通過反向翻譯),大幅改進(jìn)了之前的研究方法,無監(jiān)督機(jī)器翻譯獲得了重大進(jìn)展。這三個方法在其他無監(jiān)督場景中也有用。逆向任務(wù)建??梢栽鰪?qiáng)循環(huán)一致性,這種一致性已經(jīng)在不同的方法中得到應(yīng)用,在 CycleGAN 中最為突出。
2) 預(yù)訓(xùn)練語言模型(Pretrained language models)
這是 NLP 領(lǐng)域今年最重要的發(fā)展趨勢。有很多令人難忘的方法:ELMo、ULMFiT、OpenAI Transformer 和 BERT。這里主要介紹 ELMo 和 BERT 兩個模型。ELMo(語言模型的詞嵌入):出自艾倫人工智能研究院和華盛頓大學(xué)的論文“Deep contextualized word representations”,NLP 頂會 NAACL HLT 2018 的優(yōu)秀論文之一,受到了廣泛好評。ELMo 用語言模型來獲取詞嵌入,同時也把詞語所處句、段的語境考慮進(jìn)來。這種語境化的詞語表示,能夠體現(xiàn)一個詞在語法語義用法上的復(fù)雜特征,也能體現(xiàn)它在不同語境下如何變化。除了實(shí)證結(jié)果令人印象深刻之外,最引人注目的是論文的分析部分,它剔除了各種因素的影響,并對在表征中捕獲的信息進(jìn)行了分析。詞義消歧分析執(zhí)行得很好。兩者都表明了,語言模型提供的詞義消歧和詞性標(biāo)注表現(xiàn)都接近最先進(jìn)的水平。
BERT: 它由 Google 推出,全稱是 Bidirectional Encoder Representations from Transformers,意思是來自 Transformer 的雙向編碼器表示,也是一種預(yù)訓(xùn)練語言表示的方法。BERT 模型沿襲了 GPT 模型的結(jié)構(gòu),采用 Transfomer 的編碼器作為主體模型結(jié)構(gòu)。Transformer 舍棄了 RNN 的循環(huán)式網(wǎng)絡(luò)結(jié)構(gòu),完全基于注意力機(jī)制來對一段文本進(jìn)行建模。模型的主要創(chuàng)新點(diǎn)都在 pre-train 方法上,即用了 Masked LM 和 Next Sentence Prediction 兩種方法分別捕捉詞語和句子級別的 representation。從性能上來看,沒有哪個模型能與 BERT 一戰(zhàn)。目前,BERT 在 11 項(xiàng) NLP 任務(wù)上都取得了最頂尖成績。
3) 常識推理數(shù)據(jù)集(Common sense inference datasets)
將常識融入到模型中,是 NLP 最重要的前進(jìn)方向之一。然而,創(chuàng)建一個好的數(shù)據(jù)集并不容易,即便是流行的數(shù)據(jù)集,也存在很大的偏差。而來自于華盛頓大學(xué) Event2Mind 和 SWAG 試圖教模型一些常識,雖然 SWAG 很快被 BERT 超越了,但依然是一個很重要的想法。例如首個視覺 QA 數(shù)據(jù)集“Visual Commonsense Reasoning”,每個答案都包含對答案的解釋,且每個問題需要復(fù)雜的推理。創(chuàng)作者想盡辦法解決可能存在的偏差,確保每個答案的正確率為 25% (每個答案在整個數(shù)據(jù)集中出現(xiàn) 4 次,錯誤答案出現(xiàn) 3 次,正確答案出現(xiàn) 1 次)。在創(chuàng)建數(shù)據(jù)集的過程中,需要使用計(jì)算相關(guān)性和相似性的模型來解決約束優(yōu)化問題,以防止可能出現(xiàn)的偏差會成為一個常識。
4) 元學(xué)習(xí)(Meta-learning)
元學(xué)習(xí)在少樣本學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和機(jī)器人學(xué)習(xí)中得到了廣泛的應(yīng)用,最突出的例子是與模型無關(guān)的元學(xué)習(xí) ( MAML )。但在 NLP 領(lǐng)域,元學(xué)習(xí)很少有成功的應(yīng)用。其實(shí)在解決樣本數(shù)量有限的問題上,元學(xué)習(xí)非常有用,尤其是將多語言遷移學(xué)習(xí) (如多語言 BERT )、無監(jiān)督學(xué)習(xí)和元學(xué)習(xí)相結(jié)合起來的時候,這是一個非常有希望取得進(jìn)展的方向。發(fā)表于 EMNLP 2018 上的論文“Meta-Learning for Low-Resource Neural Machine Translation”就使用了 MAML,即將每一種“語言對 ”都視為單獨(dú)的元任務(wù)。在 NLP 領(lǐng)域,用來適應(yīng)資源較少的語言,可能是元學(xué)習(xí)的最佳用武之地了。
5) 穩(wěn)健的無監(jiān)督方法(Robust unsupervised methods)
在遷移學(xué)習(xí)中,源和目標(biāo)設(shè)置之間的差異 (例如,領(lǐng)域適應(yīng)、持續(xù)學(xué)習(xí)和多任務(wù)學(xué)習(xí)中的任務(wù)) 會導(dǎo)致模型的效果變差或崩潰。即當(dāng)語言不相似時,無監(jiān)督的跨語言單詞嵌入方法會導(dǎo)致模型崩潰。面對這種變化時,如何讓模型更加穩(wěn)健是很重要的。ACL 2018 的論文“A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings” 利用他們對問題的理解來設(shè)計(jì)更好的初始化,而不是將元學(xué)習(xí)應(yīng)用到初始化上。比較亮眼的是,他們將兩種語言中分布相似的單詞配對。這一個例子證明了可以利用領(lǐng)域?qū)I(yè)知識和分析見解使模型更加穩(wěn)健。
6) 理解表征(Understanding representations)
為了更好地理解表征,研究者已經(jīng)做了很多努力。特別是“診斷分類器”(diagnostic classifiers)(旨在測量學(xué)習(xí)到的表征能否預(yù)測某些屬性的任務(wù)) 已經(jīng)變得非常普遍了。在理解表征方面,EMNLP 2018 上論文“Dissecting Contextual Word Embeddings: Architecture and Representation” 精心設(shè)計(jì)的無監(jiān)督和有監(jiān)督的任務(wù)中對單詞和跨度表征進(jìn)行了廣泛的研究學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明預(yù)訓(xùn)練表征學(xué)習(xí)任務(wù)在較低層和較高層比較長的語義范圍中,與低層次的形態(tài)與句法任務(wù)相關(guān)。這實(shí)際上表明,預(yù)訓(xùn)練語言模型,確實(shí)捕捉到了與在 ImageNet 上預(yù)處理的計(jì)算機(jī)視覺模型相似的特性。
7) 巧妙的輔助任務(wù)(Clever auxiliary tasks)
在許多場景中,越來越多的學(xué)者使用多任務(wù)學(xué)習(xí)和精心選擇的輔助任務(wù)。對于一項(xiàng)好的輔助任務(wù)來說,數(shù)據(jù)必須易于訪問。一個最突出的例子是 BERT,它使用下一句預(yù)測 (在 Skip-thoughts 中使用過,最近在 Quick-thoughts 使用) 取得了很大的效果。除 BERT 外,發(fā)表于 EMNLP 2018 上論文“Syntactic Scaffolds for Semantic Structures” 提出了一個輔助任務(wù),通過預(yù)測每個跨度對應(yīng)的句法成分類型,來預(yù)處理跨度表征。盡管從概念上來說很簡單,但是輔助任務(wù)在推動跨度預(yù)測任務(wù)出現(xiàn)大幅度改進(jìn)方面很重要,例如語義角色標(biāo)注和共指解析。這篇論文證明了,在目標(biāo)任務(wù)所要求的水平上學(xué)習(xí)專門的表征非常有用。而論文“pair2vec: Compositional Word-Pair Embeddings for Cross-Sentence Inference (arXiv 2018)” 基于相似的脈絡(luò),通過最大化“詞對”與其語境之間的點(diǎn)互信息來預(yù)訓(xùn)練“詞對”表征。 這激勵了模型去學(xué)習(xí)更多有意義的“詞對”表征,而不是更通用的目標(biāo),比如語言建模。對于需要跨句子推理的任務(wù),如 SQuAD MultiNLI,預(yù)訓(xùn)練表征是有效的。將來或許可以看到更多的預(yù)訓(xùn)練任務(wù),能夠捕捉特別適合于某些下游任務(wù)的屬性,并與更多通用任務(wù) (如語言建模) 相輔相成。
8) 半監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)結(jié)合(Combining semi-supervised learning with transfer learning)
實(shí)際上,預(yù)訓(xùn)練表征與許多半監(jiān)督學(xué)習(xí)表征的方法是互補(bǔ)的。已經(jīng)有學(xué)者探索了自我標(biāo)注的方法,這是一種特殊類型的半監(jiān)督學(xué)習(xí)。論文“Semi-Supervised Sequence Modeling with Cross-View Training (EMNLP 2018)” 展示了一個在概念上非常簡單的想法,確保對不同輸入觀點(diǎn)的預(yù)測與主模型的預(yù)測一致,可以在不同的任務(wù)集合中獲得收益。這個想法類似于單詞 dropout,但是可以利用未標(biāo)記的數(shù)據(jù)來使模型更加穩(wěn)健。與其他自組合模型相比,它是專門為特定的 NLP 任務(wù)設(shè)計(jì)的。
9) QA 和大型文檔推理(QA and reasoning with large documents)
在問答系統(tǒng)中,除了對話式問答和多步推理,問答最具挑戰(zhàn)性的方面是綜合敘述和處理大體量信息。TACL 2018 上的論文“The NarrativeQA Reading Comprehension Challenge” 基于對整部電影劇本和書籍問題的回答,提出了一個具有挑戰(zhàn)性的新 QA 數(shù)據(jù)集。雖然依靠目前的方法仍無法完成這項(xiàng)任務(wù),但模型可以選擇使用摘要 (而不是整本書) 作為語境來選擇答案 (而不是生成答案)。這些變體使完成任務(wù)更加可行,并使模型能夠逐步擴(kuò)展到完整的語境。
10) 歸納偏差(Inductive bias)
歸納偏差,如 CNN 中的卷積、正則化、dropout 和其他機(jī)制,是神經(jīng)網(wǎng)絡(luò)模型的核心部分,它們起到調(diào)節(jié)器的作用,使模型更具樣本效率。然而,提出一個應(yīng)用更加廣泛的歸納偏差方法,并將其融入模型是一個挑戰(zhàn)。有幸的是在 2018 的研究中有了這一類的相關(guān)成果。論文“Sequence classification with human attention (CoNLL 2018)”提出利用視覺跟蹤語料庫中的人類注意力來規(guī)范視覺神經(jīng)網(wǎng)絡(luò)中的注意力。考慮到當(dāng)前許多模型(如 Transformers)也使用注意力,找到更有效地訓(xùn)練它的方法是一個重要的方向。另外, 論文還證明了人類語言學(xué)習(xí)可以幫助改進(jìn)計(jì)算模型。而 2018 年 EMNLP 上的最佳論文之一“Linguistically-Informed Self-Attention for Semantic Role Labeling”提出了將 multi-head self-attention 與多任務(wù)學(xué)習(xí)相結(jié)合的模型,該模型可以僅使用原始的 token 對序列進(jìn)行一次編碼,來同時執(zhí)行多個預(yù)測任務(wù)。論文中還通過訓(xùn)練一個注意力頭來關(guān)注每個 token 的句法父項(xiàng),使 Transformer 的多頭注意力對句法更加敏感。
總體說來,NLP 作為認(rèn)知智能的重要組成部分,依然是人工智能領(lǐng)域研究的重要課題,而 2018 年也取得了成績,也讓我們對未來 NLP 研究充滿了希望。
伴隨著 NLP 研究的不斷深入,其應(yīng)用也變得越來越廣泛,尤其是在知識圖譜、機(jī)器翻譯、閱讀理解和智能寫作等方面都有較為成熟的應(yīng)用。
由于知識圖譜能夠讓人工智能具備認(rèn)知能力和邏輯能力,進(jìn)而實(shí)現(xiàn)智能分析、智能搜索、人機(jī)交互等場景應(yīng)用,而這一優(yōu)勢使得知識圖譜可以應(yīng)用于科研、金融、醫(yī)療、司法、公共安全等各個領(lǐng)域。2018 年以來,百度應(yīng)用知識圖譜率,實(shí)現(xiàn)了智能搜索;阿里健康啟動醫(yī)學(xué)知識圖譜,與國家級醫(yī)療健康大數(shù)據(jù)平臺等機(jī)構(gòu)在京宣布啟動醫(yī)學(xué)智庫“醫(yī)知鹿”,而騰訊也推出了首款醫(yī)療 AI 引擎“騰訊睿知”發(fā)力智能導(dǎo)診;美團(tuán)通過構(gòu)建其知識圖譜實(shí)現(xiàn)以實(shí)現(xiàn)智能化的生活服務(wù);招商銀行總行的知識圖譜項(xiàng)目也成果落地上線,預(yù)示著知識圖譜在金融領(lǐng)域的應(yīng)用正不斷成熟;而在汽車領(lǐng)域,汽車之家通過構(gòu)建汽車領(lǐng)域知識圖譜,為其 APP“家家小秘”實(shí)現(xiàn)了圖譜問答??傊R圖譜的行業(yè)應(yīng)用,會讓內(nèi)容更加精準(zhǔn),服務(wù)更加智能,也逐漸成為了各領(lǐng)域的數(shù)據(jù)和技術(shù)核心。
隨著深度學(xué)習(xí)在機(jī)器翻譯的成功應(yīng)用,以及實(shí)時的語音轉(zhuǎn)文字和文字轉(zhuǎn)語音功能的成熟,模型翻譯的水平得到了很大的提高,很大程度上的解決了對話中的翻譯問題。為此,翻譯機(jī)在 2018 年成為了人們關(guān)注的熱點(diǎn),除了之前我們熟悉的谷歌、百度、網(wǎng)易等在線翻譯外,2018 年 6 月 13 日,谷歌發(fā)布離線神經(jīng)機(jī)器翻譯技術(shù)( Neural Machine Translation),使得離線狀態(tài)下 ,也能用 AI 翻譯,且支持 59 種語言;2018 年 9 月,網(wǎng)易有道自研離線神經(jīng)網(wǎng)絡(luò)翻譯技術(shù),并應(yīng)用于發(fā)布的翻譯智能硬件“有道翻譯王 2.0Pro”;2018 年 9 月,搜狗推出最新款時尚 AI 翻譯機(jī)——搜狗翻譯寶 Pro,支持 42 種語言實(shí)時互譯及中英日韓 4 種語言離線翻譯;2018 年 10 月,百度推出實(shí)時將英語翻譯成中文和德語的人工智能即時翻譯工具。機(jī)器翻譯作為 NLP 最為人知的應(yīng)用場景,其產(chǎn)品正逐漸成為人們生活的必需品,因此機(jī)器翻譯任然蘊(yùn)含著巨大的市場價值,讓眾多廠商為之心動,同時也必然會使得機(jī)器翻譯越來越成熟。
閱讀理解方作為復(fù)雜的 NLP 技術(shù)之一,受到了廣大學(xué)者和企業(yè)的關(guān)注,同時也已經(jīng)開始商業(yè)化。2018 年 8 月,“考拉閱讀”宣布完成融資 2000 萬美金,并將此次融資用于考拉閱讀原創(chuàng)“中文分級閱讀系統(tǒng) ER Framework”的優(yōu)化升級、優(yōu)質(zhì)閱讀內(nèi)容的生產(chǎn)聚合及市場規(guī)模的擴(kuò)大;在近期舉辦的 MS MARCO 文本閱讀理解挑戰(zhàn)賽中,阿里 AI 模型在英文閱讀理解比賽中超過了微軟、百度等研究機(jī)構(gòu),排名第一,而這一技術(shù)也已經(jīng)大規(guī)模應(yīng)用與淘寶、天貓以及東南亞電商 Lazada 等產(chǎn)品中。閱讀理解作為繼語音判斷和語義理解之后的又一主要挑戰(zhàn),需要模型理解全文語境,同時還需要理解和關(guān)注詞匯、語句、篇章結(jié)構(gòu)、思維邏輯、輔助語句和關(guān)鍵句等元素,并可以直接作用于現(xiàn)實(shí)中的文本資料中,其價值不言而喻。也因?yàn)檫@個原因,使得 MS MARCO 文本閱讀理解挑戰(zhàn)賽變的如此激烈。
智能創(chuàng)作通過深度學(xué)習(xí)模型獲取創(chuàng)作的背景知識和創(chuàng)作方法,并根據(jù)主題自動生成作品,以輔助或替代人工創(chuàng)作。其中印象最為深刻的便是騰訊寫稿機(jī)器人“Dreamwriter” ,在俄羅斯世界杯足球賽期間,Dreamwriter 生產(chǎn)一篇稿子平均只要 0.46 秒,而且寫法越來越類人化,不再是冷冰冰的;除此之外,百度在 1 月的百家號內(nèi)容創(chuàng)作者盛典上宣布推出人工智能寫作輔助平臺“創(chuàng)作大腦”,為人類作者提供糾錯、提取信息等各種輔助工作,其基于語義的智能糾錯功能識別準(zhǔn)確率達(dá)到了 95% 以上,能實(shí)現(xiàn)相當(dāng)于大學(xué)生平均水平的糾錯能力;2018 年 5 月,微軟小冰宣布“演唱深度學(xué)習(xí)模型完成第四次重大升級,演唱水平接近人類,且開始向作詞、作曲、演唱全面發(fā)展;2018 年 6 月,IBM Research 推出 AI 系統(tǒng) Project Debator,在舊金山 IBM 辦公室,人工智能在一場辯論賽中擊敗了人類頂尖辯手,Project Debater 通過處理大量文本,就特定主題構(gòu)建出有良好結(jié)構(gòu)的演講,提供清晰明確的目的,并反駁其對手,它的對手是以色列國際辯論協(xié)會主席 Dan Zafrir 和 2016 年以色列國家辯論冠軍 Noa Ovadia。智能創(chuàng)作幾乎需要集成目前所有的 NLP 技術(shù),也側(cè)面體現(xiàn)了各公司 NLP 技術(shù)綜合實(shí)力,因此智能創(chuàng)造也備受各企業(yè)的關(guān)注。
除了以上熱門的應(yīng)用之外,智能問答和語音處理依然是 NLP 的熱門應(yīng)用。2018 年以來,各廠商也都相繼更新?lián)Q代,例如騰訊在最近推出了一款全新的“騰訊叮當(dāng)智能視聽屏”,就成功打破了智能音箱和智能顯示設(shè)備之間的隔膜,成功的將兩者完美的結(jié)合在了一起;而在剛剛結(jié)束的 2018 年 AICon 上,智能對話和語音處理依然是人們主題之一。NLP 的成熟應(yīng)用,讓智能應(yīng)用的關(guān)鍵一步,不僅可以解放人力,同時也帶來了更好的用戶體驗(yàn)。
2018 年,無論是 NLP 的研究還是應(yīng)用,都十分熱鬧。NLP 研究的內(nèi)容逐漸趨近于模型的可解釋性和預(yù)訓(xùn)練,說明 NLP 的研究已經(jīng)進(jìn)入了深水區(qū)。而在應(yīng)用方面,我們看到微軟、谷歌、百度等巨頭的競爭格局已經(jīng)形成,同時各垂直領(lǐng)域也相繼推出相應(yīng)的產(chǎn)品,例如汽車之家的家家小秘、蔚來的 nomi 等,另外不少后起公司憑借自己的努力也有望向巨頭發(fā)起挑戰(zhàn),例如竹間科技、思必馳等。
NLP 涉及了計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、語言學(xué)以及腦神經(jīng)科學(xué)等領(lǐng)域的知識,為了不斷的提升 NLP 技術(shù),我們?nèi)匀恍枰?NLP 相關(guān)方面和領(lǐng)域的研究人員和企業(yè)繼續(xù)努力,講求研究和應(yīng)用并舉,普及與提高同步。我們希望看到各領(lǐng)域、各企業(yè)的專家、學(xué)者、工程師通力合作,共同創(chuàng)作另一個輝煌的 NLP 時代。
雷濤,高級算法工程師,汽車之家智能聊天機(jī)器人算法負(fù)責(zé)人。博士畢業(yè)于北京郵電大學(xué)大學(xué)網(wǎng)絡(luò)技術(shù)學(xué)院,主要從事智能聊天機(jī)器人相關(guān)技術(shù)研發(fā),致力于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、NLP 相關(guān)算法在智能聊天機(jī)器人領(lǐng)域的落地應(yīng)用。