免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
NLP前沿論壇分享 | 百度語義計(jì)算技術(shù)及其應(yīng)用

孫宇,百度NLP主任研發(fā)架構(gòu)師、語義計(jì)算技術(shù)負(fù)責(zé)人。本文根據(jù)作者在“2019自然語言處理前沿論壇”語義理解主題的特邀報(bào)告整理而成。

本報(bào)告提綱分為以下3個部分:

·    語義表示

·    語義匹配

·    未來重點(diǎn)工作

語義計(jì)算方向在百度NLP成立之初就開始研究,研究如何利用計(jì)算機(jī)對人類語言的語義進(jìn)行表示、分析和計(jì)算,使機(jī)器具備語義理解能力。相關(guān)技術(shù)包含語義表示、語義匹配、語義分析、多模態(tài)計(jì)算等。

本文主要介紹百度在語義表示方向的技術(shù)發(fā)展和最新的研究成果艾尼(ERNIE),同時也會介紹工業(yè)應(yīng)用價值很大、百度積累多年的語義匹配SimNet的相關(guān)內(nèi)容,最后再談?wù)勎磥淼闹攸c(diǎn)工作。

一、語義表示

計(jì)算機(jī)理解語言是一個具有很大挑戰(zhàn)的問題。人類在理解語言的過程中,除了語言符號本身的識別,還包含符號背后的語義和知識。舉個例子,當(dāng)人看到“計(jì)算機(jī)”這個符號時,腦子里能迅速浮現(xiàn)出計(jì)算機(jī)的畫面以及和計(jì)算機(jī)相關(guān)的知識和概念,但是這對于計(jì)算機(jī)就比較困難。所以如何讓計(jì)算機(jī)能夠表示語言是研究的重點(diǎn),讓其既能夠蘊(yùn)含語義信息又可以計(jì)算。

當(dāng)前主要有兩類方法,一是基于形式化規(guī)則的方法,如通過構(gòu)建語義關(guān)系網(wǎng)絡(luò)來描述語義的信息;二是基于統(tǒng)計(jì)的方法,包括主題模型、Word Embedding等技術(shù)。

1、百度早期語義表示技術(shù):基于檢索的表示方法

 

2007年百度便開始語義表示研究,最開始的思路是利用搜索引擎來完成。通過搜索引擎把要表示的句子或者詞語檢索出來,再根據(jù)檢索的結(jié)果通過Term的分析以及網(wǎng)頁的分析,把相關(guān)的詞、信息抽取出來,做成語言符號的表示。但是這個表示實(shí)際上停留在原始詞匯空間,表示的空間大小依然是詞表的維度,只是相對于One-Hot的表示來說更精細(xì),這個方法是基于1954年Harris提出來的“上下文相似的詞,其語義也相似”的假設(shè)。

2、百度早期語義表示技術(shù):Topic Model

 

此后,百度又研究了Topic Model的語義表示技術(shù),這種方法的核心思路是把文檔詞匯空間降維,將文檔映射到淺層主題的分布上,而這種主題空間要比詞的分布空間更小一些。通過降維的方法,可以得到每個詞到主題的映射,通過這種主題的方法做語義的表示。

當(dāng)時百度主要解決的問題是怎樣做這種新文檔的表示,難點(diǎn)是超大規(guī)模語料訓(xùn)練、Online EM、MPI并行化。此外,百度還將自研的主題模型以及一些主流的主題模型整理為工業(yè)應(yīng)用工具,對外開源了百度NLP主題模型工具包FAMILIA。

3、基于DNN的語義表示技術(shù):Word Embedding

深度學(xué)習(xí)技術(shù)興起,基于Word Embedding的表示占了主流,此類技術(shù)在各種NLP任務(wù)中也表現(xiàn)出色。從NNLM到現(xiàn)在BERT的技術(shù),取得了很多進(jìn)展。2013年的Word2vec成為NLP標(biāo)配性的初始化向量,2018年有了上下文相關(guān)的詞向量ELMo等。

 

從2013年到2016年,百度也大力投入到Word Embedding的研究,主要研究工作是在工業(yè)界如何用大規(guī)模分布式從海量數(shù)據(jù)中計(jì)算詞向量。比如,怎么才能高效訓(xùn)練規(guī)模為1T的語料?如何構(gòu)建大規(guī)模分布式文本計(jì)算?此外,算法上我們也有一些研究,比如,如何在一百萬超大規(guī)模的詞表里完成Softmax分類?我們通過一些策略和技術(shù),做成啟發(fā)式Hierarchical Softmax的方法,從而有效地提升分類的效率。2016年,百度把訓(xùn)練的1T的網(wǎng)頁數(shù)據(jù)和100萬詞表規(guī)模的詞向量對業(yè)界進(jìn)行了開放。

4、多特征融合的表示模型

BERT的核心思路還是大力出奇跡,它利用了大規(guī)模的無監(jiān)督數(shù)據(jù),同時借助Transformer這種高性能的Encoder的能力,在MASK建模任務(wù)上做了一些優(yōu)化,導(dǎo)致這個效果能夠在各個任務(wù)上顯著提升。

百度實(shí)際在2017年進(jìn)行了這方面的探索,當(dāng)時是研究基于對話的口語理解問題,這個問題的核心是做意圖的分類和槽位的標(biāo)注。難點(diǎn)在于口語理解的問題標(biāo)注語料非常少。當(dāng)時想能不能利用海量的搜索語料做Pre-Training,把這個Model作為初始化模型用到下游的SLU任務(wù)里。

我們采用20億搜索的Query,通過LSTM模型做單向Language Model的預(yù)訓(xùn)。我們發(fā)現(xiàn)在SLU任務(wù)上,在各個垂類上樣本數(shù)的增加非常顯著,從10個樣本到2000個樣本。但遺憾的是,當(dāng)時研究的是一個超小規(guī)模數(shù)據(jù)上效果,即2000的數(shù)據(jù),在2萬甚至是20萬的數(shù)據(jù)上的表現(xiàn)并沒有研究,同時在其他應(yīng)用的通用性上的研究也不夠充分。

5、知識增強(qiáng)的語義表示模型

BERT提出后,我們發(fā)現(xiàn)一個問題,它學(xué)習(xí)的還是基礎(chǔ)語言單元的Language Model,并沒有充分利用先驗(yàn)語言知識,這個問題在中文很明顯,它的策略是MASK字,沒有MASK知識或者是短語。在用Transformer預(yù)測每個字的時候,很容易根據(jù)詞包含字的搭配信息預(yù)測出來。比如預(yù)測“雪”字,實(shí)際上不需要用Global的信息去預(yù)測,可以通過“冰”字預(yù)測?;谶@個假設(shè),我們做了一個簡單的改進(jìn),把它做成一個MASK詞和實(shí)體的方法,學(xué)習(xí)這個詞或者實(shí)體在句子里面Global的信號。

基于上述思想我們發(fā)布了基于知識增強(qiáng)的語義表示ERNIE(1.0)。

我們在中文上做了ERNIE(1.0)實(shí)驗(yàn),找了五個典型的中文公開數(shù)據(jù)集做對比。不管是詞法分析NER、推理、自動問答、情感分析、相似度計(jì)算,ERNIE(1.0)都能夠顯著提升效果。

英文上驗(yàn)證了推廣性,實(shí)驗(yàn)表明ERNIE(1.0)在GLUE和SQuAd1.1上提升也是非常明顯的。為了驗(yàn)證假設(shè),我們做了一些定性的分析,找了完形填空的數(shù)據(jù)集,并通過ERNIE和BERT去預(yù)測,效果如上圖。

我們對比了ERNIE、BERT、CoVe、GPT、ELMo模型,結(jié)果如上圖所示。ELMo是早期做上下文相關(guān)表示模型的工作,但它沒有用Transformer,用的是LSTM,通過單向語言模型學(xué)習(xí)。百度的ERNIE與BERT、GPT一樣,都是做網(wǎng)絡(luò)上的Transformer,但是ERNIE在建模Task的時候做了一些改進(jìn),取得了很不錯的效果。

在應(yīng)用上,ERNIE在百度發(fā)布的面向工業(yè)應(yīng)用的中文NLP開源工具集進(jìn)行了驗(yàn)證,包括ERNIE與BERT在詞法分析、情感分類這些百度內(nèi)部的任務(wù)上做了對比分析。同時也有一些產(chǎn)品已經(jīng)落地,在廣告相關(guān)性的計(jì)算、推薦廣告的觸發(fā)、新聞推薦上都有實(shí)際應(yīng)用。目前模型已經(jīng)開源(http://github.com/PaddlePaddle/ERNIE),歡迎大家去下載。

7月31日,百度艾尼(ERNIE) 再升級,發(fā)布了持續(xù)學(xué)習(xí)語義理解框架ERNIE 2.0,同時借助飛槳(PaddlePaddle)多機(jī)多卡高效訓(xùn)練優(yōu)勢發(fā)布了基于此框架的ERNIE 2.0 預(yù)訓(xùn)練模型。該模型在共計(jì)16個中英文任務(wù)上超越了BERT 和XLNet,取得了SOTA 效果。

二、語義匹配


1、文本語義匹配及挑戰(zhàn)

語義匹配在工業(yè)界具有非常大的技術(shù)價值,它是一個很基礎(chǔ)的問題,很多產(chǎn)品、應(yīng)用場景都會用到它。很多問題也可以抽象為語義匹配問題,比如,搜索解決的是Query和Document相關(guān)性的問題,推薦解決的是User和Item關(guān)聯(lián)度、興趣匹配度的問題,檢索式問答解決的是問題與答案匹配度,以及檢索對話Query和Response的匹配問題。由于語言比較復(fù)雜,匹配靠傳統(tǒng)的方法是比較難的。

百度搜索在匹配相似度計(jì)算方面做了較多工作,包括挖掘同義詞、詞級別泛化、語義緊密度、對齊資源挖掘、共線關(guān)聯(lián)計(jì)算等。

2、神經(jīng)網(wǎng)絡(luò)語義匹配模型:SimNet

2013年百度提出SimNet技術(shù),用于解決語義匹配的問題。這個技術(shù)基于DNN框架,沿襲Word Embedding的輸入,基于End-to-End的訓(xùn)練做表示和匹配,并結(jié)合Pairwise訓(xùn)練。當(dāng)時,微軟也提出了DSSM,中科院、CMU等研究機(jī)構(gòu)也做了很多語義匹配研究工作。

這幾年,百度整體上從語義匹配的框架上做了升級,抽象了三個層次,改進(jìn)了基礎(chǔ)算法,包括擴(kuò)展針對不同場景的模型,比如字和語義的匹配模型;在不同的應(yīng)用場景,針對問題網(wǎng)頁和問題答案的匹配情況分別做了針對性地優(yōu)化,集成到了匹配框架里。

匹配算法主要有兩種范式,一種是基于表示的匹配,首先把自然語言表示成向量,然后再進(jìn)行相似度計(jì)算,這方面也有一些改進(jìn),主要是做一些Attention;另一種新匹配范式Interaction-based Model,強(qiáng)調(diào)更細(xì)的匹配,即一個句子的表示不再是一個向量,而是原來的Term,并把原來的位置信息保留,最后以Attention的方式表示,讓匹配更加充分和精細(xì)。

關(guān)于SimNet技術(shù)前瞻性工作,2019年百度在IJCAI上發(fā)表了一篇論文“RLTM:An Efficient Neural IR Framework for Long Documents”,其中長文本匹配有一個很大的挑戰(zhàn),就是讓Document直接做表示,如果文本太長,很多信息會丟失,計(jì)算效率也非常低。但如果我們先做一個粗匹配,選擇好相關(guān)的句子以后再做精細(xì)化的匹配,效果就比較不錯。


3、SimNet的應(yīng)用

SimNet技術(shù)在百度應(yīng)用非常廣泛,包括搜索、資訊推薦、廣告、對話平臺都在使用。

搜索是百度非常重要的產(chǎn)品,搜索有兩個核心功能,下圖的左側(cè)上方是搜索的精準(zhǔn)問答,通過問答技術(shù)把精準(zhǔn)答案直接呈現(xiàn)出來;下方是自然排序,主要采用LTR框架和相關(guān)性、權(quán)威性、時效性等Features。

SimNet在百度搜索的發(fā)展可以分為三個時期。萌芽期,上線了BOW Model,這是業(yè)界第一次在搜索引擎上線DNN模型;發(fā)展期,做了CNN、RNN,并把知識融合進(jìn)RNN,在語義相關(guān)性計(jì)算中,除了標(biāo)題很多其他文本域在相關(guān)性建模中也很重要,所以,我們還做多文本域融合匹配的Model;拓展期,除了相關(guān)性,在權(quán)威性、點(diǎn)擊模型和搜索問答上都有推廣和使用。

 

在搜索中,SimNet是用超大規(guī)模用戶反饋數(shù)據(jù)訓(xùn)練。那么如何依靠海量數(shù)據(jù)來提升效果?頻次如何選?我們發(fā)現(xiàn)模型應(yīng)用效果并不是靜態(tài)的,而是動態(tài)變化的,特別是搜索反饋的數(shù)據(jù),隨著時間的推移,網(wǎng)民在搜索的時候,Term的分布、主題的分布會發(fā)生變化,所以數(shù)據(jù)的時效性影響還是非常大的。

除了模型上的融合,我們把Bigram知識也融入了進(jìn)去。盡管RNN已經(jīng)很厲害了,但加入知識、模型還是會有很大地提升。

4、新模型:SimNet-QC-MM

另外,我們還做了Query和網(wǎng)頁正文的建模,由于Query中每個詞都有一定的用戶意圖,所以在模型建模時,會考慮Query中每個詞被Title和正文覆蓋的情況,并基于Matching Matrix匹配方法計(jì)算。此外,搜索架構(gòu)也做了配合改進(jìn),搜索也上線了基于GPU和CPU的異構(gòu)計(jì)算架構(gòu)。

上圖是一個案例,“羋殊出嫁途中遇到危險(xiǎn)”,我們后來做了一些分析,發(fā)現(xiàn)“危險(xiǎn)”和“投毒”有很強(qiáng)的語義關(guān)聯(lián),就把這個結(jié)果排了上去。

5、語義模型壓縮技術(shù)

在模型裁減壓縮上,我們也做了很多工作,包括量化的壓縮和哈希技術(shù)的壓縮。整個語義的模型基本上已經(jīng)從依靠一個Embedding 32bits來存,到現(xiàn)在達(dá)到Embedding一維僅需4bits,節(jié)省線上DNN匹配模型87.5%的內(nèi)存消耗。這項(xiàng)技術(shù),除了搜索的使用,移動端的使用也有非常大的價值。

SimNet技術(shù)除了百度搜索,包括Q&A,Query和Answer的匹配等方面都有一些嘗試。

三、未來重點(diǎn)工作

接下來我們會在通用語義表示方面進(jìn)一步研究與突破,除了如何充分地利用先驗(yàn)知識,利用一些弱監(jiān)督信號外,模型方面也會進(jìn)一步探索創(chuàng)新。技術(shù)拓展上,跨語言、多語言表示,面向生成、匹配等任務(wù)的表示,面向醫(yī)療、法律等領(lǐng)域的表示,多模態(tài)表示等都是我們的一些重點(diǎn)方向。

RLTM論文地址:

https://arxiv.org/abs/1906.09404

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
獨(dú)家揭秘!史上最強(qiáng)中文NLP預(yù)訓(xùn)練模型 | 直播報(bào)名中
業(yè)界總結(jié) | BERT的花式玩法
ENRIE:知識圖譜與BERT相結(jié)合,為語言模型賦能助力
NLP中的預(yù)訓(xùn)練語言模型(一)
百度NLP十年布局:翻越認(rèn)知智能高山,架起通往現(xiàn)實(shí)世界的橋
【金猿技術(shù)展】文心ERNIE——基于知識增強(qiáng)的語義理解技術(shù)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服