免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
AI傳奇第五回 機(jī)器在聆聽

@陳宗周

     《圣經(jīng)》中記載著這樣的傳說,遠(yuǎn)古人類都講一種語言,他們希望建造一座通往天堂的高塔,這就是通天塔,也叫巴別塔(Tower of Babel)。為了阻止人類的計(jì)劃,上帝讓人類說不同的語言,分成不同的民族,在語言上無法自由溝通,巴別塔計(jì)劃由此告終。

      傳說有點(diǎn)悲涼,卻反映人類一直存在的美好夢(mèng)想。重建巴別塔,也成了人類語言溝通和共識(shí)達(dá)成的象征和代名詞?,F(xiàn)在,AI讓人類的夢(mèng)想一步步走向?qū)崿F(xiàn)。

 

弗雷德里克·賈里尼克

歷史的探索

      讓人類拆掉語言的樊籬,實(shí)現(xiàn)無障礙溝通,這項(xiàng)偉大的AI工程有三塊重要基石:語音識(shí)別、自然語言理解、語音合成。三塊基石是三大類技術(shù),分別解決人類語言交流中三個(gè)問題:聽清楚別人說什么、 理解別人說什么、根據(jù)聽到和理解的去回答別人。

      語音識(shí)別,主要解決“聽清楚別人說什么” 這個(gè)難題,這是AI中的重要技術(shù)領(lǐng)域。近年來,由于深度學(xué)習(xí)技術(shù)的應(yīng)用,語音識(shí)別取得了長足進(jìn)步。

      1952年,貝爾實(shí)驗(yàn)室的K·H·戴維斯(K.H.Davis)等人研制了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年,英國人彼得·迪恩斯(Peter Denes)等研制了第一個(gè)計(jì)算機(jī)語音識(shí)別系統(tǒng)。但從上世紀(jì)50年代到70年代,語音識(shí)別研究走了彎路,那就是簡單地想電腦模擬人腦,認(rèn)為必須先讓機(jī)器理解自然語言。在當(dāng)時(shí)計(jì)算機(jī)能力受限的情況下,這樣的研究鮮有進(jìn)展。

      直到1970年后,統(tǒng)計(jì)語言學(xué)的出現(xiàn)打破了沉寂。領(lǐng)軍人物是IBM沃森實(shí)驗(yàn)室的弗雷德里克·賈里尼克(Frederick Jelinek)。

      賈里尼克用兩個(gè)隱(含)馬爾可夫模型(Hidden Markov Model)——聲學(xué)模型和語言模型來清楚概括語音識(shí)別。這個(gè)框架至今對(duì)語言處理有著深遠(yuǎn)影響。

      1999年,國際聲學(xué)、語音與信號(hào)處理國際會(huì)議(ICASSP)在鳳凰城召開,早已當(dāng)選美國工程院院士的賈里尼克在大會(huì)上做了一個(gè)報(bào)告,題目是《從水門事件到莫尼卡·萊溫斯基》。這兩件事和語音都有聯(lián)系,而且兩件事的時(shí)間跨度和語音識(shí)別都同樣很長。隱馬爾可夫模型處理語音也是從1972年開始,一直到賈里尼克作報(bào)告時(shí)還在進(jìn)行。隱馬爾可夫模型處理語音,一直持續(xù)到賈里尼克作報(bào)告時(shí)還在進(jìn)行,而且還將延續(xù)下去。

  

劍橋語音的黃金十年

      1984年,美國國家標(biāo)準(zhǔn)及技術(shù)研究所(NIST)和DARPA決定出資開展語音識(shí)別評(píng)測標(biāo)準(zhǔn)的研究,希望能科學(xué)評(píng)估各種語音識(shí)別系統(tǒng)的性能。這件事影響了語音識(shí)別歷史。

      德州儀器公司(TI)、麻省理工學(xué)院(MIT)和SRI合作構(gòu)建了第一個(gè)聲學(xué)-音素連續(xù)語音語料庫,并制定了數(shù)據(jù)采集標(biāo)準(zhǔn),成為世界第一個(gè)語音評(píng)測平臺(tái)。這一被稱為TIMIT的數(shù)據(jù)庫應(yīng)用至今,語音識(shí)別研究者們有了評(píng)測算法的標(biāo)準(zhǔn)數(shù)據(jù)集。NIST舉辦的語音識(shí)別評(píng)測全球競賽由此開始。

      語音識(shí)別所研究的數(shù)據(jù)類型歷經(jīng)幾次升級(jí),由最早的孤立詞語音發(fā)展到自然連續(xù)語音。然后,選取朗讀“華爾街雜志”(Wall Street Journal)的語音錄成標(biāo)準(zhǔn)數(shù)據(jù)庫。這個(gè)數(shù)據(jù)集的詞匯量大約為5000到20 000, “大詞匯連續(xù)語音識(shí)別”就始于此。上世紀(jì)90年代中期以后,廣播新聞這樣自發(fā)產(chǎn)生的連續(xù)語音、電話對(duì)話語音、豐富的語音文本、多語種語音等等也不斷加入評(píng)測,NIST大賽越來越具有挑戰(zhàn)性。

    大賽1988年開始,1992年擴(kuò)大到美國之外,成為全球大賽,劍橋大學(xué)等非美國機(jī)構(gòu),在那一年加入。1993年,劍橋大學(xué)奪取冠軍。一戰(zhàn)成名,劍橋語音成為全球語音識(shí)別界關(guān)注的焦點(diǎn)。

      從1989年起,劍橋大學(xué)工程系機(jī)器智能實(shí)驗(yàn)室研究組就在史蒂夫·楊(Steve Young)教授的主持下開發(fā) “隱馬爾可夫模型工具包”(Hidden markov model Tool Kit, HTK)。HTK軟件包不是簡單的語音識(shí)別系統(tǒng),而是完整的研究平臺(tái)。在這平臺(tái)上,研究者可以方便地試驗(yàn)各種新式算法,搭建不同的語音識(shí)別系統(tǒng)。這樣,HTK很快就成為了語音識(shí)別研究事實(shí)上的標(biāo)準(zhǔn)。而擁有平臺(tái)的劍橋語音研究人員,近水樓臺(tái)先得月。

      于是,劍橋大學(xué)語音識(shí)別研究在大賽中連續(xù)十年取得優(yōu)異成績,許多影響深遠(yuǎn)的語音識(shí)別技術(shù)陸續(xù)在劍橋產(chǎn)生,并成為后來主流經(jīng)典算法,這些成就轟動(dòng)了全世界,被稱為劍橋語音的黃金十年。

踏上商業(yè)化征程

      語音識(shí)別也逐漸開始商業(yè)化。1995年,IBM開發(fā)出離散詞匯聽寫軟件,也就是后來的語音識(shí)別軟件Via Voice的前身。IBM當(dāng)時(shí)將語音識(shí)別率從70%提升到90%,同時(shí)識(shí)別詞庫的規(guī)模從幾百單詞上升到幾萬個(gè),語音識(shí)別從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。1997年,IBM推出了世界上第一個(gè)中文連續(xù)語音識(shí)別產(chǎn)品——Via Voice 4.0。該軟件成功突破連續(xù)語音、大詞匯量、非特定人的難關(guān),據(jù)稱解決了漢語同音字多、有聲調(diào)、口音復(fù)雜等問題,可以幫助人們從鍵盤輸入中解脫出來,IBM認(rèn)為這是漢字輸入的重要里程碑。

      不過,中文版的Via Voice4.0剛推出,我就滿懷希望地試用了這個(gè)軟件,但感到很失望,遠(yuǎn)沒有達(dá)到解放雙手的愿望,使人感到實(shí)用的語音識(shí)別系統(tǒng)還在路上。當(dāng)時(shí),我并不知道,語音識(shí)別的大師們?cè)诖藥啄昵耙呀?jīng)紛紛離開了IBM。

      劍橋大學(xué)的HTK語音開發(fā)平臺(tái)也開始商業(yè)化,被微軟收購。后來微軟重新把HTK核心技術(shù)的使用權(quán)送還給劍橋大學(xué)。

      語音識(shí)別專家、數(shù)據(jù)魔方智慧科技CEO張晴晴博士這樣描述當(dāng)時(shí)的情況:“深度學(xué)習(xí)之前,做語音識(shí)別門檻是很高的。語音識(shí)別涉及到信號(hào)處理、語音\語言建模、發(fā)音字典、解碼、后處理等等,每個(gè)模塊都足夠一個(gè)博士研究好幾年。”

      在這樣的研究環(huán)境下,掌握核心算法的公司很容易形成技術(shù)壟斷。1992年創(chuàng)立的美國語音巨頭Nuance,2005年在納斯達(dá)克上市,一直深耕統(tǒng)計(jì)方法的語音技術(shù),擁有大量的核心算法和數(shù)千件專利。蘋果Siri采用了他們的語音技術(shù)后,Nuance公司在語音識(shí)別方面的技術(shù)實(shí)力也浮出水面。手機(jī)、家電、汽車等人機(jī)語音交互產(chǎn)品中,大量嵌入他們的語音識(shí)別系統(tǒng),客戶都是蘋果、三星這樣的知名廠商。

      Nuance擅長于利用自己在語音處理方面的知識(shí)產(chǎn)權(quán)打擊競爭對(duì)手。用訴訟手段削弱具有創(chuàng)新力的對(duì)手,然后低價(jià)并購或讓其破產(chǎn)。很長時(shí)間內(nèi),Nuance擁有絕對(duì)話語權(quán),整個(gè)語音行業(yè)生態(tài)是——這棵大樹下寸草不生。

 

深度學(xué)習(xí)帶來曙光

      學(xué)術(shù)界尋求理論突破,產(chǎn)業(yè)界希望打破壟斷,這樣期待的氛圍中,深刻影響語音識(shí)別的重要角色在2006年后出現(xiàn)了。沒錯(cuò),我說的是深度學(xué)習(xí),或者說深度神經(jīng)網(wǎng)絡(luò)。

      2006 年的一天,西雅圖微軟研究院的研究員鄧力看到欣頓的一篇關(guān)于深度學(xué)習(xí)的論文《關(guān)于深度置信網(wǎng)絡(luò)的一種快速學(xué)習(xí)算法》(A fast learning algorithm for deep belief nets),眼前一亮,感到自己絞盡腦汁沒有突破的問題,欣頓輕而易舉就解決了。 2009 年,鄧力邀請(qǐng)欣頓到西雅圖微軟研究院一起討論,從此微軟語音識(shí)別研究轉(zhuǎn)入了深度學(xué)習(xí)方向。

      谷歌稍晚了一點(diǎn),但追趕得很快。出門問問公司CTO雷欣回憶,當(dāng)年他在谷歌語音識(shí)別組擔(dān)任研究科學(xué)家時(shí),2011年夏天,欣頓的博士生納瓦迪普·杰特列( (Navdeep Jaitly)來語音識(shí)別組實(shí)習(xí),建議用深度神經(jīng)網(wǎng)絡(luò)來替代高斯混合模型做聲學(xué)模型。短短的實(shí)習(xí)時(shí)間里,納瓦迪普在實(shí)驗(yàn)中獲得了顯著超出谷歌原系統(tǒng)的識(shí)別結(jié)果。之后,谷歌工程師們很快將實(shí)驗(yàn)工程化產(chǎn)品化,2012年初發(fā)布在谷歌Voice Search主產(chǎn)品中。這是業(yè)界首次將深度學(xué)習(xí)用于大詞匯量語音識(shí)別產(chǎn)品中。2012年下半年,他將深度神經(jīng)網(wǎng)絡(luò)發(fā)布至Android JellyBean版本中,這也是業(yè)界首次將深度學(xué)習(xí)用于嵌入式語音識(shí)別產(chǎn)品。

      微軟語音識(shí)別研究取得驚人突破。2016年10月18日,由微軟首席語音科學(xué)家黃學(xué)東博士帶領(lǐng)的語音團(tuán)隊(duì)在權(quán)威的產(chǎn)業(yè)標(biāo)準(zhǔn) Switchboard 語音識(shí)別基準(zhǔn)測試中,實(shí)現(xiàn)了對(duì)話語音識(shí)別詞錯(cuò)率5.9%,首次達(dá)到與專業(yè)速記員持平。這被認(rèn)為是AI領(lǐng)域歷史性的突破。

      百度也不示弱,首席科學(xué)家吳恩達(dá)立即發(fā)推特祝賀微軟的語音識(shí)別突破,同時(shí)話中有話地介紹一年前百度在中文語音識(shí)別上就達(dá)到的成績。百度的Deep Speech2的短語識(shí)別的詞錯(cuò)率已經(jīng)降到了3.7%,也達(dá)到或超過人類水平。

      巨頭們高度重視用深度學(xué)習(xí)解決語音識(shí)別問題,帶來了產(chǎn)業(yè)格局的變化。美國出現(xiàn)了幾十家應(yīng)用深度學(xué)習(xí)的語音識(shí)別技術(shù)公司。同時(shí),專利和算法作用越來越小,場景應(yīng)用能力和客戶數(shù)據(jù)資源在競爭中變得越來越重要。

      在語音識(shí)別應(yīng)用場景創(chuàng)新方面,亞馬遜的Alexa語音交互平臺(tái)非常成功。用Echo交互式藍(lán)牙音箱,語音通過內(nèi)置接口,進(jìn)入 Alexa平臺(tái)進(jìn)行語音交互。2014年Echo推出后,兩年多時(shí)間內(nèi)應(yīng)用場景爆炸性增長,從同步語音數(shù)據(jù)、播放音樂發(fā)展到幾十種家電的智能家居設(shè)備控制,再發(fā)展到語音購物、語音支付、語音叫外賣、語音打車等多場景應(yīng)用,亞馬遜的Alexa人機(jī)語音交互玩得出神入化。以至于有人驚呼:“這就像是試圖成為語音方面的谷歌或者語音方面的Windows操作系統(tǒng),亞馬遜是要拿走整個(gè)市場?!?/span>

 

亞馬遜Alexa語音交互平臺(tái)

      場景應(yīng)用,成為語音識(shí)別的新方向,也成為創(chuàng)業(yè)者的新機(jī)會(huì)。張晴晴博士這樣分析語音識(shí)別的創(chuàng)業(yè)環(huán)境:“語音識(shí)別的門檻正快速降低。在大數(shù)據(jù)和云計(jì)算的推動(dòng)下,深度神經(jīng)網(wǎng)絡(luò)開始體現(xiàn)出強(qiáng)大的數(shù)據(jù)記憶能力,由此大大降低了語音建模難度。深度學(xué)習(xí)在數(shù)學(xué)原理上并不復(fù)雜并擁有大量開源工具,讓初學(xué)者能夠很快上手。語音行業(yè)從核心算法的壟斷,轉(zhuǎn)向?qū)?shù)據(jù)的壟斷和對(duì)應(yīng)用場景的理解和把握。語音識(shí)別的戰(zhàn)場從科研界轉(zhuǎn)向企業(yè)界,這給新來者提供難得的彎道超車機(jī)會(huì)。語音識(shí)別行業(yè)創(chuàng)業(yè)的春天已經(jīng)到來?!?/span>

      而中文語音處理行業(yè)也迎來新機(jī)遇。一個(gè)很有趣的現(xiàn)象是,在語音領(lǐng)域華人專家眾多。是因?yàn)檎Z音識(shí)別等領(lǐng)域研究工作十分艱苦,華人勤奮好學(xué)。此外,中文語音處理市場非常廣闊。

      依托人才優(yōu)勢(shì)和中文市場,伴隨中文語音技術(shù)的迅猛發(fā)展,云知聲、出門問問等新企業(yè)應(yīng)運(yùn)而生,一大批中國AI企業(yè)崛起。更可喜的是,除了知名中國互聯(lián)網(wǎng)科技公司在語音方面的進(jìn)取外,以語音為特色的AI公司如科大訊飛等,也已經(jīng)具備挑戰(zhàn)國際巨頭的能力。

      在普及層面上,采用云識(shí)別的中文語音輸入系統(tǒng),已經(jīng)漸漸成為手機(jī)和各種應(yīng)用設(shè)備人機(jī)交互界面標(biāo)配,語音技術(shù)不但已經(jīng)解放了雙手,還正在更廣泛進(jìn)入和改變我們的生活。

      重建巴別塔的第一塊基石已經(jīng)深深埋下。機(jī)器已經(jīng)在聆聽,它聽得越來越清楚。

 
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
深度學(xué)習(xí)登臺(tái)語音識(shí)別,AI趕超人類 | 總編專欄
東北話,機(jī)器都能聽懂,吳恩達(dá)說的端到端學(xué)習(xí)究竟是什么
深度!十分鐘讀完人工智能的三生三世
語音識(shí)別的前世今生:深度學(xué)習(xí)徹底改變對(duì)話式人工智能
一文回顧近二十年數(shù)據(jù)科學(xué)領(lǐng)域的里程碑事件或突破性技術(shù)
劉聰:聽懂方言的AI,科大訊飛中文語音識(shí)別背后推手 | 35歲以下科技創(chuàng)新35人榜單人物專欄
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服