免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
智能語音快速發(fā)展需跨越三座“大山”

作者:謝磊

語音是語言的物質(zhì)外殼,是人類區(qū)別與其他動物從而能夠主宰世界的一種強大能力,是最直接、高效的信息溝通方式。在萬物互聯(lián)時代,隨著機器學習技術(shù)的快速發(fā)展,大規(guī)模場景數(shù)據(jù)的不斷積累,算力的指數(shù)級提升, 語音逐漸成為人機交互的全新入口。從手機端語音助手到智能音響、智能車載設備……智能語音已經(jīng)由最初消費者娛樂時的調(diào)侃型應用,發(fā)展到如今可解決各種實際問題的功能性平臺。語音技術(shù)的賦能(即Speech+),為各個垂直領域開辟出了全新價值。 

數(shù)據(jù)+算法+算力 推動智能語音技術(shù)飛速發(fā)展

IDC(國際數(shù)據(jù)公司)最新發(fā)布的報告《2019年全球IT產(chǎn)業(yè)預測》中指出,AI將成為全新的用戶接口,到2024年,支持AI的用戶界面和流程自動化將取代目前三分之一基于屏幕的應用程序;到2022年, 至少30%的企業(yè)將使用會話語音技術(shù)進行客戶維護工作。 

近年來智能語音技術(shù)的飛速發(fā)展背后有三個推動力,這三大因素的組合造就了人工智能和智能語音技術(shù)的發(fā)展:

第一,隨著互聯(lián)網(wǎng)技術(shù)以及手機等移動終端的普及應用,大量的真實場景和用戶語料資源得到積累和沉淀,這為語音識別中的語言模型和聲學模型的訓練提供了豐富的資源,使得構(gòu)建大規(guī)模語言模型和聲學模型成為可能。

第二,以深度學習為代表的機器學習和人工智能的發(fā)展和突破, 使得語音識別模型對復雜數(shù)據(jù)的挖掘和學習能力得到了空前的提升,使得更大規(guī)模的海量數(shù)據(jù)的作用得以充分的發(fā)揮。

第三,支持大數(shù)據(jù)和深度學習的大計算能力提升,規(guī)模計算能力為技術(shù)變革奠定了基礎。

“魯棒性”、個性化、低資源 智能語音深化應用需跨越三座大山

在以上三大助力的賦能之下,智能語音在技術(shù)層面已具備根基,但若要在人機交互領域取得絕對性主導地位,拋開語義理解這個挑戰(zhàn)不談,目前的智能語音發(fā)展還面臨語音識別“魯棒性”、個性化、低資源三大主要瓶頸, 在性能、成本、智能程度上仍需繼續(xù)深耕。 

語音識別“魯棒性”問題。在生物學中,有個術(shù)語叫做“魯棒性”,是指系統(tǒng)在擾動或不確定的情況下,仍能保持它的特征行為。這一問題在包括語音識別領域在內(nèi)的眾多AI領域也同樣存在。 

語音識別整個過程包含語音信號處理、語音檢測與增強、聲學特征提取、聲學建模、語言模型、解碼搜索等多個環(huán)節(jié)。語音信號的多樣性和復雜性對每個模塊都有影響,因此在真實使用場景中,語音識別的“魯棒性”(穩(wěn)健性)是非常重要的挑戰(zhàn)。特別是語音交互從近講走向遠講,場景發(fā)生了變化,語音交互跨界聲學、信號處理和機器學習三個領域。聲學上帶來的影響眾多,包括聲學回波、目標移動、房間混響、各種背景噪音、干擾聲源等, 語音識別的準確率會大打折扣。 

個性化。基礎語音識別和合成效果穩(wěn)定后,下一步就是追求差異化或個性化。語音服務應該為每個場景、每個用戶來深度定制,提高交互服務的粘合度。例如,開車導航時,男性就可能喜歡用林志玲的聲音,女性可能就喜歡用岳云鵬的聲音。如果語音合成只有一個聲音,大家就會覺得很無聊,因此需要做出個性化的聲音來滿足大家個性化需求,這對技術(shù)也有非常大的考驗。 

低資源場景的挑戰(zhàn)。人工智能行業(yè)內(nèi)流傳一句話:“有多少人工,就有多少智能?!敝悄苷Z音作為人工智能的重要分支,在數(shù)據(jù)標注、計算資源、模型自適應等方面也都需要大量的人力財力投入。如何投入更少的資源來獲取更多更有效的成果,也是目前智能語音技術(shù)需要探索的一大重點。 

深度學習+遷移學習+關(guān)鍵詞檢出 迎接智能語音新挑戰(zhàn)

瞄準智能語音技術(shù)的三大挑戰(zhàn), 同盾智能語音實驗室做了眾多探索, 包括智能語音降噪、小數(shù)據(jù)遷移學習、低資源關(guān)鍵詞檢出等方面,有效提高了智能語音交互的體驗。 

基于深度學習的智能語音降噪。在各種實際語音交互場景(比如智能客服)中,用戶語音不可避免的帶有噪聲,噪聲嚴重影響語音識別的準確率。傳統(tǒng)基于統(tǒng)計信號處理的方法很難解決一些棘手的突發(fā)或非平穩(wěn)噪聲。通過深度學習的方法,用數(shù)據(jù)驅(qū)動的思路來降噪,借助大數(shù)據(jù)有效地去學習語音和非語音之間的結(jié)構(gòu)關(guān)系,從而可以獲得非常理想的降噪效果。此外,同盾語音團隊還嘗試把人的“注意力機制”引入到深度學習算法中, 更好地解決突發(fā)噪聲問題。 

基于深度學習的語音識別說話人自適應。在很多時候,通用語音識別的測試準確率已經(jīng)較為理想,但是“千人千音”,每個人的口音造成了每個人機器語音識別性能的差異。通過深度學習的方法,基于小樣本遷移學習, 讓模型適應不同人的口音,實現(xiàn)通過少量目標說話人數(shù)據(jù)提升語音識別性能的目標,提升模型效率。 

低資源關(guān)鍵詞檢出。關(guān)鍵詞檢出是指從一段語音流中檢測出關(guān)注的部分,在語音內(nèi)容理解與信息挖掘中具有重要的作用。例如,在智能客服對話中,通過檢測一些關(guān)鍵詞,來挖掘用戶的需求,理解用戶。同樣的,智能音箱交互的“喚醒詞”、命令控制都是屬于關(guān)鍵詞檢出任務,通過比較輕量級的資源去做關(guān)鍵詞檢出,并不斷提升關(guān)鍵詞檢出的魯棒性和適應性, 來提高交互準確率。 

來源:中國航空報

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
語音識別進化簡史:從造技術(shù)到建系統(tǒng)
西工大實驗室負責人謝磊教授:智能語音技術(shù)新發(fā)展與發(fā)展趨勢
智能語音行業(yè)研究報告
語音芯片在復雜環(huán)境中如何提升抗干擾能力?
優(yōu)秀企業(yè)案例分享 | 科大訊飛:探尋人工智能的實現(xiàn)路徑
從「語音」到「語言」的工作重心轉(zhuǎn)變,搜狗如何實現(xiàn) AI 的跨越式發(fā)展丨WARE 2017
更多類似文章 >>
生活服務
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服