自出現(xiàn)電子計(jì)算機(jī)后,最早的語音識(shí)別系統(tǒng)起源于貝爾實(shí)驗(yàn)室(編者注:貝爾實(shí)驗(yàn)室開發(fā)的Audrey,它能夠識(shí)別10個(gè)英文數(shù)字,這是最早的機(jī)遇電子計(jì)算機(jī)的語音識(shí)別系統(tǒng)),之后從50年代到90年代,語音識(shí)別領(lǐng)域又出現(xiàn)了幾個(gè)分支,包括IBM、卡耐基梅隆大學(xué)和劍橋大學(xué),這幾個(gè)機(jī)構(gòu)和貝爾實(shí)驗(yàn)室擁有在語音識(shí)別領(lǐng)域的絕對(duì)統(tǒng)治權(quán)。
語音識(shí)別領(lǐng)域被隱馬爾可夫模型統(tǒng)治了很長時(shí)間。
隱馬爾可夫模型是用來描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過程。其難點(diǎn)是從可觀察的參數(shù)中確定該過程的隱含參數(shù)。然后利用這些參數(shù)來作進(jìn)一步的分析,例如模式識(shí)別。該模型最初是在20世紀(jì)60年代后半期Leonard E. Baum和其它一些作者在一系列的統(tǒng)計(jì)學(xué)論文中描述的,最初的應(yīng)用之一是開始于20世紀(jì)70年代中期的語音識(shí)別。
隱馬爾可夫模型,圖片來自維基百科
關(guān)于語音識(shí)別,前三十年一直有人在做理論論證的東西,畢業(yè)于卡耐基梅隆大學(xué)的James K. Baker起先在IBM Continuous Speech Recognition Group做研究,后來創(chuàng)辦了Dragon Systems,他是世界上第一個(gè)把隱馬爾可夫模型用于語音識(shí)別的人,而且還做到了可以用。后來他的公司不是很成功,但他是在語音識(shí)別發(fā)展史上享有聲譽(yù)的人。
當(dāng)時(shí),MIT也有人做語音識(shí)別;貝爾實(shí)驗(yàn)室開發(fā)了語音識(shí)別的決策理論和訓(xùn)練算法等。貝爾實(shí)驗(yàn)室解散之后,劍橋大學(xué)接過語音識(shí)別的大旗成為核心,但都不好用,原因是沒有大數(shù)據(jù)和漣漪效應(yīng)。
任何技術(shù)都有蓄能階段和爆發(fā)階段,語音識(shí)別技術(shù)的爆發(fā)就是源于大數(shù)據(jù)、伴隨互聯(lián)網(wǎng)出現(xiàn)的漣漪效應(yīng)和深度神經(jīng)網(wǎng)絡(luò)。漣漪效應(yīng),指互聯(lián)網(wǎng)思維在提高核心技術(shù)表現(xiàn)中的作用。也有人稱之為優(yōu)化迭代,比如百度吳恩達(dá)將其稱之為把研究層、產(chǎn)品和用戶使用組合在一起形成一個(gè)閉環(huán)的迭代優(yōu)化,這是互聯(lián)網(wǎng)思維在核心技術(shù)優(yōu)化和突破所發(fā)揮作用的一種表達(dá)。通過這種方式不僅可以獲取數(shù)據(jù),還能學(xué)習(xí)經(jīng)驗(yàn)、認(rèn)識(shí)以及怎么使用等,比如說調(diào)整哪些東西讓用戶體驗(yàn)更好。
語音識(shí)別是需要經(jīng)驗(yàn)、數(shù)據(jù)和用戶反饋共同作用來提升表現(xiàn)的,需要利用用戶的反饋總結(jié)出一些特點(diǎn),比如說用戶在說話時(shí)會(huì)截?cái)?,這樣你就可以通過調(diào)整一些參數(shù)來提升表現(xiàn)。因?yàn)檎Z音識(shí)別不僅僅是數(shù)據(jù)多了,識(shí)別率提高了,還有更多的因素,比如說用戶的感覺、一些關(guān)鍵的參數(shù)點(diǎn)、經(jīng)驗(yàn)等,這些都是可以學(xué)習(xí)到的。互聯(lián)網(wǎng)思維所帶來的就像軟件迭代一樣,通過反饋回來的信息進(jìn)行調(diào)整,這是最核心的。
現(xiàn)在之所以有很多關(guān)于語音識(shí)別的觀點(diǎn)是錯(cuò)誤的,是因?yàn)樗麄儧]有意識(shí)到,不管是隱馬爾可夫模型,還是深度神經(jīng)網(wǎng)絡(luò),只是我們統(tǒng)計(jì)機(jī)器學(xué)習(xí)中不同的工具,有的工具好,有的工具差,有些新出的工具會(huì)優(yōu)于之前的工具。至于用哪種統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)方法,這確實(shí)很重要,而且深度神經(jīng)網(wǎng)絡(luò)確實(shí)比別的好,但并不代表只有深度神經(jīng)網(wǎng)絡(luò)才能完成這樣的事情,隱馬爾可夫模型也可以,比如用在醫(yī)療行業(yè)的Nuance,科大訊飛在沒用深度神經(jīng)網(wǎng)絡(luò)之前很早就意識(shí)到了這一點(diǎn)。隱馬爾可夫模型有個(gè)局限,當(dāng)數(shù)據(jù)量提升時(shí),它帶來的表現(xiàn)提升沒有深度神經(jīng)網(wǎng)絡(luò)那么大,但其實(shí)都屬于統(tǒng)計(jì)模式識(shí)別。
在語音識(shí)別發(fā)展的過程中,深度學(xué)習(xí)是同時(shí)發(fā)生的一件事,如果沒有深度神經(jīng)網(wǎng)絡(luò),但是有大數(shù)據(jù)和漣漪效應(yīng),隱馬爾可夫模型也是可以做到實(shí)用。深度神經(jīng)網(wǎng)絡(luò)是讓這個(gè)做的最好,降低了門檻,讓更多人可以加入進(jìn)來。在同樣具有漣漪效應(yīng)的情況下,深度神經(jīng)網(wǎng)絡(luò)比之前的算法好,數(shù)據(jù)越多,深度神經(jīng)網(wǎng)絡(luò)的效果更好。
還有更加重要的一點(diǎn),深度神經(jīng)網(wǎng)絡(luò)只是整個(gè)統(tǒng)計(jì)機(jī)器模式識(shí)別理論框架中的一個(gè)環(huán)節(jié)而已,真正重要的環(huán)節(jié)是統(tǒng)計(jì)決策系統(tǒng)。語音識(shí)別是個(gè)decoding的搜索系統(tǒng),深度神經(jīng)網(wǎng)絡(luò)是解決搜索系統(tǒng)中聲學(xué)模型和語言模型得分的工具。統(tǒng)計(jì)決策系統(tǒng)的理論價(jià)值和意義比深度神經(jīng)網(wǎng)絡(luò)要大,但其太專業(yè),深究的人并不多,準(zhǔn)確的說應(yīng)該是貝葉斯統(tǒng)計(jì)決策理論,深度神經(jīng)網(wǎng)絡(luò)只是用在統(tǒng)計(jì)決策理論中得分的一個(gè)工具,得分很重要。但這個(gè)統(tǒng)計(jì)決策理論是一套數(shù)學(xué)理論,有人證明了語音識(shí)別可以適用于這套設(shè)計(jì),讓decoding這個(gè)方法得到最優(yōu)結(jié)果,從而證明了語音可以利用貝葉斯決策模型得到最優(yōu)解,這是統(tǒng)計(jì)決策模型中最重要的一點(diǎn)。但目前很少有人知道這一點(diǎn),因?yàn)樗鼪]有深度神經(jīng)網(wǎng)絡(luò)那么有名,但在專業(yè)人士看來,這個(gè)才是核心。語音識(shí)別怎么做能符合貝葉斯決策,在理論上能估計(jì)出上下限和收斂條件,大部分人對(duì)此不關(guān)心,可能很多做語音識(shí)別工作的人都不知道這一點(diǎn),只知道套用深度神經(jīng)網(wǎng)絡(luò)得出結(jié)果,但不知道為什么。
因此,在整個(gè)統(tǒng)計(jì)決策模型中,貝葉斯決策起到關(guān)鍵作用,而有些模塊讓這個(gè)作用更大化,深度神經(jīng)網(wǎng)絡(luò)就是起到這個(gè)作用。先是有人發(fā)明了隱馬爾可夫模型,繁榮了30年,伴隨著隱馬爾可夫模型成熟的是決策理論,當(dāng)決策理論很成熟時(shí)出現(xiàn)了互聯(lián)網(wǎng)帶來的漣漪效應(yīng),使這些東西可以應(yīng)用,這時(shí)又出現(xiàn)了深度神經(jīng)網(wǎng)絡(luò),在這個(gè)大時(shí)代背景下使得決策理論的威力發(fā)揮到最大。只有知道以上這些關(guān)鍵技術(shù)和時(shí)間節(jié)點(diǎn),才能弄清楚語音識(shí)別完整的發(fā)展歷史,而語音識(shí)別鏈條上所有人的貢獻(xiàn)才能得到公正認(rèn)識(shí)。
科大訊飛很好的跟隨了語音識(shí)別的發(fā)展歷史,深度神經(jīng)網(wǎng)絡(luò)由Geoffrey Hinton與微軟的鄧力研究員最先開始做,科大訊飛迅速跟進(jìn),成為國內(nèi)第一個(gè)在商用系統(tǒng)里使用深度神經(jīng)網(wǎng)絡(luò)的公司。谷歌是最早在全球范圍內(nèi)大規(guī)模使用深度神經(jīng)網(wǎng)絡(luò)的公司,谷歌的Voice Search也在最早開創(chuàng)了用互聯(lián)網(wǎng)思維做語音識(shí)別。在這方面,科大訊飛受到了谷歌的啟發(fā),在國內(nèi)最早把漣漪效應(yīng)用在了語音識(shí)別上面,因此超越了其他平臺(tái)。
科大訊飛最初使用隱馬爾可夫模型,后面開始在互聯(lián)網(wǎng)上做,2009年準(zhǔn)備發(fā)布一個(gè)網(wǎng)頁demo,同年9月份安卓發(fā)布之后開始轉(zhuǎn)型移動(dòng)互聯(lián)網(wǎng),并于2010年5月發(fā)布了一個(gè)可以使用的手機(jī)上的demo;2010年10月份發(fā)布了語音輸入法和語音云。
整個(gè)過程中最難的地方在于,當(dāng)你不知道這件事情是否可行時(shí),你能夠證明它可行。美國那些公司就是在做這樣的事情。而科大訊飛最先領(lǐng)悟到,并最先在國內(nèi)做的。
語音交互并不是在所有場景下都是剛需,比如說把手機(jī)放在一個(gè)地方同時(shí)在干其他事情,這就是剛需;并不是對(duì)所有人來說都是剛需,對(duì)年輕人來說就不見得是,因?yàn)樗麄兡芎芊奖愕牟僮魇謾C(jī),但是很對(duì)于年紀(jì)大的人語音操縱可能就是。但語音對(duì)年輕人最有用的是輸入,包括輸入法、搜索、地圖和記錄。此外,在特定情景下一定是剛需,比如說可穿戴計(jì)算、遠(yuǎn)距操作的智能硬件、車載設(shè)備和黑色家電。在這些情況下,單靠語音識(shí)別、語義理解和語音合成是不能解決問題的,在這些場景下都都看不到手機(jī)屏幕,都需要遠(yuǎn)距操作,所以需要加上聲學(xué)技術(shù)。
訊飛在過去有著多年積累并且取得卓越成就的就是在聲學(xué)部分,解決了遠(yuǎn)距收集信息的問題。除了遠(yuǎn)距,還有自然交互,例如多輪和糾錯(cuò)。首先,大部分場景都需要遠(yuǎn)距,而解決這類場景下的問題不是靠一個(gè)技術(shù),而是需要一系列技術(shù),包括定位、麥克風(fēng)波束形成、回聲消除、抗混響、喚醒等等,這是一個(gè)系統(tǒng),它可能比語音識(shí)別本身還要復(fù)雜。其次是對(duì)話控制,現(xiàn)在手機(jī)端的語音助手是單功的,按一下說一下,這需要變成全雙工(注:通信專業(yè)詞匯,指的是人和機(jī)器可以像打電話那樣同時(shí)聽和說)的實(shí)時(shí)通話。第三是多輪,是基于規(guī)則的對(duì)話控制中的一個(gè)環(huán)節(jié)。再加上糾錯(cuò)。還有一個(gè)支持多輪的是要了解用戶,知道用戶的背景。所有的這些東西加起來才是一個(gè)完整的語音識(shí)別系統(tǒng)??梢苑Q之為核心技術(shù)系統(tǒng)創(chuàng)新。通過一系列系統(tǒng)創(chuàng)新的總和最終達(dá)到一個(gè)目的,這是才是上面提到的這些場景需求的解決方案。
Siri的出現(xiàn)所帶來的語音識(shí)別助趨勢(shì)不可阻擋,但我們需要看到這種趨勢(shì)到來之后,認(rèn)清哪一種核心技術(shù)系統(tǒng)創(chuàng)新和產(chǎn)品微創(chuàng)新能夠解決用戶的切實(shí)需求。在語音識(shí)別方面,科大訊飛傳遞的不僅僅是產(chǎn)品、技術(shù),而是價(jià)值觀,而這就是表現(xiàn)在嚴(yán)謹(jǐn)、態(tài)度和精確上,這和互聯(lián)網(wǎng)領(lǐng)域的剛需是密切相關(guān)的,不是脫離需求去談技術(shù),而是基于具體應(yīng)用,所有技術(shù)是為了解決剛需。
未來的語音交互在于不能只考慮語音識(shí)別技術(shù),全雙工的東西需要系統(tǒng)創(chuàng)新,要脫出語音識(shí)別的框架去做語音交互。要解決這些問題,如果分屬不同組織架構(gòu)、分屬不同人管理,是做不出系統(tǒng)創(chuàng)新的,必須在統(tǒng)一管理下才能做出這樣的系統(tǒng)創(chuàng)新。
總之,語音交互的核心包括語音識(shí)別本身等一系列技術(shù),再加上語義理解,包括完成任務(wù),聊天(目前達(dá)不到)、問答(查詢信息,類似于Watson所作的事情)三個(gè)方面。而和語音交互相關(guān)的就是設(shè)備、剛需場景和環(huán)境。
科大訊飛目前的重點(diǎn)已經(jīng)不在局限于語音,我們提出的感知智能和認(rèn)知智能已經(jīng)遠(yuǎn)遠(yuǎn)超出了語音的范疇??拼笥嶏w目前所做的工作很多都是綜合的,不會(huì)把語音單獨(dú)拿出來,訊飛的最重目標(biāo)是要實(shí)現(xiàn)人工智能。
我們都想要人工智能,但我們希望的人工智能是不帶有自我意識(shí)的,自我意識(shí)和智能是可以分離的。之前人類想飛,會(huì)去模仿鳥類使用翅膀,但結(jié)果都失敗了。但后來人類發(fā)現(xiàn)了飛行的根本因素——空氣動(dòng)力學(xué),還發(fā)明了風(fēng)洞。因此,我們?nèi)祟惉F(xiàn)在不僅可以飛,還比鳥飛的好,也規(guī)避了鳥作為生物所帶來的諸多不方便的東西。
我們要的人工智能就是一個(gè)能夠像我們一樣感知、認(rèn)知、思考和決策的東西,但是不希望它有自我意識(shí),就像一個(gè)機(jī)器一樣。所有的科幻作品都有個(gè)假設(shè),當(dāng)機(jī)器達(dá)到這種智能時(shí),必須會(huì)有自我意識(shí),所以,所有的科幻作品都離不開阿西莫夫三定律。出現(xiàn)這種情況的原因是黑天鵝效應(yīng),如果有個(gè)東西的智能達(dá)到了人類水平,同時(shí)又沒有自我意識(shí),這種東西在世界上從來沒有被我們發(fā)現(xiàn)過,所以我們認(rèn)為這種東西不存在。但實(shí)際上這種東西是否存在呢?我們并不知道,只是我們每見過而已,所以我們要問兩個(gè)問題,一個(gè)是是否有可能存在這樣的東西,如果存在這樣的東西,我們就沒有必要討論人工智能的善與惡,人類面臨的風(fēng)險(xiǎn),等等,因?yàn)樗跊]有自我意識(shí)的情況下就不會(huì)對(duì)人類產(chǎn)生危險(xiǎn)。它會(huì)完全按照人類的命令行事。第二是怎么達(dá)到?這里就是涉及神經(jīng)科學(xué)的東西。神經(jīng)科學(xué)有兩個(gè)思路,一是大腦仿真,這條路在達(dá)到人類智能的情況下也勢(shì)必會(huì)出現(xiàn)意識(shí)。還有一條路就是類似于「空氣動(dòng)力學(xué)」,也許我們可以在大腦中發(fā)現(xiàn)一個(gè)叫「智能動(dòng)力學(xué)」的東西,通過分析人腦的神經(jīng)網(wǎng)絡(luò)找到智能部分,把這部分,包括認(rèn)知智能和感知智能分離出來而不需要自我意識(shí)。但這里也會(huì)涉及一個(gè)偏哲學(xué)的考慮:也許這樣的東西壓根不存在;也許你在得到智能時(shí)就必須附帶自我意識(shí)。
目前,大家都忽略了兩個(gè)可能性,第一個(gè)是如果智能的自我意識(shí)分離不了,那人工智能有可能是善的,也有惡的。第二個(gè)可能性是智能和意識(shí)可以分離,我現(xiàn)在參與的很多腦科學(xué)的研究就是在往這個(gè)方向走,而且我認(rèn)為這是有可能的。這個(gè)成功之后才真正是強(qiáng)人工智能,我們現(xiàn)在所做的事情都是弱人工智能,我們現(xiàn)在所使用的神經(jīng)網(wǎng)絡(luò)、漣漪效應(yīng)和大數(shù)據(jù)做的再好也是弱人工智能。但只有用上面那種方法做出來的就有可能是強(qiáng)人工智能,而且是不帶自我意識(shí)的強(qiáng)人工智能,這才是我們真正想要的東西,問題是需要有人先提出這個(gè)思路,提出這個(gè)東西可以做,有哪些路線,我們應(yīng)該怎么去嘗試才能做得到。
在強(qiáng)人工智能沒有實(shí)現(xiàn)之前也可以先用弱人工智能來彌補(bǔ)一下,或者說,我們寧可要弱人工智能,也不要一個(gè)帶有自我意識(shí)的強(qiáng)人工智能?,F(xiàn)在有我們對(duì)這方面的思考還不夠深刻,這個(gè)需要多學(xué)科交叉,只有深入研究神經(jīng)科學(xué),并且將其與信息科技結(jié)合,才能找到這條路。這個(gè)不是一種發(fā)明,而是一種探索發(fā)現(xiàn),是科學(xué)家要做的事情。我們相信這種思路,而證明它唯一辦法就是去實(shí)現(xiàn)它。從現(xiàn)在來看,弱人工智能和強(qiáng)人工智能沒有任何關(guān)系,而在弱人工智能中,統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法只是弱人工智能實(shí)現(xiàn)的一個(gè)要素,即使在統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法中,深度神經(jīng)網(wǎng)絡(luò)的重要性也要次于貝葉斯統(tǒng)計(jì)決策理論。
我們每天都可能會(huì)有新的觀點(diǎn),如果我們能夠不斷產(chǎn)生新的想法,我們就不會(huì)介意把這些想法分享出去的。同時(shí)對(duì)于人工智能的很多認(rèn)識(shí),更多的爭論甚至理解可能都不是最重要的,關(guān)鍵是要把這些東西做出來,這需要強(qiáng)大的能力、資源、追求和團(tuán)隊(duì)去做這個(gè)事情,科大訊飛就是要做這樣的事情,這是科大訊飛的追求,也是科大訊飛技術(shù)創(chuàng)新的宿命!
聯(lián)系客服