現(xiàn)代生活已經(jīng)產(chǎn)生微妙變化。在節(jié)日期間,我們會(huì)與家中的智能音箱對(duì)話:“愛麗絲,請(qǐng)播放些圣誕歌曲”,“Google,請(qǐng)打開美妙的燈光”,“Siri,請(qǐng)問烤火雞還需要多長(zhǎng)時(shí)間出爐”,就如同與家里成員一樣對(duì)話,而這種無形的指令幾乎是瞬時(shí)得到執(zhí)行。
包括亞馬遜、谷歌、蘋果的這類裝置已經(jīng)出現(xiàn)在英國(guó)五分之一的家庭中。2019年,全球已經(jīng)銷售了1.47億套,2020年銷量預(yù)計(jì)會(huì)增加10%。令人驚訝的是,智能音箱已經(jīng)達(dá)到了很高的語音識(shí)別能力和精確性。這些都?xì)w因于高靈敏度的語音傳感器和用來解釋語音的復(fù)雜機(jī)器學(xué)習(xí)算法。
從正常講話轉(zhuǎn)換為文本需要兩個(gè)過程:(1)一個(gè)語音傳感器將接收的聲波轉(zhuǎn)換為電信號(hào);(2)使用軟件識(shí)別出語音中的詞語。對(duì)于第二階段,電信號(hào)首先由模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),然后用快速傅里葉變換找出不同頻率信號(hào)隨時(shí)間的振幅變化。用算法語言將單音(phones)與標(biāo)準(zhǔn)的音素(phoneme)進(jìn)行比較,由此構(gòu)成完整講話。在語音識(shí)別過程中,機(jī)器學(xué)習(xí)非常重要,可以用來提高精確度。計(jì)算程序會(huì)記住我們對(duì)所說話的修正,因此在解讀我們個(gè)人的聲音時(shí)變得更加精確。
靈敏度聲學(xué)探測(cè)器源于19世紀(jì)末。最初的聲音傳感器是碳粉接觸式麥克風(fēng),由美國(guó)的 E. Berliner 和 T. Edison,英國(guó)的 D. Hughes獨(dú)立發(fā)明。這種麥克風(fēng)將碳粉顆粒壓縮在兩片金屬板之間,然后在兩側(cè)加上電壓。傳入的聲波使得其中一個(gè)金屬膜片產(chǎn)生振動(dòng)。在壓縮過程中,碳顆粒變形而增加了相互接觸面積,使接觸電阻下降引起電流增加。隨著膜片運(yùn)動(dòng)使得聲音可以通過電流變化記錄下來。
然而,直到1952年才首次實(shí)現(xiàn)語音識(shí)別技術(shù)。美國(guó)的貝爾電話實(shí)驗(yàn)室設(shè)立了 “自動(dòng)數(shù)字識(shí)別機(jī)”(Audrey)項(xiàng)目,可以在普通電話中識(shí)別數(shù)字0—9,用于語音撥號(hào),然而需要對(duì)用戶聲音進(jìn)行訓(xùn)練,以及許多其他電子儀器。
從Audrey設(shè)立以來,語音識(shí)別的計(jì)算方面已經(jīng)有了長(zhǎng)足的發(fā)展,語音傳感器也接受了嚴(yán)格考驗(yàn)。出現(xiàn)了鋁帶式麥克風(fēng)、動(dòng)圈式麥克風(fēng)、碳粒麥克風(fēng)等,但先后淡出市場(chǎng),而電容式傳感器卻一直是主流。1916年美國(guó)西部電子工程實(shí)驗(yàn)室的 E. C. Wente 發(fā)明了電容傳感器,利用一個(gè)電容器平板之間的電壓與間距有關(guān)的物理效應(yīng)。在一個(gè)固定的背板和一個(gè)運(yùn)動(dòng)的薄膜兩面加上電壓,隨著外部聲波振動(dòng)的薄膜引起電容兩端電壓的變化,由此可以計(jì)算出不同頻率聲波引起的振幅變化。
貝爾電話實(shí)驗(yàn)室的 G. Sessler 等人于1962年發(fā)明了駐極體電容麥克風(fēng)(ECM)。駐極體材料(如聚四氟乙烯)具有本征的表面電荷,可以在電容器兩端保持固定的電壓,從而降低了輸入功率。直徑為 3—10 mm的 ECM 占據(jù)了麥克風(fēng)市場(chǎng)大約50年時(shí)間。然而,減小傳感器尺寸會(huì)導(dǎo)致信噪比和穩(wěn)定性下降,特別是在溫度變化的環(huán)境中。
與時(shí)俱進(jìn)的語音傳感器。自從19世紀(jì)E. Berliner (左),T. Edison和D. Hughes首次發(fā)明了碳粒麥克風(fēng)以來,語音傳感器經(jīng)歷了很大進(jìn)展;(中)駐極體電容麥克風(fēng);(右)MEMS電容式麥克風(fēng)
當(dāng)用于語音識(shí)別時(shí),多數(shù)ECM傳感器已經(jīng)被微機(jī)電系統(tǒng)(MEMS)電容傳感器所取代。智能音箱中的這種傳感器直徑約 20—1000 mm。MEMS傳感器與ECM的區(qū)別在于內(nèi)部的模擬—數(shù)字轉(zhuǎn)換電路。與ECM相比,MEMS器件對(duì)電子噪聲不敏感,尺寸也更小,采用半導(dǎo)體工藝線加工,因而更易于批量制作。MEMS 傳感器的缺點(diǎn)是壽命不長(zhǎng),不適于惡劣的工作環(huán)境。沉積在膜片的顆粒、雨水和附著在膜片表面的空氣層都會(huì)降低其靈敏度。
盡管電容式傳感器已經(jīng)在工業(yè)界占據(jù)了數(shù)十年主導(dǎo)地位,但并非是未來發(fā)展的首選。美國(guó)Vesper公司設(shè)計(jì)了壓電語音傳感器,成為新的解決方案。這家2014年建立的公司最初的設(shè)計(jì)是源于公司CEO Bobby Littrelld 博士的研究。
壓電語音傳感器采用壓電材料制成的膜片,如鋯鈦酸鉛壓電材料,將機(jī)械能直接轉(zhuǎn)換為電響應(yīng)。當(dāng)壓電薄膜接收到聲波,其內(nèi)部離子間距離會(huì)增長(zhǎng),從而產(chǎn)生電偶極子,使得結(jié)構(gòu)中的離子形成能量最低的分布。這種偶極子只能存在于非中心對(duì)稱結(jié)構(gòu)晶體單胞中。偶極子在晶體中的累積效果會(huì)產(chǎn)生電壓,電壓隨著晶體內(nèi)應(yīng)變的變化而變化。
與電容式語音傳感器相比,壓電式傳感器具有的優(yōu)勢(shì)是不會(huì)沾上污染物、空氣或者水分,因此壽命更長(zhǎng)。另外,這種器件是自供電的,節(jié)省了用于電池的空間。
然而,像這樣的薄膜設(shè)備——以及電容式設(shè)計(jì)——往往很難制備,需要在高真空甚至超高真空環(huán)境。需要選擇合適的襯底,按照單胞的某一晶體取向生長(zhǎng)薄膜,以便在機(jī)械應(yīng)變條件下生長(zhǎng)的偶極子均朝向同一方向。需要高溫來提高原子的遷移性,使得原子在襯底的最低能量位置上形成理想點(diǎn)陣。然而,單晶的薄膜必須生長(zhǎng)在有序的結(jié)構(gòu)上,而柔性襯底是非晶結(jié)構(gòu),難于生長(zhǎng)單晶薄膜。
在語音識(shí)別領(lǐng)域中,韓國(guó)KAIST的團(tuán)隊(duì)發(fā)展了一種新的模仿人類聽力的壓電傳感器。他們的壓電傳感器具有與人類耳蝸的基底膜類似的形狀,因此,可以收集常規(guī)電容式傳感器兩倍的信息。這一優(yōu)勢(shì)源于,不僅可以收集含有所有頻率的單一信號(hào),從中提取頻率與振幅信息,而且能在薄膜不同的位置獲取多個(gè)信號(hào)。豐富的信息使得語音識(shí)別更加準(zhǔn)確。這種設(shè)計(jì)的精確度和靈敏度占優(yōu)勢(shì),可以獲取遠(yuǎn)處的音頻信號(hào),并且能夠分辨單個(gè)聲音。
他們研究中的棘手問題是分析來自這些通道的信號(hào),給出不同頻率信號(hào)的相對(duì)振幅,這是由于振幅受到了通道共振行為的調(diào)制。該團(tuán)隊(duì)認(rèn)為已經(jīng)找到了適于這種探測(cè)器的通道數(shù),但是必須在收集更多信息以提高精確度與適當(dāng)大小的處理器之間取得平衡。
語音識(shí)別技術(shù)并不限于將傳感器放置在房屋各個(gè)角落,或者你的口袋里。用于探測(cè)喉部振動(dòng)而不是探測(cè)聲波的傳感器,對(duì)于聲音幾乎無法傳播的場(chǎng)合是非常重要的,如在嘈雜的工業(yè)環(huán)境,或者人們佩戴笨重的防毒面具時(shí)。2019年韓國(guó)浦項(xiàng)科技大學(xué)做出了突破性工作,研制出柔性并且可以貼在皮膚上的電容傳感器。這種傳感器通過探測(cè)喉部環(huán)狀軟骨上的皮膚振動(dòng)來感知人的聲音。由于喉部皮膚的加速度與聲壓存在線性關(guān)系,因此,可以通過測(cè)量電容值的變化感知喉部加速度,進(jìn)而轉(zhuǎn)換為聲壓。團(tuán)隊(duì)制備了厚度小于 5 μm 的環(huán)氧樹脂薄膜,用以模擬自然界中柔性的聚合物材料。
語音識(shí)別探測(cè)器的未來是面向應(yīng)用的智能裝置,如靈敏度高,能夠識(shí)別作為密碼或者指紋的個(gè)體聲音信息。
本文選自《物理》2021年第1期
(北京大學(xué) 朱 星 編譯自 Pip Knight. Physics World,2020,(12):25)
原標(biāo)題:智能音箱與語音傳感器
來源: 中國(guó)物理學(xué)會(huì)期刊網(wǎng)
聯(lián)系客服