免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開(kāi)通VIP
多媒體技術(shù)教程(林福宗)第9章MPEG聲音

  與前面章節(jié)介紹的波形聲音壓縮編碼(如ADPCM)和參數(shù)編碼(如LPC)不同,MPEG-1和MPEG-2的聲音數(shù)據(jù)壓縮編碼不是依據(jù)波形本身的相關(guān)性和模擬人的發(fā)音器官的特性,而是利用人的聽(tīng)覺(jué)系統(tǒng)的特性來(lái)達(dá)到壓縮聲音數(shù)據(jù)的目的,這種壓縮編碼稱為感知聲音編碼(perceptual audio coding)。進(jìn)入20世紀(jì)80年代之后,尤其最近幾年,人類在利用自身的聽(tīng)覺(jué)系統(tǒng)的特性來(lái)壓縮聲音數(shù)據(jù)方面取得了很大的進(jìn)展,先后制定了MPEG-1 Audio, MPEG-2 Audio和MPEG-2 AAC等標(biāo)準(zhǔn)。
  本章涉及的許多具體算法已經(jīng)超出本教材的要求。對(duì)于要求深入鉆研的讀者,請(qǐng)參考本章提供的參考文件或者瀏覽網(wǎng)址。

9.1 聽(tīng)覺(jué)系統(tǒng)的感知特性

  許多科學(xué)工作者一直在研究聽(tīng)覺(jué)系統(tǒng)對(duì)聲音的感知特性,下面介紹已經(jīng)用在MPEG Audio壓縮編碼算法中的三個(gè)特性:響度、音高和掩蔽效應(yīng)。

9.1.1. 對(duì)響度的感知

  聲音的響度就是聲音的強(qiáng)弱。在物理上,聲音的響度使用客觀測(cè)量單位來(lái)度量,即dyn/cm2(達(dá)因/平方厘米)(聲壓)或W/cm2(瓦特/平方厘米)(聲強(qiáng))。在心理上,主觀感覺(jué)的聲音強(qiáng)弱使用響度級(jí)“方(phon)”或者“宋(sone)”來(lái)度量。這兩種感知聲音強(qiáng)弱的計(jì)量單位是完全不同的兩種概念,但是它們之間又有一定的聯(lián)系。
  當(dāng)聲音弱到人的耳朵剛剛可以聽(tīng)見(jiàn)時(shí),我們稱此時(shí)的聲音強(qiáng)度為“聽(tīng)閾”。例如,1 kHz純音的聲強(qiáng)達(dá)到10-16w/cm2(定義成零dB聲強(qiáng)級(jí))時(shí),人耳剛能聽(tīng)到,此時(shí)的主觀響度級(jí)定為零方。實(shí)驗(yàn)表明,聽(tīng)閾是隨頻率變化的。測(cè)出的“聽(tīng)閾—頻率”曲線如圖9-01所示。圖中最靠下面的一根曲線叫做“零方等響度級(jí)”曲線,也稱“絕對(duì)聽(tīng)閾”曲線,即在安靜環(huán)境中,能被人耳聽(tīng)到的純音的最小值。
  另一種極端的情況是聲音強(qiáng)到使人耳感到疼痛。實(shí)驗(yàn)表明,如果頻率為1 kHz的純音的聲強(qiáng)級(jí)達(dá)到120 dB左右時(shí),人的耳朵就感到疼痛,這個(gè)閾值稱為“痛閾”。對(duì)不同的頻率進(jìn)行測(cè)量,可以得到“痛閾—頻率”曲線,如圖9-01中最靠上面所示的一根曲線。這條曲線也就是120方等響度級(jí)曲線。
  在“聽(tīng)閾—頻率”曲線和“痛閾—頻率”曲線之間的區(qū)域就是人耳的聽(tīng)覺(jué)范圍。這個(gè)范圍內(nèi)的等響度級(jí)曲線也是用同樣的方法測(cè)量出來(lái)的。由圖9-01可以看出,1 kHz的10 dB的聲音和200 Hz的30 dB的聲音,在人耳聽(tīng)起來(lái)具有相同的響度。


圖9-01 “聽(tīng)閾—頻率”曲線

  圖9-01說(shuō)明人耳對(duì)不同頻率的敏感程度差別很大,其中對(duì)2 kHz~4 kHz范圍的信號(hào)最為敏感,幅度很低的信號(hào)都能被人耳聽(tīng)到。而在低頻區(qū)和高頻區(qū),能被人耳聽(tīng)到的信號(hào)幅度要高得多。

9.1.2. 對(duì)音高的感知

  客觀上用頻率來(lái)表示聲音的音高,其單位是Hz。而主觀感覺(jué)的音高單位則是“美(Mel)”,主觀音高與客觀音高的關(guān)系是
   Mel=1000 log2( 1+f )
其中f的單位為Hz,這也是兩個(gè)既不相同又有聯(lián)系的單位。
  人耳對(duì)響度的感覺(jué)有一個(gè)范圍,即從聽(tīng)閾到痛閾。同樣,人耳對(duì)頻率的感覺(jué)也有一個(gè)范圍。人耳可以聽(tīng)到的最低頻率約20 Hz,最高頻率約18000 Hz。正如測(cè)量響度時(shí)是以1 kHz純音為基準(zhǔn)一樣,在測(cè)量音高時(shí)則以40 dB聲強(qiáng)為基準(zhǔn),并且同樣由主觀感覺(jué)來(lái)確定。
  測(cè)量主觀音高時(shí),讓實(shí)驗(yàn)者聽(tīng)兩個(gè)聲強(qiáng)級(jí)為40 dB的純音,固定其中一個(gè)純音的頻率,調(diào)節(jié)另一個(gè)純音的頻率,直到他感到后者的音高為前者的兩倍,就標(biāo)定這兩個(gè)聲音的音高差為兩倍。實(shí)驗(yàn)表明,音高與頻率之間也不是線性關(guān)系。測(cè)出的“音高—頻率”曲線如圖9-02所示。


圖9-02 “音高—頻率”曲線

9.1.3. 掩蔽效應(yīng)

  一種頻率的聲音阻礙聽(tīng)覺(jué)系統(tǒng)感受另一種頻率的聲音的現(xiàn)象稱為掩蔽效應(yīng)。前者稱為掩蔽聲音(masking tone),后者稱為被掩蔽聲音(masked tone)。掩蔽可分成頻域掩蔽和時(shí)域掩蔽。
  1. 頻域掩蔽
  一個(gè)強(qiáng)純音會(huì)掩蔽在其附近同時(shí)發(fā)聲的弱純音,這種特性稱為頻域掩蔽,也稱同時(shí)掩蔽(simultaneous masking)。如圖9-03所示,一個(gè)聲強(qiáng)為60 dB、頻率為1000 Hz的純音,另外還有一個(gè)1100 Hz的純音,前者比后者高18 dB,在這種情況下我們的耳朵就只能聽(tīng)到那個(gè)1000 Hz的強(qiáng)音。如果有一個(gè)1000 Hz的純音和一個(gè)聲強(qiáng)比它低18 dB的2000 Hz的純音,那么我們的耳朵將會(huì)同時(shí)聽(tīng)到這兩個(gè)聲音。要想讓2000 Hz的純音也聽(tīng)不到,則需要把它降到比1000 Hz的純音低45 dB。一般來(lái)說(shuō),弱純音離強(qiáng)純音越近就越容易被掩蔽。


圖9-03 聲強(qiáng)為60 dB、頻率為1000 Hz純音的掩蔽效應(yīng)

  在圖9-04中的一組曲線分別表示頻率為250 Hz、1 kHz、4 kHz和8 kHz純音的掩蔽效應(yīng),它們的聲強(qiáng)均為60 dB。從圖中可以看到:①在250 Hz、1 kHz、4 kHz和8 kHz純音附近,對(duì)其他純音的掩蔽效果最明顯,②低頻純音可以有效地掩蔽高頻純音,但高頻純音對(duì)低頻純音的掩蔽作用則不明顯。


圖9-04 不同純音的掩蔽效應(yīng)曲線

  由于聲音頻率與掩蔽曲線不是線性關(guān)系,為從感知上來(lái)統(tǒng)一度量聲音頻率,引入了“臨界頻帶(critical band)”的概念。通常認(rèn)為,在20 Hz到16 kHz范圍內(nèi)有24個(gè)臨界頻帶,如表9-01所示。臨界頻帶的單位叫Bark(巴克),
  1 Bark = 一個(gè)臨界頻帶的寬度
  f(頻率)< 500 Hz的情況下, 1 Bark >> f/100
  f(頻率) > 500 Hz的情況下, 1Bark >> 9 + 4log(f/1000)
  以上我們討論了響度、音高和掩蔽效應(yīng),尤其是人的主觀感覺(jué)。其中掩蔽效應(yīng)尤為重要,它是心理聲學(xué)模型的基礎(chǔ)。

表9-01 臨界頻帶[16]

臨界

頻率 (Hz)

臨界

頻率 (Hz)

頻帶

低端

高端

寬度

頻帶

低端

高端

寬度

0

0

100

100

13

2000

2320

320

1

100

200

100

14

2320

2700

380

2

200

300

100

15

2700

3150

450

3

300

400

100

16

3150

3700

550

4

400

510

110

17

3700

4400

700

5

510

630

120

18

4400

5300

900

6

630

770

140

19

5300

6400

1100

7

770

920

150

20

6400

7700

1300

8

920

1080

160

21

7700

9500

1800

9

1080

1270

190

22

9500

12000

2500

10

1270

1480

210

23

12000

15500

3500

11

1480

1720

240

24

15500

22050

6550

12

1720

2000

280

 

 

 

 

  2. 時(shí)域掩蔽
  
除了同時(shí)發(fā)出的聲音之間有掩蔽現(xiàn)象之外,在時(shí)間上相鄰的聲音之間也有掩蔽現(xiàn)象,并且稱為時(shí)域掩蔽。時(shí)域掩蔽又分為超前掩蔽(pre-masking)和滯后掩蔽(post-masking),如圖9-05所示。產(chǎn)生時(shí)域掩蔽的主要原因是人的大腦處理信息需要花費(fèi)一定的時(shí)間。一般來(lái)說(shuō),超前掩蔽很短,只有大約5~20 ms,而滯后掩蔽可以持續(xù)50~200 ms。這個(gè)區(qū)別也是很容易理解的。


圖9-05時(shí)域掩蔽

9.2 MPEG Audio與感知特性

  MPEG Audio標(biāo)準(zhǔn)在本書中是指MPEG-1 Audio、MPEG-2 Audio和MPEG-2 AAC,它們處理10 Hz~20000 Hz范圍里的聲音數(shù)據(jù),數(shù)據(jù)壓縮的的主要依據(jù)是人耳朵的聽(tīng)覺(jué)特性,使用“心理聲學(xué)模型(psychoacoustic model)”來(lái)達(dá)到壓縮聲音數(shù)據(jù)的目的。
  心理聲學(xué)模型中一個(gè)基本的概念就是聽(tīng)覺(jué)系統(tǒng)中存在一個(gè)聽(tīng)覺(jué)閾值電平,低于這個(gè)電平的聲音信號(hào)就聽(tīng)不到,因此就可以把這部分信號(hào)去掉。聽(tīng)覺(jué)閾值的大小隨聲音頻率的改變而改變,各個(gè)人的聽(tīng)覺(jué)閾值也不同。大多數(shù)人的聽(tīng)覺(jué)系統(tǒng)對(duì)2 kHz~5 kHz之間的聲音最敏感。一個(gè)人是否能聽(tīng)到聲音取決于聲音的頻率,以及聲音的幅度是否高于這種頻率下的聽(tīng)覺(jué)閾值。
  心理聲學(xué)模型中的另一個(gè)概念是聽(tīng)覺(jué)掩飾特性,意思是聽(tīng)覺(jué)閾值電平是自適應(yīng)的,即聽(tīng)覺(jué)閾值電平會(huì)隨聽(tīng)到的不同頻率的聲音而發(fā)生變化。例如,同時(shí)有兩種頻率的聲音存在,一種是1000 Hz的聲音,另一種是1100 Hz的聲音,但它的強(qiáng)度比前者低18分貝,在這種情況下,1100 Hz的聲音就聽(tīng)不到。也許你有這樣的體驗(yàn),在一安靜房間里的普通談話可以聽(tīng)得很清楚,但在播放搖滾樂(lè)的環(huán)境下同樣的普通談話就聽(tīng)不清楚了。聲音壓縮算法也同樣可以確立這種特性的模型來(lái)取消更多的冗余數(shù)據(jù)。

9.3 MPEG-1 Audio

9.3.1 聲音編碼

  聲音的數(shù)據(jù)量由兩方面決定:采樣頻率和樣本精度。對(duì)單聲道信號(hào)而言,每秒鐘的數(shù)據(jù)量(位數(shù))=采樣頻率′ 樣本精度。要減小數(shù)據(jù)量,就需要降低采樣頻率或者降低樣本精度。但是人耳可聽(tīng)到的頻率范圍大約是20 Hz~20 kHz。根據(jù)奈奎斯特理論,要想不失真地重構(gòu)信號(hào),采樣頻率不能低于40 kHz。再考慮到實(shí)際中使用的濾波器都不可能是理想濾波器,以及考慮各國(guó)所用的交流電源的頻率,為保證聲音頻帶的寬度,所以采樣頻率一般不能低于44.1 kHz。這樣,壓縮就必須從降低樣本精度這個(gè)角度出發(fā),即減少每位樣本所需要的位數(shù)。
  第3章介紹了線性預(yù)測(cè)編碼(linear predictive coding,LPC)的方法,這種方法主要是針對(duì)話音的編碼,這種編碼方法稱為音源特定編碼法(source specific methods)。MPEG-1和MPEG-2的聲音壓縮采用了另一種方法,稱為子帶編碼(sub-band coding,SBC)方法,這也是一種功能很強(qiáng)而且很有效的聲音信號(hào)編碼方法。與音源特定編碼法不同,SBC不局限于只對(duì)話音進(jìn)行編碼,也不局限于哪一種聲源。這種方法的具體思想是首先把時(shí)域中的聲音數(shù)據(jù)變換到頻域,對(duì)頻域內(nèi)的子帶分量分別進(jìn)行量化和編碼,然后根據(jù)心理聲學(xué)模型確定樣本的精度,從而達(dá)到壓縮數(shù)據(jù)量的目的。
  MPEG聲音數(shù)據(jù)壓縮的基礎(chǔ)是量化。雖然量化會(huì)帶來(lái)失真,但MPEG標(biāo)準(zhǔn)要求量化失真對(duì)于人耳來(lái)說(shuō)是感覺(jué)不到的。在MPEG標(biāo)準(zhǔn)的制定過(guò)程中,MPEG-Audio委員會(huì)作了大量的主觀測(cè)試實(shí)驗(yàn)。實(shí)驗(yàn)表明,采樣頻率為48 kHz、樣本精度為16比特的聲音數(shù)據(jù)壓縮到256 kb/s時(shí),即在6:1的壓縮率下,即使是專業(yè)測(cè)試員也很難分辨出是原始聲音還是編碼壓縮后的聲音。
  MPEG Audio是一個(gè)子帶編碼系統(tǒng),聲音數(shù)據(jù)壓縮算法的根據(jù)是心理聲學(xué)模型,心理聲學(xué)模型中一個(gè)最基本的概念是聽(tīng)覺(jué)系統(tǒng)中存在一個(gè)聽(tīng)覺(jué)閾值電平,低于這個(gè)電平的聲音信號(hào)就聽(tīng)不到。聽(tīng)覺(jué)閾值的大小隨聲音頻率的改變而改變,各個(gè)人的聽(tīng)覺(jué)閾值也不同。大多數(shù)人的聽(tīng)覺(jué)系統(tǒng)對(duì)2 kHz~5 kHz之間的聲音最敏感。一個(gè)人是否能聽(tīng)到聲音取決于聲音的頻率,以及聲音的幅度是否高于這種頻率下的聽(tīng)覺(jué)閾值。
  心理聲學(xué)模型中的另一個(gè)概念是聽(tīng)覺(jué)掩飾特性,意思是聽(tīng)覺(jué)閾值電平是自適應(yīng)的,即聽(tīng)覺(jué)閾值電平會(huì)隨聽(tīng)到的頻率不同的聲音而發(fā)生變化。例如,在一般環(huán)境下房間里的普通談話可以聽(tīng)得很清楚,但在搖滾樂(lè)環(huán)境下同樣的普通談話就聽(tīng)不清楚了。聲音壓縮算法也同樣可以確立這種特性的模型,根據(jù)這個(gè)模型可取消冗余的聲音數(shù)據(jù)。MPEG Audio的壓縮算法框圖如圖9-06所示。


圖9-06 MPEG Audio壓縮算法框圖

  Dolby AC-3同樣利用人的聽(tīng)覺(jué)系統(tǒng)特性來(lái)壓縮聲音數(shù)據(jù),它的壓縮編碼算法框圖如圖9-07所示。有興趣的讀者請(qǐng)瀏覽網(wǎng)址:http://atsc.org/stan&rps.html (瀏覽日期:1999年2月3日)


圖9-07 Dolby AC-3壓縮編碼算法框圖

9.3.2 聲音的性能

  目前,除了Dolby公司的數(shù)字聲音數(shù)據(jù)壓縮編碼算法AC-3(Audio Code Number 3)之外,其他的聲音壓縮算法主要是針對(duì)話音。例如,m-law,A-Law,ADPCM(adaptive difference pulse code modulation),GSM(Global System for Mobile communications)、CELP(code excited linear prediction)和MELP(mixed excitation linear prediction)等算法。當(dāng)這些算法用來(lái)壓縮寬帶聲音(如音樂(lè))信號(hào)時(shí),在相同壓縮比的情況下,輸出的聲音質(zhì)量比較低。而MPEG聲音(ISO/IEC 11172-3)壓縮算法是世界上第一個(gè)高保真聲音數(shù)據(jù)壓縮國(guó)際標(biāo)準(zhǔn),并且得到了極其廣泛的應(yīng)用。雖然MPEG聲音標(biāo)準(zhǔn)是MPEG標(biāo)準(zhǔn)的一部分,但它也完全可以獨(dú)立應(yīng)用。MPEG-1聲音標(biāo)準(zhǔn)的主要性能如下:
  (1) 如圖9-08所示,MPEG編碼器的輸入信號(hào)為線性PCM信號(hào),采樣率為32, 44.1或48 kHz,輸出為32 kb/s~384 kb/s。


圖9-08 MPEG編碼器的輸入/輸出

  (2) MPEG聲音標(biāo)準(zhǔn)提供三個(gè)獨(dú)立的壓縮層次:層1(Layer 1)、層2(Layer 2)和層3(Layer 3),用戶對(duì)層次的選擇可在復(fù)雜性和聲音質(zhì)量之間進(jìn)行權(quán)衡。
 ?、?層1的編碼器最為簡(jiǎn)單,編碼器的輸出數(shù)據(jù)率為384 kb/s,主要用于小型數(shù)字盒式磁帶(digital compact cassette,DCC)。
 ?、?層2的編碼器的復(fù)雜程度屬中等,編碼器的輸出數(shù)據(jù)率為256 kb/s~192 kb/s,其應(yīng)用包括數(shù)字廣播聲音(digital broadcast audio,DBA)、數(shù)字音樂(lè)、CD-I(compact disc-interactive)和VCD(video compact disc)等。
 ?、?層3的編碼器最為復(fù)雜,編碼器的輸出數(shù)據(jù)率為64 kb/s,主要應(yīng)用于ISDN上的聲音傳輸。
  在盡可能保持CD音質(zhì)為前提的條件下,MPEG聲音標(biāo)準(zhǔn)一般所能達(dá)到的壓縮率如表9-02所示,從編碼器的輸入到輸出的延遲時(shí)間如表9-03所示。

表9-02 MPEG聲音的壓縮率

層次

算法

壓縮率

立體聲信號(hào)所對(duì)應(yīng)的位率( kb/s)

1

MUSICAM*

4:1

384

2

MUSICAM*

6:1 ~ 8:1

256 ~ 192

3

ASPEC**

10:1 ~ 12:1

128 ~ 112

  * MUSICAM(Masking pattern adapted Universal Subband Integrated Coding And Multiplexing) 自適應(yīng)聲音掩蔽特性的通用子帶綜合編碼和復(fù)合技術(shù)
  ** ASPEC(Adaptive Spectral Perceptual Entropy Coding of high quality musical signal) 高質(zhì)量音樂(lè)信號(hào)自適應(yīng)譜感知熵編碼(技術(shù))

表9-03 MPEG編碼解碼器的延遲時(shí)間

延遲時(shí)間

理論最小值( ms)

實(shí)際實(shí)現(xiàn)中的一般值( ms)

層1(Layer 1)

19

< 50

層2(Layer 2)

35

100

層3(Layer 3)

59

150

  (3) 可預(yù)先定義壓縮后的數(shù)據(jù)率,如表9-04所示。另外,MPEG聲音標(biāo)準(zhǔn)也支持用戶預(yù)定義的數(shù)據(jù)率。

表9-04 MPEG層3在各種數(shù)據(jù)率下的性能:

音質(zhì)要求

聲音帶寬(kHz)

方式

數(shù)據(jù)率( kb/s)

壓縮比

電話

2.5

單聲道

8

96:1

優(yōu)于短波

5.5

單聲道

16

48:1

優(yōu)于調(diào)幅廣播

7.5

單聲道

32

24:1

類似于調(diào)頻廣播

11

立體聲

56 ~ 64

26 ~ 24:1

接近CD

15

立體聲

96

16:1

CD

> 15

立體聲

112 ~ 128

12 ~ 10 :1

  (4) 編碼后的數(shù)據(jù)流支持循環(huán)冗余校驗(yàn)CRC(cyclic redundancy check)。
  (5) MPEG聲音標(biāo)準(zhǔn)還支持在數(shù)據(jù)流中添加附加信息。

9.3.3 子帶編碼

  在第三章已經(jīng)介紹了子帶編碼的基本思想,MPEG-1使用子帶編碼來(lái)達(dá)到既壓縮聲音數(shù)據(jù)又盡可能保留聲音原有質(zhì)量的目的。聽(tīng)覺(jué)系統(tǒng)有許多特性,子帶編碼的理論根據(jù)是聽(tīng)覺(jué)系統(tǒng)的掩蔽特性,并且主要是利用頻域掩蔽特性。SBC的基本想法就是在編碼過(guò)程中保留信號(hào)的帶寬而扔掉被掩蔽的信號(hào),其結(jié)果是編碼之后還原的聲音,也就是解碼或者叫做重構(gòu)的聲音信號(hào)與編碼之前的聲音信號(hào)不相同,但人的聽(tīng)覺(jué)系統(tǒng)很難感覺(jué)到它們之間的差別。這也就是說(shuō),對(duì)聽(tīng)覺(jué)系統(tǒng)來(lái)說(shuō)這種壓縮是“無(wú)損壓縮”。
  大多數(shù)SBC編碼器都使用如圖9-09所示的結(jié)構(gòu),這也是MPEG-1聲音編碼器的結(jié)構(gòu)圖。輸入聲音信號(hào)經(jīng)過(guò)一個(gè)“時(shí)間-頻率多相濾波器組”變換到頻域里的多個(gè)子帶中。輸入聲音信號(hào)同時(shí)經(jīng)過(guò)“心理聲學(xué)模型(計(jì)算掩蔽特性)”,該模型計(jì)算以頻率為自變量的噪聲掩蔽閾值(masking threshold),查看輸入信號(hào)和子帶中的信號(hào)以確定每個(gè)子帶里的信號(hào)能量與掩蔽閾值的比率?!傲炕途幋a”部分用信掩比(signal-to-mask ratio,SMR)來(lái)決定分配給子帶信號(hào)的量化位數(shù),使量化噪聲低于掩蔽閾值。最后通過(guò)“數(shù)據(jù)流幀包裝”將量化的子帶樣本和其他數(shù)據(jù)按照規(guī)定的稱為“幀(frame)”的格式組裝成位數(shù)據(jù)流。
  信掩比是指最大的信號(hào)功率與全局掩蔽閾值之比,圖9-10表示了某個(gè)子帶中的信掩比。

圖9-09 MPEG聲音編碼器結(jié)構(gòu)圖


SNR(signal noise ratio) —— 信號(hào)噪聲比
 SMR(signal-to-mask ratio) —— 信號(hào)掩蔽比
NMR(noise-to-mask ratio) —— 噪聲掩蔽比
圖9-10 掩蔽閾值和SMR

  圖9-11是MPEG-1聲音解碼器的結(jié)構(gòu)圖。解碼器對(duì)位數(shù)據(jù)流進(jìn)行解碼,恢復(fù)被量化的子帶樣本值以重建聲音信號(hào)。由于解碼器無(wú)需心理聲學(xué)模型,只需拆包、重構(gòu)子帶樣本和把它們變換回聲音信號(hào),因此解碼器就比編碼器簡(jiǎn)單得多。


圖9-11 MPEG聲音解碼器結(jié)構(gòu)圖

9.3.4 多相濾波器組

  在圖9-09中,用來(lái)分割子帶也就是時(shí)間-頻率變換部件是一個(gè)多相濾波器組。在MPEG-1中,多相濾波器組是MPEG聲音壓縮的關(guān)鍵部分部件之一,它把輸入信號(hào)變換到32個(gè)頻域子帶中去。子帶的劃分方法有兩種,一種是線性劃分,另一種是非線性劃分。如果把聲音頻帶劃分成帶寬相等的子帶,這種劃分就不能精確地反映人耳的聽(tīng)覺(jué)特性,因?yàn)槿硕穆?tīng)覺(jué)特性是以“臨界頻帶”來(lái)劃分的,在一個(gè)臨界頻帶之內(nèi),很多心理聲學(xué)特性都是一樣的。圖9-12對(duì)多相濾波器組的帶寬和臨界頻帶的帶寬作了比較。從圖中可以看到,在低頻區(qū)域,一個(gè)子帶覆蓋好幾個(gè)臨界頻帶。在這種情況下,某個(gè)子帶中量化器的比特分配就不能根據(jù)每個(gè)臨界頻帶的掩蔽閾值進(jìn)行分配,而要以其中最低的掩蔽閾值為準(zhǔn)。
  如果需要具體計(jì)算多相濾波器組的輸出信號(hào),請(qǐng)參看參考文獻(xiàn)和站點(diǎn)[1]


圖9-12 濾波器組的帶寬與臨界頻帶帶寬的比較[1]

9.3.5 編碼層

  MPEG聲音壓縮定義了3個(gè)分明的層次,它們的基本模型是相同的。層1是最基礎(chǔ)的,層2和層3都在層1的基礎(chǔ)上有所提高。每個(gè)后繼的層次都有更高的壓縮比,但需要更復(fù)雜的編碼解碼器。MPEG聲音的每一個(gè)層都自含SBC編碼器,其中包含如圖9-09所示的“時(shí)間-頻率多相濾波器組”、“心理聲學(xué)模型(計(jì)算掩蔽特性)”、“量化和編碼”和“數(shù)據(jù)流幀包裝”,而高層SBC可使用低層SBC編碼的聲音數(shù)據(jù)。
  MPEG的聲音數(shù)據(jù)分成幀(frame),層1每幀包含384個(gè)樣本的數(shù)據(jù),每幀由32個(gè)子帶分別輸出的12個(gè)樣本組成。層2和層3每幀為1152個(gè)樣本,如圖9-13所示。


圖9-13 層1、2和層3的子帶樣本

  MPEG編碼器的輸入以12個(gè)樣本為一組,每組樣本經(jīng)過(guò)時(shí)間-頻率變換之后進(jìn)行一次比特分配并記錄一個(gè)比例因子(scale factor)。比特分配信息告訴解碼器每個(gè)樣本由幾位表示,比例因子用6比特表示,解碼器使用這個(gè)6比特的比例因子乘逆量化器的每個(gè)輸出樣本值,以恢復(fù)被量化的子帶值。比例因子的作用是充分利用量化器的量化范圍,通過(guò)比特分配和比例因子相配合,可以表示動(dòng)態(tài)范圍超過(guò)120 DB的樣本。
  1. 層1
  層1和層2的比較詳細(xì)的框圖如圖9-14所示。層1的子帶是頻帶相等的子帶,它的心理聲學(xué)模型僅使用頻域掩蔽特性。層1的“時(shí)間-頻率多相濾波器組”使用類似于離散余弦變換DCT(discrete cosine transform)的分析濾波器組進(jìn)行變換,以獲得詳細(xì)的信號(hào)頻譜信息。根據(jù)信號(hào)的頻率、強(qiáng)度和音調(diào),濾波器組的輸出可用來(lái)找出掩蔽閾值,然后組合每個(gè)子帶的單個(gè)掩蔽閾值以形成全局的掩蔽閾值。使用這個(gè)閾值與子帶中的最大信號(hào)進(jìn)行比較,產(chǎn)生信掩比SMR之后再輸入到“量化和編碼器”。
  “量化和編碼器”首先檢查每個(gè)子帶的樣本,找出這些樣本中的最大的絕對(duì)值,然后量化成6比特,這個(gè)比特?cái)?shù)稱為比例因子(scale factor)?!傲炕途幋a器”然后根據(jù)SMR確定每個(gè)子帶的比特分配(bit allocation),子帶樣本按照比特分配進(jìn)行量化和編碼。對(duì)被高度掩蔽的子帶自然就不需要對(duì)它進(jìn)行編碼。


圖9-14 ISO/MPEG audio層1和層2編碼器和解碼器的結(jié)構(gòu)

  “數(shù)據(jù)流幀包裝”按規(guī)定的幀格式進(jìn)行包裝,實(shí)際上就是一個(gè)多路復(fù)合器MUX。層1的幀結(jié)構(gòu)如圖9-15所示。每幀都包含:①用于同步和記錄該幀信息的同步頭,長(zhǎng)度為32比特,它的結(jié)構(gòu)如圖9-16所示,②用于檢查是否有錯(cuò)誤的循環(huán)冗余碼CRC(cyclic redundancy code),長(zhǎng)度為16比特,③用于描述比特分配的比特分配域,長(zhǎng)度為4比特,④比例因子域,長(zhǎng)度為6比特,⑤子帶樣本域,⑥有可能添加的附加數(shù)據(jù)域,長(zhǎng)度未規(guī)定。


圖9-15 層1的幀結(jié)構(gòu)


圖9-16 MPEG聲音比特流同步頭的格式

  2. 層2
  層2對(duì)層1作了一些直觀的改進(jìn),相當(dāng)于3個(gè)層1的幀,每幀有1152個(gè)樣本。它使用的心理聲學(xué)模型除了使用頻域掩蔽特性之外還利用了時(shí)間掩蔽特性,并且在低、中和高頻段對(duì)比特分配作了一些限制,對(duì)比特分配、比例因子和量化樣本值的編碼也更緊湊。由于層2采用了上述措施,因此所需的比特?cái)?shù)減少了,這樣就可以有更多的比特用來(lái)表示聲音數(shù)據(jù),音質(zhì)也比層1更高。
  層1是對(duì)一個(gè)子帶中的一個(gè)樣本組(由12個(gè)樣本組成)進(jìn)行編碼,而層2和層3是對(duì)一個(gè)子帶中的三個(gè)樣本組進(jìn)行編碼。圖9-13也表示了層2和層3的分組方法。
  如圖9-17所示,層2使用與層1相同的同步頭和CRC結(jié)構(gòu),但描述比特分配的位數(shù)(即比特?cái)?shù))隨子帶不同而變化:低頻段的子帶用4比特,中頻段的子帶用3比特,高頻段的子帶用2比特。層2比特流中有一個(gè)比例因子選擇信息(scale factor selection information,SCFSI)域,解碼器根據(jù)這個(gè)域的信息可知道是否需要以及如何共享比例因子。


圖9-17 層2比特流數(shù)據(jù)格式

  3. 層3
  層3使用比較好的臨界頻帶濾波器,把聲音頻帶分成非等帶寬的子帶,心理聲學(xué)模型除了使用頻域掩蔽特性和時(shí)間掩蔽特性之外,還考慮了立體聲數(shù)據(jù)的冗余,并且使用了霍夫曼(Huffman)編碼器。層3編碼器的詳細(xì)框圖如圖9-18所示。


圖9-18 ISO/MPEG audio層3編碼器和解碼器的結(jié)構(gòu)

  層3使用了從ASPEC(Audio Spectral Perceptual Entropy Encoding)和OCF(Optimal Coding In The Frequency domain)導(dǎo)出的算法,比層1和層2都要復(fù)雜。雖然層3所用的濾波器組與層1和層2所用的濾波器組的結(jié)構(gòu)相同,但是層3還使用了改進(jìn)離散余弦變換(modified discrete cosine transform,MDCT),對(duì)層1和層2的濾波器組的不足作了一些補(bǔ)償。MDCT把子帶的輸出在頻域里進(jìn)一步細(xì)分以達(dá)到更高的頻域分辨率。而且通過(guò)對(duì)子帶的進(jìn)一步細(xì)分,層3編碼器已經(jīng)部分消除了多相濾波器組引入的混迭效應(yīng)。
  層3指定了兩種MDCT的塊長(zhǎng):長(zhǎng)塊的塊長(zhǎng)為18個(gè)樣本,短塊的塊長(zhǎng)為6個(gè)樣本,相鄰變換窗口之間有50%的重疊。長(zhǎng)塊對(duì)于平穩(wěn)的聲音信號(hào)可以得到更高的頻域分辨率,而短塊對(duì)跳變的聲音信號(hào)可以得到更高的時(shí)域分辨率。在短塊模式下,3個(gè)短塊代替1個(gè)長(zhǎng)塊,而短塊的大小恰好是一個(gè)長(zhǎng)塊的1/3,所以MDCT的樣本數(shù)不受塊長(zhǎng)的影響。對(duì)于給定的一幀聲音信號(hào),MDCT可以全部使用長(zhǎng)塊或全部使用短塊,也可以長(zhǎng)短塊混合使用。因?yàn)榈皖l區(qū)的頻域分辨率對(duì)音質(zhì)有重大影響,所以在混合塊長(zhǎng)模式下,MDCT對(duì)最低頻的2個(gè)子帶使用長(zhǎng)塊,而對(duì)其余的30個(gè)子帶使用短塊。這樣,既能保證低頻區(qū)的頻域分辨率,又不會(huì)犧牲高頻區(qū)的時(shí)域分辨率。長(zhǎng)塊和短塊之間的切換有一個(gè)過(guò)程,一般用一個(gè)帶特殊長(zhǎng)轉(zhuǎn)短或短轉(zhuǎn)長(zhǎng)數(shù)據(jù)窗口的長(zhǎng)塊來(lái)完成這個(gè)長(zhǎng)短塊之間的切換。
  除了使用MDCT外,層3還采用了其他許多改進(jìn)措施來(lái)提高壓縮比而不降低音質(zhì)。雖然層3引入了許多復(fù)雜的概念,但是它的計(jì)算量并沒(méi)有比層2增加很多。增加的主要是編碼器的復(fù)雜度和解碼器所需要的存儲(chǔ)容量。

9.4 MPEG-2 Audio

  MPEG-2標(biāo)準(zhǔn)委員會(huì)定義了兩種聲音數(shù)據(jù)壓縮格式,一種稱為MPEG-2 Audio,或者稱為MPEG-2多通道(Multichannel)聲音,因?yàn)樗cMPEG-1 Audio是兼容的,所以又稱為MPEG-2 BC (Backward Compatible)。另一種稱為MPEG-2 AAC (Advanced Audio Coding),因?yàn)樗cMPEG-1聲音格式不兼容,因此通常稱為非后向兼容MPEG-2 NBC(Non-Backward-Compatible)標(biāo)準(zhǔn)。這節(jié)先介紹MPEG-2 Audio。
  MPEG-2 Audio(ISO/IEC 13818-3)和MPEG-1 Audio(ISO/IEC 1117-3)標(biāo)準(zhǔn)都使用相同種類的編譯碼器,層-1, -2和-3的結(jié)構(gòu)也相同。MPEG-2聲音標(biāo)準(zhǔn)與MPEG-1標(biāo)準(zhǔn)相比,MPEG-2做了如下擴(kuò)充:①增加了16 kHz, 22.05 kHz和24 kHz采樣頻率,②擴(kuò)展了編碼器的輸出速率范圍,由32~384 kb/s擴(kuò)展到8~640 kb/s,③增加了聲道數(shù),支持5.1聲道和7.1聲道的環(huán)繞聲。此外MPEG-2還支持Linear PCM(線性PCM)和Dolby AC-3(Audio Code Number 3)編碼。它們的差別如表9-05所示。

表9-05 MPEG-1和-2的聲音數(shù)據(jù)規(guī)格

參數(shù)名稱

Linear PCM

Dolby AC-3

MPEG-2 Audio

MPEG-1 Audio

采用頻率

48/96 kHz

32/44.1/48 kHz

16/22.05/24/ 32/44.1/48 kHz

32/44.1/48 kHz

樣本精度
(每個(gè)樣本的比特?cái)?shù))

16/20/24

壓縮(16 bits)

壓縮(16 bits)

16

最大數(shù)據(jù)傳輸率

6.144 Mb/s

448 kb/s

8~640 kb/s

32~448 kb/s

最大聲道數(shù)

8

5.1

5.1/7.1

2

  MPEG-2 Audio的“5.1環(huán)繞聲”也稱為“3/2-立體聲加LFE”,其中的“.1”就是指LFE聲道。它的含義是播音現(xiàn)場(chǎng)的前面可有3個(gè)喇叭聲道(左、中、右),后面可有2個(gè)環(huán)繞聲喇叭聲道,LFE(low frequency effects)是低頻音效的加強(qiáng)聲道,如圖9-19(a)所示。7.1聲道環(huán)繞立體聲與5.1類似,如圖9-19(b)所示。


圖9-19(a) 5.1聲道立體環(huán)繞聲


圖9-19(b) 7.1聲道立體環(huán)繞聲

  Dolby AC-3支持5個(gè)聲道(左、中、右、左環(huán)繞、右環(huán)繞和0.1 kHz以下的低音音效聲道),聲音樣本的精度為20比特,每個(gè)聲道的采樣率可以是32 kHz, 44.1 kHz或者48 kHz。
  MPEG-2聲音標(biāo)準(zhǔn)的第3部分(Part 3)是MPEG-1聲音標(biāo)準(zhǔn)的擴(kuò)展,擴(kuò)展部分就是多聲道擴(kuò)展(multichannel extension),如圖9-20所示。這個(gè)標(biāo)準(zhǔn)稱為MPEG-2后向兼容多聲道聲音編碼(MPEG-2 backwards compatible multichannel audio coding)標(biāo)準(zhǔn),簡(jiǎn)稱為MPEG-2 BC。


圖9-20 MPEG-2 Audio的數(shù)據(jù)塊
(引自 ISO/IEC 13818-3)

9.5 MPEG-2 AAC

9.5.1 MPEG-2 AAC是什么

  MPEG-2 AAC是MPEG-2標(biāo)準(zhǔn)中的一種非常靈活的聲音感知編碼標(biāo)準(zhǔn)。就像所有感知編碼一樣,MPEG-2 AAC主要使用聽(tīng)覺(jué)系統(tǒng)的掩蔽特性來(lái)減少聲音的數(shù)據(jù)量,并且通過(guò)把量化噪聲分散到各個(gè)子帶中,用全局信號(hào)把噪聲掩蔽掉。
  AAC支持的采用頻率可從8 kHz到96 kHz,AAC編碼器的音源可以是單聲道的、立體聲的和多聲道的聲音。AAC標(biāo)準(zhǔn)可支持48個(gè)主聲道、16個(gè)低頻音效加強(qiáng)通道LFE (low frequency effects)、16個(gè)配音聲道(overdub channel)或者叫做多語(yǔ)言聲道(multilingual channel)和16個(gè)數(shù)據(jù)流。MPEG-2 AAC在壓縮比為11:1,即每個(gè)聲道的數(shù)據(jù)率為(44.1×16 )/11=64 kb/s,而5個(gè)聲道的總數(shù)據(jù)率為320 kb/s的情況下,很難區(qū)分還原后的聲音與原始聲音之間的差別。與MPEG的層2相比,MPEG-2 AAC的壓縮率可提高1倍,而且質(zhì)量更高,與MPEG的層3相比,在質(zhì)量相同的條件下數(shù)據(jù)率是它的70%。

9.5.2 MPEG-2 AAC的配置

  開(kāi)發(fā)MPEG-2 AAC標(biāo)準(zhǔn)采用的方法與開(kāi)發(fā)MPEG Audio標(biāo)準(zhǔn)采用的方法不同。后者采用的方法是對(duì)整個(gè)系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化,而前者采用的方法是模塊化的方法,把整個(gè)AAC系統(tǒng)分解成一系列模塊,用標(biāo)準(zhǔn)化的AAC工具(advanced audio coding tools)對(duì)模塊進(jìn)行定義,因此在文獻(xiàn)中往往把“模塊(modular)”與“工具(tool)”等同對(duì)待。
  AAC定義的編碼和解碼的基本結(jié)構(gòu)如圖9-21和圖9-22所示。AAC標(biāo)準(zhǔn)定義了三種配置:基本配置、低復(fù)雜性配置和可變采樣率配置:
  1. 基本配置(Main Profile)
  在這種配置中,除了“增益控制(Gain Control)”模塊之外,AAC系統(tǒng)使用了圖中所示的所有模塊,在三種配置中提供最好的聲音質(zhì)量,而且AAC的解碼器可以對(duì)低復(fù)雜性配置編碼的聲音數(shù)據(jù)進(jìn)行解碼,但對(duì)計(jì)
  2. 低復(fù)雜性配置(Low Complexity Profile)
  在這種配置中,不使用預(yù)測(cè)模塊和預(yù)處理模塊,瞬時(shí)噪聲定形(temporal noise shaping,TNS)濾波器的級(jí)數(shù)也有限,這就使聲音質(zhì)量比基本配置的聲音質(zhì)量低,但對(duì)計(jì)算機(jī)的存儲(chǔ)器和處理能力的要求可明顯減少。
  3. 可變采樣率配置(Scalable Sampling Rate Profile)
  在這種配置中,使用增益控制對(duì)信號(hào)作預(yù)處理,不使用預(yù)測(cè)模塊,TNS濾波器的級(jí)數(shù)和帶寬也都有限制,因此它比基本配置和低復(fù)雜性配置更簡(jiǎn)單,可用來(lái)提供可變采樣頻率信號(hào)。

圖9-21 MPEG-2 AAC編碼器框圖


圖9-22 MPEG-2 AAC解碼器框圖

9.5.3 MPEG-2 AAC的基本模塊

  文獻(xiàn)[2]對(duì)MPEG-2 AAC編碼器和解碼器的結(jié)構(gòu)和計(jì)算方法做了非常詳細(xì)的介紹,它們的框圖分別示于圖9-21和圖9-22?,F(xiàn)將其中的幾個(gè)模塊作一些說(shuō)明。
  1. 增益控制(Gain control)
  增益控制模塊用在可變采樣率配置中,它由多相正交濾波器PQF(polyphase quadrature filter)、增益檢測(cè)器(gain detector)和增益修正器(gain modifier)組成。這個(gè)模塊把輸入信號(hào)分離到4個(gè)相等帶寬的頻帶中。在解碼器中也有增益控制模塊,通過(guò)忽略PQF的高子帶信號(hào)獲得低采樣率輸出信號(hào)。
  2. 濾波器組(Filter Bank)
  濾波器組是把輸入信號(hào)從時(shí)域變換到頻域的轉(zhuǎn)換模塊,它是MPEG-2 AAC系統(tǒng)的基本模塊。這個(gè)模塊采用了改進(jìn)離散余弦變換MDCT,它是一種線性正交交迭變換,使用了一種稱為時(shí)域混迭取消TDAC(time domain aliasing cancellation)技術(shù)。
  MDCT使用KBD(Kaiser-Bessel derived)窗口或者使用正弦(sine)窗口,正向MDCT變換可使用下式表示:
   


逆向MDCT變換可使用下式表示:
   
  k=0,…, N-1
其中,
  n=樣本號(hào),
  N=變換塊長(zhǎng)度,
  i=塊號(hào)
  
。
  3. 瞬時(shí)噪聲定形TNS
  在感知聲音編碼中,TNS模塊是用來(lái)控制量化噪聲的瞬時(shí)形狀的一種方法,解決掩蔽閾值和量化噪聲的錯(cuò)誤匹配問(wèn)題。這種技術(shù)的基本想法是,在時(shí)域中的音調(diào)聲信號(hào)在頻域中有一個(gè)瞬時(shí)尖峰,TNS使用這種雙重性來(lái)擴(kuò)展已知的預(yù)測(cè)編碼技術(shù),把量化噪聲置于實(shí)際的信號(hào)之下以避免錯(cuò)誤匹配。
  4. 聯(lián)合立體聲編碼
  聯(lián)合立體聲編碼(joint stereo coding)是一種空間編碼技術(shù),其目的是為了去掉空間的冗余信息。MPEG-2 AAC系統(tǒng)包含兩種空間編碼技術(shù):M/S編碼(Mid/Side encoding)和聲強(qiáng)/耦合(Intensity /Coupling)。
  M/S編碼使用矩陣運(yùn)算,因此把M/S編碼稱為矩陣立體聲編碼(matrixed stereo coding)。M/S編碼不傳送左右聲道信號(hào),而是使用標(biāo)稱化的“和”信號(hào)與“差”信號(hào),前者用于中央M(middle)聲道,后者用于邊S(side)聲道,因此M/S編碼也叫做“和-差編碼(sum-difference coding)”。
  聲強(qiáng)/耦合編碼的名稱也很多,有的叫做聲強(qiáng)立體聲編碼(intensity stereo coding),或者叫做聲道耦合編碼(channel coupling coding),它們探索的基本問(wèn)題是聲道間的不相關(guān)性(irrelevance)。
  5. 預(yù)測(cè)(Prediction)
  這是在話音編碼系統(tǒng)中普遍使用的一種技術(shù),它主要用來(lái)減少平穩(wěn)(stationary)信號(hào)的冗余度。
  6. 量化器(Quantizer)
  使用了非均勻量化器。
  7. 無(wú)噪聲編碼(Noiseless coding)
  無(wú)噪聲編碼實(shí)際上就是霍夫曼編碼,它對(duì)被量化的譜系數(shù)、比例因子和方向信息進(jìn)行編碼。

9.6 MPEG-4 Audio

  MPEG-4 Audio標(biāo)準(zhǔn)可集成從話音到高質(zhì)量的多通道聲音,從自然聲音到合成聲音,編碼方法還包括參數(shù)編碼(parametric coding),碼激勵(lì)線性預(yù)測(cè)(code excited linear predictive,CELP)編碼,時(shí)間/頻率T/F(time/frequency)編碼,結(jié)構(gòu)化聲音SA(structured audio)編碼和文本-語(yǔ)音TTS(text-to-speech)系統(tǒng)的合成聲音等。

9.6.1 自然聲音

MPEG-4聲音編碼器支持?jǐn)?shù)據(jù)率介于2 kb/s和64 kb/s之間的自然聲音(natural audio)。為了獲得高質(zhì)量的聲音,MPEG-4定義了三種類型的聲音編碼器分別用于不同類型的聲音,它的一般編碼方案如圖9-23所示。
  1. 參數(shù)編碼器
  使用聲音參數(shù)編碼技術(shù)。對(duì)于采樣率為8 kHz的話音(speech),編碼器的輸出數(shù)據(jù)率為2~4 kb/s;對(duì)于采樣頻率為8 kHz或者16 kHz的聲音(audio),編碼器的輸出數(shù)據(jù)率為4~16 kb/s。
  2. CELP編碼器
  使用CELP(code excited linear predictive)技術(shù)。編碼器的輸出數(shù)據(jù)率在6~24 kb/s之間,它用于采樣頻率為8 kHz的窄帶話音或者采樣頻率為16 kHz的寬帶話音。
  3. T/F編碼器
  使用時(shí)間-頻率(time-to-frequency,T/F)技術(shù)。這是一種使用矢量量化(vector quantization,VQ)和線性預(yù)測(cè)的編碼器,壓縮之后輸出的數(shù)據(jù)率大于16 kb/s,用于采樣頻率為8 kHz的聲音信號(hào)。


* UMTS (universal mobile telecommunication system) 通用移動(dòng)遠(yuǎn)程通信系統(tǒng)
圖9-23 MPEG-4 Audio編碼方框圖(引自參考文獻(xiàn)[7])

9.6.2 合成聲音

  MPEG-4的譯碼器支持合成樂(lè)音和TTS聲音。合成樂(lè)音通常叫做MIDI(Musical Instrument Data Interface)樂(lè)音,這種聲音是在樂(lè)譜文件或者描述文件控制下生成的聲音,樂(lè)譜文件是按時(shí)間順序組織的一系列調(diào)用樂(lè)器的命令,合成樂(lè)音傳輸?shù)氖菢?lè)譜而不是聲音波形本身或者聲音參數(shù),因此它的數(shù)據(jù)率可以相當(dāng)?shù)?。隨著科學(xué)技術(shù)突飛猛進(jìn)的發(fā)展,尤其是網(wǎng)絡(luò)技術(shù)的迅速崛起和飛速發(fā)展,文-語(yǔ)轉(zhuǎn)換TTS(text to speech)系統(tǒng)在人類社會(huì)生活中有著越來(lái)越廣泛的應(yīng)用前景,已經(jīng)逐漸變成相當(dāng)普遍的接口,并且在各種多媒體應(yīng)用領(lǐng)域開(kāi)始扮演重要的角色。TTS編碼器的輸入可以是文本或者帶有韻律參數(shù)的文本,編碼器的輸出數(shù)據(jù)率可以在200 bps ~ 1.2 kb/s范圍里。
  1. MIDI合成聲音
  MIDI是1983年制定的樂(lè)器和計(jì)算機(jī)的標(biāo)準(zhǔn)語(yǔ)言,是一套指令即命令的約定,它指示樂(lè)器即MIDI設(shè)備要做什么和怎么做,如播放音符、加大音量、生成音響效果等。MIDI不是聲音信號(hào),在MIDI電纜上傳送的不是聲音,而是發(fā)給MIDI設(shè)備或其它裝置讓它產(chǎn)生聲音或執(zhí)行某個(gè)動(dòng)作的指令。由于MIDI具有控制設(shè)備的功能,因此它不僅用于樂(lè)器,而且越來(lái)越多的應(yīng)用正在被發(fā)掘。詳見(jiàn)“2.6 MIDI系統(tǒng)”。
  2. 文-語(yǔ)轉(zhuǎn)換
  文-語(yǔ)轉(zhuǎn)換是將文本形式的信息轉(zhuǎn)換成自然語(yǔ)音的一種技術(shù),其最終目標(biāo)是使計(jì)算機(jī)輸出清晰而又自然的聲音,也就是說(shuō),要使計(jì)算機(jī)像人一樣,根據(jù)文本的內(nèi)容可帶各種情調(diào)來(lái)朗讀任意的文本。TTS是一個(gè)十分復(fù)雜的系統(tǒng),涉及到語(yǔ)言學(xué)、語(yǔ)音學(xué)、信號(hào)處理、人工智能等諸多的學(xué)科。
  由于TTS系統(tǒng)具有巨大的應(yīng)用潛力和商業(yè)價(jià)值,許多研究機(jī)構(gòu)都在從事這方面的研究。目前的TTS系統(tǒng)一般能夠較為準(zhǔn)確清晰地朗讀文本,但是不太自然。TTS系統(tǒng)最根本的問(wèn)題便在于它的自然度,自然度是衡量一個(gè)TTS系統(tǒng)好壞的最重要指標(biāo)。人們是無(wú)法忍受與自然語(yǔ)音相差甚遠(yuǎn)的語(yǔ)音,自然度問(wèn)題已經(jīng)成為嚴(yán)重阻礙TTS系統(tǒng)的推廣和應(yīng)用的桎梏。因此,研究更好的文語(yǔ)轉(zhuǎn)換方法,提高合成語(yǔ)音的自然度就成為當(dāng)務(wù)之急。
  一個(gè)相當(dāng)完整的TTS系統(tǒng)如圖9-24所示。盡管現(xiàn)有的TTS系統(tǒng)結(jié)構(gòu)各異,轉(zhuǎn)換方法不同,但是基本上可以分成兩個(gè)相對(duì)獨(dú)立的部分。在圖中,虛線左邊的部分是文本分析部分,通過(guò)對(duì)輸入文本進(jìn)行詞法分析、語(yǔ)法分析,甚至語(yǔ)義分析,從文本中抽取音素和韻律等發(fā)音信息。虛線右邊的部分是語(yǔ)音合成部分,它使用從文本分析得到的發(fā)音信息去控制合成單元的譜特征(音色)和韻律特征(基頻、時(shí)長(zhǎng)和幅度),送入聲音合成器(軟件或硬件)產(chǎn)生相應(yīng)的語(yǔ)音輸出。

圖9-24 TTS系統(tǒng)方框圖

  在漢語(yǔ)TTS系統(tǒng)中,漢語(yǔ)語(yǔ)音的傳統(tǒng)分析方法是將一個(gè)漢語(yǔ)的音節(jié)分為聲母和韻母兩部分。聲母是音節(jié)開(kāi)頭的輔音,韻母是音節(jié)中聲母以外的部分。聲母不等同于輔音,韻母不等同于元音。另外,音調(diào)具有辨義功能,這也是漢語(yǔ)語(yǔ)音的一大特點(diǎn)??梢哉f(shuō),聲母、韻母和聲調(diào)是漢語(yǔ)語(yǔ)音的三要素。
  漢語(yǔ)的音節(jié)一般由聲母、韻母和聲調(diào)三部分組成。漢語(yǔ)有21個(gè)聲母,39個(gè)韻母,4個(gè)聲調(diào)。共能拼出400多個(gè)無(wú)調(diào)音節(jié),1200多個(gè)有調(diào)音節(jié)。除個(gè)別情況外,一個(gè)漢字就是一個(gè)音節(jié),但是一個(gè)音節(jié)往往對(duì)應(yīng)多個(gè)漢字,這就是漢語(yǔ)中的多音字現(xiàn)象。漢字到其發(fā)音的轉(zhuǎn)換一般可以借助一張一一對(duì)應(yīng)的表來(lái)實(shí)現(xiàn),但對(duì)多音字的讀音,一般要依據(jù)它所在的詞來(lái)判斷,有的還要借助語(yǔ)法甚至語(yǔ)義分析,依據(jù)語(yǔ)義或者上下文來(lái)判斷。在漢語(yǔ)TTS系統(tǒng)中,分詞是基礎(chǔ),只有分詞正確,才有可能正確地給多音字注音,正確地進(jìn)行語(yǔ)法分析,獲得正確的讀音和韻律信息。
  在我國(guó),許多高等院校和科研單位先后開(kāi)展了對(duì)漢語(yǔ)TTS系統(tǒng)的的研究工作,并取得了可喜的成績(jī),但在合成聲音的自然度方面還有一段漫長(zhǎng)的路要走。清華大學(xué)計(jì)算機(jī)系“智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室”在20世紀(jì)90年代末期也加強(qiáng)了對(duì)漢語(yǔ)TTS的研究工作,從語(yǔ)言學(xué)、語(yǔ)音學(xué)、信號(hào)處理和人工智能等方面進(jìn)行綜合研究,重點(diǎn)是提高漢語(yǔ)TTS系統(tǒng)輸出的聲音的自然度。

練習(xí)與思考題

  1. 列出你所知道的聽(tīng)覺(jué)系統(tǒng)的特性。
  2. 什么叫做聽(tīng)閾?什么叫做痛閾?
  3. 什么叫做頻域掩蔽?什么叫做時(shí)域掩蔽?
  4. MPEG-1的層1、2和3編碼器的聲音輸出速率范圍分別是多少?
  5. MPEG-1的聲音質(zhì)量是: AM  FM  電話  near-CD  CD-DA
  6. 什么叫做5.1聲道立體環(huán)繞聲?什么叫做7.1聲道立體環(huán)繞聲?
  7. 簡(jiǎn)述MPEG-2 AAC的特性。
  8. 什么叫做自然聲音?什么叫做合成聲音?
  9. 什么叫做TTS?至少列舉TTS的3個(gè)潛在應(yīng)用例子。

參考文獻(xiàn)和站點(diǎn)

  • Davis Pan. A Tutorial on MPEG/Audio Compression. IEEE Multimedia,1995, pp60-74
  • Bosi Metal. ISO/IEC MPEG-2 Advanved Audio Coding. Journal of the Audio Engineering Society, No. 10, Oct 1997, pp789-813
  • Princen J, Bradley A. Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation. IEEE Transactions, ASSP-34, No.5, Oct 1986, pp 1153-1161
  • Princen J, Johnson A, Bradley A. Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation. Proc. of the ICASSP 1987, pp2161-2164
  • Dennis H. Klatt. Review of text-to-speech conversion for English. J. Acoust. Soc. Am. 82(3), September 1987
  • ISO/IEC JTC1/SC29/WG11. N2323, Overview of the MPEG-4 Standard. July 1998/Dublin
  • MPEG-4 Audio文件:
    ① ISO/IEC FCD 14496-3,Information Technology - Very Low Bitrate Audio- Visual Coding,Part 3:Audio,Subpart 1:Main Document,1998-05-15
    ② ISO/IEC FCD 0.1 14496-3,Information Technology - Coding of Audiovisual Objects,Part 3:Audio,Subpart 2: Parametric Coding,1998-03-20
    ③ ISO/IEC FCD 14496-3,Information Technology - Coding of Audiovisual Objects,Part 3:Audio,Subpart 3:CELP,1998-05-15
    ④ ISO/IEC CD 14496-3,Information Technology - Coding of Audiovisual Objects,Part 3:Audio,Subpart 4:Time/Frequency Coding,1998-05-15.
    ⑤ ISO/IEC FCD 14496-3,Information Technology - Coding of Audiovisual Objects,Part 3:Audio,Subpart 5:Structured Audio,1998-05-15
    ⑥ ISO/IEC CD 14496-3,Information Technology - Coding of Audiovisual Objects,Part 3:Audio,Subpart 6 :Text-to-Speech, 1997-10-31
  • http://www.mpeg.org/~tristan/MPEG/mp3.html(瀏覽日期:1999年2月)
  • http://fas.sfu.ca/cs/undergrad/CourseMaterials/CMPT479/material/notes/Chap4/ (瀏覽日期:1999年2月)
  • http://www.tnt.uni-hannover.de/project/mpeg/audio/ (瀏覽日期:1999年2月)
  • http://drogo.cselt.stet.it/mpeg/#The_MPEG_standards (瀏覽日期:1999年2月)
  • MPEG-Audio:http://www.tnt.uni-hannover.de/project/mpeg/audio/ (瀏覽日期:1999年2月)
  • http://www.umiacs.umd.edu/~desin/Speech1/new.html (瀏覽日期:1999年2月)
  • Kyoya Tsutsui, Hiroshi Suzuki, Osamu Shimoyoshi, Mito Sonohara, Kenzo Akagiri, Robert M. Heddle, ATRAC: Adaptive Transform Acoustic Coding for MiniDisc, Sony Corporate Research Laboratories.
    http://www.amulation.co.uk/minidisc/minidisc/aes_atrac.html(瀏覽日期:1999年2月)
  • http://www.cselt.it/mpeg/standards/mpeg-2/mpeg-2.htm(瀏覽日期:1999年2月)
  • Theile, G.Stoll and M.Link. Low bit-rate coding of high-quality audio signals - An introduction to the MASCAM system. EBU Review - Technical,Augst 1988,230.
  • Yves Francois Dehery, Michel Lever and Pierre Urcum. A MUSICAM Source CODEC for Digital Audio Broadcasting and Storage. CH2977-7/91/0000-3605, IEEE 1991.
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
音頻基礎(chǔ)知識(shí)及編碼原理
PSP視頻全攻略之淺談MEGUI & X264
AAC
AAC Advanced Audio Coding(高級(jí)音頻編碼)資料整理
多媒體測(cè)試庫(kù)建設(shè)之音頻部分
音頻基礎(chǔ)知識(shí)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服