免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
多媒體技術(shù)教程(林福宗)第3章話音編碼

  隨著數(shù)字電話和數(shù)據(jù)通信容量日益增長的迫切要求,而又不希望明顯降低傳送話音信號的質(zhì)量,除了提高通信帶寬之外,對話音信號進行壓縮是提高通信容量的重要措施。另一個可說明話音數(shù)據(jù)壓縮的重要性的例子是,用戶無法使用28.8 kb/s的調(diào)制解調(diào)器來接收因特網(wǎng)上的64 kb/s話音數(shù)據(jù)流,這是一種單聲道、8位/樣本、采樣頻率為8 kHz的話音數(shù)據(jù)流。ITU-TSS為此制定了并且繼續(xù)制定一系列話音(speech)數(shù)據(jù)編譯碼標(biāo)準(zhǔn)。其中,G.711使用μ率和A率壓縮算法,信號帶寬為3.4 kHz,壓縮后的數(shù)據(jù)率為64 kb/s;G.721使用ADPCM壓縮算法,信號帶寬為3.4 kHz,壓縮后的數(shù)據(jù)率為32 kb/s;G.722使用ADPCM壓縮算法,信號帶寬為7 kHz,壓縮后的數(shù)據(jù)率為64 kb/s。在這些標(biāo)準(zhǔn)基礎(chǔ)還制定了許多話音數(shù)據(jù)壓縮標(biāo)準(zhǔn),例如G.723,G.723.1,G.728,G.729和G.729.A等。
  本章將重點介紹話音編碼的基本思想,而詳細計算則留給那些開發(fā)和具體設(shè)計編譯碼器軟硬件的讀者去研究,并可從本章所列的參考文獻和站點中找到你滿意的文獻資料。

3.1 話音編碼概要

3.1.1 話音波形的特性

  了解話音波形的基本特性對聲音數(shù)據(jù)的壓縮編碼、聲音的識別和文本-聲音的轉(zhuǎn)換等都有很重要的意義。
  當(dāng)肺部中的受壓空氣沿著聲道通過聲門發(fā)出時就產(chǎn)生了話音。普通男人的聲道從聲門到嘴的平均長度約為17厘米,這個事實反映在聲音信號中就相當(dāng)于在1 ms數(shù)量級內(nèi)的數(shù)據(jù)具有相關(guān)性,這種相關(guān)稱為短期相關(guān)(short-term correlation)。聲道也被認(rèn)為是一個濾波器,這個濾波器有許多共振峰,這些共振峰的頻率受隨時間變化的聲道形狀所控制,例如舌的移動就會改變聲道的形狀。許多話音編碼器用一個短期濾波器(short term filter)來模擬聲道。但由于聲道形狀的變化比較慢,模擬濾波器的傳遞函數(shù)的修改不需要那么頻繁,典型值在20 ms左右。
  壓縮空氣通過聲門激勵聲道濾波器,根據(jù)激勵方式不同,發(fā)出的話音分成三種類型:濁音(voiced sounds),清音(unvoiced sounds)和爆破音(plosive sounds)。
  1.濁音
  濁音是一種稱為準(zhǔn)周期脈沖(quasi-periodic pulses)激勵所發(fā)出的音,這種準(zhǔn)周期脈沖是在聲門打開然后關(guān)閉時中斷肺部到聲道的氣流所產(chǎn)生的脈沖。聲門打開和關(guān)閉的速率呈現(xiàn)為音節(jié)(pitch)的大小,它的速率可通過改變聲道的形狀和空氣的壓力來調(diào)整。濁音表現(xiàn)出在音節(jié)上有高度的周期性,其值在2~20 ms之間,這個周期性稱為長期周期性(long-term periodicity)。圖3-01表示了某一濁音段的波形,音節(jié)周期大約8 ms。這一濁音段的功率譜密度(power spectral density,PSD)如圖3-02所示。


圖3-01 濁音段的波形舉例

圖3-02 濁音段的功率普密度舉例

  2. 清音
  清音是由不穩(wěn)定氣流激勵所產(chǎn)生的,這種氣流是在聲門處在打開狀態(tài)下強制空氣在聲道里高速收縮產(chǎn)生的,如圖3-03所示。這一清音段的功率譜密度PSD和圖3-04所示。


圖3-03 清音段的波形舉例

圖3-04 清音段的功率譜密度舉例

  3. 爆破音
  爆破音是在聲道關(guān)閉之后產(chǎn)生的壓縮空氣然后突然打開聲道所發(fā)出的音。
  某些音不能歸屬到上述三種音中的任何一種,例如在聲門振動和聲道收縮同時出現(xiàn)的情況下產(chǎn)生的摩擦音,這種音稱為混合音。
  雖然各種各樣的話音都有可能產(chǎn)生,但聲道的形狀和激勵方式的變化相對比較慢,因此話音在短時間周期(20 ms的數(shù)量級)里可以被認(rèn)為是準(zhǔn)定態(tài)(quasi-stationary)的,也就是說基本不變的。從圖3-01, -02, -03和-04中可以看到話音信號顯示出的高度周期性,這是由于聲門的準(zhǔn)周期性的振動和聲道的諧振所引起的。話音編碼器就是企圖揭示這種周期性,目的是為了減少數(shù)據(jù)率而又盡可能不犧牲聲音的質(zhì)量。

3.1.2 三種話音編譯碼器

  通常把已有的話音編譯碼器分成以下三種類型:波形編譯碼器(waveform codecs),音源編譯碼器(source codecs)和混合編譯碼器(hybrid codecs)。一般來說,波形編譯碼器的話音質(zhì)量高,但數(shù)據(jù)率也很高;音源編譯碼器的數(shù)據(jù)率很低,產(chǎn)生的合成話音的音質(zhì)有待提高;混合編譯碼器使用音源編譯碼技術(shù)和波形編譯碼技術(shù),數(shù)據(jù)率和音質(zhì)介于它們之間。圖3-05表示了目前這三種編譯碼器的話音質(zhì)量和數(shù)據(jù)率的關(guān)系。


圖3-05 普通編譯碼器的音質(zhì)與數(shù)據(jù)率

  1. 波形編譯碼器
  波形編譯碼的想法是,不利用生成話音信號的任何知識而企圖產(chǎn)生一種重構(gòu)信號,它的波形與原始話音波形盡可能地一致。一般來說,這種編譯碼器的復(fù)雜程度比較低,數(shù)據(jù)速率在16 kb/s以上,質(zhì)量相當(dāng)高。低于這個數(shù)據(jù)速率時,音質(zhì)急劇下降。
  最簡單的波形編碼是脈沖編碼調(diào)制(pulse code modulation,PCM),它僅僅是對輸入信號進行采樣和量化。典型的窄帶話音帶寬限制在4 kHz,采樣頻率是8 kHz。如果要獲得高一點的音質(zhì),樣本精度要用12位,它的數(shù)據(jù)率就等于96 kb/s,這個數(shù)據(jù)率可以使用非線性量化來降低。例如,可以使用近似于對數(shù)的對數(shù)量化器(logarithmic quantizer),使用它產(chǎn)生的樣本精度為8位,它的數(shù)據(jù)率為64 kb/s時,重構(gòu)的話音信號幾乎與原始的話音信號沒有什么差別。這種量化器在20世紀(jì)80年代就已經(jīng)標(biāo)準(zhǔn)化,而且直到今天還在廣泛使用。在北美的壓擴(companding)標(biāo)準(zhǔn)是μ律(μ-law),在歐洲的壓擴標(biāo)準(zhǔn)是A律(A-law)。它們的優(yōu)點是編譯碼器簡單,延遲時間短,音質(zhì)高。但不足之處是數(shù)據(jù)速率比較高,對傳輸通道的錯誤比較敏感。
  在話音編碼中,一種普遍使用的技術(shù)叫做預(yù)測技術(shù),這種技術(shù)是企圖從過去的樣本來預(yù)測下一個樣本的值。這樣做的根據(jù)是認(rèn)為在話音樣本之間存在相關(guān)性。如果樣本的預(yù)測值與樣本的實際值比較接近,它們之間的差值幅度的變化就比原始話音樣本幅度值的變化小,因此量化這種差值信號時就可以用比較少的位數(shù)來表示差值。這就是差分脈沖編碼調(diào)制(differential pulse code modulation,DPCM)的基礎(chǔ)—對預(yù)測的樣本值與原始的樣本值之差進行編碼。
  這種編譯碼器對幅度急劇變化的輸入信號會產(chǎn)生比較大的噪聲,改進的方法之一就是使用自適應(yīng)的預(yù)測器和量化器,這就產(chǎn)生了一種叫做自適應(yīng)差分脈沖編碼調(diào)制(adaptive differential PCM,ADPCM)。在20世紀(jì)80年代,國際電話與電報顧問委員會 (International Telephone and Telegraph Consultative Committee,CCITT),現(xiàn)改為國際電信聯(lián)盟-遠程通信標(biāo)準(zhǔn)部(International Telecommunications Union-Telecommunications Standards Section,ITU-TSS ),就制定了數(shù)據(jù)率為32 kb/s的ADPCM標(biāo)準(zhǔn),它的音質(zhì)非常接近64 kb/s的PCM編譯碼器,隨后又制定了數(shù)據(jù)率為16,24和40 kb/s的ADPCM標(biāo)準(zhǔn)。
  上述的所有波形編譯碼器完全是在時間域里開發(fā)的,在時域里的編譯碼方法稱為時域法(time domain approach)。在開發(fā)波形編譯碼器中,人們還使用了另一種方法,叫做頻域法(frequency domain approach)。例如,在子帶編碼(sub-band coding,SBC)中,輸入的話音信號被分成好幾個頻帶(即子帶),變換到每個子帶中的話音信號都進行獨立編碼,例如使用ADPCM編碼器編碼,在接收端,每個子帶中的信號單獨解碼之后重新組合,然后產(chǎn)生重構(gòu)話音信號。它的優(yōu)點是每個子帶中的噪聲信號僅僅與該子帶使用的編碼方法有關(guān)系。對聽覺感知比較重要的子帶信號,編碼器可分配比較多的位數(shù)來表示它們,于是在這些頻率范圍里噪聲就比較低。對于其他的子帶,由于對聽覺感知的重要性比較低,允許比較高的噪聲,于是編碼器就可以分配比較少的位數(shù)來表示這些信號。自適應(yīng)位分配的方案也可以考慮用來進一步提高音質(zhì)。子帶編碼需要用濾波器把信號分成若干個子帶,這比使用簡單的ADPCM編譯碼器復(fù)雜,而且還增加了更多的編碼時延。即使如此,與大多數(shù)混合編譯碼器相比,子帶編譯碼的復(fù)雜性和時延相對來說還是比較低的。
  另一種頻域波形編碼技術(shù)叫做自適應(yīng)變換編碼(adaptive transform coding,ATC)。這種方法使用快速變換(例如離散余弦變換)把話音信號分成許許多多的頻帶,用來表示每個變換系數(shù)的位數(shù)取決于話音譜的性質(zhì),獲得的數(shù)據(jù)率可低到16 kb/s。
  2. 音源編譯碼器
  音源編譯碼的想法是企圖從話音波形信號中提取生成話音的參數(shù),使用這些參數(shù)通過話音生成模型重構(gòu)出話音。針對話音的音源編譯碼器叫做聲碼器(vocoder)。在話音生成模型中,聲道被等效成一個隨時間變化的濾波器,叫做時變?yōu)V波器(time-varying filter),它由白噪聲—無聲話音段激勵,或者由脈沖串——有聲話音段激勵。因此需要傳送給解碼器的信息就是濾波器的規(guī)格、發(fā)聲或者不發(fā)聲的標(biāo)志和有聲話音的音節(jié)周期,并且每隔10~20 ms更新一次。聲碼器的模型參數(shù)既可使用時域的方法也可以使用頻域的方法確定,這項任務(wù)由編碼器完成。
  這種聲碼器的數(shù)據(jù)率在2.4 kb/s左右,產(chǎn)生的語音雖然可以聽懂,但其質(zhì)量遠遠低于自然話音。增加數(shù)據(jù)率對提高合成話音的質(zhì)量無濟于事,這是因為受到話音生成模型的限制。盡管它的音質(zhì)比較低,但它的保密性能好,因此這種編譯碼器一直用在軍事上。
  3. 混合編譯碼
  混合編譯碼的想法是企圖填補波形編譯碼和音源編譯碼之間的間隔。波形編譯碼器雖然可提供高話音的質(zhì)量,但數(shù)據(jù)率低于16 kb/s的情況下,在技術(shù)上還沒有解決音質(zhì)的問題;聲碼器的數(shù)據(jù)率雖然可降到2.4 kb/s甚至更低,但它的音質(zhì)根本不能與自然話音相提并論。為了得到音質(zhì)高而數(shù)據(jù)率又低的編譯碼器,歷史上出現(xiàn)過很多形式的混合編譯碼器,但最成功并且普遍使用的編譯碼器是時域合成-分析(analysis-by-synthesis,AbS)編譯碼器。這種編譯碼器使用的聲道線性預(yù)測濾波器模型與線性預(yù)測編碼(linear predictive coding,LPC)使用的模型相同,不使用兩個狀態(tài)(有聲/無聲)的模型來尋找濾波器的輸入激勵信號,而是企圖尋找這樣一種激勵信號,使用這種信號激勵產(chǎn)生的波形盡可能接近于原始話音的波形。AbS編譯碼器由Atal和Remde在1982年首次提出,并命名為多脈沖激勵(multi-pulse excited,MPE)編譯碼器,在此基礎(chǔ)上隨后出現(xiàn)的是等間隔脈沖激勵(regular-pulse excited,RPE)編譯碼器、碼激勵線性預(yù)測CELP(code excited linear predictive)編譯碼器和混合激勵線性預(yù)測(mixed excitation linear prediction,MELP)等編譯碼器。
  AbS編譯碼器的一般結(jié)構(gòu)如圖3-06所示。


(a) 編碼器


(b) 譯碼器
圖3-06 AbS編譯碼器的結(jié)構(gòu)

  AbS編譯碼器把輸入話音信號分成許多幀(frames),一般來說,每幀的長度為20 ms。合成濾波器的參數(shù)按幀計算,然后確定濾波器的激勵參數(shù)。從圖3-06(a)可以看到,AbS編碼器是一個負反饋系統(tǒng),通過調(diào)節(jié)激勵信號u(n)可使話音輸入信號s(n)與重構(gòu)的話音信號

之差為最小,也就是重構(gòu)的話音與實際的話音最接近。這就是說,編碼器通過“合成”許多不同的近似值來“分析”輸入話音信號,這也是“合成-分析編碼器”名稱的來由。在表示每幀的合成濾波器的參數(shù)和激勵信號確定之后,編碼器就把它們存儲起來或者傳送到譯碼器。在譯碼器端,激勵信號饋送給合成濾波器,合成濾波器產(chǎn)生重構(gòu)的話音信號,如圖3-06(b)所示。
  合成濾波器通常使用全極點(all pole)的短期(short-term)線性濾波器,它的函數(shù)如:
  

其中
  

  是預(yù)測誤差濾波器,這個濾波器是按照這樣的原則確定的:當(dāng)原始話音段通過該濾波器時產(chǎn)生的殘留信號的能量最小。濾波器的極點數(shù)的典型值等于10。這個濾波器企圖去模擬由于聲道作用而引入的話音相關(guān)性。
  合成濾波器也可以包含音節(jié)(pitch)濾波器,用來模擬話音中出現(xiàn)的長期預(yù)測。MPE和RPE編譯碼器一般不使用音節(jié)濾波器,對于CELP編譯碼器,音節(jié)濾波器則顯得非常重要。
  圖3-06中的“誤差加權(quán)”方框用來塑造誤差信號譜的形狀,目的是減少誤差信號的主觀響度。這樣做的想法是,在話音信號能量很高的頻段中,誤差信號至少有部分能夠被高能量的話音掩蔽掉。
  AbS編譯碼器的性能與如何選擇激勵合成濾波器的波形u(n)有很大關(guān)系。從概念上說,可把每一種可能的波形輸送給合成濾波器試試看,這種激勵信號將會產(chǎn)生什么樣的重構(gòu)話音信號,它和原始話音信號之間的誤差如何變化,然后選擇產(chǎn)生最小加權(quán)誤差的激勵信號,并把它作為譯碼器中的合成濾波器的驅(qū)動信號。由于編碼器是一個閉環(huán)系統(tǒng),因此可以獲得比較高的音質(zhì)而數(shù)據(jù)率又比較低。但由于可能的激勵信號的數(shù)目巨大,因此需要有某種方法來減少計算的復(fù)雜性而音質(zhì)又不會犧牲太大。
  MPE,RPE和CELP編譯碼器之間的差別在于所使用的激勵信號的表示方法。在MPE中,對每幀話音所用的激勵信號u(n)是固定數(shù)目的脈沖,在一幀中脈沖的位置和幅度必須由編碼器來確定,這在理論上可以找到很好的值,但實際上不太可能,因為計算太復(fù)雜。因此在實際上就使用次佳方法,一般來說,每5 ms使用4個脈沖,在數(shù)據(jù)率為10 kb/s時可以獲得好的重構(gòu)話音。
  像MPE那樣,RPE編譯碼器使用固定間隔的脈沖,于是編碼器就只需要確定第一個激勵脈沖的位置和所有其他脈沖的幅度,所需要的脈沖位置信息也就可以減少,而脈沖的數(shù)目則比MPE使用的數(shù)目多。數(shù)據(jù)率在10 kb/s左右時,每5 ms可使用10個脈沖,比MPE多6個,產(chǎn)生比MPE音質(zhì)高一些的重構(gòu)話音。然而RPE仍然顯得比較復(fù)雜,因此歐洲的GSM移動電話系統(tǒng)使用了一個帶長期預(yù)測的簡化了的RPE編譯碼器,數(shù)據(jù)率為13 kb/s。
  雖然MPE和RPE編譯碼器在10 kb/s左右的數(shù)據(jù)率下可提供好的音質(zhì),但數(shù)據(jù)率低于10 kb/s情況下提供的音質(zhì)還不能接受,這是因為它們需要提供大量有關(guān)激勵脈沖的位置和幅度信息。對要求音質(zhì)好而數(shù)據(jù)率又低于10 kb/s的編譯碼器,現(xiàn)在普遍使用的算法是1985年由Schroeder和Atal提出的CELP算法。與MPE和RPE的不同之處是,CELP使用的激勵信號是量化矢量。激勵信號由一個矢量量化大碼簿的表項給出,還有一個增益項用來擴展它的功率。典型的碼簿索引有10位,就是有1024個表項的碼簿,增益用5位表示。因此激勵信號的位數(shù)可以減少到15位,這與GSM RPE編譯碼器中使用的47位相比減少了32位。
  CELP最初使用的碼簿包含白高斯序列(white Gaussian sequences),這是因為作了這樣的假設(shè):長期預(yù)測和短期預(yù)測能夠從話音信號中去除幾乎所有的冗余度,產(chǎn)生隨機的像噪聲那樣的殘留信號。試驗也顯示出短期概率密度函數(shù)幾乎是高斯?fàn)畹?。Schroeder和Atal發(fā)現(xiàn),對長期和短期濾波器使用這樣的碼簿能夠產(chǎn)生高質(zhì)量的話音。然而,在合成-分析過程中要選擇使用哪一個碼簿表項,這就意味每一個激勵序列都要傳送給合成濾波器,看看重構(gòu)話音與原始話音的近似程度。這也就是說原始CELP編譯碼器的計算量太大,難以實時執(zhí)行。從1985年開始,在簡化CELP的碼簿結(jié)構(gòu)方面做了大量的工作,使用數(shù)字信號處理(DSP)芯片提高執(zhí)行速度方面也取得了很大的進展,因此現(xiàn)在在低成本的單片DSP上實時執(zhí)行CELP算法相對容易了,在CELP基礎(chǔ)上制定了好幾個重要的話音編碼標(biāo)準(zhǔn),例如美國的“Department of Defence(DoD) 4.8 kb/s codec”標(biāo)準(zhǔn)和CCITT的“l(fā)ow-delay 16 kb/s codec”標(biāo)準(zhǔn)。
  CELP編譯碼器在話音通信中取得了很大成功,話音的速率在4.8 kb/s~16 kb/s之間。近年來對運行在4.8 kb/s以下的編譯碼器作了大量的研究工作,其目標(biāo)是開發(fā)運行在2.4 kb/s或者更低數(shù)據(jù)率下的編譯碼器。
  通過對話音段進行分類,例如分成濁音幀、清音幀和過渡幀,CELP編譯碼器的結(jié)構(gòu)可以進一步得到改善,不同類型的話音段使用專門設(shè)計的編碼器進行編碼。例如,對于濁音幀編碼器不使用長期預(yù)測,而對于清音幀使用長期預(yù)測就顯得特別重要。這種按話音類型設(shè)計的編譯碼器在數(shù)據(jù)率為2.4 kb/s下呈現(xiàn)的音質(zhì)已經(jīng)得到認(rèn)可。多帶激勵MBE(multi-band excitation)編譯碼器把頻域中的某些頻段看成是濁音頻段,其他頻段看成是清音頻段。它們傳送每幀的音節(jié)周期、頻譜的幅度和相位信息以及濁音/清音的判決。這種編譯碼器經(jīng)過改造以后也顯示出了它的潛力,在低數(shù)據(jù)率下可提供認(rèn)可的音質(zhì)。
  在數(shù)據(jù)率為2.4 kb/s~64 kb/s的范圍里,部分編碼器的MOS分?jǐn)?shù)大致如表3-01所示。

表3-01 部分編碼器的MOS分

編碼器

MOS分

 64 kb/s脈沖編碼調(diào)制(PCM)

4.3

 32 kb/s自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)

4.1

 16 kb/s低時延碼激勵線性預(yù)測編碼(LD-CELP)

4.0

 8 kb/s碼激勵線性預(yù)測編碼(CELP)

3.7

 3.8 kb/s碼激勵線性預(yù)測編碼(CELP)

3.0

 2.4 kb/s線性預(yù)測編碼(LPC)

2.5

3.2 脈沖編碼調(diào)制(PCM)

3.2.1 PCM的概念

  脈沖編碼調(diào)制(pulse code modulation,PCM)是概念上最簡單、理論上最完善的編碼系統(tǒng),是最早研制成功、使用最為廣泛的編碼系統(tǒng),但也是數(shù)據(jù)量最大的編碼系統(tǒng)。
  PCM的編碼原理比較直觀和簡單,它的原理框圖如圖3–07所示。在這個編碼框圖中,它的輸入是模擬聲音信號,它的輸出是PCM樣本。圖中的“防失真濾波器”是一個低通濾波器,用來濾除聲音頻帶以外的信號;“波形編碼器”可暫時理解為“采樣器”,“量化器”可理解為“量化階大小(step-size)”生成器或者稱為“量化間隔”生成器。


圖3-07 PCM編碼框圖

  在第2章介紹聲音數(shù)字化的時候,談到聲音數(shù)字化有兩個步驟:第一步是采樣,就是每隔一段時間間隔讀一次聲音的幅度;第二步是量化,就是把采樣得到的聲音信號幅度轉(zhuǎn)換成數(shù)字值。但那時并沒有涉及如何進行量化。量化有好幾種方法,但可歸納成兩類:一類稱為均勻量化,另一類稱為非均勻量化。采用的量化方法不同,量化后的數(shù)據(jù)量也就不同。因此,可以說量化也是一種壓縮數(shù)據(jù)的方法。

3.2.2 均勻量化

  如果采用相等的量化間隔對采樣得到的信號作量化,那么這種量化稱為均勻量化。均勻量化就是采用相同的“等分尺”來度量采樣得到的幅度,也稱為線性量化,如圖3-08所示。量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲。


圖3-08 均勻量化

  用這種方法量化輸入信號時,無論對大的輸入信號還是小的輸入信號一律都采用相同的量化間隔。為了適應(yīng)幅度大的輸入信號,同時又要滿足精度要求,就需要增加樣本的位數(shù)。但是,對話音信號來說,大信號出現(xiàn)的機會并不多,增加的樣本位數(shù)就沒有充分利用。為了克服這個不足,就出現(xiàn)了非均勻量化的方法,這種方法也叫做非線性量化。

3.2.3 非均勻量化

  非線性量化的基本想法是,對輸入信號進行量化時,大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔,如圖3-09所示。這樣就可以在滿足精度要求的情況下用較少的位數(shù)來表示。聲音數(shù)據(jù)還原時,采用相同的規(guī)則。
  在非線性量化中,采樣輸入信號幅度和量化輸出數(shù)據(jù)之間定義了兩種對應(yīng)關(guān)系,一種稱為 m 律壓擴(companding)算法,另一種稱為A律壓擴算法。

圖3-09 非均勻量化

3.2.4 m 律壓擴

  m 律(m -Law)壓擴(G.711)主要用在北美和日本等地區(qū)的數(shù)字電話通信中,按下面的式子確定量化輸入和輸出的關(guān)系:
  


式中:x為輸入信號幅度,規(guī)格化成-1≤x≤1 ;
  sgn(x)為x的極性;
  m 為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比,取100 £ m £ 500。
  由于m 律壓擴的輸入和輸出關(guān)系是對數(shù)關(guān)系,所以這種編碼又稱為對數(shù)PCM。具體計算時,用m=255,把對數(shù)曲線變成8條折線以簡化計算過程。詳細計算請看參考文獻[17]。

3.2.5 A律壓擴

  A律(A-Law)壓擴(G.711)主要用在歐洲和中國大陸等地區(qū)的數(shù)字電話通信中,按下面的式子確定量化輸入和輸出的關(guān)系:
  

    0 £ |x| £ 1/A
  
  1/A < |x| £ 1
  式中:x為輸入信號幅度,規(guī)格化成 -1 £ x £ 1;
  sgn(x)為x的極性;
  A為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比。
  A律壓擴的前一部分是線性的,其余部分與m 律壓擴相同。具體計算時,A=87.56,為簡化計算,同樣把對數(shù)曲線部分變成折線。詳細計算請看參考文獻[17]。
  對于采樣頻率為8 kHz,樣本精度為13位、14位或者16位的輸入信號,使用m 律壓擴編碼或者使用A律壓擴編碼,經(jīng)過PCM編碼器之后每個樣本的精度為8位,輸出的數(shù)據(jù)率為64 kb/s。這個數(shù)據(jù)就是CCITT推薦的G.711標(biāo)準(zhǔn):話音頻率脈沖編碼調(diào)制(Pulse Code Modulation (PCM) of Voice Frequences)。

3.3 PCM在通信中的應(yīng)用

  PCM編碼早期主要用于話音通信中的多路復(fù)用。一般來說,在電信網(wǎng)中傳輸媒體費用約占總成本的65%,設(shè)備費用約占成本的35%,因此提高線路利用率是一個重要課題。提高線路利用率通常用下面兩種方法:
  1. 頻分多路復(fù)用 (frequency-division multiplexing,F(xiàn)DM)
  這種方法是把傳輸信道的頻帶分成好幾個窄帶,每個窄帶傳送一路信號。例如,一個信道的頻帶為1400 Hz,把這個信道分成4個子信道(subchannels):820~990 Hz, 1230~1400 Hz, 1640~1810 Hz和2050~2220 Hz,相鄰子信道間相距240 Hz,用于確保子信道之間不相互干擾。每對用戶僅占用其中的一個子信道。這是模擬載波通信的主要手段。
  2. 時分多路復(fù)用(time-division multiplexing,TDM)
  這種方法是把傳輸信道按時間來分割,為每個用戶指定一個時間間隔,每個間隔里傳輸信號的一部分,這樣就可以使許多用戶同時使用一條傳輸線路。這是數(shù)字通信的主要手段。例如,話音信號的采樣頻率f=8000 Hz,它的采樣周期=125 m s,這個時間稱為1幀(frame)。在這個時間里可容納的話路數(shù)有兩種規(guī)格:24路制和30路制。圖3-10表示了24路制的結(jié)構(gòu)。


圖3-10 24路PCM的幀結(jié)構(gòu)

  24路制的重要參數(shù)如下:

   ●每秒鐘傳送8000幀,每幀125 m s。
   ●12幀組成1復(fù)幀(用于同步)。
   ●每幀由24個時間片(信道)和1位同步位組成。
   ●每個信道每次傳送8位代碼,1幀有24 × 8 +1=193位(位)。
   ●數(shù)據(jù)傳輸率R=8000×193=1544 kb/s。
   ●每一個話路的數(shù)據(jù)傳輸率=8000×8=64 kb/s。
  
30路制的重要參數(shù)如下:
   ●每秒鐘傳送8000幀,每幀125 ms。
   ●16幀組成1復(fù)幀(用于同步)。
   ●每幀由32個時間片(信道)組成。
   ●每個信道每次傳送8位代碼。
   ●數(shù)據(jù)傳輸率:R=8000×32×8=2048 kb/s。
   ●每一個話路的數(shù)據(jù)傳輸率=8000×8=64 kb/s。
  時分多路復(fù)用(TDM)技術(shù)已廣泛用在數(shù)字電話網(wǎng)中,為反映PCM信號復(fù)用的復(fù)雜程度,通常用“群(group)”這個術(shù)語來表示,也稱為數(shù)字網(wǎng)絡(luò)的等級。PCM通信方式發(fā)展很快,傳輸容量已由一次群(基群)的30路(或24路),增加到二次群的120路(或96路),三次群的480路(或384路),……。圖3-11表示二次復(fù)用的示意圖。圖中的N表示話路數(shù),無論N=30還是N=24,每個信道的數(shù)據(jù)率都是64 kb/s,經(jīng)過一次復(fù)用后的數(shù)據(jù)率就變成2048 kb/s(N=30)或者1544 kb/s(N=24)。在數(shù)字通信中,具有這種數(shù)據(jù)率的線路在北美叫做T1遠距離數(shù)字通信線,提供這種數(shù)據(jù)率服務(wù)的級別稱為T1等級,在歐洲叫做E1遠距離數(shù)字通信線和E1等級。T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的數(shù)據(jù)率如表3-02所示。請注意,上述基本概念都是在多媒體通信中經(jīng)常用到的。


圖3-11 二次復(fù)用示意圖

表3-02 多次復(fù)用的數(shù)據(jù)傳輸率

 

數(shù)字網(wǎng)絡(luò)等級

T1/E1

T2/E2

T3/E3

T4/E4

T5/E5

美國

64 kb/s話路數(shù)

24

96

672

4.32

 
 

總傳輸率(Mb/s)

1.544

6.512

44.736

274.176

 
 

數(shù)字網(wǎng)絡(luò)等級

1

2

3

4

5

歐洲

64 kb/s話路數(shù)

30

120

480

1920

7680

 

總傳輸率(Mb/s)

2.048

8.448

34.368

139.264

5600

日本

64 kb/s話路數(shù)

24

96

480

1440

 
 

總傳輸率(Mb/s)

1.544

6.312

32.064

97.728

 

3.4 增量調(diào)制與自適應(yīng)增量調(diào)制

  由于DM編碼的簡單性,它已成為數(shù)字通信和壓縮存儲的一種重要方法,很多人對最早在1946年發(fā)明的DM系統(tǒng)做了大量的改進和提高工作。后來的自適應(yīng)增量調(diào)制ADM系統(tǒng)采用十分簡單的算法就能實現(xiàn)32 kb/s~48 kb/s的數(shù)據(jù)率,而且可提供高質(zhì)量的重構(gòu)話音,它的MOS評分可達到4.3分左右。

3.4.1 增量調(diào)制(DM)

  增量調(diào)制也稱△調(diào)制(delta modulation,DM),它是一種預(yù)測編碼技術(shù),是PCM編碼的一種變形。PCM是對每個采樣信號的整個幅度進行量化編碼,因此它具有對任意波形進行編碼的能力;DM是對實際的采樣信號與預(yù)測的采樣信號之差的極性進行編碼,將極性變成“0”和“1”這兩種可能的取值之一。如果實際的采樣信號與預(yù)測的采樣信號之差的極性為“正”,則用“1”表示;相反則用“0”表示,或者相反。由于DM編碼只須用1位對話音信號進行編碼,所以DM編碼系統(tǒng)又稱為“1位系統(tǒng)”。
  DM波形編碼的原理如圖3-12所示??v坐標(biāo)表示“模擬信號輸入幅度”,橫坐標(biāo)表示“編碼輸出”。用i表示采樣點的位置,x[i]表示在i點的編碼輸出。輸入信號的實際值用yi表示,輸入信號的預(yù)測值用y[i+1]=y[i]±Δ表示。假設(shè)采用均勻量化,量化階的大小為Δ,在開始位置的輸入信號y0=0,預(yù)測值y[0]=0,編碼輸出x[0]=1。
  現(xiàn)在讓我們看幾個采樣點的輸出。在采樣點i=1處,預(yù)測值y[1]=Δ,由于實際輸入信號大于預(yù)測值,因此x[1]=1;… ;在采樣點i=4處,預(yù)測值x[4] =4Δ,同樣由于實際輸入信號大于預(yù)測值,因此x[4]=1;其他情況依此類推。
  從圖3-12中可以看到,在開始階段增量調(diào)制器的輸出不能保持跟蹤輸入信號的快速變化,這種現(xiàn)象就稱為增量調(diào)制器的“斜率過載”(slope overload)。一般來說,當(dāng)輸入信號的變化速度超過反饋回路輸出信號的最大變化速度時,就會出現(xiàn)斜率過載。之所以會出現(xiàn)這種現(xiàn)象,主要是反饋回路輸出信號的最大變化速率受到量化階大小的限制,因為量化階的大小是固定的。
  從圖3-12中還可以看到,在輸入信號緩慢變化部分,即輸入信號與預(yù)測信號的差值接近零的區(qū)域,增量調(diào)制器的輸出出現(xiàn)隨機交變的“0”和“1”。這種現(xiàn)象稱為增量調(diào)制器的粒狀噪聲(granular noise),這種噪聲是不可能消除的。


圖3-12 DM波形編碼示意圖

  在輸入信號變化快的區(qū)域,斜率過載是關(guān)心的焦點,而在輸入信號變化慢的區(qū)域,關(guān)心的焦點是粒狀噪聲。為了盡可能避免出現(xiàn)斜率過載,就要加大量化階Δ,但這樣做又會加大粒狀噪聲;相反,如果要減小粒狀噪聲,就要減小量化階Δ,這又會使斜率過載更加嚴(yán)重。這就促進了對自適應(yīng)增量調(diào)制(adaptive delta modulation,ADM)的研究。

3.4.2 自適應(yīng)增量調(diào)制(ADM)

  為了使增量調(diào)制器的量化階Δ能自適應(yīng),也就是根據(jù)輸入信號斜率的變化自動調(diào)整量化階Δ的大小,以使斜率過載和粒狀噪聲都減到最小,許多研究人員研究了各種各樣的方法,而且?guī)缀跛械姆椒ɑ旧隙际窃跈z測到斜率過載時開始增大量化階Δ,而在輸入信號的斜率減小時降低量化階Δ。
  例如,宋(Song)在1971描述的自適應(yīng)增量調(diào)制技術(shù)中提出:假定增量調(diào)制器的輸出為1和0,每當(dāng)輸出不變時量化階增大50%,使預(yù)測器的輸出跟上輸入信號;每當(dāng)輸出值改變時,量化階減小50%,使粒狀噪聲減到最小,這種自適應(yīng)方法使斜率過載和粒狀噪聲同時減到最小。
  又如,使用較多的另一種自適應(yīng)增量調(diào)制器是由格林弗基斯(Greefkes)1970提出的,稱為連續(xù)可變斜率增量調(diào)制(continuously variable slope delta modulation,CVSD)。它的基本方法是:如果連續(xù)可變斜率增量調(diào)制器(continuously variable slope delta modulator,CVSD)的輸出連續(xù)出現(xiàn)三個相同的值,量化階就加上一個大的增量,反之,就加一個小的增量。
  為了適應(yīng)數(shù)字通信快速增長的需要,Motorola公司于80年代初期就已經(jīng)開發(fā)了實現(xiàn)CVSD算法的集成電路芯片。如MC3417/MC3517和MC3418/MC3518,前者采用3位算法,后者采用4位算法。MC3417/MC3517用于一般的數(shù)字通信,MC3418/MC3518用于數(shù)字電話。MC3417/MC3418用于民用,MC3517/MC3518用于軍用。

3.5 自適應(yīng)差分脈沖編碼調(diào)制

  G.711使用A律或μ律PCM方法對采樣率為8 kHz的聲音數(shù)據(jù)進行壓縮,壓縮后的數(shù)據(jù)率為64 kb/s。為了提高充分利用線路資源,而又不希望明顯降低傳送話音信號的質(zhì)量,就要對它作進一步壓縮,方法之一就是采用ADPCM。

3.5.1 自適應(yīng)脈沖編碼調(diào)制(APCM)的概念

  自適應(yīng)脈沖編碼調(diào)制(adaptive pulse code modulation,APCM)是根據(jù)輸入信號幅度大小來改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時自適應(yīng),即量化階的大小每隔幾個樣本就改變,也可以是音節(jié)自適應(yīng),即量化階的大小在較長時間周期里發(fā)生變化。
  改變量化階大小的方法有兩種:一種稱為前向自適應(yīng)(forward adaptation),另一種稱為后向自適應(yīng)(backward adaptation)。前者是根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進行編碼作為邊信息(side information)傳送到接收端。后者是從量化器剛輸出的過去樣本中來提取量化階信息。由于后向自適應(yīng)能在發(fā)收兩端自動生成量化階,所以它不需要傳送邊信息。前向自適應(yīng)和后向自適應(yīng)APCM的基本概念,如圖3-13所示。圖中的s(k)是發(fā)送端編碼器的輸入信號,sr(k)是接收端譯碼器輸出的信號。


(a) 前向自適應(yīng)

(b) 后向自適應(yīng)
圖3-13 APCM方塊圖

3.5.2 差分脈沖編碼調(diào)制(DPCM)的概念

  差分脈沖編碼調(diào)制DPCM(differential pulse code modulation)是利用樣本與樣本之間存在的信息冗余度來進行編碼的一種數(shù)據(jù)壓縮技術(shù)。差分脈沖編碼調(diào)制的思想是,根據(jù)過去的樣本去估算(estimate)下一個樣本信號的幅度大小,這個值稱為預(yù)測值,然后對實際信號值與預(yù)測值之差進行量化編碼,從而就減少了表示每個樣本信號的位數(shù)。它與脈沖編碼調(diào)制(PCM)不同的是,PCM是直接對采樣信號進行量化編碼,而DPCM是對實際信號值與預(yù)測值之差進行量化編碼,存儲或者傳送的是差值而不是幅度絕對值,這就降低了傳送或存儲的數(shù)據(jù)量。此外,它還能適應(yīng)大范圍變化的輸入信號。
  差分脈沖編碼調(diào)制的概念示于圖3-14。圖中,差分信號d(k)是離散輸入信號s(k)和預(yù)測器輸出的估算值se(k-1)之差。注意,se(k-1)是對s(k)的預(yù)測值,而不是過去樣本的實際值。DPCM系統(tǒng)實際上就是對這個差值d(k)進行量化編碼,用來補償過去編碼中產(chǎn)生的量化誤差。DPCM系統(tǒng)是一個負反饋系統(tǒng),采用這種結(jié)構(gòu)可以避免量化誤差的積累。重構(gòu)信號sr(k)是由逆量化器產(chǎn)生的量化差分信號dq(k),與對過去樣本信號的估算值se(k-1)求和得到。它們的和,即sr(k)作為預(yù)測器確定下一個信號估算值的輸入信號。由于在發(fā)送端和接收se(k-1)端都使用相同的逆量化器和預(yù)測器,所以接收端的重構(gòu)信號sr(k)可從傳送信號I(k)獲得。


圖3-14 DPCM方塊圖

3.5.3 自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)

  ADPCM(adaptive difference pulse code modulation)綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性,是一種性能比較好的波形編碼。它的核心想法是:①利用自適應(yīng)的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值,②使用過去的樣本值估算下一個輸入樣本的預(yù)測值,使實際樣本值和預(yù)測值之間的差值總是最小。它的編碼簡化框圖如圖3-15所示。
  接收端的譯碼器使用與發(fā)送端相同的算法,利用傳送來的信號來確定量化器和逆量化器中的量化階大小,并且用它來預(yù)測下一個接收信號的預(yù)測值。


圖3-15 ADPCM方塊圖

3.5.4 G.721 ADPCM編譯碼器

  ADPCM是利用樣本與樣本之間的高度相關(guān)性和量化階自適應(yīng)來壓縮數(shù)據(jù)的一種波形編碼技術(shù),CCITT為此制定了G.721推薦標(biāo)準(zhǔn),這個標(biāo)準(zhǔn)叫做32 kb/s自適應(yīng)差分脈沖編碼調(diào)制——32 kb/s Adaptive Differential Pulse Code Modulation[7]。在此基礎(chǔ)上還制定了G.721的擴充推薦標(biāo)準(zhǔn),即G.723 —— Extension of Recommendation G.721 Adaptive Differential Pulse Code Modulation to 24 and 40 kb/s for Digital Circuit Multiplication Equipment Application,使用該標(biāo)準(zhǔn)的編碼器的數(shù)據(jù)率可降低到40 kb/s和24 kb/s。
  CCITT推薦的G.721 ADPCM標(biāo)準(zhǔn)是一個代碼轉(zhuǎn)換系統(tǒng)。它使用ADPCM轉(zhuǎn)換技術(shù),實現(xiàn)64 kb/s A律或μ律PCM速率和32 kb/s速率之間的相互轉(zhuǎn)換。G.721 ADPCM的簡化框圖如圖3-16所示。


(a) ADPCM編碼器


(b) ADPCM譯碼器
圖3-16 G.721 ADPCM簡化框圖

  在圖3-16(a)所示的編碼器中,A律或μ律PCM輸入信號轉(zhuǎn)換成均勻的PCM。差分信號等于均勻的PCM輸入信號與預(yù)測信號之差。“自適應(yīng)量化器”用4位二進制數(shù)表示差分信號,但只用其中的15個數(shù)(即15個量級)來表示差分信號,這是為防止出現(xiàn)全“0”信號?!澳孀赃m應(yīng)量化器”從這4位相同的代碼中產(chǎn)生量化差分信號。預(yù)測信號和這個量化差分信號相加產(chǎn)生重構(gòu)信號?!白赃m應(yīng)預(yù)測器”根據(jù)重構(gòu)信號和量化差分信號產(chǎn)生輸入信號的預(yù)測信號,這樣就構(gòu)成了一個負反饋回路。
  G.721 ADPCM編譯碼器的輸入信號是G.711 PCM代碼,采樣率是8 kHz,每個代碼用8位表示,因此它的數(shù)據(jù)率為64 kb/s。而G.721 ADPCM的輸出代碼是“自適應(yīng)量化器”的輸出,該輸出是用4位表示的差分信號,它的采樣率仍然是8 kHz,它的數(shù)據(jù)率為32 kb/s,這樣就獲得了2∶1的數(shù)據(jù)壓縮。
  在圖3-16(b)所示的譯碼器中,譯碼器的部分結(jié)構(gòu)與編碼器負反饋回路部分相同。此外,還包含有均勻PCM到A律或μ律PCM的轉(zhuǎn)換部分,以及同步編碼調(diào)整(synchronous coding adjustment)部分。設(shè)置同步(串行)編碼調(diào)整的目的是為防止在同步串行編碼期間出現(xiàn)的累積信號失真。

3.6 G.722 SB-ADPCM編譯碼器

  為了適應(yīng)可視電話會議日益增長的迫切需要,1988年CCITT為此制定了G.722推薦標(biāo)準(zhǔn),叫做“數(shù)據(jù)率為64 kb/s的7 kHz聲音信號編碼——7 kHz Audio-coding with 64 kb/s”[8][9]。這個標(biāo)準(zhǔn)把話音信號的質(zhì)量由電話質(zhì)量提高到AM無線電廣播質(zhì)量,而其數(shù)據(jù)傳輸率仍保持為64 kb/s。
  寬帶話音是指帶寬在50~7000 Hz的話音,這種話音在可懂度和自然度方面都比帶寬為300~3400的話音有明顯的提高,也更容易識別對方的說話人。

3.6.1 子帶編碼(SBC)

  子帶編碼(subband coding,SBC)的基本思想是:使用一組帶通濾波器(band-pass filter,BPF)把輸入音頻信號的頻帶分成若干個連續(xù)的頻段,每個頻段稱為子帶。對每個子帶中的音頻信號采用單獨的編碼方案去編碼。在信道上傳送時,將每個子帶的代碼復(fù)合起來。在接收端譯碼時,將每個子帶的代碼單獨譯碼,然后把它們組合起來,還原成原來的音頻信號。子帶編碼的方塊圖如圖3-17所示,圖中的編碼/譯碼器,可以采用ADPCM,APCM,PCM等。

圖3-17 子帶編碼方塊圖

  采用對每個子帶分別編碼的好處有二個。第一,對每個子帶信號分別進行自適應(yīng)控制,量化階(quantization step)的大小可以按照每個子帶的能量電平加以調(diào)節(jié)。具有較高能量電平的子帶用大的量化階去量化,以減少總的量化噪聲。第二,可根據(jù)每個子帶信號在感覺上的重要性,對每個子帶分配不同的位數(shù),用來表示每個樣本值。例如,在低頻子帶中,為了保護音調(diào)和共振峰的結(jié)構(gòu),就要求用較小的量化階、較多的量化級數(shù),即分配較多的位數(shù)來表示樣本值。而話音中的摩擦音和類似噪聲的聲音,通常出現(xiàn)在高頻子帶中,對它分配較少的位數(shù)。
  音頻頻帶的分割可以用樹型結(jié)構(gòu)的式樣進行劃分。首先把整個音頻信號帶寬分成兩個相等帶寬的子帶:高頻子帶和低頻子帶。然后對這兩個子帶用同樣的方法劃分,形成4個子帶。這個過程可按需要重復(fù)下去,以產(chǎn)生2K個子帶,K為分割的次數(shù)。用這種辦法可以產(chǎn)生等帶寬的子帶,也可以生成不等帶寬的子帶。例如,對帶寬為4000 Hz的音頻信號,當(dāng)K=3時,可分為8個相等帶寬的子帶,每個子帶的帶寬為500 Hz。也可生成5個不等帶寬的子帶,分別為[0,500),[500,1000),[1000,2000),[2000,3000)和[3000,4000]。
  把音頻信號分割成相鄰的子帶分量之后,用2倍于子帶帶寬的采樣頻率對子帶信號進行采樣,就可以用它的樣本值重構(gòu)出原來的子帶信號。例如,把4000 Hz帶寬分成4個等帶寬子帶時,子帶帶寬為1000 Hz,采樣頻率可用2000 Hz,它的總采樣率仍然X是8000 Hz。
  由于分割頻帶所用的濾波器不是理想的濾波器,經(jīng)過分帶、編碼、譯碼后合成的輸出音頻信號會有混迭效應(yīng)。據(jù)有關(guān)資料的分析,采用正交鏡象濾波器(quandrature mirror filter,QMF)來劃分頻帶,混迭效應(yīng)在最后合成時可以抵消。
  圖3-18表示用QMF分割頻帶的子帶編譯碼簡化框圖。圖中表示用QMF把全帶音頻信號分割成兩個等帶寬子帶的情況。hH(n)和hL(n)分別表示高通濾波器和低通濾波器,它們組成一對正交鏡象濾波器。這兩個濾波器也叫做分析濾波器。圖3-18(b)是QMF簡化的幅頻特性。


(a) QMF分割頻道方框圖


(b) QMF幅頻特性簡化圖

圖3-18 采用QMF的子帶編譯碼簡化框圖

  子帶編碼器SBC愈來愈受到重視。在中等速率的編碼系統(tǒng)中,SBC的動態(tài)范圍寬、音質(zhì)高、成本低。使用子帶編碼技術(shù)的編譯碼器已開始用于話音存儲轉(zhuǎn)發(fā)(voice store-and-forward)和話音郵件,采用2個子帶和ADPCM的編碼系統(tǒng)也已由CCITT作為G.722標(biāo)準(zhǔn)向全世界推薦使用。

3.6.2 子帶-自適應(yīng)差分脈沖編碼調(diào)制(SB-ADPCM)

  采樣率為8 kHz、8位/樣本、數(shù)據(jù)率為64 kb/s的G.711標(biāo)準(zhǔn)是CCITT為話音信號頻率為300~3400 Hz制定的編譯碼標(biāo)準(zhǔn),這屬于窄帶音頻信號編碼?,F(xiàn)代的話音編碼技術(shù)已經(jīng)可以減少數(shù)據(jù)率,而又不致于顯著降低音質(zhì)。CCITT推薦的8 kHz采樣率、4位/樣本、32 kb/s的G.721標(biāo)準(zhǔn),以及G.721的擴充標(biāo)準(zhǔn)G.723,都說明了話音壓縮編碼技術(shù)的進展。
  G.722是CCITT推薦的音頻信號(audio)編碼譯碼標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)是描述音頻信號帶寬為7 kHz、數(shù)據(jù)率為64 kb/s的編譯碼原理、算法和計算細節(jié)。G.722的主要目標(biāo)是保持64 kb/s的數(shù)據(jù)率,而音頻信號的質(zhì)量要明顯高于G.711的質(zhì)量。G.722標(biāo)準(zhǔn)把音頻信號采樣頻率由8 kHz提高到16 kHz,是G.711 PCM采樣率的2倍,因而要被編碼的信號頻率由原來的3.4 kHz擴展到7 kHz。這就使音頻信號的質(zhì)量有很大改善,由數(shù)字電話的話音質(zhì)量提高到調(diào)幅(AM)無線電廣播的質(zhì)量。對話音信號質(zhì)量來說,提高采樣率并無多大改善,但對音樂一類信號來說,其質(zhì)量卻有很大提高。圖3-19對窄帶話音和寬帶音頻信道作了比較。G.722編碼標(biāo)準(zhǔn)在音頻信號的低頻端把截止頻率擴展到50 Hz,其目的是為進一步改善音頻信號的自然度。


圖3-19 窄帶和寬帶音頻信道頻率特性

  在端對端(end-to-end)的數(shù)字連接應(yīng)用中,加到電話網(wǎng)上的回音(echo)音源并不十分強。然而,當(dāng)把現(xiàn)存窄帶通信鏈路和寬帶會議系統(tǒng)相互連接時,這種連接就可能引入比較強的回音源。如果寬帶信號端對端的延遲不加限制,回音控制就可能變得很困難。為了簡化回音控制,G.722編譯碼器引入的延遲時間限制在4 ms以內(nèi)。
  在某些應(yīng)用場合中,也許希望從64 kb/s信道中讓出一部分信道用來傳送其它的數(shù)據(jù)。因此,G.722定了三種音頻信號傳送方式,如表3-03所示。北美洲的信息限制音頻信號速率為56 kb/s,因此有8 kb/s的數(shù)據(jù)率用來傳送附加數(shù)據(jù)。

表3-03運行方式

方式

7 kHz音頻信號編碼位速率

附加數(shù)據(jù)信道位速度

1

64 kb/s

0 kb/s

2

56 kb/s

8 kb/s

3

48 kb/s

16 kb/s

  G.722編譯碼系統(tǒng)采用子帶自適應(yīng)差分脈沖編碼調(diào)制(sub-band adaptive differential pulse code modulation,SB-ADPCM)技術(shù)。在這個系統(tǒng)中,用正交鏡象濾波器(QMF)把頻帶分割成兩個等帶寬的子帶,分別是高頻子帶和低頻子帶。在每個子帶中的信號都用ADPCM進行編碼。圖3-20是QMF的頻率響應(yīng)曲線,圖3-21表示G.722的簡化框圖。低頻帶寬略大于常規(guī)的電話話音帶寬。對高子帶分配2位表示每個樣本值,而低子帶分配6位。因為64 kb/s的G.722標(biāo)準(zhǔn)主要還是針對寬帶話音,其次才是音樂。


圖3-20 QMF濾波器的頻率響應(yīng)特性


圖3-21 7 kHz音頻信號64 kb/s數(shù)據(jù)率的編譯碼方塊圖

3.7 線性預(yù)測編碼(LPC)的概念

  線性預(yù)測編碼(linear predictive coding,LPC)是一種非常重要的編碼方法。從原理上講,LPC是通過分析話音波形來產(chǎn)生聲道激勵和轉(zhuǎn)移函數(shù)的參數(shù),對聲音波形的編碼實際就轉(zhuǎn)化為對這些參數(shù)的編碼,這就使聲音的數(shù)據(jù)量大大減少。在接收端使用LPC分析得到的參數(shù),通過話音合成器重構(gòu)話音。合成器實際上是一個離散的隨時間變化的時變線性濾波器,它代表人的話音生成系統(tǒng)模型。時變線性濾波器既當(dāng)作預(yù)測器使用,又當(dāng)作合成器使用。分析話音波形時,主要是當(dāng)作預(yù)測器使用,合成話音時當(dāng)作話音生成模型使用。隨著話音波形的變化,周期性地使模型的參數(shù)和激勵條件適合新的要求。
  線性預(yù)測器是使用過去的P個樣本值來預(yù)測現(xiàn)時刻的采樣值x(n)。如圖3-22所示,預(yù)測值可以用過去P個樣本值的線性組合來表示:
  xpre(n) = -[a1x(n-1)+a2x(n-2)+……+apx(n-p)] =


  為方便起見,式中采用了負號。殘差誤差(residual error)即線性預(yù)測誤差為
   e(n)=x(n)-xpre(n) =

  這是一個線性差分方程。
  在給定的時間范圍里,如[n0,n1],使e(n)的平方和即β=[e(n)]2為最小,這樣可使預(yù)測得到的樣本值更精確。通過求解偏微分方程,可找到系數(shù)ai的值。如果把發(fā)音器官等效成濾波器,這些系數(shù)值就可以理解成濾波器的系數(shù)。這些參數(shù)不再是聲音波形本身的值,而是發(fā)音器官的激勵參數(shù)。在接收端重構(gòu)的話音也不再具體復(fù)現(xiàn)真實話音的波形,而是合成的聲音。


圖3-22 預(yù)測概念

3.8 GSM編譯碼器簡介

  除了ADPCM算法已經(jīng)得到普遍應(yīng)用之外,還有一種使用較普遍的波形聲音壓縮算法叫做GSM算法。GSM是Global System for Mobile communications的縮寫,可譯成全球數(shù)字移動通信系統(tǒng)。GSM算法是1992年柏林技術(shù)大學(xué)(Technical University Of Berlin)根據(jù)GSM協(xié)議開發(fā)的,這個協(xié)議是歐洲最流行的數(shù)字蜂窩電話通信協(xié)議。
  GSM的輸入是幀(frame)數(shù)據(jù),一幀(20毫秒)由采樣頻率為8 kHz的帶符號的160個樣本組成,每個樣本為13位或者16位的線性PCM(linear PCM)碼。GSM編碼器可把一幀(160×16位)的數(shù)據(jù)壓縮成260位的GSM幀,壓縮后的數(shù)據(jù)率為1625字節(jié),相當(dāng)于13 kb/s。由于260位不是8位的整數(shù)倍,因此編碼器輸出的GSM幀為264位的線性PCM碼。采樣頻率為8 kHz、每個樣本為16位的未壓縮的話音數(shù)據(jù)率為128 kb/s,使用GSM壓縮后的數(shù)據(jù)率為:
    (264位×8000樣本/秒)/160樣本=13.2 千位/秒
  GSM的壓縮比:128:13.2 = 9.7,近似于10:1。

練習(xí)與思考題

  1. 用自己的語言說出下面3種話音編譯碼器的基本想法。
    ① 波形編譯碼器,②音源編譯碼器,③混合編譯碼器
  2. 列出你所知道的話音編譯碼器的主要指標(biāo)(至少2個)。
  3. 試說混合編譯碼器的發(fā)展過程。
  4. 什么叫做均勻量化?什么叫做非均勻量化?
  5. 什么叫做m 律壓擴?什么叫做A律壓擴?
  6. G.711標(biāo)準(zhǔn)定義的輸出數(shù)據(jù)率是多少?T1的數(shù)據(jù)率是多少?T2的數(shù)據(jù)率是多少?
  7. 下圖是DM編碼器的原理圖,如果你已經(jīng)學(xué)過模擬電路和數(shù)字電路技術(shù)基礎(chǔ),請分析該電路是如何完成增量調(diào)制編碼的。


DM編碼器原理圖

  1. 自適應(yīng)脈沖編碼調(diào)制(APCM)的基本思想是什么?
  2. 差分脈沖編碼調(diào)制(DPCM)的基本思想是什么?
  3. 自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)的兩個基本思想是什么?

參考文獻和站點

  • Jason Woodard. Speech Coding.
    http://www-mobile.ecs.soton.ac.uk/jason/speech_codecs/ (瀏覽日期:1999年1月30日)
  • Esin Darici Haritaoglu. Wideband Speech and Audio Coding.
    http://www.umiacs.umd.edu/~desin/Speech1/new.html (瀏覽日期:1999年1月30日)
  • 美國普渡大學(xué)課程:http://shay.ecn.purdue.edu/~ee649/ (瀏覽日期:1999年2月4日)
  • 通信器件:http://www.okisemi.com/public/nf/TelecomTables-1.html (瀏覽日期:1999年2月4日)
  • Thomas J. Lynch, Ph.D.. Data Compression Techniques and Application. Van Nostrand Reinhold Company,1985
  • Thomas W. Parsons. Voice and Speech Processing. McGraw-Hill Book Company. 1986
  • Sadaoki Furui. Digital Speech Processing, Synthesis, and Recognition. Marcel Dekker, INC.,1989
  • CCITT. Recommendation G.711, Pulse Code Modulation (PCM) of Voice Frequences, Blue Book, Vol.III, Fascicle III.4. 1988
  • CCITT. Recommendation G.721, 32 kb/s Adaptive Differential Pulse Code Modulation(ADPCM), Blue Book, Vol.III, Fascicle III.4. 1988
  • CCITT. Recommendation G.722, 7 kHz Audio Coding With 64 kb/s, Blue Book, Vol.III, Fascicle III.4. 1988
  • Paul Mermelstein, G.722, A New CCITT Coding Standard for Digital Transmission of Wideband Audio Signal. IEEE Communications Magazine,Vol.26, No.1,January 1988
  • CCITT. Recommendation G.723, Extensions of Recommendation G.721 ADPCM to 24 and 40 kb/s for DCME Application, Blue Book, Vol.III, Fascicle Ⅲ.4. 1988
  • CCITT. Recommendation, G.725, System Aspects for the use of the 7 kHz Audio codec with 64 kb/s, Blue Book, VolⅢ, Fascicle Ⅲ.4. 1988
  • CCITT. Study Group XV, Recommendation H.221 Frame Structure for a 64 to 1920 kb/s channel in Audiovisual Teleservices, Revised. 1990
  • J.Reimer, M.McMahan and M.Arjmand. 32 kb/s ADPCM with the TMS32010. Texas Instruments, 1986
  • Song, C., Garodnic, J., and Schilling, D.C.. A Variable&#0;&#0;Step-size Robust Delta Modulator. IEEE Trans. on Comm.Tech,Vol. COM-19, No.6,December 1971,pp1033~1044
  • 林福宗, 陸 達 編著. 多媒體與CD-ROM. 北京:清華大學(xué)出版社,1995.3,171-193
  • GSM技術(shù)介紹(瀏覽日期1999年1月):
    ① http://www.wpi.edu/~murti/mqp/2_2.html
    ② http://www.wpi.edu/~murti/mqp/contents.html
    ③ http://www.imt-2000.com/wcdma/wcdma/sub_tech/brochures/umts.htm
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
PCM編碼詳解
自適應(yīng)差值脈沖編碼調(diào)制(ADPCM)基本原理
實驗九 PCM編譯碼
語音編碼技術(shù)的應(yīng)用與發(fā)展
【音頻壓縮】為什么要對視頻和音頻信號進行壓縮?舉例加以說明
在語音芯片行業(yè)中,常用的壓縮技術(shù)主要分為這幾類
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服