模擬聲音信號:聲波在時間和幅度上都是連續(xù)的模擬信號。
1.1 聲音的組成
幅度:聲波的振幅。計量單位是分貝(dB)
頻率:聲波每秒變化的次數(shù),用Hz表示。人耳能聽到的聲音信號的頻率范圍20Hz~20KHz。該范圍內(nèi)的信號稱為音頻信號。小于20Hz稱為亞音信號。高于20KHz稱為超聲波。根據(jù)聲音包含的頻率成分的構成特征可以分為音樂和噪音。
2、聲音信號的數(shù)字化
聲音信號屬于模擬信號,計算機需要把它轉換為數(shù)字信號才能進行處理。需要用二進制數(shù)字的編碼形式來表示聲音。聲音信號數(shù)字化要經(jīng)歷:采樣、量化、編碼三個步驟。
采樣:就是把時間連續(xù)的模擬信號在時間軸上離散化的過程。在某些特定時刻獲取聲音信號幅值稱為采樣。
量化:量化處理就是把在幅度上連續(xù)取值(模擬量)的每一個樣本轉換為離散值(數(shù)字量)來表示。量化后的數(shù)據(jù)使用二進制的數(shù)來表示的,二進制數(shù)位數(shù)的多少反映了度量聲音波形幅度的精度,稱為量化精度或者量化分辨率。量化精度越高,聲音質(zhì)量越高,占用的存儲空間也就越大。
編碼:為了便于計算機的存儲、傳輸、處理,需要按照一定的格式進行數(shù)據(jù)編碼,再按照某種規(guī)定的格式將數(shù)據(jù)組織成文件。也可以采用方法對數(shù)據(jù)進行壓縮,減少對存儲空間的占用。
3、數(shù)字聲音的主要參數(shù)
采樣頻率:表示每秒的采樣數(shù)。3個標準頻率為:44.1kHz、22.05kHz、11.05kHz。
量化位數(shù):聲音波形幅度的精度,一般是8位、12位、6位。
聲道數(shù)組:單聲道、雙聲道。
數(shù)據(jù)率:每秒數(shù)據(jù)量,一般用bps為單位。
壓縮比:單位時間內(nèi)的未壓縮音頻數(shù)據(jù)量與壓縮后的數(shù)據(jù)量之比。
4、波形聲音
4.1 波形聲音介紹
波形聲音是對聲音信號直接采用的數(shù)據(jù)。
數(shù)據(jù)傳輸速率(bps)=采樣頻率(Hz)*量化位數(shù)(bit)*聲道數(shù)
聲音信號數(shù)據(jù)量(Byte)=數(shù)據(jù)傳輸速率(bps)*持續(xù)時間(s)/8
聲音波形的數(shù)據(jù)量非常大。在編碼的時候常常要進行壓縮從而減少存儲空間的占用和傳輸速率。
4.2 波形編碼技術
可以直接對波形采樣數(shù)據(jù)進行壓縮的處理方法。常用的有差分脈沖編碼調(diào)制(DPCM)、自適應差分脈沖編碼調(diào)制(ADPCM)和子帶編碼(SBC)等。
波形編碼特點:通用性強,對所有波形表示的數(shù)字聲音都有效、聲音質(zhì)量很高、但很難有高壓縮比。
4.3 感知聲音編碼
感知聲音編碼也是一種常用的編碼技術,它利用波形本身的相關性和人類的聽覺系統(tǒng)特性來 達到壓縮聲音的目的。MPEG系列的音頻壓縮編碼就是典型的感知編碼。
5、聲音合成
5.1 語音合成
目前主要是針對文本轉語音的合成。
流程:文本→文本分析→韻律處理→語音合成→波形聲音
常用的合成技術:發(fā)音參數(shù)合成、聲道模型參數(shù)合成、波形編輯合成
5.2 音樂合成
音樂是用樂譜進行描述而由樂器演奏而成的。樂譜基本組成單元是音符?,F(xiàn)代音樂體系中基本音階7個音組成、常用音符88個、電子樂器支持128個。
數(shù)字音樂合成方法:數(shù)字調(diào)頻(FM)合成法、波表法。目前電子音樂合成基本都采用波表法。
6、MIDI
MIDI 是指樂器數(shù)字接口國際標準。
7、常用的聲音文件格式
1、Wave 文件 (wav):“微軟操作系統(tǒng)標準音頻格式屬于波形文件。質(zhì)量非常高,文件數(shù)據(jù)量很大。
2、Sound文件(.snd):NeXT Computer公司推出的數(shù)字聲音格式,支持壓縮。
3、Audio文件(.au):用于UNIX系統(tǒng)的數(shù)字聲音文件格式。
4、AIFF文件(.aif):MAC OS 標準的音頻文件格式。
5、Voice文件(.voc):Creative公司的波形音頻文件格式。
6、MP3:最常用的聲音文件格式
7、RealAudio(.ra):具有較高壓縮比。
8、MIDI文件(.mid .rmi):用于存儲和交換MIDI消息的一種數(shù)字音樂文件,.rmi格式是Windows中對MIDI文件格式的簡單擴展格式。
IT技術分享社區(qū)
個人博客網(wǎng)站:https://programmerblog.xyz