參數(shù)估計(jì)的方法有多種,這里我們分析三種基于概率的方法,分別是最大似然估計(jì)(Maximum Likelihood)、貝葉斯估計(jì)(Bayes)和最大后驗(yàn)估計(jì)(Maximum a posteriori)。我們假設(shè)我們觀察的變量是
“l(fā)ikelihood/似然”的意思就是“事件(即觀察數(shù)據(jù))發(fā)生的可能性”,最大似然估計(jì)就是要找到的一個(gè)估計(jì)值,使“事件發(fā)生的可能性”最大,也就是使最大。一般來說,我們認(rèn)為多次取樣得到的
由于一般都比較小,且N一般都比較大,因此連乘容易造成浮點(diǎn)運(yùn)算下溢,所以通常我們都去最大化對(duì)應(yīng)的對(duì)數(shù)形式
具體求解釋時(shí),可對(duì)右式對(duì)求導(dǎo)數(shù),然后令為0,求出值即為。
最大似然估計(jì)屬于點(diǎn)估計(jì),只能得到待估計(jì)參數(shù)的一個(gè)值。(1) 但是在有的時(shí)候我們不僅僅希望知道,我們還希望知道取其它值得概率,即我們希望知道整個(gè)在獲得觀察數(shù)據(jù)后的分布情況. (2) 最大似然估計(jì)僅僅根據(jù)(有限的)觀察數(shù)據(jù)對(duì)總體分布進(jìn)行估計(jì),在數(shù)據(jù)量不大的情況下,可能不準(zhǔn)確。例如我們要估計(jì)人的平均體重,但是抽樣的人都是小孩,這樣我們得到的平均體重就不能反映總體的分布,而我們應(yīng)該把“小孩之占總?cè)丝?0%”的先驗(yàn)考慮進(jìn)去。這時(shí)我們可以用貝葉斯方法。
使用Bayes公式,我們可以把我們關(guān)于的先驗(yàn)知識(shí)以及在觀察數(shù)據(jù)結(jié)合起來,用以確定的后驗(yàn)概率:
其中是累積因子,以保證和為1。要使用Bayes方法,我們需有關(guān)于的先驗(yàn)知識(shí),即不同取值的概率。比如表示下雨,表示不下雨,根據(jù)以往的經(jīng)驗(yàn)我們大體上有、,在這種知識(shí)不足的時(shí)候,可以假設(shè)是均勻分布的,即取各值的概率相等。
在某個(gè)確定的取值下,事件x的概率就是,這是關(guān)于的函數(shù),比如一元正態(tài)分布。與上一節(jié)中的一樣,我們認(rèn)為各次取樣是獨(dú)立的,可以分開來寫,這樣我們就可以得到的一個(gè)表達(dá)式,不同的對(duì)應(yīng)不同的值。
根據(jù)獲得的,我們邊可以取使其最大化的那個(gè)取值,記為??赡苡腥艘呀?jīng)看出問題來了:我們做了很多額外功,為了求得一個(gè),我們把取其它值的情況也考慮了。當(dāng)然在有的時(shí)候分布是有用的,但是有的時(shí)候我們?nèi)〔⒉恍枰?,我們只要那個(gè)。最大后驗(yàn)估計(jì)這個(gè)時(shí)候就上場(chǎng)了。
備注:貝葉斯估計(jì)則把待估計(jì)的參數(shù)看成是符合某種先驗(yàn)概率分布的隨機(jī)變量。對(duì)樣本進(jìn)行觀測(cè)的過程,就是把先驗(yàn)概率密度轉(zhuǎn)化為后驗(yàn)概率密度,這樣就利用樣本的信息修正了對(duì)參數(shù)的初始估計(jì)值。在貝葉斯估計(jì)中,一個(gè)典型的效果就是,每得到新的觀測(cè)樣本,都使得后驗(yàn)概率密度函數(shù)變得更加尖銳,使其在待估參數(shù)的真實(shí)值附近形成最大的尖峰。
最大后驗(yàn)估計(jì)運(yùn)用了貝葉斯估計(jì)的思想,但是它并不去求解,而是直接獲得。從貝葉斯估計(jì)的公式可以看出,
與最大似然估計(jì)中一樣,我們通常最大化對(duì)應(yīng)的對(duì)數(shù)形式:
這樣,我們便無需去計(jì)算,也不需要求得具體的部分,便可以得到想要的。
和最大似然很相似,也是假定參數(shù)未知,但是為確定數(shù)值。只是優(yōu)化函數(shù)為后驗(yàn)概率形式,多了一個(gè)先驗(yàn)概率項(xiàng)。
總結(jié):
三種方法各有千秋,使用于不同的場(chǎng)合。當(dāng)對(duì)先驗(yàn)概率的估計(jì)沒有信心,可以使用最大似然估計(jì)(當(dāng)然也可以使用其它兩種)。貝葉斯估計(jì)得到了后驗(yàn)概率的分布,最大似然估計(jì)適用于只需要知道使后驗(yàn)概率最大的那個(gè)。總體上,極大似然計(jì)算簡單,而貝葉斯在某些特殊情況下,效果好于極大似然。
另外一方面,我們可以感覺到,最大似然估計(jì)和Bayes/MAP有很大的不同,原因在于后兩種估計(jì)方法利用了先驗(yàn)知識(shí),如果利用恰當(dāng),可以得到更好的結(jié)果。其實(shí)這也是兩大派別(Frequentists and Bayesians)的一個(gè)區(qū)別。
最后附上一張參數(shù)估計(jì)與非參數(shù)估計(jì)的對(duì)比圖:
聯(lián)系客服