深入淺出樸素貝葉斯理論歸屬于筆者的程序猿的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)實(shí)戰(zhàn)手冊(cè)。部分閱讀平臺(tái)對(duì)于MathJax支持不好,可以查看筆者的筆記原文。更多內(nèi)容參考面向程序猿的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)知識(shí)體系及資料合集。
概率論是機(jī)器學(xué)習(xí)中的重要角色,那么何謂概率?我們?cè)谛W(xué)里就聽老師講過拋硬幣時(shí)正面朝上的概率為0.5,這句話又代表著何含義呢?對(duì)于概率的理解往往有兩種不同的方式,其一是所謂的頻率論解釋(Frequentist Interpretation)。這種觀點(diǎn)中,概率代表著某個(gè)事件在較長(zhǎng)范圍內(nèi)的出現(xiàn)頻次。譬如這里的拋硬幣問題可以闡述為,如果我們拋?zhàn)銐虻拇螖?shù),我們會(huì)觀測(cè)到正面朝上的次數(shù)與反面朝上的次數(shù)基本相同。另一種即時(shí)所謂的貝葉斯解釋(Bayesian Interpretation),我們認(rèn)為概率是用來衡量某件事的不確定性(uncertainty),其更多地與信息相關(guān)而不再是重復(fù)嘗試的次數(shù)。用貝葉斯理論闡述拋硬幣問題則為下一次拋硬幣時(shí)正面朝上的可能性與反面朝上的可能性相差無幾。貝葉斯解釋的最大優(yōu)勢(shì)在于我們可以去為事件的不確定性建立具體的模型而不再依賴于多次試驗(yàn)得出的頻次結(jié)果。譬如我們要去預(yù)測(cè)2020年世界杯的冠軍,我們肯定不能讓球隊(duì)比賽很多次來觀測(cè)頻次計(jì)算概率,這件事只會(huì)發(fā)生零或一次,反正是無法重復(fù)發(fā)生的。基于貝葉斯理論我們便可以利用可觀測(cè)到的數(shù)據(jù)推測(cè)該事件的結(jié)果概率,典型的應(yīng)用是垃圾郵件過濾系統(tǒng)中,我們可以根據(jù)帶標(biāo)簽的訓(xùn)練數(shù)據(jù)來對(duì)新的郵件進(jìn)行判斷。
貝葉斯定理緣起于托馬斯.貝葉斯(1702-1761),一位英國(guó)長(zhǎng)老會(huì)牧師和業(yè)余數(shù)學(xué)家。在他去世后發(fā)表的論文“論有關(guān)機(jī)遇問題的求解”中, 貝葉斯定理的現(xiàn)代形式實(shí)際上歸因于拉普拉斯(1812)。拉普拉斯重新發(fā)現(xiàn)了貝葉斯定理,并把它用來解決天體力學(xué)、醫(yī)學(xué)甚至法學(xué)的問題。但自19世紀(jì)中葉起,隨著頻率學(xué)派(在下文有時(shí)也稱作經(jīng)典統(tǒng)計(jì))的興起,概率的貝葉斯解釋逐漸被統(tǒng)計(jì)學(xué)主流所拒絕。現(xiàn)代貝葉斯統(tǒng)計(jì)學(xué)的復(fù)興肇始于Jeffreys(1939),在1950年代,經(jīng)過Wald(1950), Savage(1954), Raiffic&Schlaifer(1961), Lindley(1972), De Finetti(1974)等人的努力,貝葉斯統(tǒng)計(jì)學(xué)逐漸發(fā)展壯大,并發(fā)展出了貝葉斯統(tǒng)計(jì)決策理論這個(gè)新分支。特別是到1990年代以后,隨著計(jì)算方法MCMC在貝葉斯統(tǒng)計(jì)領(lǐng)域的廣泛應(yīng)用,解決了貝葉斯統(tǒng)計(jì)學(xué)長(zhǎng)期存在的計(jì)算困難的問題,從而推動(dòng)了貝葉斯統(tǒng)計(jì)在理論和應(yīng)用領(lǐng)域的長(zhǎng)足發(fā)展。貝葉斯統(tǒng)計(jì)學(xué)廣泛應(yīng)用于各個(gè)學(xué)科。就本書的主題而言,從認(rèn)知學(xué)科、政治學(xué)到從自然語言處理和社會(huì)網(wǎng)絡(luò)分析,貝葉斯方法都起到了舉足輕重的作用。
貝葉斯定理,也稱為貝葉斯法則現(xiàn)在是概率論教科書的重要內(nèi)容。一般我們習(xí)慣于它的離散(事件)形式:
其中
貝葉斯定理作為一種概率計(jì)算可用于多個(gè)領(lǐng)域內(nèi)進(jìn)行概率推理。今天,我們用貝葉斯法則過濾垃圾郵件,為網(wǎng)站用戶推薦唱片、電影和書籍。它滲透到了互聯(lián)網(wǎng)、語言和語言處理、人工智能、機(jī)器學(xué)習(xí)、金融、天文學(xué)和物理學(xué)乃至國(guó)家安全等各個(gè)領(lǐng)域。這里我們選用一個(gè)簡(jiǎn)單的案例進(jìn)行分析,假設(shè)有方形和圓形的兩種盒子,盒子內(nèi)有紅、黃、白三種顏色的球。方盒有3個(gè),每個(gè)里邊有紅球70只、黃球10只、白球20只;圓盒有5個(gè),每個(gè)里邊有紅球20只、黃球75只、白球5只?,F(xiàn)在先任取一個(gè)盒子,再?gòu)暮兄腥稳∫磺颍懿荒芡ㄟ^求得顏色推斷它最有可能取自哪個(gè)盒子?為表示方便,記方盒=A,圓盒=B,紅球=R,黃球=Y,白球=W 使用貝葉斯定理進(jìn)行計(jì)算:
貝葉斯理論最基礎(chǔ)的使用就是在分類問題中,也就是所謂的生成式分類器(Generative Classifier),其基本形式如下所示:
在訓(xùn)練階段,我們基于帶有標(biāo)簽的訓(xùn)練集的輔助來尋找合適的類條件概率/似然概率
在我們孩提時(shí)代,爸媽希望教會(huì)我們某個(gè)詞匯的含義時(shí),他們首先會(huì)給我們展示很多的正例。譬如對(duì)于狗這個(gè)單詞,爸媽可能會(huì)說:看那條狗狗好可愛,或者,小心狗狗。不過爸媽不會(huì)像機(jī)器一樣給我們展示所謂的負(fù)例,他們不會(huì)指著一只貓說:這貨不是狗,最多就是當(dāng)孩子們認(rèn)錯(cuò)的時(shí)候,父母會(huì)予以糾正。心理學(xué)家研究表明,人們可以單純地從正例中學(xué)習(xí)概念,而不一定需要負(fù)例的介入。而這種認(rèn)知單詞的學(xué)習(xí)過程可以抽象概括為所謂的概念學(xué)習(xí)(Concept Learning),在某些意義上很類似于二元分類。譬如我們可以定義當(dāng)
闡述完了基本的概念,接下來我們會(huì)以一個(gè)簡(jiǎn)單的數(shù)字游戲來進(jìn)行形象化的說明,這里我們隨便選定幾個(gè)數(shù)學(xué)上的概念作為學(xué)習(xí)目標(biāo)。譬如我們可以將概念C定義為所有的素?cái)?shù),或者介于1~10之間的數(shù)字。然后給你多組隨機(jī)從C中抽樣出的正數(shù)序列:
上圖四組對(duì)比數(shù)據(jù)分別顯示了給不同的組選定不同的觀測(cè)集合時(shí)他們推導(dǎo)出的概念C的數(shù)字分布。前兩行是分別展示了
機(jī)器學(xué)習(xí)的任務(wù)就是將上述思考的過程轉(zhuǎn)化為機(jī)器計(jì)算,經(jīng)典的在讓機(jī)器進(jìn)行數(shù)學(xué)歸納的方法就是我們先預(yù)置很多概念的假設(shè)空間
我們首先來討論下為什么當(dāng)我們觀測(cè)到
對(duì)于這個(gè)等式最形象化的解釋就是奧卡姆剃刀原則(Occam’s razor),我們傾向于選擇符合觀測(cè)值的最小/最簡(jiǎn)的假設(shè)空間。在
前一節(jié)我們討論了所謂似然的概念,當(dāng)觀測(cè)到
總計(jì)而言,貝葉斯理論中概率并不需要頻率解釋,先驗(yàn)分布也可以稱為主觀概率,是根據(jù)經(jīng)驗(yàn)對(duì)隨機(jī)現(xiàn)象的發(fā)生可能性的一種看法或者信念。統(tǒng)計(jì)學(xué)家薩維奇曾給出過一個(gè)著名的女士品茶的例子:一位常喝牛奶加茶的女士說她可以分辨在杯中先加入的是茶還是奶。連續(xù)做了十次實(shí)驗(yàn),她都說對(duì)了。顯然這來自于她的經(jīng)驗(yàn)而非猜測(cè)。我們?cè)谌粘I钪幸步?jīng)常使用基于經(jīng)驗(yàn)或者信念的主觀的概率陳述。比如說,天氣預(yù)報(bào)里說明天(8月3日)降水概率30%,就是關(guān)于“明日降水”這個(gè)事件的一種信念,因?yàn)樽鳛?月3日的明天是不可重復(fù)的,自然也就沒有頻率意義。再比如說,醫(yī)生認(rèn)為對(duì)某位病人進(jìn)行手術(shù)的成功可能性為80%,也是根據(jù)自己的經(jīng)驗(yàn)而具有的的信念,而非在這位病人身上反復(fù)進(jìn)行試驗(yàn)的頻率結(jié)果。 把θ看做隨機(jī)變量,進(jìn)而提出先驗(yàn)分布,在許多情況下是合理的。比如工廠產(chǎn)品的合格率每一天都有波動(dòng),可以看做隨機(jī)變量;明天的降水概率雖然是幾乎不動(dòng)的,但這是基于經(jīng)驗(yàn)和規(guī)律提出來的概率陳述,也可以看做隨機(jī)變量。盡管我們使用后驗(yàn)分布來進(jìn)行推理,但先驗(yàn)分布的選取也是很重要的。常見的先驗(yàn)分布類型包括:
無信息先驗(yàn)(Noninformative Priors) 無信息先驗(yàn)只包含了參數(shù)的模糊的或者一般的信息,是對(duì)后驗(yàn)分布影響最小的先驗(yàn)分布。很多人愿意選取無信息先驗(yàn),因?yàn)檫@種先驗(yàn)與其它“主觀”的先驗(yàn)相比更接近“客觀”。通常,我們把均勻分布作為無信息先驗(yàn)來使用,這相當(dāng)于在參數(shù)所有的可能值上邊指派了相同的似然。但是無先驗(yàn)信息的使用也要慎重,比如有些情況下會(huì)導(dǎo)致不恰當(dāng)?shù)暮篁?yàn)分布(如不可積分的后驗(yàn)概率密度)。
Jeffreys先驗(yàn)(Jeffreys’ Prior) Jeffreys提出的選取先驗(yàn)分布的原則是一種不變?cè)?,采用Fisher信息陣的平方根作為θ的無信息先驗(yàn)分布。較好地解決了無信息先驗(yàn)中的一個(gè)矛盾,即若對(duì)參數(shù)θ選用均勻分布,則其函數(shù)g(θ)往往不是均勻分布。
信息先驗(yàn)(Informative Priors) 根據(jù)以前的經(jīng)驗(yàn)、研究或?qū)<医?jīng)驗(yàn)得到的先驗(yàn)分布。
共軛先驗(yàn)(Conjugate Priors) 共軛先驗(yàn)是指先驗(yàn)分布和后驗(yàn)分布來自同一個(gè)分布族的情況,就是說先驗(yàn)和后驗(yàn)有相同的分布形式(當(dāng)然,參數(shù)是不同的)。這些共軛先驗(yàn)是結(jié)合似然的形式推導(dǎo)出來的。共軛先驗(yàn)是經(jīng)常被使用的一種先驗(yàn)分布形式,原因在于數(shù)學(xué)處理和計(jì)算上的方便性,同時(shí)后驗(yàn)分布的一些參數(shù)也可以有很好的解釋。
后驗(yàn)值即為似然乘以先驗(yàn)再進(jìn)行歸一化,對(duì)于這里的數(shù)字游戲:
其中
聯(lián)系客服