假設(shè) 為 數(shù)據(jù)對象的值 , 的相關(guān)頻率為 ,其中N表示總的出現(xiàn)次數(shù)().
一個事件 的概率為 ,代表事件 發(fā)生的可能性有多大。
我們通過在 范圍內(nèi)為某個空間中的結(jié)果(事件)集分配一個數(shù)值概率來構(gòu)造一個概率空間。
當(dāng)結(jié)果是一個不確定但可重復(fù)的過程的結(jié)果時,概率總是可以通過簡單地觀察多次過程的重復(fù)并計算每個事件發(fā)生的頻率來衡量。這些頻率概率可以很好地陳述客觀現(xiàn)實。如
如果我們假設(shè)這些是通用的常數(shù),而這些常數(shù)不會因為你需要測量過程而得到不同的結(jié)果。這決定了我們最感興趣的陳述不能被賦予頻率統(tǒng)計的概率。
然而,如果我們也允許概率來衡量在陳述中的主觀的'信仰程度',那么就可以使用概率論的完整機制來討論更有趣的陳述。這些被稱為貝葉斯概率。
貝葉斯概率是由貝葉斯理論所提供的一種對概率的解釋,它采用將概率定義為某人對一個命題信任的程度的概念。
最傳統(tǒng)的概率理論是基于事件的相對頻率(頻率),而貝葉斯觀點更加靈活地看待概率。在任何情況下,概率總是介于0和1之間,所有可能事件的概率值的總和等于1。
貝葉斯概率和頻率概率相對,它從確定的分布中觀測到的頻率或者在樣本空間中的比例來導(dǎo)出概率。粗略描述兩種概率統(tǒng)計是:
對離散隨機變量而言,聯(lián)合分布概率質(zhì)量函數(shù)為 ,即
因為是概率分布函數(shù),所以必須有
類似地,對連續(xù)隨機變量而言,聯(lián)合分布概率密度函數(shù)為 ,其中 和 分別代表 時 的條件分布以及 時 的條件分布; 和 分別代表和的邊緣分布。
同樣地,因為是概率分布函數(shù),所以必須有
對于兩相互獨立的事件 及 ,任意x和y而言有離散隨機變量
括號內(nèi)分別是數(shù)據(jù)特征 ,模型參數(shù) 和超參數(shù) 。 上的下標(biāo)是為了提醒我們,通常所使用的參數(shù)集依賴于超參數(shù)(例如,增加n_components
為新組件添加參數(shù))。有時我們將這個 對稱為模型。
這個聯(lián)合概率意味著模型參數(shù)和超參數(shù)都是隨機變量,這意味著它們標(biāo)記了潛在概率空間中的可能結(jié)果。
可能性 是模型參數(shù) (給定超參數(shù) )和數(shù)據(jù)特征 的函數(shù),度量模型給定的觀測數(shù)據(jù)的概率(密度)。例如,高斯混合模型有如下可能性函數(shù):
參數(shù) 為:
及超參數(shù) 。注意,對于任何(固定)參數(shù)和超參數(shù)的值,可能性必須在數(shù)據(jù)上進行標(biāo)準(zhǔn)化。而不是在參數(shù)或超參數(shù)上標(biāo)準(zhǔn)化的。
可能性度函數(shù)在頻率統(tǒng)計和貝葉斯統(tǒng)計中都起著核心作用,但是他們使用和解釋的方式不同,這里主要討論貝葉斯的觀點,其中 和 是隨機變量,可能性函數(shù)與條件概率相關(guān)。
條件概率的表示在給定模型 的情況下,觀察特征 。
貝葉斯定理是概率論中的一個定理,描述在已知一些條件下,某事件的發(fā)生概率。
比如,如果已知某人媽媽得癌癥與壽命有關(guān),使用貝葉斯定理則可以通過得知某人年齡,來更加準(zhǔn)確地計算出他媽媽罹患癌癥的概率。
通常,事件A在事件B已發(fā)生的條件下發(fā)生的概率,與事件B在事件A已發(fā)生的條件下發(fā)生的概率是不一樣的。然而,這兩者是有確定的關(guān)系的,貝葉斯定理就是這種關(guān)系的陳述。貝葉斯公式的一個用途,即透過已知的三個概率而推出第四個概率。貝葉斯定理跟隨機變量的條件概率以及邊際概率分布有關(guān)。
我們將可能性與條件概率聯(lián)系起來,我們就可以應(yīng)用概率演算的早期規(guī)則(2 & 3)來推導(dǎo)廣義貝葉斯規(guī)則:
上面的每一項都有一個名稱,測量不同的概率:
在典型的推理問題中,(1)后驗概率是我們真正關(guān)心的,而(2)似然是我們知道如何計算的。(3)先驗概率是我們必須量化我們對宇宙不同可能的主觀'信仰程度'。
(4)證據(jù)呢?利用前面的概率計算法則,我們發(fā)現(xiàn)(4)可以由(2)和(3)計算出來:
通過選擇適合的先驗概率函數(shù)和可能性函數(shù),這個積分可以通過解析來執(zhí)行求解。然而,對于大多數(shù)實際工作來說,需要用近似的數(shù)值方法來計算復(fù)雜的分布。這類常用的方法有馬爾可夫鏈蒙特卡羅和變分推理。
優(yōu)先權(quán)的選擇必然是主觀的,有時還會引起爭議。盡管如此,這里總結(jié)了如下一般準(zhǔn)則:
對于先驗 ,我們使用beta分布[4],它由超參數(shù) 和 指定:
其中 是Gamma函數(shù)[5]與階乘 相關(guān)的。
該函數(shù)提供了一個二項式過程的先驗(或后驗),對應(yīng)于先前(或更新)的測量值,該二項式共有 次過程,并在這些試驗中,有 次通過, 次不通過。
下面定義函數(shù)binomial_learn
函數(shù)計算并繪制先驗概率、可能性及后驗概率曲線。
def binomial_learn(prior_a, prior_b, n_obs, n_pass):
'''
prior_a, prior_b: 超參數(shù)a和b
n_obs:觀察或測量次數(shù)
n_pass:通過樣本數(shù)
'''
theta = np.linspace(0, 1, 100)
# 計算和繪制關(guān)于theta的先驗概率。
prior = scipy.stats.beta(prior_a, prior_b)
plt.fill_between(theta, prior.pdf(theta), alpha=0.25)
plt.plot(theta, prior.pdf(theta), label='Prior')
# 計算并繪制給定任意theta的固定數(shù)據(jù)的可能性。
likelihood = scipy.stats.binom.pmf(n_pass, n_obs, theta)
plt.plot(theta, likelihood, 'k:', label='Likelihood')
# 根據(jù)觀測數(shù)據(jù)計算并繪制后驗曲線。
posterior = scipy.stats.beta(prior_a + n_pass, prior_b + n_obs - n_pass)
plt.fill_between(theta, posterior.pdf(theta), alpha=0.25)
plt.plot(theta, posterior.pdf(theta), label='Posterior')
plt.legend(bbox_to_anchor=(0., 1.02, 1., .102), loc=3,
ncol=3, mode='expand', borderaxespad=0., fontsize='large')
plt.ylim(0, None)
plt.xlim(theta[0], theta[-1])
plt.xlabel('Pass fraction $\\theta$')
Q1: 在你的研究領(lǐng)域想一個問題,這個問題適用于這個推理問題。
Q2: 使用超參數(shù) ,從2個觀測中推斷 。
Q3: 用 代替 ,從相同的2次觀察中推斷 。
Q4: 使用上面的每個先驗均不同的數(shù)據(jù): 100個試驗中有60個通過。
binomial_learn(prior_a=1, prior_b=1, n_obs=2, n_pass=1)
后驗概率峰值是在觀察到的平均通過率為1/2處。這顯然是合理的,因為我們只做了兩個觀察。
絕對排除0和1,因為我們已經(jīng)觀察到1個通過和1個不通過。
先驗概率、后驗概率及可能性是標(biāo)準(zhǔn)化的 ,所以它們在圖中的面積是1。而因所有可能的數(shù)據(jù)的可能性也都是標(biāo)準(zhǔn)化的,所以他們在這個圖中面積沒有1。
binomial_learn(5, 10, 2, 1)
當(dāng)用 代替 后,
后驗概率的峰值在遠離平均觀察通過率的1/2處。如果繼續(xù)相信先驗信息,這也是合理的,因為在相對于沒有任何信息的數(shù)據(jù)中,貝葉斯定理告訴我們,它應(yīng)該占據(jù)我們對 的知識。
另一方面,如果我們不能證明為什么這個先驗比之前的平坦分布的先驗更加可信,那么我們必須得出這樣的結(jié)論: 的值是未知的,這些數(shù)據(jù)也是沒有任何幫助的。如果在之前的13次【】實驗中觀察到4次【】通過,那么新的先驗概率是非常合理的。然而,如果從未觀察到這個過程,并且沒有理論偏見,那么原來的平坦分布的先驗是合理的。
接下來增加觀察次數(shù),即增加數(shù)據(jù)量。
binomial_learn(1, 1, 100, 60)
binomial_learn(5, 10, 100, 60)
數(shù)據(jù)越多,先驗的影響就越小。
且可能性值更大,因為有更多的可能結(jié)果(通過或不通過)與更多的觀測值,所以任何一個結(jié)果變得相對不太可能。
貝葉斯網(wǎng)絡(luò)(Bayesian network),又稱信念網(wǎng)絡(luò)(belief network)或是有向無環(huán)圖模型(directed acyclic graphical model),是一種概率圖型模型,借由有向無環(huán)圖(directed acyclic graphs, or DAGs)中得知一組隨機變量 及其 組條件概率分布的性質(zhì)。
舉例而言,貝葉斯網(wǎng)絡(luò)可用來表示疾病和其相關(guān)癥狀間的概率關(guān)系;倘若已知某種癥狀下,貝葉斯網(wǎng)絡(luò)就可用來計算各種可能罹患疾病之發(fā)生概率。
一般而言,貝葉斯網(wǎng)絡(luò)的有向無環(huán)圖中的節(jié)點表示隨機變量,它們可以是可觀察到的變量,抑或是隱變量、未知參數(shù)等。
連接兩個節(jié)點的箭頭代表此兩個隨機變量是具有因果關(guān)系或是非條件獨立的;而兩個節(jié)點間若沒有箭頭相互連接一起的情況就稱其隨機變量彼此間為條件獨立。若兩個節(jié)點間以一個單箭頭連接在一起,表示其中一個節(jié)點是“因(parents)”,另一個是“果(descendants or children)”,兩節(jié)點就會產(chǎn)生一個條件概率值。
貝葉斯網(wǎng)絡(luò)是用于建模屬性和類別標(biāo)簽之間的概率關(guān)系。通過建立概率論和圖倫的概念,貝葉斯網(wǎng)絡(luò)能夠捕獲更簡單的條件獨立形式,使用簡單的示意進行表示。他們還提供了必要的計算結(jié)構(gòu),以有效的方式對隨機變量執(zhí)行推斷。
貝葉斯網(wǎng)絡(luò)術(shù)語捕獲隨機變量之間的概率關(guān)系的模型,被稱為概率圖模型(probabilistic graphical model)。這些模型背后的基本概念是使用圖表示,其中圖的節(jié)點對應(yīng)于隨機變量,節(jié)點之間的邊緣表示概率關(guān)系。
我們從貝葉斯聯(lián)合概率開始:
當(dāng)一個函數(shù)有數(shù)據(jù)特征 ,模型參數(shù) 和超參數(shù) ,這個函數(shù)通常是一個非常高維的函數(shù)。
在最普遍的情況下,聯(lián)合概率需要大量的數(shù)據(jù)來估計。然而,許多問題可以用聯(lián)合概率(通過假設(shè)一些隨機變量是相互獨立的)來(近似)描述。
概率圖模型是隨機變量之間假定的直接依賴關(guān)系的一種方便的可視化方法。
例如,假設(shè)我們有兩個參數(shù) ,并且沒有超參數(shù),那么聯(lián)合概率 可以利用概率演算的規(guī)則,以不同的方式展開成條件的乘積:
或者
對應(yīng)的圖表為:
讀這些圖的方法是:一個標(biāo)記為 的節(jié)點表示聯(lián)合概率中的(乘性)因子 ,其中 列出了其他節(jié)點的箭頭指向該節(jié)點(以任何順序,根據(jù)概率微積分規(guī)則1)。陰影節(jié)點表示直接觀察到的隨機變量(即數(shù)據(jù)),而非陰影節(jié)點表示(未觀察到的)潛在隨機變量。
這些圖都描述了具有兩個參數(shù)的聯(lián)合概率。建立具有任意參數(shù)的聯(lián)合概率的規(guī)則為:
有了 參數(shù),就有 可能的圖,潛在依賴關(guān)系的數(shù)量隨著 迅速增長。
為了減輕這種階乘增長,我們尋找不互相依賴的隨機變量對。例如,在兩個參數(shù)的情況下:
請注意每個圖是如何描述一個不同的故事的。例如,第一個圖告訴我們,只知道 就可以預(yù)測數(shù)據(jù),但是我們對 的先驗知識依賴于 。因此,實際上,簡化聯(lián)合概率涉及到繪制一個圖表,為數(shù)據(jù)和模型講述一個合適的故事。
考慮觀察某人扔一個球,并測量它落地的距離,以推斷重力的強度:
畫一個圖例來說明這個推斷的聯(lián)合概率
假設(shè)投擲者總是盡可能地用力投擲,然后根據(jù)風(fēng)向調(diào)整角度。畫一個圖來表示這個簡單的聯(lián)合概率中的直接依賴關(guān)系。
寫出對這個推理問題感興趣的后驗。
我們對這個推論最感興趣的后驗是
但更完整的后驗為
這兩個式子的不同之處在于,在第一種情況中,我們忽略了'討厭的'參數(shù) 。
這些圖中的箭頭定義了條件依賴關(guān)系的方向。它們通常反映了潛在物理系統(tǒng)的因果影響,具有有向邊的概率圖被稱為貝葉斯網(wǎng)絡(luò)。
也可以在沒有指定方向的情況下,繪制對稱連接節(jié)點的圖。這些被稱為馬爾可夫隨機場或馬爾可夫網(wǎng)絡(luò),當(dāng)依賴關(guān)系在兩個方向或一個未知方向流動時適用。你可以閱讀更多相關(guān)信息馬爾可夫網(wǎng)絡(luò)[6].
貝葉斯統(tǒng)計: https://github.com/dkirkby/MachineLearningStatistics
[2]估算德國坦克的生產(chǎn)速度: https://en.wikipedia.org/wiki/German_tank_problem
[3]The Theory That Would Not Die: https://www.amazon.com/Theory-That-Would-Not-Die/dp/0300188226
[4]beta分布: https://en.wikipedia.org/wiki/Beta_distribution
[5]Gamma函數(shù): https://en.wikipedia.org/wiki/Gamma_function
[6]馬爾可夫網(wǎng)絡(luò): https://en.wikipedia.org/wiki/Markov_random_field