本次分享的主題是: 不確定性與貝葉斯定理
在我們的生活中很多東西都是不確定的。比如說,今天會下雨嗎?比如說,今天的生意會火爆嗎?比如說,明天的股票是跌還是漲?等等。面對不確定性,人類是恐懼的,人之所以會覺得迷茫,也是因為對未來的不確定。因此,我們需要一套理論來解決這些不確定性。而這套理論正是概率論,它能夠幫助我們解決不確定性。
信念與概率的關(guān)系
什么是信念?信念的英文是brief, 它的定義是:Brief is a phychological state in which an indivisual holds a proposition or premise to be true. 也就是說,信念是一個主觀的事物,它是一種個人判斷和選擇事物真?zhèn)蔚乃枷胍庾R。很明顯,信念是自己覺得有把握或者確定的,它剛好與不確定性相反。概率呢,正如皮埃爾.西蒙.拉普拉斯所說,作為一種量化常識推理和信念程度的工具,將能夠用來表示自己的信念。
概率的表示
如何表示概率?在表示概率之前我們需要知道兩個概念,一是樣本空間,二是事件。樣本空間是一個試驗所有可能輸出的集合,比如說扔硬幣,那么樣本空間就是;事件則是樣本空間的一個子集,回到扔硬幣這個例子來,一個事件可以是,也可以是。有了事件,我們就可以定義概率了,概率是一種指派,對某個事件,我們可以給予它一個實數(shù)。那么,這種指派是不是隨意的呢?答案為否。下面給出概率需要滿足的三個條件:
1. 概率為非負數(shù),取值在0和1之間。
2. 樣本空間的概率為1。也就是說,包含所有事件的概率為1。
3. 如果存在獨立事件,那么它們發(fā)生的概率為獨立事件發(fā)生概率的總和。
隨機變量
什么是隨機變量?隨機變量是從樣本空間到實數(shù)的函數(shù)映射。如何理解呢?直觀來說,我們?nèi)佑矌胚@個事件,它有可能是人頭向上,也有可能人頭向下。因此,人頭的朝向是因變量,而這個因變量是隨機的,不確定的,這就是隨機變量。對于每一個隨機變量,我們可以關(guān)聯(lián)一個概率分布。舉個例子,投擲兩次硬幣,樣本點是兩次投擲的結(jié)果,那么它就只有四種情況:上上,上下,下上,下下。考慮兩次人頭向上這個事件,我們可以給它指派一個概率,那么它的概率就是1/4。人頭朝向事件的概率構(gòu)成了一個概率分布。
聯(lián)合概率分布
以上我們講了單變量的情況,即投擲同一個硬幣。下面考慮多變量的情況,比如,同時投擲兩枚硬幣看其朝向。對這兩個需要同時考慮的隨機變量的概率分布,我們稱之為聯(lián)合概率分布。事實上,聯(lián)合概率在生活中很常見,畢竟一切事物皆是聯(lián)系的。
邊緣概率分布
我們需要同時考慮多個隨機變量,但是一旦隨機變量的個數(shù)太多的時候,可不可以通過去掉一些隨機變量來得到較少變量的分布呢? 答案是可以的。那就是邊緣概率分布。舉個例子,給定兩個隨機變量,記為X和Y,那么聯(lián)合概率分布的邊緣分布P(X)可以通過對聯(lián)合概率分布按照y的所有可能取值來匯總概率。
條件概率分布
條件概率是什么呢?它指的是給定某個事件發(fā)生的條件下,當前事件發(fā)生的概率。比如說,假如我們知道今天會刮臺風(fēng),那么公司還要上班的概率就是條件概率。用公式來表示是 P(X|Y) = P(X, Y) / P(Y),其中P(X, Y)是聯(lián)合概率,P(X|Y)是條件概率。
貝葉斯定理
前面我們說了,人生而需要面對不確定性,那么對于不確定性的事物,人通常會怎么做呢?答案是預(yù)測。那么如何預(yù)測就是一個棘手的問題了。此時,貝葉斯定理的出現(xiàn)給我們帶來了曙光。下面我們將看到貝葉斯定理是如何被應(yīng)用來做預(yù)測的。問題來了,給定數(shù)據(jù)D,那么Y發(fā)生的概率是多少?現(xiàn)實生活中,這種場景很常見,比如說,醫(yī)生根據(jù)病人心電圖數(shù)據(jù)推測他是否患有心血管疾病。那么,貝葉斯定理是如何解決這個問題的呢?貝葉斯公式為P(Y|D) = (P(D|Y) P(Y))/({P(D|Y)P(Y)}的邊緣分布概率)。從這個公式,我們可以看到貝葉斯公式是非常神奇的,本來是想要求給定D的條件下Y的概率,居然可以轉(zhuǎn)化為求解給定Y的條件下D的概率以及Y的概率,而這兩者是可以得到的:P(Y|D)是后驗概率,也就是觀察到D后對Y的信念;P(D|Y)則是給定Y下的似然率,也就是給定一個結(jié)論,求它能生成怎樣的數(shù)據(jù)D,回到病人那個例子,醫(yī)生可以通過學(xué)習(xí)患有心血管疾病的病人心電圖來獲得似然率;P(Y)是先驗分布,是我們在知道其它信息之前對Y的認識,也就是初始信念。
總結(jié)
我們探討了不確定性和信念的關(guān)系,進而給出了概率這個解決不確定性的框架。緊接著,我們講述了概率的定義以及概率的三個條件,而這其中,我們還引入了樣本空間和事件的基本概念。有了概率,我們給出了隨機變量的概率分布。從一個隨機變量的概率分布,我們拓展到了多個隨機變量的聯(lián)合概率分布。聯(lián)合概率分布是用來處理多個隨機變量同時發(fā)生的概率分布,但是一旦隨機變量的個數(shù)非常多的時候,我們則會希望在聯(lián)合概率分布下通過刪除一些隨機變量來得到較少隨機變量的分布,這個較少變量的概率分布就是邊緣概率分布?;谶吘壐怕史植己蜅l件概率分布,我們最后引出了貝葉斯定理。