免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
五分鐘概率論-Beta 分布

Beta分布是一種非常接近直覺的分布,這篇文章主要介紹Beta分布和說明為什么我們需要Beta分布。

對(duì)于貝葉斯主義者,從貝葉斯的角度去看伯努利過程,會(huì)得到一些重要而且有意思的結(jié)果。

數(shù)學(xué)公式說明,需要在段中顯示數(shù)學(xué)公式,用的是標(biāo)準(zhǔn)Latex語法,_表示角標(biāo),{}表示整體

縮寫說明,pdf:函數(shù)密度函數(shù)

文章結(jié)構(gòu)

  • 伯努利過程

  • 第一個(gè)拋硬幣試驗(yàn)

  • Beta分布形狀

  • 貝葉斯推斷

  • 第二個(gè)拋硬幣試驗(yàn)

  • 淘寶商家例子

伯努利過程

伯努利過程是一系列離散的獨(dú)立同分布隨機(jī)試驗(yàn),當(dāng)我們具體看伯努利過程的一些分布函數(shù)的時(shí)候,會(huì)發(fā)現(xiàn)這一類分布有著相似的結(jié)構(gòu)。

二項(xiàng)分布(拋n次硬幣,正面出現(xiàn)k次的概率)

幾何分布(拋硬幣,第一次拋出正面所需次數(shù)的概率)

帕斯卡分布(拋硬幣,第k次出現(xiàn)正面所需次數(shù)的概率)

找到一個(gè)統(tǒng)一的公式去描述這些分布,那就是 Beta分布了:

其中 B(a,b) 是標(biāo)準(zhǔn)化函數(shù),他的作用是使總概率為1,a 和 b 是形狀參數(shù),不同的參數(shù)選擇不但可以表示常見的二項(xiàng)分布,幾何分布等,它更有一個(gè)好處,那就是你跟本不用去管某個(gè)試驗(yàn)服從什么分布。用形狀參數(shù) a,b 可以調(diào)出任意你想使用的分布圖像。

拋個(gè)硬幣吧

寫概率論的文章總是一言不合就拋硬幣,這就像是達(dá)芬奇畫雞蛋,基礎(chǔ)的掌握也是思維的形成。拋硬幣的試驗(yàn)可以從幾何學(xué)角度來直觀了解Beta分布的工作原理。先撇開Beta分布,來看下簡(jiǎn)單的變體,沒有了-1的次方項(xiàng),也沒有了用于歸一化的常數(shù)。

如果拋硬幣,拋出7次正面,3次反面,如何判斷這個(gè)硬幣的概率分布。注意我們都是貝葉斯主義者,硬幣的概率是個(gè)隨機(jī)變量,不要用頻率主義去把概率當(dāng)作一個(gè)定值。思考最簡(jiǎn)單的伯努利過程,7次正面,3次反面,概率分布是關(guān)于x的函數(shù)(隨機(jī)變量),那么這個(gè)類似 Beta分布的函數(shù)就是:

這幅圖是很直觀的表達(dá),當(dāng)某次試驗(yàn)出現(xiàn)正面7次,背面3次的情況下,函數(shù)圖像在0.7附近得到最大值。也就是說,現(xiàn)在的概率極有可能是0.7,當(dāng)然也有可能是其他的情況,比如說0.5,只是概率更小罷了。這就是我們不知道服從某種特定分布的參數(shù)分布曲線。

更籠統(tǒng)的說,形狀參數(shù) a,b 決定了分布的形狀。

Beta 分布形狀

當(dāng)形狀參數(shù)a,b 取不同的值時(shí),Beta分布會(huì)隨之變化。其中有幾種特殊情況。

首先是 a = b 的情況。分別使用動(dòng)畫和3D來演示。

當(dāng) a = b 時(shí), beta分布都是對(duì)稱的,如果小于1,分布是u形,這時(shí)的pdf也叫做反正弦分布(arcsin distribution),反正弦分布的CDF是反正弦函數(shù)。如果形狀參數(shù)大于1,分布呈山峰狀凸起,特別注意,當(dāng) a = b = 1 時(shí),分布為[0,1]均勻分布。當(dāng) a = b = 2 時(shí),pdf為拋物線。

3D 圖像顯示了a取不同值時(shí),概率密度函數(shù)分布的變化。

當(dāng) a 不等于 b 時(shí), Beta 概率密度函數(shù)呈較大值一方傾斜,a 越大,pdf峰值向1偏移,b 越大,pdf峰值向0偏移。

可以看到Beta分布的另一個(gè)特點(diǎn),當(dāng)形狀參數(shù)越大時(shí),分布圖像越陡,越對(duì)稱,越接近正態(tài)分布。

貝葉斯推斷 (Bayesian inference)

Beta分布在概率統(tǒng)計(jì)中非常好用。因?yàn)樵谪惾~斯推斷下,Beta分布有個(gè)非常棒的特點(diǎn)。那么先來看看貝葉斯推斷。

在統(tǒng)計(jì)模型中,我們往往關(guān)心的是模型的參數(shù),比如說拋出硬幣的正面概率是多少,一個(gè)射擊運(yùn)動(dòng)員平均射擊環(huán)數(shù)。在貝葉斯主義看來,這些參數(shù)并不是一個(gè)明確的數(shù),而是一個(gè)概率分布,在某些地方值大一些,就說明參數(shù)更有可能分布在這些地方。這個(gè)參數(shù),被定義為隨機(jī)變量 Theta。

隨機(jī)變量 Theta 中某一個(gè)值 theta 可能就是模型的真值,在這個(gè)真值下,我們有做了一些觀察,即

同理這些觀察也都是隨機(jī)變量,更進(jìn)一步,他們是在某參數(shù)下的條件概率,也即聯(lián)合分布。 可以表示為 p_{X|\Theta} 或者 f_{X|\Theta}?,F(xiàn)在有了參數(shù)的分布 p_{\Theta} 或者 f_{\Theta}, 也有了觀察量,根據(jù)條件概率公式,我們就得到了貝葉斯角度的貝葉斯推斷:

這里只給出了離散模型,各部分都可替換成各自的連續(xù)模型。等式右邊的部分我們都有了,分母部分是用來歸一化的,p_{\Theta} 也被稱作先驗(yàn)概率,p_{X|\Theta}也是似然函數(shù),等式左邊的部分即為在先驗(yàn)存在下,通過一些觀察,更新的參數(shù)分布概率,也被稱作后驗(yàn)概率。

既然提到貝葉斯,可不是讓他白來的,Beta 分布的一些特性,讓貝葉斯推斷發(fā)揮出了巨大作用。

共軛先驗(yàn) Conjugate prior

暫時(shí)先回到拋硬幣的例子中,如果觀察到了某次試驗(yàn)結(jié)果k,選擇使用Beta分布,不考慮分母常數(shù),也不進(jìn)行精確計(jì)算:

根據(jù)前面所講,我們不論假設(shè)先驗(yàn)分布是均勻分布,二項(xiàng)分布,幾何分布還是其他伯努利過程中的分布情況,后驗(yàn)概率都可以得到一個(gè)統(tǒng)一的形式:

其中 B(a,b) 是 Beta 函數(shù),發(fā)現(xiàn)新的Beta分布,新的 a = a+k,新的 b = n-k+b,當(dāng) a = b = 1 時(shí),形狀參數(shù)為k+1和n-k+1,如果我們認(rèn)為 a 是拋出正面的次數(shù),b 是拋出反面的次數(shù),這不就是我們拋硬幣的例子的Beta分布嗎?這種特性就是共軛先驗(yàn)。有著這種特性的函數(shù)并不多,另一個(gè)有共軛先驗(yàn)特性的分布就是正態(tài)分布。

后驗(yàn)分布與先驗(yàn)分布是同種類型的分布。這又什么用呢?

首先,可以迭代了。先驗(yàn)分布通過新的觀察結(jié)果可以更新后驗(yàn)分布,新的后驗(yàn)分布又可以做為先驗(yàn)分布進(jìn)行下一次的更新。

其次,給貝葉斯推斷提供了理論依據(jù),為什么可以用Beta分布做為觀察模型的先驗(yàn)分布,每次觀察試驗(yàn)不會(huì)改變分布模型,改變的只是分布形狀。

歸根結(jié)底,共軛先驗(yàn)讓計(jì)算變簡(jiǎn)單了。Beta分布的眾數(shù),期望和方差分別為:

免去了計(jì)算指數(shù),階乘的復(fù)雜運(yùn)算,只用形狀參數(shù)就足夠了,是不是很方便呢?

又要拋硬幣了

這次拋硬幣是對(duì)開始那個(gè)例子的完善。我們說觀察一枚硬幣,觀察前有人告訴我以前有人拋過這枚硬幣,出現(xiàn)了7次正面,3次反面。我們估計(jì)這個(gè)硬幣是服從Beta分布的,即 X~Beta(8,4),開始觀察5次拋擲結(jié)果以后,發(fā)現(xiàn)出現(xiàn)了2次正面,3次反面,那我們可以直接計(jì)算了:

在新的觀察下,概率分布的峰值從0.7移動(dòng)向0.6。從整個(gè)計(jì)算過程中,有沒有發(fā)現(xiàn),我們根本不用去考慮以前的結(jié)果,只要在先驗(yàn)的基礎(chǔ)上變更形狀參數(shù)就行了。

一個(gè)更加實(shí)際的例子

逛淘寶的時(shí)候,想買一雙鞋子,同一雙鞋子發(fā)現(xiàn)了兩個(gè)不同的商家,商家A有10條評(píng)論,9個(gè)好評(píng)1個(gè)差評(píng)。商家B有500條評(píng)論,400條好評(píng)100個(gè)差評(píng)。那么應(yīng)該去買哪個(gè)商家的鞋子。

鞋子的質(zhì)量是商家的參數(shù),商家一定存在反應(yīng)鞋子質(zhì)量的真值,但是我們不知道。但是,根據(jù)大數(shù)定理,大量的樣本會(huì)讓結(jié)果更趨近于真值。商家A可以使用 a = 10,b = 2 的Beta分布,商家B可以使用 a = 401, b = 101 的Beta分布,商家的質(zhì)量在[0,1]內(nèi)表示。得到結(jié)果:

取一個(gè)95%的置信區(qū)間,也就是說,真值有95%的概率在這個(gè)區(qū)間內(nèi)。商家A[0.58,0.98],商家B[0.76,0.84]。商家A的均值更高,但是方差更大。這里就有兩個(gè)不同的策略,如果考慮的是產(chǎn)品質(zhì)量的穩(wěn)定性,就選擇B商家,因?yàn)樯碳褺的質(zhì)量標(biāo)準(zhǔn)底線比商家A更高。另一方面,如果你愿意看臉,商家A的商品有很大機(jī)率高達(dá)0.98的質(zhì)量標(biāo)準(zhǔn)。

這就是Beta分布在生活中直觀的表現(xiàn)。Beta分布的應(yīng)用不止于此,當(dāng)其進(jìn)化為更加抽象的狄利克雷分布時(shí),就是無監(jiān)督貝葉斯模型的基礎(chǔ)了。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
貝葉斯集錦:貝葉斯統(tǒng)計(jì)基礎(chǔ)
先驗(yàn)概率、后驗(yàn)概率以及共軛先驗(yàn)
最大似然估計(jì) (MLE) 最大后驗(yàn)概率(MAP)
文本語言模型的參數(shù)估計(jì)
專知主題鏈路知識(shí)推薦#4-機(jī)器學(xué)習(xí)中往往被忽視的貝葉斯參數(shù)估計(jì)方法
Beta分布、貝葉斯公式及共軛分布
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服