1 概率論和統(tǒng)計學(xué)的區(qū)別

簡單來說，概率論和統(tǒng)計學(xué)解決的問題是互逆的。假設(shè)有一個具有不確定性的過程（process），然后這個過程可以隨機的產(chǎn)生不同的結(jié)果（outcomes）。則概率論和統(tǒng)計學(xué)的區(qū)別可以描述為：

在概率論（probability theory）中，我們已知該過程的概率模型，該模型的不確定性由相應(yīng)的概率分布來描述；概率論要回答的問題是該過程產(chǎn)生某個結(jié)果的可能性有多大這類問題。

在統(tǒng)計學(xué)（statistics）中，該過程的概率模型對我們來說是未知的，但是我們有一系列該過程產(chǎn)生的結(jié)果的觀測值；我們希望通過這些觀測值來推斷出這個過程中的不確定性是什么樣的。

總結(jié)來說就是：通過已知的概率模型來精確的計算各種結(jié)果的可能性就是概率論；根據(jù)觀測的結(jié)果來推斷模型的不確定性就是統(tǒng)計學(xué)。

如果上面的描述依然晦澀，請看下面這個例子。假設(shè)桶里面有 100 個小球，小球分為白色和黑色。如果已知桶里面一共有 30 個白球和 70 個黑球，想回答隨機從桶中摸出一個白球（或者黑球）的概率是多少這樣的問題，這就屬于概率論的范疇。而如果已知通過有放回的采樣抽出了 10 個球并且其中 4 個白球 6 個黑球，想要推斷的是小桶里面白球（或者黑球）的百分比（這些對我們來說是未知的），這就是統(tǒng)計學(xué)的范疇。

對于概率論來說，每一個問題都有唯一的答案。通過相關(guān)計算，總可以計算出我們關(guān)心的結(jié)果發(fā)生的概率。反觀統(tǒng)計學(xué)，它更像是一門藝術(shù)。因為要推斷的模型是未知的，因此很難說哪種推斷方法就優(yōu)于另一種方法，或者哪種推斷結(jié)果就比其他結(jié)果更加正確。就拿上面的例子來說，雖然觀測到的 10 個球中有 4 個白球和 6 個黑球，但我們?nèi)圆荒軘嘌酝袄锇浊蛘?40% 的推斷就一定比桶里白球占 50% 或者 30% 的推斷更加準確。

2 古典統(tǒng)計學(xué)和貝葉斯統(tǒng)計學(xué)

統(tǒng)計學(xué)領(lǐng)域中有兩大學(xué)派：古典統(tǒng)計學(xué)（classical）和貝葉斯統(tǒng)計學(xué)（Bayesian，以英國數(shù)學(xué)家托馬斯·貝葉斯命名）。古典統(tǒng)計學(xué)又稱為頻率論（frequentist）。

關(guān)于這倆大學(xué)派孰優(yōu)孰劣已有一個世紀的爭論。它們的本質(zhì)區(qū)別在于對待未知模型或者參的方法是不同的：

古典統(tǒng)計學(xué)認為，未知的模型或者參數(shù)是確定的，只不過我們不知道它確切的形式或者取值。

貝葉斯統(tǒng)計學(xué)認為，未知的模型或者參數(shù)變量是不確定的，但是這種不確定性可以由一個概率分布來描述。

古典統(tǒng)計學(xué)通過進行大量重復(fù)實驗并統(tǒng)計某個特定結(jié)果出現(xiàn)的頻率作為對未知參數(shù)的估計。以猜桶中白球的比例為例，頻率論者會進行大量的帶放回的獨立抽取實驗（實驗可以做到天荒地老?？菔癄€），然后計算所有結(jié)果中白球出現(xiàn)的頻率，以此作為對小球中白球比例的推斷。古典統(tǒng)計學(xué)的核心在于通過大量的實驗來消除模型或者參數(shù)估計中的不確定性（因為它假設(shè)未知模型或者參數(shù)是確定的）。

貝葉斯統(tǒng)計學(xué)則截然不同。貝葉斯統(tǒng)計學(xué)“使用概率的方法來解決統(tǒng)計學(xué)問題”。如前所述，貝葉斯統(tǒng)計學(xué)認為未知的模型或者參數(shù)是不確定的、符合某個概率分布。特別的，我們會首先根據(jù)主觀判斷或者過去的經(jīng)驗，對這個概率分布有一個猜測，稱為先驗分布（prior distribution）；然后根據(jù)越來越多的觀測值（new data 或者 new evidence）來修正對該概率分布的猜測，最后得到的概率分布稱為后驗分布（posterior distribution）。貝葉斯統(tǒng)計學(xué)中的“概率”的概念可以被解釋為我們對未知變量不同取值的信心程度的測度（measure of confidence）。貝葉斯統(tǒng)計不消除未知變量的不確定性，而是通過越來越多的新的觀測點來持續(xù)更新我們對于該未知變量不確定性的認知，提高我們對不確定性的判斷的信心。

對于上面這個例子，假設(shè)在觀測值出現(xiàn)之前，我們猜測桶中有 50% 的白球和 50% 的黑球。因此 50% 是我們對白球比例的先驗信仰（prior belief）。隨著不斷進行抽取實驗，我們會根據(jù)得到的觀測值更新我們的信仰。假設(shè) 10 次抽取后得到 4 個白球和 6 個黑球，那么此時我們對白球比例的信仰就會從最初的 50% 減少一些，這是因為我們結(jié)合新的證據(jù)（即觀測的 10 個球中僅有 40% 是白球）更新了猜測。假設(shè) 100 次抽取后得到了 35 個白球和 65 個黑球，那么此時我們對白球比例的信仰又會繼續(xù)更新。隨著越來越多的觀測值，我們會持續(xù)更新猜測，并且對該猜測的信心程度也會越來越高，即未知變量（在這里是白球比例）后驗分布的標準差會越來越小（后面會通過一個扔硬幣的例子說明）。

貝葉斯統(tǒng)計學(xué)派被古典統(tǒng)計學(xué)派詬病的核心問題是對于未知變量的先驗分布是非常主觀的。顯然，哪怕是一個最簡單的問題，不同的人也會有不同的考慮。比如桶中白球比例這個例子。一個普通人會同意 50% 是一個合理的先驗猜測。但是，極端的人也許會使用 0% 或者 100% 白球作為他的先驗猜測。不過，盡管不同人可以有不同的先驗分布，但是隨著他們結(jié)合新的觀測點來更新自己的信仰，我們會發(fā)現(xiàn)他們最終得到的后驗分布是會逐漸收斂的。此外，對很多生活中的實際問題，使用一個合理的猜測（educated guess）作為先驗是很有好處的。

3 為什么要學(xué)習(xí)貝葉斯統(tǒng)計

貝葉斯統(tǒng)計在生活以及量化投資中有著廣泛的應(yīng)用。從下面兩個意義上說，相對古典統(tǒng)計，貝葉斯統(tǒng)計有明顯的優(yōu)勢：

1. 雖然在上面抽小球的例子中我們進行大量重復(fù)性的實驗并計算白球的頻率（古典統(tǒng)計學(xué)手段），但對于是在生活中的很多實際問題，大量重復(fù)實驗是不現(xiàn)實的。比如我們想推斷川普當(dāng)選美國總統(tǒng)的概率。顯然，我們沒法讓美國人進行成千上萬次不同的投票選舉，然后計算川普獲勝的頻率。即便是通過民意調(diào)查的方式，進行成千上萬次也是不切實際的（簡單從成本的角度考慮就不可能）。因此，對于這個問題我們只能有非常有限的幾次民意調(diào)查結(jié)果。我們當(dāng)然可以只通過這些有限的結(jié)果利用古典統(tǒng)計學(xué)對川普獲勝的概率做出估計，但是可以想象的是這個估計的誤差會非常大。而貝葉斯統(tǒng)計則提供了新的視角。

2. 合理的先驗分布對未知量的估計是非常有益的。對生活中很多實際問題的判斷都和人們的學(xué)識、經(jīng)驗、見識有關(guān)。在這種情況下，如果我們把有限和觀測數(shù)據(jù)和根據(jù)知識和經(jīng)驗得到的先驗結(jié)合起來，會得到對未知量更好的推斷。就拿對股票收益率的預(yù)測這件事來說，我們之前的文章《收益率預(yù)測的貝葉斯收縮》中提到了使用貝葉斯統(tǒng)計可以得到更小的估計誤差。而高盛著名的 Black–Litterman 收益率模型就是將從市場均衡假設(shè)推出的資產(chǎn)收益率作為先驗，將基金經(jīng)理的主觀判斷作為觀測值，通過把它們兩者結(jié)合來得到后驗判斷。它的本質(zhì)也是貝葉斯統(tǒng)計。

可見，掌握貝葉斯統(tǒng)計并且使用它做推斷，即貝葉斯推斷（Bayesian inference），十分重要。貝葉斯統(tǒng)計框架的核心無疑就是貝葉斯定理（Bayes’ rule）。

4 貝葉斯定理

本節(jié)簡要介紹貝葉斯定理，它是貝葉斯推斷的核心。（對數(shù)學(xué)不感興趣的讀者可以跳過本節(jié)，這么做不會影響對后文的理解。）

貝葉斯定理的推導(dǎo)始于條件概率。條件概率可以定義為：在事件 B 發(fā)生的前提下，事件 A 發(fā)生的概率。數(shù)學(xué)上用 P(A|B) 來表示這個條件概率。

生活中條件概率屢見不鮮。比如在沒有趕上 8 點這趟地鐵，上班遲到的概率是多少？

條件概率 P(A|B) 的數(shù)學(xué)定義為：

這個公式的白話解釋為：“當(dāng) B 發(fā)生前提下 A 發(fā)生的概率”等于“A 和 B 同時發(fā)生的概率”除以“B 發(fā)生的概率”。用我們的例子來說，那就是“在沒有趕上 8 點這趟地鐵的前提下，上班遲到的概率”等于“沒趕上 8 點這趟地鐵且上班遲到的概率”除以“沒趕上 8 點這趟地鐵的概率”。將這個式子左右兩邊同時乘以 P(B) 得到 P(B)P(A|B) = P(A∩B)。

類似的，我們也可以求出 P(B|A)，即在 A 發(fā)生的前提下，B 發(fā)生的概率是多少。在上面例子中，這對應(yīng)著“在上班遲到的前提下，沒有趕上 8 點這趟地鐵的概率是多少”？（上班遲到的原因可能很多，比如沒趕上這趟地鐵是一個，又比如趕上地鐵了但是下地鐵后去辦公樓咖啡館里耽擱了 10 分鐘也是一個，或者因為早上發(fā)燒先去醫(yī)院了等等。）根據(jù)定義：

同樣，兩邊同時乘以 P(A) （并且由 P(A∩B) = P(B∩A)）得到 P(A)P(B|A) = P(A∩B)。

由此可知 P(B)P(A|B) = P(A)P(B|A)。這個結(jié)果也可以寫作如下形式，即大名鼎鼎的貝葉斯定理：

5 貝葉斯推斷

由貝葉斯定理可以順其自然得到貝葉斯推斷。前文提到，貝葉斯統(tǒng)計的核心是通過新的觀測數(shù)據(jù)（或者新的證據(jù)）來不斷的更新我們對未知量的認知。

考慮一個假想的例子。假設(shè)我們的先驗認知是明天太陽不會升起（即明天太陽不會升起的概率為 1）。然而，實際觀測到的證據(jù)是每天太陽都照常升起。由此，我們會不斷的修正之前那個先驗，由此得到的后驗認知是下一天太陽不會升起的概率越來越低。通過新證據(jù)或者數(shù)據(jù)來更新認知的過程就是貝葉斯推斷。下面我們來正式的描述它。

假設(shè)我們有一個需要估計的未知量 θ，并且針對該變量有一個先驗分布 P(θ)。令 D 為一系列觀測值或者證據(jù)。我們希望通過 D 來修正對 θ 的分布的認知，即 P(θ|D) 是我們感興趣的。由貝葉斯定理可得：

在貝葉斯推斷的框架下，上面公式中的這些概率量都有約定俗成的名字：

P(θ)：θ 的先驗分布（prior）。它表示在沒有任何觀測值序列 D 時我們對于 θ 的不確定性的認知。
P(θ|D)：θ 的后驗分布（posterior）。它表示在考慮了觀測值序列 D 后，我們對于θ 的不確定性的改進的認知。
P(D|θ)：可能性、似然度（likelihood）。它是當(dāng)未知變量服從 θ 的前提下，我們觀察到序列 D 的條件概率。
P(D)：觀測值或證據(jù)（evidence）。這是在考慮所有可能的 θ 的分布下，所能觀測到序列 D 的非條件概率。

可見，通過使用貝葉斯推斷，我們可以合理的將先驗認知和實際證據(jù)結(jié)合在一起，得到一個更新的后驗認知。

此外，貝葉斯推斷框架的強大之處在于我們可以迭代的看問題，即在每次有新觀測數(shù)據(jù)后我們可以得到一個新的后驗分布，然后把它作為下個新數(shù)據(jù)出現(xiàn)前的（新的）先驗分布。換句話說，在這個過程中我們通過反復(fù)迭代使用貝葉斯定理，持續(xù)更新對未知量的分布的認知。

6 一個扔硬幣的例子

下面通過一個具體的例子來說明貝葉斯推斷的過程。假設(shè)我們有一枚硬幣，并且想要推斷出扔硬幣時得到頭像（正面，heads）的概率 P(H) 是多少。用 θ 來表示這個概率。通過反復(fù)扔這枚硬幣便可以得到一個由正面和（或）反面結(jié)果組成的觀測序列，這就是觀測序列 D。

假設(shè)在開始扔硬幣前，我們對 θ 的分布 P(θ) 有如下先驗猜想：θ 可以是 0 到 1 范圍內(nèi)的任何取值，并且均勻分布（比如 θ 等于 0 說明該硬幣兩面都不是頭像；θ 等于 1 說明該硬幣兩面都是頭像；θ 等于 0.5 意味著該硬幣一面頭像一面非頭像，且質(zhì)地均勻等）。在這個假設(shè)下，θ 的先驗概率密度函數(shù)為 0 到 1 之間的一條水平線（下圖）。

下面我們就來說說如何通過貝葉斯定理、利用新的實驗結(jié)果來更新這個先驗分布。為此，引入一個非常有用的概念 —— 共軛先驗（conjugate priors）。有點暈？別著急往下看。為了解釋它，我們先來介紹另一個應(yīng)用非常廣泛的分布 —— Beta 分布（Beta distribution）。

Beta 分布是一組定義在 0 到 1 區(qū)間上的連續(xù)概率分布，其具體形態(tài)由兩個參數(shù) α 和 β 決定，其概率密度函數(shù)為：

上式中 B(α, β) 是一個由 α 和 β 決定的系數(shù)，以滿足 f 在 0 到 1 上的積分為 1。我們將上述概率密度函數(shù)簡寫為：Be(α, β)。前面說過，我們對于 θ 的先驗分布猜測是 uniform distribution，而它是一種特殊的 Beta 分布，其對應(yīng) Beta 分布的參數(shù)為 α = 1 以及 β = 1，因此有 θ ~ Be(1, 1)。

當(dāng)我們拋擲概率為 θ 的硬幣時，得到正面的概率為 θ，反面的概率為 1 - θ。因此，假如我們拋擲 n 次，得到 m 次正面的概率實際上是一個二項分布（binomial distribution），且滿足（以下 D 代表拋擲 n 次中得到 m 次正面這件事）：

上式中

是一個系數(shù)。

一般的，當(dāng)先驗滿足參數(shù)為 α 和 β 的 Beta 分布時，由貝葉斯定理可知，后驗概率滿足：

可見此時后驗滿足參數(shù)為 α m 和 β n - m 的 Beta 分布。在貝葉斯統(tǒng)計中，如果先驗和后驗屬于同類分布，則它們稱作共軛分布，而先驗稱作是似然函數(shù)（本例中是二項分布）的共軛先驗。

好了，數(shù)學(xué)基礎(chǔ)已經(jīng)打好，現(xiàn)在我們可以扔硬幣了。別忘了我們的先驗 uniform distribution 恰好是 Be(1, 1)。

下面我們開始扔硬幣。假設(shè)扔了兩次后，得到了兩次頭像（n = m =2)。根據(jù)貝葉斯推斷，我們得到關(guān)于 θ 的更新后的后驗概率密度函數(shù)為 Be(3, 1)，如下圖所示?？梢娪捎谶B續(xù)看到兩次頭像面的結(jié)果，我們開始傾向于認為 θ 的取值是越接近 1 越有可能。

讓我們繼續(xù)實驗。假如我們?nèi)恿?10 次后得到 8 次正面，而扔了 20 次后得到了 11 次正面。根據(jù)這些結(jié)果，我們不斷更新 θ 的后驗分布（下圖）。當(dāng) 10 次中有 8 次正面時，我們會認為這個硬幣很有可能是不公平的，即正面和反面出現(xiàn)的概率不同（Be(9, 3)）。而當(dāng) 20 次中出現(xiàn) 11 次正面時，我們的認知會再次根據(jù)新的結(jié)果得到修正，我們開始認為這個硬幣可能是公平的了（Be(12, 10)）。

最后，下面兩張圖是經(jīng)過了 50 次（27 次正面）和 500 次（232 次正面）實驗后的 θ 的后驗分布（分別為 Be(28, 24) 和 Be(233, 269)）。

隨著越來越多的新結(jié)果的出現(xiàn)，我們對于 θ 的不確定性的認知越來越清晰；對于 θ 的不同取值的信心越來越高。特別的，我們越來越有把握的說 θ 最有可能的取值是 0.5 附近。這體現(xiàn)在 500 次實驗后，θ 的后驗分布 P(θ|D) 已經(jīng)非常狹窄（換句話說，θ 的取值的標準差越來越?。壹性?0.46 附近。假如這枚硬幣確實是一枚公平的硬幣，那么如果再進行 500 此實驗，會發(fā)現(xiàn) P(θ|D) 會更加狹窄且 θ 的取值一定會集中在 0.5 附近。

這個例子完美的展示了貝葉斯推斷的強大。我們一開始對未知量 θ 的猜測有非常大的不確定性（先驗是 0 到 1 的均勻分布）。隨著越來越多的觀測值（500 個實驗結(jié)果）的出現(xiàn)，通過迭代使用貝葉斯定理，逐步細化、完善我們對 θ 的不確定性的認知，最終得到了關(guān)于 θ 的不確定性的非常自信的后驗分布（即 θ 的分布以 0.5 為中心，標準差非常小，它最有可能的取值就是 0.5）。

貝葉斯統(tǒng)計是一個強大的工具；不熟悉它的人卻對其敬而遠之。下面是網(wǎng)上關(guān)于貝葉斯統(tǒng)計的一個笑話。它可能代表著很多吃瓜群眾對貝葉斯統(tǒng)計的看法，以及貝葉斯統(tǒng)計學(xué)派的自嘲：

A Bayesian is one who, vaguely expecting a horse, and catching a glimpse of a donkey, strongly believes he has seen a mule.
譯：一個貝葉斯學(xué)派的學(xué)者是這樣的：他模糊的期待著一匹馬（先驗），然而卻看到了一頭驢（證據(jù)），于是便自信的認為那是一頭騾子（后驗）。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

1 概率論和統(tǒng)計學(xué)的區(qū)別

2 古典統(tǒng)計學(xué)和貝葉斯統(tǒng)計學(xué)

3 為什么要學(xué)習(xí)貝葉斯統(tǒng)計

4 貝葉斯定理

5 貝葉斯推斷