“概率”這兩個字,除了出現(xiàn)在高中數(shù)學(xué)課本中外,最常出現(xiàn)的地方也許就是天氣預(yù)報中的“降水概率”了,
也就是未來幾天下雨的可能性有多大。在數(shù)學(xué)領(lǐng)域中,概率論是專門研究“可能性”的一個分支。它涉及的問題非常廣泛,涵蓋的內(nèi)容遠(yuǎn)遠(yuǎn)超過了課本里那些刻板的習(xí)題。
一切隨機(jī)或者不確定的事件,都是概率論研究的范疇。上至氣象下至金融,甚至連“磁鐵的磁性是怎么來的”這種物理問題,都可以用概率的方法進(jìn)行研究。
不過,雖然概率論的應(yīng)用范圍非常廣泛,但這門學(xué)科的誕生卻有些“不太光彩”。
來自賭博的問題
1654年的一天早上,法國數(shù)學(xué)家布萊茲·帕斯卡(Blaise Pascal)收到了他的朋友貢博的一封來信。
這位朋友自稱“來自梅雷的騎士”,也算是一位業(yè)余數(shù)學(xué)家。他向帕斯卡提出了如下問題:兩位貴族A與B正在進(jìn)行一場賭局,賭注是每人500法郎。游戲規(guī)則很簡單,兩人輪流擲硬幣,得到正面則A得一分,反面則B得一分,每局兩人得分的機(jī)會相等,誰先得到6分誰就拿走這1000法郎。兩人激戰(zhàn)至2比4之際,B突然有事需要提前中止賭局。那么問題來了,究竟應(yīng)該如何分配賭資才最公平呢?
在數(shù)學(xué)中,這一類問題被稱為點數(shù)分配問題。早在16世紀(jì)就有人研究過,不過當(dāng)時數(shù)學(xué)家給出的答案并不令人滿意,在某些極端情況下,甚至?xí)o出非常不合理的分配方案。也許這位“梅雷騎士”正是見識過現(xiàn)實中因這類賭局和突發(fā)狀況而引起的矛盾,因此才特意寫信給帕斯卡,希望他能夠完美地解決這個問題。
作為一代數(shù)學(xué)大家,帕斯卡對此也產(chǎn)生了濃厚的興趣。隨即,他便向另一位業(yè)余數(shù)學(xué)家皮埃爾·德·費馬
(Pierre Fermat)發(fā)去了一封信,共同討論這個問題?!皹I(yè)余數(shù)學(xué)家之王”費馬很快就給出了一個答案。他認(rèn)為,不能單憑賭局停止時的比分或者各自獲勝所需要的分?jǐn)?shù)來決定賭注的分配,而是應(yīng)該考慮所有比賽可能出現(xiàn)的狀況,從而計算出雙方的獲勝比例。當(dāng)然,列舉所有可能性的計算量非常大,于是帕斯卡提出了一個簡化算法,并完美地解決了點數(shù)分配問題。
實際上,他們的解答就相當(dāng)于在計算兩位玩家勝利概率的大小。在研究中,帕斯卡提出了“數(shù)學(xué)期望”的概念,以及著名的“帕斯卡三角形”(我國稱其為“楊輝三角形”,即二項式展開式的系數(shù)規(guī)律)。
某個結(jié)果為實數(shù)的隨機(jī)事件的數(shù)學(xué)期望,也就是所有結(jié)果按照發(fā)生概率加權(quán)之后的平均值。
數(shù)學(xué)期望這個概念,掀開了概率論研究的序幕。無疑,帕斯卡和費馬對早期概率論的發(fā)展起到了極大的影響。
什么是概率
很多概率問題都有著特別的結(jié)構(gòu)。以某個非常簡單的隨機(jī)事件來說,比如拋擲硬幣。
我們知道每種結(jié)果出現(xiàn)的可能性的大小,而這類事件就被稱為“基本事件”。我們可以多次重復(fù)這些基本事件,假定它們發(fā)生的可能性不會改變,而且這些重復(fù)沒有相互影響。如果我們將這些基本事件以合適的形式組合起來,就能得到一個更為復(fù)雜而有趣的系統(tǒng)。
事實上,許多概率問題就是對這些隨機(jī)系統(tǒng)的各種性質(zhì)的研究。比如說,在點數(shù)分配問題中,基本事件就是硬幣的拋擲,而系統(tǒng)則是賭局的具體規(guī)則,最后我們希望得知的則是每一方獲勝的可能性大小。
在概率論的早期發(fā)展過程中,數(shù)學(xué)家研究的問題大多比較簡單,不僅基本事件只有有限的幾種結(jié)果,就連組合的方式也相對單一。這樣構(gòu)成的隨機(jī)系統(tǒng)就被稱為古典概型。
隨著數(shù)學(xué)的發(fā)展,數(shù)學(xué)家開始考慮更加復(fù)雜的模型。18世紀(jì),法國數(shù)學(xué)家布豐(Der Buffon)
提出了這樣一個問題:在數(shù)條間隔相等的平行線之間,隨機(jī)投下長度與間距相等的一根針,那么它與這些平行線相交的概率是多少?在這個問題里,由于角度與距離都是連續(xù)的值,因此這樣的基本事件就有著無數(shù)種不同的結(jié)果。這樣的隨機(jī)系統(tǒng)就被稱為幾何概型。
其實早在19世紀(jì),概率論就已經(jīng)成為了一門枝繁葉茂的數(shù)學(xué)分支。但有趣的是,直到20世紀(jì),“概率”這個概念才有了嚴(yán)格定義。雖然古典概型的結(jié)果數(shù)量有限,其定義相對簡單,并沒有什么含糊之處,但幾何概型的情況顯然更為復(fù)雜。
我們不妨考慮這樣一個問題:圓中有一條隨機(jī)的弦,它的長度比圓內(nèi)接正三角形的邊長更長的概率是多少?其實,這個問題又叫做貝特朗悖論,
它的奇特之處在于,選取“隨機(jī)的弦”的方法不同,得到的概率也不盡相同。
直到1933年,俄國數(shù)學(xué)家柯爾莫哥洛夫
(Andrey Nikolaevich Kolmogorov)為概率論建立公理體系之后,這個問題的解答才變得昭然若揭??聽柲缏宸?qū)⒏怕誓P徒⒃谀骋活愃^的“σ代數(shù)上的測度”上,這樣的測度可以有很多種,而不同的測度則對應(yīng)著不同的“隨機(jī)”。在貝特朗悖論中,選取隨機(jī)弦的方法實際上對應(yīng)著不同測度的選取,也就是不同的“隨機(jī)”概念,自然會得到不同的結(jié)果。
如今,概率模型的種類已經(jīng)變得越來越多,也越來越復(fù)雜,系統(tǒng)可以包含無限個基本事件,而具體的組織方式也更加繁復(fù)、更為有趣——隨機(jī)圖、滲流模型、自回避行走……這些概率模型早已不能用古典概型或幾何概型來概括了。不過,也正是因為有了這些復(fù)雜的模型,我們才能用概率論解決在現(xiàn)實世界中碰到的種種難題。
無處不在的分布
如果讓數(shù)學(xué)家評選概率論中最重要的定理,桂冠可能中心極限定理(Central Limit Theorem)莫屬。它不僅是概率論中許多重要結(jié)果的基石,就是在其他學(xué)科,尤其是計算機(jī)科學(xué)領(lǐng)域,它也有相當(dāng)重要的應(yīng)用。而在現(xiàn)實生活中,它還是整整一個行業(yè)賴以生存的理論基礎(chǔ)。
其實,中心極限定理不止一個,它的本質(zhì)是一連串定理的總稱,我們可以把它視為“大數(shù)定理”的細(xì)化與推廣。
假設(shè)我們有一枚硬幣,它擲出正反面的概率相等,那么,如果我們連續(xù)拋擲這枚硬幣一萬次,常識告訴我們,其中為正面的結(jié)果大概是五千次。這就是大數(shù)定理:如果對某個基本事件獨立地重復(fù)多次,那么某個可能性發(fā)生的次數(shù)占總數(shù)的比例就會趨近于這個可能性發(fā)生的概率。
與大數(shù)定理不同的是,中心極限定理處理的則是那些結(jié)果是實數(shù)的隨機(jī)基本事件。它告訴我們,如果將許多相同而又獨立的基本事件的結(jié)果取平均值的話,那么這個平均值會趨向某個概率分布。如果根據(jù)大數(shù)定理,這個分布的數(shù)學(xué)期望就是基本事件的數(shù)學(xué)期望。而中心極限定理則告訴了我們額外的一點——這個概率分布必定是一個所謂的“正態(tài)分布”(Normal distribution),而它的方差,
也就是概率分布的“分散”程度,是基本事件的方差除以事件數(shù)目的平方根。也就是說,基本事件越多,平均值的不確定性就越小。
如果我們將這個正態(tài)分布畫成曲線的話,那么它就像是一口大鐘,中間高,兩端則呈指數(shù)衰減,這也為它贏得了“鐘形曲線”這么一個形象的名字。其實,中心極限定理可以推廣到取值范圍是高維空間中任意一點的情況,而“相同的基本事件”這個要求也可以被不那么嚴(yán)苛的條件代替——這些基本事件只要滿足某些要求即可,不需要完全相同。
正態(tài)分布在自然界中隨處可見,比如說人的身高和智力就服從正態(tài)分布。這是因為自然界中的很多現(xiàn)象,都是由各種因素相互交織而成的,其中并沒有什么特別突出的因素。我們以人的身高為例,除了由許多不同的基因調(diào)控外,后天的營養(yǎng)、環(huán)境、健康,甚至是偶然的意外,都對身高有著各自的影響。在這種情況下,如果我們將每個因素都看成一個基本事件,并且假定這些因素各自的影響能力都差不多,那么將其綜合考慮,根據(jù)中心極限定理,我們就會得到一個非常接近于正態(tài)分布的結(jié)果。
也許你很難想象,中心極限定理也是保險這一整個行業(yè)的基礎(chǔ)。我們每個人都會遇到各種各樣的風(fēng)險,比如事故、疾病等等。雖然這些風(fēng)險發(fā)生的概率都很低,可一旦發(fā)生,其后果將非常嚴(yán)重,并非每個人都能承受。而保險業(yè)實際上正是基于這一點,通過保費與保險賠付的方式,將上千萬人連結(jié)了起來——每個人都只付出相對小的代價,但在不幸襲來時,就能獲得一定的保障。根據(jù)中心極限定理,我們可以得知,由數(shù)量龐大的個案相加而成的保險業(yè)務(wù),
因偶然因素導(dǎo)致大額賠付的概率非常小,而且參與的人數(shù)越多,風(fēng)險就越小。為了確定保費與賠付額,盡可能地獲得盈利,保險公司實際上要做的就是根據(jù)大量的統(tǒng)計數(shù)據(jù),精準(zhǔn)地確定意外發(fā)生的概率,隨后根據(jù)意外概率與收益,確定保費與賠付的金額。這也正是現(xiàn)代保險公司越來越重視概率與統(tǒng)計的原因。
理解復(fù)雜世界
除了與不確定性相關(guān)的問題之外,概率論與物理也有著千絲萬縷的聯(lián)系。法國物理學(xué)家皮埃爾·居里(居里夫人的老公)
(Pierre Curie)在攻讀博士學(xué)位時,就發(fā)現(xiàn)了一個關(guān)于磁鐵的有趣性質(zhì):無論磁力多強(qiáng)的鐵制磁鐵,在將其加熱到770℃時,都會突然失去磁性。這個溫度后來就被稱為鐵的居里點。那么,為什么磁鐵會突然失去磁性?通過概率論與統(tǒng)計物理分析,我們現(xiàn)在明白,這種現(xiàn)象與冰雪消融、開水沸騰類似,都屬于相變的范疇。
我們可以將磁鐵里的鐵原子想象成一個又一個的小磁針,在磁鐵還有磁性時,這些小磁針都會齊刷刷地指向同一個方向。但因為分子熱運動的關(guān)系,每個小磁針都會時不時地動一下,但很快就會被附近的小磁針重新同化。
物理學(xué)家將這個場景抽象成所謂的伊辛模型。通過對伊辛模型的研究,概率學(xué)家發(fā)現(xiàn),當(dāng)溫度達(dá)到某個臨界值時,整個體系就會由于熱運動而不能保持統(tǒng)一的指向,這也意味著磁鐵失去了磁性。這個臨界值就是我們之前提到的居里點,而對伊辛模型的研究也部分揭示了磁鐵一些微觀結(jié)構(gòu)的成因。
相變不僅僅局限于物理現(xiàn)象。流言的傳播、傳染病的爆發(fā),還有微博的轉(zhuǎn)發(fā),都是一種相變過程,都存在著某種臨界值。例如在“三人成虎”這個成語中,“三”就是所謂的臨界值。又比如說傳染病,在適當(dāng)?shù)哪P拖?,如果每個病人傳染人數(shù)的平均值低于某個臨界值時,那么疾病就能被控制;如果高于臨界值,就很可能導(dǎo)致疫病的全面爆發(fā)。雖然對于疾病傳播的研究,屬于流行病學(xué)研究的范疇,但在概率論被引入流行病學(xué)研究之后,我們對如何防止與控制疫病爆發(fā)有了更深入的了解,這是能夠挽救成千上萬人性命的知識。
當(dāng)然,概率論的應(yīng)用遠(yuǎn)遠(yuǎn)不止這些。大至失事飛機(jī)搜救,小至垃圾郵件過濾,我們都能在其中找到概率論的身影。這個復(fù)雜的世界充滿了不確定性,有些無傷大雅,有些卻能致命。若要駕馭這些不確定性,就要先從了解它們開始,這就是概率論的意義。
概率論不能為我們帶來一個沒有風(fēng)險的世界,但它卻能教會我們?nèi)绾闻c風(fēng)險和平共處,雖然它帶來的僅僅是一種關(guān)于不確定性的知識。但知識,往往就是力量。