兩個人要走到一起,并且能長久地相愛下去并不是一件容易的事情。俗話說“門當(dāng)戶對”、“天造地設(shè)”,戀愛是兩個人的事情,每個人的擇偶標(biāo)準(zhǔn)不同、自身?xiàng)l件不同、三觀也不同。那么,在一生中,我們是否能夠遇到屬于自己最合適的那個人呢?
單身狗注孤生定理:你永遠(yuǎn)遇不到合適的人。
在本推導(dǎo)中,我們將擇偶標(biāo)準(zhǔn)大致分為兩類:客觀自然標(biāo)準(zhǔn)、社會人文標(biāo)準(zhǔn)。
前者即每個人的出廠硬件設(shè)定,比如身高、體重、顏值等等,后者則是像財(cái)富值、職業(yè)、價(jià)值觀、興趣愛好等后天積累和養(yǎng)成的因素。為什么這樣劃分呢?主要是考慮到這兩類標(biāo)準(zhǔn)所服從的概率分布模型不同,這一點(diǎn)之后會有詳細(xì)的說明。
我們先討論客觀自然標(biāo)準(zhǔn)。
高斯分布(亦稱“正態(tài)分布”)是在自然界中廣泛存在的一個概率分布模型,許多自然現(xiàn)象都符合高斯分布,比如人類的身高、學(xué)生的學(xué)習(xí)成績、隨機(jī)誤差等等。
假設(shè)你只有一個滿足高斯分布的擇偶標(biāo)準(zhǔn)A(比如身高、體重等)。一般來說,人們對于這類自然標(biāo)準(zhǔn)的選擇會青睞于中上水平的,即不能低于平均水平太多,也不能太高。例如,身高不能低于170cm,但也不能太高,高于190cm的你可能也會猶豫。
服從高斯分布的擇偶標(biāo)準(zhǔn)A的概率密度函數(shù)如下:
其中,μ是擇偶標(biāo)準(zhǔn)A在人群中的均值,σ是標(biāo)準(zhǔn)差。
將高斯分布的概率密度積分,即可得到隨機(jī)變量X在某一范圍內(nèi)取值的概率,在概率密度圖像上可表現(xiàn)為其所圍的面積。
可見,高斯變量落在(μ-3σ,μ+3σ)范圍外的概率小于千分之三,這就是人們常用的3σ檢驗(yàn)原則。
如果你的擇偶要求(眼光)較高,意味著你對于擇偶條件A的接受范圍大概位于(μ+σ,μ+2σ)的區(qū)間(圖中陰影部分):
那么你遇到一個標(biāo)準(zhǔn)A滿足要求的人的概率約為13.6%左右。
當(dāng)然,大部分人的擇偶要求沒有那么苛刻。假設(shè)擇偶標(biāo)準(zhǔn)位于(μ-σ,μ+2σ)的區(qū)間(圖中陰影部分):
那么你遇到一個標(biāo)準(zhǔn)A滿足要求的人的概率約為81.85%左右。
乍一看,是不是感覺這個概率還蠻高的!
事實(shí)上,絕大多數(shù)人的擇偶要求不會這么低,因?yàn)?span>大部分的正常人都能滿足這個條件……
這個擇偶標(biāo)準(zhǔn)區(qū)間已經(jīng)算是很低的門檻了,一般人的擇偶標(biāo)準(zhǔn)會比這個嚴(yán)苛很多。而且,最關(guān)鍵的是,這只是滿足其中一個擇偶標(biāo)準(zhǔn)的概率!你總不可能看到身高合適的就上吧~
現(xiàn)在我們同時(shí)考慮兩個擇偶標(biāo)準(zhǔn)會如何呢?比如擇偶標(biāo)準(zhǔn)A(體重)、B(顏值)。
假設(shè)A和B都服從高斯分布,此時(shí)我們需要引入二元高斯分布模型。
其中,X~N(μ1,σ12),Y~N(μ2,σ22),ρ是X和Y的相關(guān)系數(shù)。
有的朋友可能會問,為啥從1個變量到2個變量就復(fù)雜了這么多呢?不能直接把兩個變量的概率直接相乘嗎?
答案是:大多數(shù)情況下,不能。
在概率統(tǒng)計(jì)中,概率能直接相乘的條件是變量之間互相獨(dú)立。
而類似于身高、體重這樣的兩個變量并不是獨(dú)立的,存在著某種相關(guān)性。所以不能簡單地將它們的概率相乘。
由于不能直接相乘,我們可以根據(jù)概率密度函數(shù)的定義,對其求二重積分進(jìn)而算出概率,即:
其中f(x,y)是二元正態(tài)分布函數(shù)。
二重積分示意圖
回想在一元正態(tài)分布下有“3σ原則”,那么推廣到二元的情況呢?
是否在二元正態(tài)分布下,兩個變量同屬1σ的區(qū)間(x∈(μ1-σ1,μ1+σ1) & y∈(μ2-σ2,μ2+σ2))的概率就是0.6826×0.6826=0.4659呢?
答案是否定的,因?yàn)閮蓚€隨機(jī)變量不一定是獨(dú)立的,即二元正態(tài)分布受到參數(shù)ρ(相關(guān)系數(shù))的影響。
下面我們觀察不同的相關(guān)系數(shù)ρ對概率的影響。
由于該積分無法直接求出解析解,我們使用matlab求定積分?jǐn)?shù)值解:
得到曲線如下:
圖1
圖1中,橫坐標(biāo)是變量X和Y的相關(guān)系數(shù)ρ,縱坐標(biāo)是概率。2D-1σ(藍(lán)線)表示X和Y都落在各自的1σ區(qū)域,即x∈(μ1-σ1,μ1+σ1)且 y∈(μ2-σ2,μ2+σ2)的概率;1D-1σ(紫虛線)表示一元高斯變量的值落在1σ區(qū)間內(nèi)概率,即上文提到的0.6826。
其中,相關(guān)系數(shù)ρ越大,說明變量X和Y的線性相關(guān)性越強(qiáng),相關(guān)系數(shù)ρ=0說明變量X和Y不相關(guān)。
注意:隨機(jī)變量獨(dú)立和不相關(guān)是兩個概念,獨(dú)立一定不相關(guān),但不相關(guān)不一定獨(dú)立,不相關(guān)要弱于獨(dú)立。
但是可以證明,對于高斯分布來說,獨(dú)立就等價(jià)于不相關(guān)。所以,當(dāng)ρ=0時(shí),高斯分布變量X和Y獨(dú)立,于是有P(XY)=P(X)×P(Y)。
從圖1中也可以看出,當(dāng)ρ=0時(shí),以下結(jié)果成立:
這很好地應(yīng)證了上面所說的高斯分布由變量不相關(guān)可以推導(dǎo)出獨(dú)立的結(jié)論。
從圖1中可以看到,如果我們的擇偶標(biāo)準(zhǔn)A和B相關(guān)性較高,那么你遇到同時(shí)滿足要求的人的概率也就會大一些,但是最高也不會超過你遇到滿足你最嚴(yán)苛的條件的人概率。
也就是說,如果你遇到滿足擇偶條件A的人的概率是60%,遇到滿足擇偶條件B的人的概率是40%,那么你想要遇到同時(shí)滿足這兩個條件的人概率最大不會超過40%(可以算作某種意義上的“短板效應(yīng)”)。
而隨著擇偶標(biāo)準(zhǔn)A和B相關(guān)性的下降(比如A是身高,B是學(xué)習(xí)成績),你遇到那個ta的概率會隨之下降。這一點(diǎn)其實(shí)很顯然,與我們的直觀感受一致。
下面我們再考察三組實(shí)驗(yàn),看看有什么有趣的結(jié)果:
(1)以嚴(yán)苛的條件同時(shí)限制擇偶標(biāo)準(zhǔn)A和B,即A和B都得落在各自的(μ+σ,μ+2σ)區(qū)間內(nèi)。
(2)以嚴(yán)苛的條件限制擇偶標(biāo)準(zhǔn)A,以寬松的條件限制擇偶標(biāo)準(zhǔn)B,即A得落在(μ+σ,μ+2σ)區(qū)間內(nèi),B也落在(μ-σ,μ+2σ)區(qū)間內(nèi)。
(3)以寬松的條件同時(shí)限制擇偶標(biāo)準(zhǔn)A和B,即A和B都落在各自的(μ-σ,μ+2σ)區(qū)間內(nèi)。
同樣,我們使用matlab求解。
實(shí)驗(yàn)結(jié)果如下圖:
圖2
表1
從圖2不難看出,當(dāng)我們將擇偶標(biāo)準(zhǔn)從1個增加到2個之后,無論你的擇偶條件是嚴(yán)苛還是寬松,你遇到合適的人的概率都大幅下降了。表1中列出了不同擇偶條件組合下遇到合適的人的最大概率和最小概率。
從最好情況的概率來看仿佛一切都還ok,但是,很遺憾地告訴大家,最好情況在這里并沒有什么卵用……因?yàn)樽詈们闆r是當(dāng)相關(guān)系數(shù)ρ接近1時(shí)得到的,這意味著我們選擇的兩個擇偶標(biāo)準(zhǔn)A和B有著很強(qiáng)的線性關(guān)系,比如學(xué)習(xí)成績和努力程度。既然這兩個擇偶標(biāo)準(zhǔn)已經(jīng)有很強(qiáng)的相關(guān)性了,那么我們?yōu)楹芜€要把他們分成兩個指標(biāo)呢?
事實(shí)上,在現(xiàn)實(shí)生活中,我們能夠選為擇偶標(biāo)準(zhǔn)的指標(biāo)之間的相關(guān)性都比較弱,也只有這樣才能夠多維度、全方位地評價(jià)一個人。你會把身高、勤奮度作為兩個不同的擇偶指標(biāo),但沒必要把科研能力和頂級期刊論文發(fā)表數(shù)這兩個相關(guān)性很強(qiáng)的指標(biāo)單列為兩個擇偶標(biāo)準(zhǔn)。所以,我們要關(guān)注的更多的是當(dāng)ρ比較小時(shí)的情況,也就是最差情況的概率。
這是想說明什么呢?在兩個擇偶標(biāo)準(zhǔn)下,你遇到合適的人的概率已經(jīng)大幅縮水了,尤其是如果你的眼光比較高的話,你現(xiàn)在遇到滿足要求的人的概率已經(jīng)不足2%了,哪怕你只對一個條件比較嚴(yán)苛而對另一個條件抱有寬宏的態(tài)度,你現(xiàn)在遇到合適的人的概率也只剩11%。
更可怕的是……現(xiàn)在還只是討論了兩個擇偶標(biāo)準(zhǔn)的情況。顯然,你挑選戀人不會只在乎兩個標(biāo)準(zhǔn)吧,你不可能對今后要結(jié)婚生子、托付終身的人只有兩個要求吧?
所以,接下來,我們將對自然客觀類的擇偶標(biāo)準(zhǔn)推廣到n維的情況……
結(jié)果是什么我想你已經(jīng)可以預(yù)見了吧……
結(jié)局會是多么的凄涼慘淡、不忍卒讀……
n元高斯分布的概率密度函數(shù)如下:
其中∑是協(xié)方差矩陣,μ是均值向量。
n元高斯分布的累計(jì)概率分布為:
由于高維無法用圖表示,我們示意性地畫一個二維情況下的概率分布圖像:
二元高斯分布累計(jì)概率分布函數(shù)圖像
更高維的情況下大家可以自行想象一下。
下面我們假設(shè)n維高斯變量之間兩兩相互獨(dú)立,以此來估算一個下界。
假設(shè)你有n個服從高斯分布的擇偶標(biāo)準(zhǔn),他們之間相互獨(dú)立。我們遵循上面的討論,分為嚴(yán)格和寬松兩種條件。我們畫出不同寬松組合下你遇到滿足要求的人的概率圖如下:
上圖橫坐標(biāo)m表示寬松組合中嚴(yán)苛的頻次,縱坐標(biāo)表示遇到滿足要求的人的概率。比如,當(dāng)n=5時(shí),表示你有5個不同的擇偶標(biāo)準(zhǔn),橫坐標(biāo)m=1對應(yīng)的點(diǎn),代表5個不同的擇偶標(biāo)準(zhǔn)中,你有1個標(biāo)準(zhǔn)是以嚴(yán)苛來要求,其余4個是寬松,也即是4寬1嚴(yán)的組合下,你遇到滿足要求的人的概率是0.061(6.1%)。
從曲線可以看出,隨著n的增大以及m的增大,概率衰減得特別快。
這告訴我們什么呢?想找到男朋友女朋友,就要少提要求、降低門檻,不然你遇到滿足條件的人完全就是一個小概率事件(一般概率低于5%的事件就算得上小概率事件了)。然而,怎么可能對另一半不提要求、放寬限制呢?寧缺毋濫!所以,這成功地說明一個道理:你幾乎不可能遇到合適的人!?。?/strong>
以上就是我們對自然客觀類擇偶標(biāo)準(zhǔn)的討論。
下面我們考慮社會人文類標(biāo)準(zhǔn)。這類標(biāo)準(zhǔn)有一個特點(diǎn),就是會受到人類社會活動很強(qiáng)的影響。
除了高斯分布,還有一個常見的分布是冪律分布。實(shí)際上,在社會生活中,許多現(xiàn)象并不符合高斯分布,而是更貼近冪律分布,比如人類財(cái)富的分布、國家GDP分布、詞頻分布、社交網(wǎng)絡(luò)分布等等。著名的80/20定律(20%的人擁有80%的社會資源)即是出自冪律分布。
冪律分布的數(shù)學(xué)模型是冪函數(shù):
其中C,α是常數(shù)。
冪函數(shù)示例(C=1,α=3)
在概率統(tǒng)計(jì)中,概率密度函數(shù)f(x)滿足非負(fù)性和規(guī)范性,即函數(shù)值非負(fù)并且全域積分為1。
所以,在冪律分布中,就要求有C>0,α>0。除此之外,由微積分的知識不難得出,為了讓上述積分收斂,我們一般指定x有一個最小值(下界)xmin。于是,我們就引出了著名的Pareto Distribution,也即人們常說的長尾分布。
由上式即可求出規(guī)范化常數(shù)C的值,進(jìn)而求出Pareto Distribution的概率密度函數(shù)為:
其中,要求α>1。
于是,Pareto Distribution的概率累計(jì)分布函數(shù)為:
其中,xmin和α是模型的參數(shù)。
xmin=1,α不同取值時(shí)的Pareto Distribution概率密度圖像
xmin=1,α不同取值時(shí)的Pareto Distribution概率分布圖像
Pareto Distribution有如下性質(zhì):
(1)當(dāng)α>2時(shí)才有均值:
(2)當(dāng)α>3時(shí)方差才收斂:
自然界中,冪律分布的參數(shù)α大多落在2~3之間。
為了近似擬合“80/20定律”,我們這里取α=3。
注意:“80/20定律”并不嚴(yán)格說明控制80%資源的關(guān)鍵部分就是20%,而是一個從圖像上得到的直觀籠統(tǒng)的概念。實(shí)際上,在當(dāng)前假設(shè)下,無法求解關(guān)鍵部分的確切占比(如果對冪律分布做截?cái)嗵幚?,?guī)定最大最小值,那么有可能設(shè)計(jì)出恰好的“80/20分布”)。
接下來,我們可以從以下兩個角度對其進(jìn)行觀察分析。
第一個角度將從較為直觀的“80/20定律”出發(fā),這個角度不存在嚴(yán)格的數(shù)學(xué)推導(dǎo)與證明。
假設(shè)你有一個擇偶條件A服從“80/20定律”,比如財(cái)富值。舉個具體的例子,若現(xiàn)在共有100個人,假設(shè)他們的財(cái)富分布表如下:
這意味著,你有80%的概率,遇到的人都屬于“長尾部分”(沒錢的那部分)。反過來說,如果你的擇偶條件對財(cái)富值有較高的要求,那么你只有20%的概率接觸到率先組成總財(cái)富80%的那個富裕集團(tuán)的成員。
如果你放寬一些條件呢?遇到率先組成總財(cái)富90%的群體的成員的概率是多少呢?由于冪律分布極快的收縮性,這個概率也并不會很高,大約會在30%左右。也就是說,剩下70%的人總共的財(cái)富加起來才只占人類總財(cái)富的10%……
這說明了什么呢?說明這個世界上,絕大部分的人都挺窮……(啊,終于找到了安慰自己的理由)
也就是說,直觀上,“80/20定律”告訴了我們這么一個道理:真正的有錢人是真正的少,但他們是真真正正的有錢!你想遇到真正的有錢人的概率是真正的低,因?yàn)槟闵磉叾际钦嬲嬲母F人!(當(dāng)然,也包括我和你)
第二個角度我們將從概率密度函數(shù)的數(shù)學(xué)意義入手,詮釋冪律分布的準(zhǔn)確意義。
讓我們回顧一下這張圖。
在數(shù)學(xué)上,概率密度f(x)是指隨機(jī)變量X落在某一點(diǎn)處“單位寬度”內(nèi)的概率。概率密度函數(shù)在某個區(qū)域上的積分,就表示了隨機(jī)變量X的取值落在該區(qū)域之內(nèi)的概率。
于是,上圖在概率統(tǒng)計(jì)上的意義即是,對于服從xmin=1,α=3的長尾分布的隨機(jī)變量X,X的取值落在[1,2.236]范圍之內(nèi)的概率是80%。
弄清楚這個之后,我們就可以將其和擇偶概率聯(lián)系起來了。
同前文所述的高斯分布一樣,這里的橫坐標(biāo)表示某一個擇偶標(biāo)準(zhǔn)的度量,比如在這里我們假設(shè)擇偶標(biāo)準(zhǔn)A是財(cái)富值,橫坐標(biāo)就表示財(cái)富等級,等級越高說明財(cái)富值越大,最小值1是當(dāng)前系統(tǒng)內(nèi)的最小財(cái)富值等級。
我們先來算一下這個系統(tǒng)內(nèi)的財(cái)富值均值。根據(jù)前文的公式,有:
于是,均值μ=2。
假設(shè)你的擇偶條件是該系統(tǒng)內(nèi)財(cái)富值大于均值μ的人,那么概率為:
也就是說,你的要求僅僅是能夠達(dá)到平均水平就行,但是遇到滿足條件的人的概率也只有25%!
倘若你的要求稍微高一些呢?比如你想找到該系統(tǒng)內(nèi)該指標(biāo)大于兩倍均值μ的人,概率為:
天吶!概率已經(jīng)驟降為6.25%了?。?!
(這個要求很高么?不高啊?。?/span>
可見,對于社會人文類的擇偶標(biāo)準(zhǔn),哪怕你的要求看上去算是很寬松了,你遇到合適的人的概率也還是很低很低!這還只是一個擇偶標(biāo)準(zhǔn)的情況,現(xiàn)實(shí)中我們的擇偶標(biāo)準(zhǔn)肯定不止一個吧……
下面,我們將自然客觀擇偶標(biāo)準(zhǔn)和社會人文擇偶標(biāo)準(zhǔn)結(jié)合起來。我們之前討論過變量之間不獨(dú)立的問題,但是鑒于計(jì)算的可行性以及針對該問題我們可以近似認(rèn)為擇偶標(biāo)準(zhǔn)之間相關(guān)性很低,這里我們假設(shè)變量兩兩獨(dú)立,以此來估算一個下界。
我們假設(shè)在兩類標(biāo)準(zhǔn)中各選兩個擇偶標(biāo)準(zhǔn),則共有9種不同的寬松組合。
雖然這個概率只是一個下界(最差情況),但是相信大家還是能從中感受到一股寒意……并且我們這里只討論了四個擇偶標(biāo)準(zhǔn),實(shí)際情況肯定還要比這個復(fù)雜多變,意味著真實(shí)概率可能比這個還要低……
還有一個更關(guān)鍵的問題,就算你很幸運(yùn)地遇到了滿足你要求的人,但是你滿足對方的要求了嗎?
你喜歡別人,別人喜歡你嗎?你覺得對方是你的最佳選擇,對方或許都沒把你寫入備胎名單?。ㄟ@些問題需要大家每日三省?。?/span>
沒錯,這就是你找不到合適的人的原因——因?yàn)樵诟怕噬?,你已?jīng)涼了!
好了,一首涼涼先送給大家!
轉(zhuǎn)載自:中科院物理所,轉(zhuǎn)載請注明出處。