作者:Stephen Woodcock
翻譯:山寺小沙彌
審校:yangfz
生活中你經常會看到一些新聞或者文章,它們宣稱某種事物或者某種行為,可以使人們活得更加健康,抑或者危害我們的身體,也許有的還宣稱利弊皆有。為什么看似嚴謹的科學研究能產生相反的結論呢?
現如今,研究人員可以通過一些軟件隨時地分析數據并輸出復雜的統(tǒng)計測試結果。雖然這些軟件的功能很強大,但是它們同時也為那些對統(tǒng)計知識知之甚少的人打開了誤解之門,他們往往會不能正確理解數據之間的微妙關系,并得出錯誤的結論。
以下是常見的謬誤和悖論,我們將進行詳細的解釋,剖析它們是如何蒙蔽我們的雙眼從而得出錯誤的結論的。
什么是辛普森悖論?
將不同組別的數據合并時,會導致各組原本表現出來的某種規(guī)律消失,當這種情況發(fā)生時,合并之后呈現出的新規(guī)律甚至可能與每組的原本的規(guī)律相反。
舉個例子,某種治療手段在不同的組別里對患者的身體恢復是有害的,但是將所有組別的數據合并起來看,我們卻會發(fā)現它竟然對患者身體的恢復是有幫助的。
它是怎么發(fā)生的?
當組成各組的成分差別較大的時候,就可能出現上述現象。如,對病人的數量進行篩選,使得兩組試驗中病人的組成差別很大(老人、小孩、成人的比例有很大的差別)時,將數據簡單的合并之后就會得出這樣的結論:有害的治療變成了有益的治療。
例子
假設有一個雙盲試驗(在雙盲試驗中,受試驗的對象及研究人員并不知道哪些對象屬于對照組,哪些屬于實驗組),將患者分成兩組,每組有120人,但是兩組中患者的年齡結構有很大的差異(第一組分為10人、20人、30人、60人,第二組分為60人、30人、20人、10人)。第一組的患者將接受治療,而第二組的患者不進行治療。
總體結果表明,治療對患者是有益的,接受治療的患者的身體恢復率大于沒有接受治療的患者。
然而,當你深入研究兩組中各個患者群體時,你會發(fā)現在所有的患者群體中, 沒有接受治療的患者身體恢復率提高了。
我們注意到,每組中不同年齡的患者人數是不同的,甚至是差別很大的,這就是我們得出錯誤結果的原因。在這種情況下, 如果簡單的將兩組數據合并,就容易得出錯誤的結論。
什么是基本比率謬誤?
當我們判斷某個事件發(fā)生的可能性時,如果我們忽略了重要信息,就會產生誤判。
例如,假如有一個人說他很喜歡音樂,我們可能認為他是一個音樂家,不會考慮他也許是個會計師。然而,現實中,會計師的人數遠大于音樂家的人數。我們太容易被一些條件影響(這個例子中的“喜歡音樂”),忽略基本比例,從而得出錯誤的結論(這個例子中的“他是一個音樂家”)。
它是怎么發(fā)生的?
基本比例謬誤常常發(fā)生在當一個選項的基數遠大于另一個選項的基數時。
例子
假如有一種罕見疾病,患者在人群中只占4%。
此時有一種針對這種疾病的測試方法,但是它并不是很完美。如果有個人患有該疾病,但是這種測試方法只會告訴我們這個人的患病幾率為92%(也就是100個患者中,只有92個是診斷正確的)。如果這個人是健康的,那么該測試方法會告訴我們他有75%的健康幾率(也就說100健康的人中,只有75個是診斷正確的)。
如果我們對一個群體進行測試,發(fā)現有1/4的人患病,我們可能會想,這些人也許真的病了。然而,事實并不是這樣。
根據我們的條件,在4%的患有該疾病的人群中,有92%的人可以被確診為患?。纯側丝诘?.68%)。但在另外的96%的群體中,25%的人被誤診為患?。ㄕ伎側丝诘?4%)。
也就是說,被診斷為患有該病的27.68%的人群中,實際患病的幾率只有3.68%。所以說,對于被診斷為患病的人來說,實際上真正患病的人只占13.29%。
令人擔憂的是,世界上就有這樣的例子存在。在一項著名的研究中,醫(yī)生被要求進行類似的計算, 通過乳腺的X光圖像告知某人是否患病, 只有15% 的正確率。
什么是威爾·羅杰斯悖論?
將某集合中的元素移到另一集合后,兩個集合的平均值都提高了,這就是威爾·羅杰斯悖論。
這個現象的名字來源于美國喜劇演員威爾·羅杰斯(Will Rogers),他曾開玩笑地說:“那些從俄克拉何馬州搬到加利福尼亞州的人,提高了兩個州的平均智商。”
它是怎么發(fā)生的?
當數據從一個集合重新分類到另一個集合時, 如果該數據低于它要離開的集合的平均值, 但高于它所加入的集合的平均值, 則兩個集合的平均值將會增加。
例子
假設有6個人,醫(yī)生估計他們的預期壽命分別是40歲、50歲、60歲、70歲、80歲、90歲。
預期壽命為40歲和50歲的人已被診斷患有某種疾病; 其他四個沒有?;颊叩钠骄鶋勖鼮?5歲,另外四個的平均壽命為75歲。
如果開發(fā)出一種改進的診斷工具來檢測那個預期壽命為60歲的人,并且發(fā)現他患有和那兩個人一樣的疾病,那么此時我們就要把他歸到另一組,這時我們會發(fā)現,兩組的平均預期壽命均提高了5歲。
什么是伯克森悖論?
伯克森悖論指的是對于兩個獨立的事件,認知者誤以為這兩個事件具有某種相關性。
它是怎么發(fā)生的?
這樣的悖論通常發(fā)生在兩個相互獨立的集合中,相互獨立意味著兩個集合之間沒有任何聯(lián)系。但是如果我們只看兩個集合中的某個子集,那么此時也許這兩個子集中的元素是負相關的。
當子集不是整個種群的無偏樣本時, 就會發(fā)生這種情況,醫(yī)學統(tǒng)計中經常引用伯克森悖論。例如,假設有一個醫(yī)院,它只治療a疾病和b疾病,或者兩個疾病均可以治療,那么盡管這兩種疾病是相互獨立的,但是這種醫(yī)院容易使我們覺得a疾病和b疾病是有關聯(lián)的。
例子
考慮一個以學術能力和運動能力為基礎招收學生的學校。假設這兩種技能是完全獨立的。也就是說,在所有的學生中, 一個運動能力強的學生和一個運動能力弱的學生,都有可能具有優(yōu)秀的學術能力或者差的學術能力。
但是,如果這個學校只招收技能優(yōu)秀的學生(兩種技能均優(yōu)秀或者其中一種優(yōu)秀),那么在這群被錄取的學生中,體育能力和學術能力呈負相關。
為了說明這點,將所有學生(不止是這個學校的學生)按照兩種技能強弱分別從1到10劃分等級,每種技能的在每個等級里都有相同比例的人。
假設該學校只招收其中一個技能的等級或者兩個技能的等級為9或者10的學生。
此時我們看看被錄取的學生,運動能力強的學生和運動能力差的學生的平均學術等級都是相等的,都為5.5。然而, 高水平運動員的學術能力平均等級仍然和整個學生群體的學術能力平均等級一樣(均為5.5),但運動能力差的學生的學術能力平均等級是9.5,此時我們會發(fā)現,這兩個能力呈負相關。
什么是多重比較謬誤?
對于具有很多變量的數據,如果在隨機試驗中出現某種無法預料的趨勢,那么此時就容易出現多重比較謬誤。
它是怎么發(fā)生的?
當在許多變量之間尋找變量之間的某種聯(lián)系時,如果變量很多,我們就很容易忽略一些可能性。比如,有1000相互獨立的變量,兩兩組合的話,就存在499500種可能,那么在這些組合中,也許存在一些巧合,使得它們似乎是相關的。
即使它們兩兩之間是獨立的,但是對于那么多的可能性,總有一些數據巧合,使得某兩個變量之間似乎存在某種聯(lián)系。
例子
生日悖論就是一個多重比較謬誤的典型例子。
假如有23個人,如果要計算有兩個人在同一日出生的概率,在不考慮特殊因素的前提下,例如閏年、雙胞胎,假設一年365日出生概率是平均分布的(現實生活中,出生概率不是平均分布的),那么這些人中,有兩個人生日是同一天的概率大于50%。
這樣的結果挺讓人難以置信的,因為人們很少遇到和自己生日相同的人,當然,如果隨機選兩個人,那么他們生日是同一天的概率是非常低的(小于0.3%)。
對于這23個人,兩兩組合,能產生253種可能性,在這么多的可能性中,是可能出現生日相同的組合的,而且概率很高。有興趣的讀者可以算一下,最終的結果可以用一個公式表達出來:
其中P為概率,n為人數,如果計算23人,將23帶入即可,算出來約為50.7%。
所以對于40個人來說,其中兩個人生日相同的概率將近90%。
原文鏈接:https://theconversation.com/paradoxes-of-probability-and-other-statistical-strangeness-74440
編輯:Alex Yuan
近期熱門文章Top10
↓ 點擊標題即可查看 ↓
1. 電荷的本質是什么?
2. 中國數學競賽史上最玩命的“賭徒”,用一個字換來五屆IMO總分第一
3. 通往化學世界的地圖
4. 快轉給你的父母,告訴他們輻射的真相!| SciFM Vol.04
6. 膽小慎入→_→這或許是夏天你最討厭的東西 | 線上科學日
10. 可燃冰的自白:五萬公里黑不倒 我為人類續(xù)一秒