本文作者:莊時(shí)利和
如果你家里有老人生病了,需要做某一項(xiàng)手術(shù),你會(huì)如何選擇醫(yī)院?
假設(shè)你所在市內(nèi)有 A、B 兩家醫(yī)院,這兩家醫(yī)院的手術(shù)都做得符合基本規(guī)范、術(shù)后存活者的生活質(zhì)量相同、兩家醫(yī)院收費(fèi)統(tǒng)一,甚至離你家的距離都一樣近。而且它們都非常開放,愿意將所有治療數(shù)據(jù)向社會(huì)公布。
網(wǎng)上搜索結(jié)果顯示,A 院近期有 1000 名患者接受這項(xiàng)手術(shù),術(shù)后 900 人存活(總存活率 90%);B 院近期有 1000 名患者也做了同樣的手術(shù),術(shù)后 800 人存活(總存活率 80%)。
你怎么選?
從上面的數(shù)據(jù)來看,患者總存活率 90% 的 A 院似乎醫(yī)療安全性更佳,是就醫(yī)更加理性的選擇。
然而當(dāng)你仔細(xì)查看兩個(gè)醫(yī)院的數(shù)據(jù),你可能會(huì)驚訝地發(fā)現(xiàn),真實(shí)的數(shù)據(jù)和你想象的并不一樣——我可能會(huì)建議你選擇總存活率更低的 B 院。
數(shù)據(jù)的「詭計(jì)」:辛普森悖論
在大數(shù)據(jù)時(shí)代,大家越來越清楚數(shù)據(jù)的重要性,現(xiàn)在不少媒體或者自媒體的文章也經(jīng)常洋洋灑灑列舉一堆數(shù)據(jù)。數(shù)據(jù)自然可貴,我們?nèi)松泻芏鄾Q策往往就基于我們認(rèn)為可靠的數(shù)據(jù)。
比如高中生想考大學(xué),他們和父母會(huì)先了解某個(gè)大學(xué)在本省歷年來的招生人數(shù);
比如應(yīng)屆畢業(yè)生想找一份工作,他們往往會(huì)上網(wǎng)查查某個(gè)職位的平均薪酬;
比如年輕的情侶想在大城市買一套婚房,他們也許會(huì)花很多時(shí)間去了解本市某個(gè)版塊最近幾年的房價(jià)變化。
數(shù)據(jù)確實(shí)很重要,但數(shù)據(jù)有時(shí)候也會(huì)騙人。
「辛普森悖論」(Simpson’s Paradox)由英國統(tǒng)計(jì)學(xué)家 E.H.Simpson 于 1951 年提出,即在某個(gè)條件下的兩組數(shù)據(jù),分別討論時(shí)都會(huì)滿足某種性質(zhì),可是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論。
簡(jiǎn)單來說,在一組統(tǒng)計(jì)數(shù)據(jù)背后存在某些潛在變量(Lurking variable),這些潛在變量會(huì)徹底改變結(jié)論。
這句話可能還是不太好理解。讓我們?cè)倩氐缴厦婺莻€(gè)「選醫(yī)院」的問題,這個(gè)例子來自 TED 的其中一期演講。
大家要記住一點(diǎn),并不是每個(gè)醫(yī)院所接受的患者病情輕重程度都相同。因此,讓我們將患者按照病情輕重度進(jìn)行分組后,再來看看兩家醫(yī)院的救治情況。
A 院收到的 1000 名患者中,有 100 名重癥患者,做完手術(shù)后只有 30 人存活,重癥患者存活率為 30%;
B 院收到的 1000 患者中,有 400 名重癥患者,做完手術(shù)后有 210 人存活,重癥患者存活率為 52.5%。
因此對(duì)于重癥患者來說,B 院是更好的選擇。
我們?cè)倏匆幌螺p癥患者。
A 院收到的 1000 患者中,有 900 名輕癥患者,做完手術(shù)后有 870 人存活,輕癥患者存活率為 96.7%;
B 院收到的 1000 患者中,有 600 名輕癥患者,做完手術(shù)后有 590 人存活,輕癥患者存活率為 98.3%。
所以對(duì)于輕癥患者來說,B 院也是更好的選擇。
A、B 院患者按病情分組存活率比較
(作者制圖)
因此,雖然 A 院的患者總體存活率高于 B 院,但實(shí)際上,無論是輕癥患者存活率還是重癥患者存活率,A 院都不如 B 院。
為什么會(huì)出現(xiàn)這種情況?
這是因?yàn)閮杉裔t(yī)院所收治的輕重癥患者比例有巨大差異,在不進(jìn)行任何治療的情況下,輕癥患者的存活率顯然比重癥患者高。而 A 院的患者總存活率恰恰就是被大量輕癥患者稀釋了,從而給人造成了「A 院水平比 B 院更高」的假象。
在這個(gè)案例中,潛在變量就是不同醫(yī)院輕重癥患者的比例——這就是一例典型的「辛普森悖論」,而這種悖論很可能會(huì)導(dǎo)致人們做出錯(cuò)誤決策。
A 院和 B 院是虛擬的例子,現(xiàn)實(shí)中其實(shí)也常有真實(shí)發(fā)生的案例,我在醫(yī)學(xué)院讀本科時(shí)就已經(jīng)聽聞過類似的情況。
當(dāng)時(shí)廣州有個(gè)醫(yī)院到處宣傳本院 SARS 期間零死亡,后來我們上課時(shí),有教授就悠悠地說,這個(gè)醫(yī)院之所以能實(shí)現(xiàn)零死亡,主要是因?yàn)楫?dāng)時(shí)廣州最重的 SARS 患者都被廣醫(yī)一附院(呼研所)給收了。
咖啡有害論與被「坑」的 NEJM
不僅我們普通老百姓可能被辛普森悖論欺騙,甚至連頂級(jí)期刊 NEJM(新英格蘭醫(yī)學(xué)雜志)都曾經(jīng)被帶進(jìn)過坑里,這個(gè)案例就是所謂的「咖啡有害論」。
上世紀(jì)八十年代,哈佛大學(xué)公衛(wèi)學(xué)院院長 Brian MacMahon 研究發(fā)現(xiàn)「喝咖啡和胰腺癌存在密切關(guān)系」。研究人員對(duì)患有胰腺癌的住院患者和患有其他消化道疾病的住院患者進(jìn)行比較后,發(fā)現(xiàn)胰腺癌患者中喝咖啡的比例明顯更高。
研究人員認(rèn)為,如果人們停止喝咖啡,胰腺癌發(fā)病率可能會(huì)極大降低。這名院長 MacMahon 本人甚至親力親為,在開展這項(xiàng)研究之前他每天喝 3 杯咖啡,研究之后他直接戒掉了咖啡。
然而,這個(gè)研究很快被發(fā)現(xiàn)存在一個(gè)重大的缺陷。
在研究對(duì)象中,許多沒有患癌的住院病人會(huì)主動(dòng)放棄喝咖啡,因?yàn)樗麄儞?dān)心咖啡會(huì)使?jié)兒推渌c胃問題惡化,但患胰腺癌的病人并沒有停止,這就使得胰腺癌患者中喝咖啡的比例更高。
因此,不是咖啡導(dǎo)致了胰腺癌,而是其他疾病導(dǎo)致了其他人不再喝咖啡。
在后來美國癌癥協(xié)會(huì)的研究中發(fā)現(xiàn),咖啡與胰腺癌、乳腺癌或其他癌癥風(fēng)險(xiǎn)并沒有關(guān)聯(lián),喝咖啡似乎還能降低胰腺癌風(fēng)險(xiǎn)——至少是對(duì)于男性而言。
2012 年,同樣是發(fā)表在 NEJM 上的一項(xiàng)研究發(fā)現(xiàn),針對(duì) 13 年里 40 萬人的跟蹤發(fā)現(xiàn),在排除了吸煙、喝酒、鍛煉等混雜因素后,與不喝咖啡的人相比,每天喝一杯咖啡的人在各個(gè)年齡段去世的概率都會(huì)下降 5~6 個(gè)百分點(diǎn)——但需要強(qiáng)調(diào)的是,我們?nèi)匀徊磺宄烧撸Х群退劳雎剩┲g是因果關(guān)系還是相關(guān)性。
我們?cè)倥e一個(gè)大家比較關(guān)心的例子——工資,這是美國曾真實(shí)發(fā)生的情況。
2000~2013 年,美國人的周薪中位數(shù)(下面簡(jiǎn)稱工資)上升了 0.9%。這聽起來好像是個(gè)好消息,但真實(shí)情況是,各個(gè)學(xué)歷的人工資全都下降了。
高中以下的工資下降 7.9%
高中畢業(yè)生的工資下降 4.7%
大學(xué)肄業(yè)生的工資下降 7.6%
而大學(xué)畢業(yè)生的工資下降 1.2%
所以,大家的工資明明都下降了,為什么總的工資會(huì)上升?如果不了解具體情況,估計(jì)有人會(huì)大罵統(tǒng)計(jì)局造假。
實(shí)際上,這里的「辛普森悖論」,是由兩個(gè)因素決定的。
第一,隨著學(xué)歷上升,工資水平也會(huì)提高。這個(gè)大家應(yīng)該很容易理解,知識(shí)改變命運(yùn)嘛,不然讀書作甚?
第二,美國大學(xué)畢業(yè)生比以前多得多,而高中及以下學(xué)歷的比例在下降。
因此,由于高學(xué)歷人群在就業(yè)人口中的比重上升,帶動(dòng)整體的工資中位數(shù)上升,雖然這部分人群連同其他人群的實(shí)際收入是下降的。在這個(gè)案例當(dāng)中,那個(gè)狡猾的「潛在變量」就是不同學(xué)歷人群的比例。
此外,真實(shí)世界中還有很多辛普森悖論的真實(shí)案例。在 Gary Smith 所著的《簡(jiǎn)單統(tǒng)計(jì)學(xué)》第 7 章中,就專門舉了一些辛普森悖論的例子,例如:
阿拉斯加航空公司在 5 個(gè)不同機(jī)場(chǎng)都擁有優(yōu)于另一家航空公司的準(zhǔn)點(diǎn)運(yùn)行記錄,但其總體準(zhǔn)點(diǎn)記錄卻不如競(jìng)爭(zhēng)對(duì)手,為什么?
——因?yàn)榘⒗辜雍娇沼泻芏囡w往西雅圖的航班,而西雅圖的天氣問題經(jīng)常導(dǎo)致飛機(jī)延誤。
上世紀(jì)八十年代的一項(xiàng)醫(yī)學(xué)研究發(fā)現(xiàn),開放式的取石手術(shù)(上圖 Treatment A)對(duì)于小型和大型腎結(jié)石的治療成功率,均高于微創(chuàng)的經(jīng)皮腎鏡取石術(shù)(上圖 Treatment B),但其總體成功率卻不如后者,為什么?
——因?yàn)殚_放式的取石手術(shù)經(jīng)常被用于治療大型腎結(jié)石,而大型腎結(jié)石的治療成功率本身就相對(duì)較低。
舉了這么多例子,大家應(yīng)該可以理解基本辛普森悖論是怎么來的了,也知道數(shù)據(jù)分組中的潛在變量,可能導(dǎo)致最終出現(xiàn)截然相反的結(jié)論。
新冠病死率里也有「玄機(jī)」
最后,讓我們帶著前面的思考,來一起看看一個(gè)最近關(guān)注度頗高的問題——新冠肺炎病死率。
5 月 16 日,預(yù)印本論文平臺(tái) arXiv 上發(fā)表了一篇論文 Simpson`s Paradox in Covid-19 case fatality rates: a mediation analysis of age-related causal effects.,發(fā)現(xiàn)在中意兩國的新冠肺炎死亡率上,同樣觀察到辛普森悖論。
研究人員統(tǒng)計(jì)了中國和意大利兩國的新冠肺炎病死率,中國的數(shù)據(jù)是截至 2 月 17 日的 72314 例病例,意大利的數(shù)據(jù)是截至 3 月 9 日的 8342 例病例。
結(jié)果發(fā)現(xiàn),雖然中國每個(gè)年齡段的病死率都比意大利高,但是中國總體的病死率卻比意大利低。
如果只看這個(gè)結(jié)論的話,估計(jì)又有人要罵數(shù)據(jù)造假了。但是你已經(jīng)看過了上面的醫(yī)院和工資案例,你可能會(huì)猜到背后的原因——中意兩國患病年齡不同。
實(shí)際上,無論在哪個(gè)國家,我們都發(fā)現(xiàn)新冠肺炎病死率隨著年齡增長而大幅升高,新冠肺炎對(duì)于老年人的威脅遠(yuǎn)大于年輕人。
意大利人口的平均年齡是 45.4 歲,中國則是 38.4 歲。意大利實(shí)際上是一個(gè)老齡化非常嚴(yán)重的國家,老齡化程度位居全球第二,僅次于日本。中國新冠肺炎患者年齡段主要集中在 30~59 歲這個(gè)區(qū)間,而意大利的患者則多在 60 歲以上。
這也就解釋了為什么按照年齡組劃分的死亡率與總體死亡率之間的矛盾,從而導(dǎo)致數(shù)據(jù)上出現(xiàn)辛普森悖論。
當(dāng)然,在這項(xiàng)研究當(dāng)中,科研人員還討論了別的因素,雖然年齡是最主要的潛在變量,實(shí)際上各國的防控策略、性別、經(jīng)濟(jì)狀況和飲食習(xí)慣等變量都會(huì)影響最終的數(shù)據(jù)。
另外,由于彼時(shí)(3 月 9 日)還是意大利疫情的初期,而新冠肺炎的病程需要一至數(shù)周時(shí)間,3 月初的數(shù)據(jù)并不能完全反映真實(shí)情況。在后來的數(shù)據(jù)(截至 5月 7 日)中,由于醫(yī)療系統(tǒng)被擊穿等原因,意大利的死亡率大幅上升,50 歲以上幾個(gè)年齡段的死亡率都超過了中國。
愿你能更準(zhǔn)確地看清這個(gè)世界
就像上面說的,辛普森悖論可能導(dǎo)致人們做出錯(cuò)誤的決策,因?yàn)楹芏嗳顺3V豢凑w數(shù)據(jù)而不看分組數(shù)據(jù)(或者相反),很少會(huì)仔細(xì)地同時(shí)分析整體和分組數(shù)據(jù)。
這可能是因?yàn)閷I(yè)性不夠,也可能是因?yàn)闆]有那么多時(shí)間精力,還可能是因?yàn)?,我們往往只愿意相信我們認(rèn)為是對(duì)的,然后想方設(shè)法選擇證據(jù)證明自己的觀點(diǎn)。
以上就是關(guān)于辛普森悖論的內(nèi)容了。大家在明白這個(gè)悖論后,以后就會(huì)少陷入那些有意或者無意的統(tǒng)計(jì)學(xué)陷阱。
愿你能更準(zhǔn)確地看清這個(gè)世界。(責(zé)任編輯:gyouza)
聯(lián)系客服