免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
迷人又詭異的辛普森悖論:

大數(shù)據(jù)文摘出品

編譯:胡笳、狗小白、張弛、錢天培


想象一下下面這個(gè)場(chǎng)景。


你和你的小伙伴準(zhǔn)備找個(gè)地方搓一頓,但在兩家餐廳的選擇上爭(zhēng)執(zhí)不休。


于是乎,秉持“數(shù)據(jù)驅(qū)動(dòng)人生”的你倆搬出了小眾點(diǎn)評(píng)網(wǎng)的評(píng)分?jǐn)?shù)據(jù)。


你發(fā)現(xiàn),你想去的這家餐廳的評(píng)分果然比另一家高。


正當(dāng)你得意不已的時(shí)候,你的小伙伴宣布了TA的發(fā)現(xiàn):另一家餐廳的評(píng)分更高。


這是咋回事呢?莫非評(píng)論網(wǎng)站的數(shù)據(jù)還出錯(cuò)了不成?


事實(shí)上,你和你的小伙伴都是對(duì)的,你們只是在不知不覺中掉進(jìn)了辛普森悖論的詭計(jì)。


在辛普森悖論中,餐館可以同時(shí)比競(jìng)爭(zhēng)對(duì)手更好或更差,鍛煉可以降低和增加疾病的風(fēng)險(xiǎn),同樣的數(shù)據(jù)集能夠用于證明兩個(gè)完全相反的論點(diǎn)。


相比于晚上出去大餐,你和小伙伴也許更值得討論這個(gè)吸引人的統(tǒng)計(jì)現(xiàn)象。


辛普森悖論指的是,數(shù)據(jù)集分組呈現(xiàn)的趨勢(shì)與數(shù)據(jù)集聚合呈現(xiàn)的趨勢(shì)相反的現(xiàn)象。


在上面餐廳推薦的例子中,你可以通過看男性和女性各組的評(píng)分,也可以看整體的評(píng)分。如下圖所示。


Carlo’s 在男性和女性推薦率上都贏了,但卻輸在了總體推薦率上?。?!


圖中數(shù)據(jù)清楚地表明,當(dāng)單獨(dú)考慮每組數(shù)據(jù)時(shí),結(jié)果顯示Carlo’s 優(yōu)勝,但當(dāng)合并數(shù)據(jù)后,結(jié)果卻是Sophia’s 優(yōu)勝!


這怎么可能呢?這里的問題在于,只查看單獨(dú)各組數(shù)據(jù)的百分比會(huì)忽略掉樣本的大小,也就是評(píng)論者的人數(shù)。每個(gè)百分比都由推薦用戶數(shù)與相對(duì)應(yīng)的評(píng)論人數(shù)計(jì)算得到。Carlo’s 有更多的男性評(píng)論者,而Sophia’s 有更多的女性評(píng)論者,因此導(dǎo)致了矛盾的結(jié)果。


要想回答該去哪家餐廳的問題,我們需要考慮數(shù)據(jù)是否可以合并,或者是否應(yīng)該單獨(dú)考慮。我們是否應(yīng)該合并數(shù)據(jù)取決于數(shù)據(jù)的生成過程——即數(shù)據(jù)的因果模型。在下一個(gè)例子中,我們將介紹這一具體含義以及如何解決辛普森悖論。


相關(guān)性反轉(zhuǎn)


辛普森悖論的另一個(gè)有趣的現(xiàn)象表現(xiàn)在,分層組數(shù)據(jù)表現(xiàn)的相關(guān)性方向與整體數(shù)據(jù)表現(xiàn)的相關(guān)性方向截然相反。我們來看一個(gè)簡(jiǎn)化后的例子。假設(shè)我們有每周運(yùn)動(dòng)小時(shí)數(shù)與兩組患者(分別為50歲以下和50歲以上的患者)患病風(fēng)險(xiǎn)的對(duì)比數(shù)據(jù)。以下是各組運(yùn)動(dòng)數(shù)據(jù)與患病可能性的散點(diǎn)圖。


根據(jù)年齡分層后的患病率與每周運(yùn)動(dòng)小時(shí)數(shù)據(jù)關(guān)系圖(左側(cè):小于50歲,右側(cè):大于50歲)


從圖中我們可以清楚地看到數(shù)據(jù)負(fù)相關(guān),表明增加每周運(yùn)動(dòng)量與兩組患者患病率的風(fēng)險(xiǎn)降低相關(guān)。下面讓我們將數(shù)據(jù)合并在一起再來看看他們的關(guān)系:

合并后的患病率與運(yùn)動(dòng)數(shù)據(jù)圖


相關(guān)性完全逆轉(zhuǎn)了!如果只給出這張圖結(jié)果,我們會(huì)得到這樣的結(jié)論:運(yùn)動(dòng)增加了患病風(fēng)險(xiǎn),這與我們從分層數(shù)據(jù)散點(diǎn)圖中得到的結(jié)論完全相反。


運(yùn)動(dòng)如何既減少又增加疾病風(fēng)險(xiǎn)呢?其實(shí)并不然,要想弄清如何解決這個(gè)悖論,我們需要從數(shù)據(jù)的生成過程來考慮展示的數(shù)據(jù)和原因——是什么產(chǎn)生了這些結(jié)果。


解決悖論


為了避免辛普森悖論導(dǎo)致得出兩個(gè)相反的結(jié)論,我們需要選擇將數(shù)據(jù)分組還是合并。這聽起來似乎很簡(jiǎn)單,但到底應(yīng)該如何抉擇?答案就是因果性思考:數(shù)據(jù)是如何產(chǎn)生的?并且在此基礎(chǔ)上,哪些我們沒看到的因素在影響結(jié)果?


在運(yùn)動(dòng)與疾病的例子中,我們直觀地知道運(yùn)動(dòng)不是影響發(fā)病率的唯一因素。這里還有其他因素,如飲食、環(huán)境、遺傳因素等。但是,在上圖中,我們只看到了發(fā)病率與運(yùn)動(dòng)時(shí)間的關(guān)系。在這個(gè)假設(shè)的例子中,我們假設(shè)疾病是由運(yùn)動(dòng)和年齡引起的。用下面的疾病概率的因果模型來表示他們的關(guān)系。

發(fā)病率的因果模型中有兩個(gè)因素


數(shù)據(jù)中存在兩種不同的因素與發(fā)病率相關(guān),但對(duì)于匯總后的數(shù)據(jù),我們只觀察了發(fā)病率與運(yùn)動(dòng)時(shí)間的關(guān)系,卻完全忽略了第二個(gè)因素——年齡。如果我們進(jìn)一步畫出發(fā)病率與年齡的關(guān)系,就能發(fā)現(xiàn)患者的年齡與發(fā)病率強(qiáng)相關(guān)。


按年齡分層后的發(fā)病率與年齡關(guān)系圖(左側(cè):小于50歲;右側(cè):大于50歲)


隨著患者年齡的增加,她/他患病的風(fēng)險(xiǎn)隨之增加,這表明即使運(yùn)動(dòng)量相同情況下,年長者也比年輕者更容易患病。因此,為了單獨(dú)評(píng)估運(yùn)動(dòng)對(duì)疾病的真正影響,我們希望保持患者的年齡不變,并改變每周運(yùn)動(dòng)量。


一種實(shí)現(xiàn)的方式是將數(shù)據(jù)分成幾組,通過這種方式,我們可以看到,對(duì)于給定年齡組,運(yùn)動(dòng)可以降低患病風(fēng)險(xiǎn)。也就是說,在控制年齡因素的情況下,運(yùn)動(dòng)與低患病率相關(guān)。根據(jù)數(shù)據(jù)生成過程和應(yīng)用因果模型,我們可以通過數(shù)據(jù)分層來控制附加因素解決辛普森悖論。


思考需要回答的問題也可以幫助我們解決悖論。在餐廳的例子中,我們想知道哪家餐廳最有可能讓我和小伙伴都滿意。雖然除了餐廳本身質(zhì)量,還可能存在其他因素影響評(píng)論,但在沒有這些潛在數(shù)據(jù)的情況下,我們希望將所有評(píng)論結(jié)合在一起來看看整體平均結(jié)果。在這種情況下,分析合并后的數(shù)據(jù)更有意義。


在運(yùn)動(dòng)與疾病案例中需要提出的相關(guān)問題是,我們自己是否應(yīng)該增加運(yùn)動(dòng)來減少個(gè)體患病風(fēng)險(xiǎn)?由于我們的年齡或者處于小于50/大于50兩個(gè)區(qū)間內(nèi)(這里不考慮年齡正好為50歲的情況),我們需要根據(jù)具體年齡觀察對(duì)應(yīng)的數(shù)據(jù)組,而且無論我們屬于哪組,結(jié)論都顯示確實(shí)應(yīng)該多鍛煉。


想想數(shù)據(jù)生成過程,要回答我們的問題所需要的不僅僅是觀察數(shù)據(jù)本身。這幾乎揭示了辛普森悖論中最關(guān)鍵的一點(diǎn):數(shù)據(jù)本身是不夠的。數(shù)據(jù)從來都不是完全客觀的,特別是當(dāng)我們只看最后展示的圖表時(shí),我們需要考慮是否看到了全貌。


我們可以嘗試觀察得更全面,通過思考什么生成了數(shù)據(jù),又有哪些未展示因素對(duì)數(shù)據(jù)產(chǎn)生了影響。這些問題的回答常常揭示著我們實(shí)際應(yīng)該得出完全相反的結(jié)論!


現(xiàn)實(shí)生活中的辛普森悖論


辛普森悖論與其它一些統(tǒng)計(jì)概念不同,它并非是人為發(fā)明的純理論概念,在現(xiàn)實(shí)生活中會(huì)實(shí)實(shí)在在地發(fā)生。


事實(shí)上,已經(jīng)有很多著名的辛普森悖論案例了。


其中一個(gè)案例是關(guān)于兩種腎結(jié)石治療效果的數(shù)據(jù)。單獨(dú)看治療效果方面的數(shù)據(jù),A療法對(duì)治療兩種大小的腎結(jié)石的效果都更好,但是將數(shù)據(jù)合并后發(fā)現(xiàn),B療法針對(duì)所有情況的療效更優(yōu)。下表展示了康復(fù)率:


治療腎結(jié)石的數(shù)據(jù)


這怎么可能呢?這個(gè)悖論可以用涉及相關(guān)專業(yè)知識(shí)的數(shù)據(jù)生成過程,或者說因果模型,來解決。若小結(jié)石被視為不嚴(yán)重的病癥,那么A療法相較B療法開的創(chuàng)口更大。因此,對(duì)于小結(jié)石,醫(yī)生們常推薦B療法,由于病情本身也不嚴(yán)重,因此病人康復(fù)率也較高。但對(duì)于嚴(yán)重的大結(jié)石,醫(yī)生們常選用創(chuàng)口更大、療效也更好的A療法。雖然A療法在針對(duì)這些病癥時(shí)表現(xiàn)得更好,但由于情況更嚴(yán)重,整體的康復(fù)率還是比B療法要差一些。


在這則現(xiàn)實(shí)例子中,腎結(jié)石的大小,或者說病癥的嚴(yán)重性,被稱為混淆因子;它對(duì)自變量(治療方法)和因變量(康復(fù)率)都有影響。我們?cè)跀?shù)據(jù)表里是看不到混淆因子的,但它們可以體現(xiàn)在因果關(guān)系圖中:


含混淆因子的因果關(guān)系圖


這個(gè)例子中的結(jié)果,康復(fù)率,受到療法和結(jié)石大?。ú“Y嚴(yán)重性)的雙重影響。此外,療法的選擇取決于結(jié)石的大小,從而結(jié)石大小是一個(gè)混淆因子。要找到究竟哪種療法效果更好,我們需要控制混淆因子,進(jìn)行分組對(duì)比康復(fù)率,而非對(duì)不同的群組數(shù)據(jù)進(jìn)行簡(jiǎn)單合并。這樣,我們得出結(jié)論,A療法更優(yōu)秀。


或者還可以這樣看待這個(gè)問題:對(duì)小結(jié)石而言,A療法更優(yōu);嚴(yán)重一些的大結(jié)石,依然是A療法更優(yōu)。因此,不論結(jié)石的大小程度,A療法總是最優(yōu)——悖論解決。


合并數(shù)據(jù)有時(shí)很有用,但有些情況下卻對(duì)真實(shí)情況產(chǎn)生了干擾。


證明一個(gè)論點(diǎn),又能證明其相反的觀點(diǎn)


辛普森悖論也是政客們的常用伎倆。



下面這個(gè)例證展示了,辛普森悖論是如何證明兩個(gè)相反的政治觀點(diǎn)的。


下表表明,在福特總統(tǒng)的1974~1978年的任期中,他對(duì)每個(gè)收入人群都進(jìn)行了減稅,但此期間全國性的稅收額有明顯上漲。數(shù)據(jù)展示如下:


所有個(gè)人稅率都下降了,但整體稅率有所上升


我們可以清晰地看到1974-1978年間,每個(gè)納稅區(qū)間的稅率都有所下降,但整體稅率卻上升了?,F(xiàn)在,我們知道了如何解決悖論:尋找影響整體稅率的其它因素。整體稅率不僅受每個(gè)納稅區(qū)間影響,還取決于每個(gè)納稅區(qū)間的可征稅收入數(shù)額。因通貨膨脹影響(名義工資上漲),1978年有更多的收入落入更高稅率的稅收區(qū)間,而收入落入較低稅率的稅收區(qū)間有所下降,因此整體稅率有所上漲。


是否要合并數(shù)據(jù),取決于在數(shù)據(jù)生成過程之外,還包括我們想了解什么問題,又或者是我們的政治觀點(diǎn)究竟是什么。從個(gè)人角度來說,我們只是一個(gè)個(gè)體,關(guān)心的是在個(gè)人的稅收區(qū)間內(nèi)的稅率。要搞清楚從1974年到1978年間,個(gè)人所得稅到底有沒有增長,必須要弄清楚我們稅收區(qū)間的稅率是否發(fā)生了變化,以及我們的稅收區(qū)間是否到了一個(gè)新的區(qū)間中。個(gè)人所得稅受兩個(gè)因素影響,但這張表格的數(shù)據(jù)只展示了其中一個(gè)。


辛普森悖論有何意義


辛普森悖論的重要性在于它揭示了我們看到的數(shù)據(jù)并非全貌。我們不能滿足于展示的數(shù)字或圖表,我們需要考慮整個(gè)數(shù)據(jù)生成過程,考慮因果模型。一旦我們理解了數(shù)據(jù)產(chǎn)生的機(jī)制,我們就能從圖表之外的角度來考慮問題,找到其它影響因素。大部分?jǐn)?shù)據(jù)科學(xué)家并沒有學(xué)習(xí)因果思考的模式,而這種思考模式對(duì)我們而言至關(guān)重要,因?yàn)樗芊婪段覀儚臄?shù)據(jù)中得出錯(cuò)誤結(jié)論。除了使用數(shù)據(jù),我們需要運(yùn)用經(jīng)驗(yàn)和業(yè)務(wù)知識(shí),或者向?qū)<覍W(xué)習(xí),來更好地進(jìn)行決策。


此外,雖然我們的直覺常常很準(zhǔn),但在現(xiàn)有信息不全的情況下直覺還是會(huì)不準(zhǔn)。我們傾向于對(duì)只關(guān)注眼前的東西(所見即所得)而不是用我們理性而遲緩的思考去挖掘更深層的東西。我們需要對(duì)數(shù)字本身持懷疑態(tài)度,尤其是當(dāng)別人想向我們營銷產(chǎn)品或項(xiàng)目計(jì)劃時(shí)。


數(shù)據(jù)是一個(gè)有力的武器,它既能被用來澄清現(xiàn)實(shí),也能被用來混淆是非。


相關(guān)報(bào)道:

https://towardsdatascience.com/simpsons-paradox-how-to-prove-two-opposite-arguments-using-one-dataset-1c9c917f5ff9



【今日機(jī)器學(xué)習(xí)概念】

Have a Great Definition

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
辛普森悖論:如何用同一數(shù)據(jù)證明相反的論點(diǎn)
辛普森悖論和樸素貝葉斯
膽結(jié)石的病因與療法.
視頻|辛普森一家中的數(shù)學(xué)-Apu的悖論
統(tǒng)計(jì)學(xué)陷阱——辛普森悖論
王孟源:邏輯——一個(gè)重要的統(tǒng)計(jì)悖論
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服