如果你在數(shù)據(jù)科學(xué)領(lǐng)域還只是個新手,那么建議你先看看《五本書帶你入門數(shù)據(jù)科學(xué)》,入門之后,再看《R語言案例實(shí)戰(zhàn)》系列。
辛普森悖論
當(dāng)人們嘗試探究兩種變量(比如新生錄取率與性別)是否具有相關(guān)性的時候,會分別對之進(jìn)行分組研究。然而,在分組比較中都占優(yōu)勢的一方,在總評中有時反而是失勢的一方。
該現(xiàn)象于20世紀(jì)初就有人討論,但一直到1951年,E.H.辛普森在他發(fā)表的論文中闡述此一現(xiàn)象后,該現(xiàn)象才算正式被描述解釋。后來就以他的名字命名此悖論,即辛普森悖論。
辛普森悖論案例
一所美國高校的兩個學(xué)院,分別是法學(xué)院和商學(xué)院。新學(xué)期招生,人們懷疑這兩個學(xué)院有性別歧視?,F(xiàn)作如下統(tǒng)計(jì):
法學(xué)院:
商學(xué)院:
根據(jù)上面兩個表格來看,女生在兩個學(xué)院都被優(yōu)先錄取,即女生的錄取比率較高。現(xiàn)在將兩學(xué)院的數(shù)據(jù)匯總:
在總評中,女生的錄取比率反而比男生低。
辛普森悖論原因分析
辛普森悖論出現(xiàn)的原因,可以使用下面這幅圖來進(jìn)行解答。
在上面這個圖形中,X 軸代表申請的總?cè)藬?shù),Y 軸代表錄取的人數(shù),那么 Y/X,也就是直線的斜率,和錄取率正相關(guān)。
(a1, a2) 代表法學(xué)院的男生,(A1, A2) 代表法學(xué)院的女生??梢钥吹?,法學(xué)院女生的斜率比法學(xué)院男生的斜率要高,代表法學(xué)院女生的錄取率比法學(xué)院的男生的錄取率要大。
同理,(b1, b2) 代表商學(xué)院的男生,(B1, B2) 代表商學(xué)院的女生??梢钥吹剑虒W(xué)院女生的斜率比商學(xué)院男生的斜率要高,代表商學(xué)院女生的錄取率比商學(xué)院的男生的錄取率要大。
盡管如此,來看總體直線的斜率,總體男生的斜率 (A1+B1, A2+B2) 的斜率,比總體女生的斜率 (a1+b1, a2+b2) 的斜率,還要大。
這個就是辛普森悖論的圖形化解釋,非常直觀清晰。
如何避免辛普森悖論
為了避免辛普森悖論的出現(xiàn),就需要斟酌各分組的權(quán)重,并乘以一定的系數(shù)去消除以分組數(shù)據(jù)基數(shù)差異而造成的影響。同時,我們必需清楚了解情況,以綜合考慮是否存在造成此悖論的潛在因素。