免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
科學界爭鳴:使用最廣泛的統(tǒng)計指標 P值 < .05 還是 .005才顯著?


?pexels-photo


撰文|胡傳鵬  呂小康

責編|趙亞杰



  

  

在科學實驗中,研究者們往往需要判斷某個結果在不同的實驗條件下是否有差異,并檢驗這種差異是不是由于偶然因素造成的。

 

最偉大的統(tǒng)計學家之一、英國人Ronald Fisher(1890~1962)上世紀20年代提出了一個假想的思路來確定實驗效果是否只靠運氣出現:首先假定實驗結果在不同實驗條件下沒有差異,即所得結果是全然隨機出現的;然后計算在完全隨機的假設下出現當前數據結果或更極端的結果模式出現的概率,這就是當代統(tǒng)計學中所謂的P值。假如出現當前結果模式(及更極端模式)的概率很小,則可以認為,這么小的概率在一次試驗中不太可能會出現。從而反推:我們所假設的前提(不同實驗條件沒有差異)可能是錯誤的,即不同實驗條件應能產生不同的實驗效果。這種思想被Fisher命名為顯著性檢驗(test of significance),“顯著”在他的原意中,并不表示其他意思,只是表明這一結果不是隨機的。在這一推理模式中,最重要的統(tǒng)計指標就是P值

 

更年輕的波蘭裔統(tǒng)計學家Neyman和英國統(tǒng)計學家Pearson(此Pearson系提出線性相關系數、卡方檢驗的老Pearson之子),在Fisher的思想框架的基礎之上,提出了更具通用性、數學氣息也更強的假設檢驗模式。有意思的是,Fisher本人對Neyman-Pearson的“改進”并無好感,甚至宣稱“我和我全世界的學生從未想過要使用他們的方法”,但在后來者的眼中,兩者之間在技術與思想上的分歧逐漸淡化,他們的意見被整合成為了大部分研究者所熟悉的一種既不是純Fisher式、也不是純Neyman-Pearson式的統(tǒng)計推斷方法——零假設顯著性檢驗(Null hypothesis significant test, NHST,也翻譯為虛無假設顯著性檢驗)。在NHST模式下,建立原假設和備擇假設,選擇檢驗統(tǒng)計量并計算其值,根據P值是否小于顯著性水平做出是否拒絕原假設的統(tǒng)計判斷,最后再將這種統(tǒng)計判斷轉化為現實情境下的行為判斷(如實驗處理、政策干預是否確實有效),成為假設檢驗的標準流程。NHST是目前科學界使用最廣泛的統(tǒng)計方法, P值也因此成為使用最廣泛的統(tǒng)計指標。

 

難以理解的P值


雖然P值被廣泛使用,但真正理解 P值所代表的意義的人卻很少。2002年,德國研究者對心理學的研究者和學生進行一項調查,給他們呈現了6個關于 P值的陳述。所有學生均無法正確理解P值的意義(Haller & Krauss, 2002);即便是教授方法學的教師,也有80%無法正確理解P值。說明研究者極容易對P值產生誤解。他們的這一結果與更早前的一項調查基本上一致(Oakes, 1986)

                                             

?圖1. Haller and Krauss (2002) 的調查結果。

 

(目前,《知識分子》等科學媒體與呂小康副教授(南開大學)、胡傳鵬(清華大學、德國美因茨大學)合作,調查國內各個學科的科研人員對 P值的理解情況: https://semtsinghua.au1.qualtrics.com/jfe/form/SV_3Xa4SELbCVvQqwZ。該問卷結束后將提供對結果的詳細解讀。)

 

 

P值與科學界的可重復危機


由于P < 0.05在科研界被推上神壇,被研究者視“存在效應”及論文可能發(fā)表的指標,在當前“publish or perish(發(fā)表或是滅亡)”文化下,就有研究者想盡一切辦法讓 P值達到可發(fā)表的標準。這種做法導致了一個奇怪的現象:如果我們把已發(fā)表研究中的 P值分布畫出來,會發(fā)現 P值分布在0.05附近出現了一個峰值,表明在已發(fā)表的研究中,P值在0.05附近是非常多(見圖2、圖3)。

 

?圖2. 各個學科的P值分布,由R語言的tidypvals工具所繪制。(https://github.com/jtleek/tidypvals)


?圖3. 截圖來自于2012年發(fā)表在Science上的某篇文章,四個實驗中,樣本量不斷增加,而P值卻非常穩(wěn)定地“恰好”小于0.05。

 

當然,對于這種P值 “恰好” 在0.05附近聚焦成峰的現象,也有多種可能的原因。比如可能是因為研究者在實驗之前對實驗設計進行優(yōu)化(例如合理地選擇樣本量),從而讓 P值恰好位于0.05附近;或者,是研究者使用了一些灰色手段,讓 P值接近0.05從而達到可發(fā)表的標準。這些手段包括但不限于選擇性報告變量、選擇性刪除數據、選擇性增加樣本量直至最關鍵的 P值小于0.05。

 

我們無法從發(fā)表的研究中判斷研究者到底進行了何種操作導致大量研究的P值這樣穩(wěn)定在0.05附近,但是可以通過重復實驗來驗證這些結果是否可靠。2015年,Science上發(fā)表了200多個心理學研究者共同完成一項重復實驗,在這個文章,他們報告了對100項研究結果的重復,發(fā)現大約39%的能夠成功重復出來。

 

這個大規(guī)模的重復實驗以及其他許多失敗的重復研究,引起了研究者們的反思。研究者們發(fā)現,導致“可重復性危機”的原因很多,包括科研界的體制問題(如獎勵發(fā)表論文,獎勵吸引眼球的科研報道)、研究倫理問題(挑選數據,甚至數據造假)等各種原因。但是 P值 < 0.05對于產生不可重復的研究,“貢獻”也很大:對2015年大規(guī)模重復實驗的分析表明,P值與能夠成功重復之間的關系也比較有趣:P值在0.04以上和0.05以下的研究中,被重復出來的最少。


 

P值在科研的“可重復性危機”中起到的推波助瀾的作用,讓許多統(tǒng)計學家非常擔憂。雖然他們早已知道 P值不應該這樣使用,但是卻沒有辦法去改變眾多學科中研究者們的實踐。盡管如此,他們還是在2016年初專門發(fā)表聲明,澄清關于 P值的真正意義以及應該如何使用P值的問題(Wasserstein & Lazar, 2016)

 

但是這個聲明引起小范圍的關注后,P值仍繼續(xù)著它一直被批判,卻從未被取代的地位?!翱芍貜托晕C”出現后,雖然有一個雜志Basic and Applied Social Psychology要求徹底摒棄對 P值的使用(Trafimow & Marks, 2015),但絕大部分的研究仍然繼續(xù)使用P值。

 

在大部分研究者“盲目”使用P值大環(huán)境下,對科學研究的可重復性憂心忡忡的研究者們來說,要對科研界的現狀進行有效的改變,改變P值的統(tǒng)計閾限也許是一個簡單有效的辦法。

 

重新定義統(tǒng)計顯著性


正是在這樣的背景之下,一篇名《重新定義統(tǒng)計顯著性Redefine Statistical Significance》橫空出世(Benjamin, Berger, Johannesson, Nosek, et al., 2017)。這篇由72名的研究方法專家共同署名的論文建議:

 

We propose to change the default P-value threshold for statistical significance for claims of new discoveries from 0.05 to 0.005.

“對于新發(fā)現的研究結論,我們建議將其統(tǒng)計顯著性的默認P值閾限由0.05改為0.005”。

 

更加具體一點來說,這些研究者提出,對于新現象的探索研究,如果P值在0.005到0.05之間,則應該使用“啟示性(suggestive)”這個詞;如果P值小于0.005,才能使用統(tǒng)計顯著。

 

這篇文章在Nature子刊Nature Human Behaviour上發(fā)表。文章的許多作者,都是應對“可重復危機”的主導者:其中包括弗吉尼亞大學心理學系教授Brian Nosek,他組織了大規(guī)模心理學重復研究、發(fā)起成立了推動科研界更開放和更透明的公益組織——開放科學中心(Center for Open Science);斯坦福大學醫(yī)學院教授John P.A. Ioannidis,這位最早關注生物醫(yī)藥領域文章假陽性問題的大咖;認為心理學家應該拋棄P值使用貝葉斯統(tǒng)計的荷蘭阿姆斯特丹大學心理學系的教授E-J Wagenmakers;普林斯頓大學社會學系教授、美國科學院院士、《知識分子》主編之一謝宇教授。

 

0.05代表的證據很弱;0.005則相對更強

 

為什么這些方法學上的知名學者要將P值 < 0.05的地位從“統(tǒng)計上顯著”的神壇下降到“啟示性”呢?文章中指出,因為P值在0.05附近時,只有很弱的證據表明存在著效應。實際上這一點在2015年美國統(tǒng)計學會關于P值的聲明中就已經指出來過,但是卻未能引起人們的重視。

 

為什么說P值小于 0.05得到的證據很弱?這一點Johnson (2013)PNAS上發(fā)表的一篇文章中進行了說明,而在最近這篇重復定義顯著性的文章,也再次使用這個思路——使用貝葉斯因子(Bayes factor)進行類比。

 

貝葉斯因子的思路是這樣的:假如我們收集了一批數據,并使用這批數據來檢驗某個效應是否存在 。那么,分別計算出當前數據支持存在效應這個假設是真的概率和數據支持不存在效應假設的概率,然后把這兩個概率相除。如果遠大于1,表明更加傾向于支持備擇假設;如果小于1,則更加傾向于零假設。

 

雖然貝葉斯因子與P值屬于不同的統(tǒng)計流派,但可以采用兩種方法對同一批數據進行分析,大致得到一個對應關系:研究者發(fā)現P值 = 0.05與貝葉斯因子3左右相當)。也就是說,當前數據支持有效應假設的可能性,與支持效應假設的可能性之比為3:1。從這個比例上來看,數據對有效應這個假設的支持力度并沒有相對很強,而且從貝葉斯因子的直覺標準來看,這個證據強度是非常弱的。


?圖3. P值與貝葉斯因子的大致對應關系。

 

相反,如果P值為0.005,則證據更加強。與0.005對應的貝葉斯因子是13.9,25.7,也就是說,有效應與沒有效應的比值為13.9:1或者25.7:1,這種情況之下,數據對有效應的假設的支持力度強得多(見圖3)。

 

統(tǒng)計顯著性的標準由0.05下降到0.005,會使假陽性出現的可能性下降到可接受的程度。這個結論一方面可以通過數據模擬得到(見圖4),也得到了大規(guī)模重復實驗結果的驗證。最近兩次大規(guī)模重復實驗(心理學(Open Science Collaboration, 2015)和經濟學(Camerer et al., 2016)也表明,如果以0.005作為標準,將原研究結果分為P值小于 0.005與P值在0.005與0.05之間的兩部分,則可以看到,在重復成功的比例上,前者大約是后者的兩倍:在心理學中是50% v 24%;在經濟學中是85% v. 44%。這也許是為什么許多研究者認為,將顯著性標準下降到0.005,會減少許多假陽性的研究。

 

此外,在文章中,作者們也指出,有兩個研究領域采用非常嚴格的標準,而這樣的標準對該領域來說是有好處的。在高能物理領域,采用的是5個sigma的標準,換作P值是大約是3×10^(-7);而基因研究中,基因組學研究的顯著性標準被下降到5×10^(-8)后,整個領域變得更加穩(wěn)健。

 

?圖4. P值閾限為0.05和0.005時假陽性率隨統(tǒng)計功效變化的曲線圖。其中x軸為統(tǒng)計功效,y軸為假陽性率。


P值小于0.005適用的范圍


盡管作者們認為,當P值 < 0.005時比 P值在0.005與 0.05之間時提供了更強的證據,但作者們也謹慎地說明,這一標準僅適用于探索新現象,而不適用于驗證性研究或者是重復研究之中。對于原本采用更加嚴格標準的領域,如基因研究或者高能物理領域,也不適用。

 

在隨后一篇博客文章中(Benjamin, Berger, Johannesson, Johnson, et al., 2017),幾位作者進一步表明,0.005的標準適合于對證據的進行推斷,而不是作為出版的標準。對于一個非常有原創(chuàng)性的效應,即使其結果在0.005與0.05之間,只要明確表示這是啟示性的證據,也應該發(fā)表。

 

知名學者的支持


這篇文章的72名作者來自社會學、心理學、經濟學、人類學、醫(yī)學、生態(tài)學和哲學。而這個文章的署名,更像是一種簽名,目的是為了獲得各個領域研究者的廣泛支持。


從某種程度上,這是研究者們?yōu)榱藬U大影響的一個舉措。2016年,美國統(tǒng)計學會以權威姿態(tài)發(fā)表了P值的聲明之后,總體上就像其他方法學的論文一樣,最后變得寂寂無聞。這一次,作者們?yōu)榱嗽诟蠓秶鷥纫鹬匾?,作者們采用讓更多領域的同行加入,擴大影響的做法。但是對于這一做法本身是否符合科學的規(guī)范,研究者們也有不同的意見。

 

降低P值帶來的紛爭


這篇文章一經刊出,立刻在科學圈引起了一陣熱潮。雖然作者們在文章中已經想到了可能的反對的聲音,但批評的聲音仍舊不絕于耳。在社交媒體上的調查也顯示,支持和反對這篇文章觀點的人數基本持平。荷蘭研究者Daniel Lakens在社交媒體上將反對者組織起來,準備寫一篇關于這篇文章的評論,截止到現在已經得到超過72個研究人員的支持。

 

在講反駁之前,需要先重述一下這篇文章的核心觀點:對于新發(fā)現的研究結論,將其統(tǒng)計顯著性的默認P值閾限由0.05改為0.005。其主要的目的是為了在以最廣泛接受的方法來降低發(fā)表論文中結果的假陽性。同時0.005的標準主要是用于推斷證據的強度,而非作為發(fā)表論文的標準。在此基礎之上,我們再看其他研究者們的批評意見。

 

第一個反對的聲音來自于對假陰性的擔心:即實際上有效應,但是我們的高標準導致在一個實驗中無法發(fā)現該現象。作者們的反駁(包括博客)是:如果說將科研當作一次性的試驗,這個將會是一個問題,但是如果把科研當作不斷累積的過程,則這個不會再是問題。因為當P值未達到顯著水平時,我們無法拒絕零假設,不代表我們要接受零假設,而是需要進一步的證據。這種情況下,如果我們繼續(xù)累積數據,并綜合所有的數據進行判斷,對于真正存在的效應,我們仍然可以發(fā)現。

 

同時,只要統(tǒng)計功效(Statistical power)保持一定,0.005的標準并不會增加假陰性。這時,也有研究者反對說,在0.005的標準下保持較高的統(tǒng)計功率,其帶來的樣本量增加(及其金錢成本的增加),是小實驗室所不能承受的。對于這個問題,研究者們的反駁是:a)樣本量的增加并沒有人們所想象的那么可怕,要保持80%的統(tǒng)計功效,從0.05到0.005標準的變化,需要增加70%的樣本量。也就是說,原來是需要50人,現在大約要增加到85人(當然這一點與效應量<effect size>的關系非常大,效應量小的研究原本就需要更多的樣本量);b)多個小的實驗可以通過元分析的方法聯(lián)合起來,提供更有說服力的證據;c)0.005并不是作為論文發(fā)表的標準,如果研究的方法嚴格,問題有意義,P值在0.005和0.05之間,并且作者明確說明證據是提示性的,那么就不應該拒絕發(fā)表這樣的研究。

 

在這兩個問題上,阿姆斯特丹大學的Wagenmakers教授在其博客上指出了P值顯著性標準的變化,其實是在表明科研界對待證據態(tài)度:我們是否要繼續(xù)保持 0.05,假裝0.05這個標準得到的證據就足夠強了(Wagenmakers, 2017)?

 

另一個比較有趣的批評是:可重復性的問題是由許多原因導致的,為什么不去解決其他的問題而是要拿P值來說事兒呢?這個批評有點類似于:為什么我們要做A呢,B也很重要啊。對于這個分散注意的問題,作者們承認可重復性問題是由許多原因導致的,而他們中的許多人都在致力于讓研究變得更可重復,包括一直在呼吁的Innondias,創(chuàng)辦了Center for Open Science的Brian Nosek。但是改變統(tǒng)計顯著性的閾值,最主要是因為這標準使用范圍最廣泛,改變后產生的性價比也許是最高的。

 

還有研究者認為,應該完全拋棄P值及其背后的零假設檢驗,而不是這樣小修小補。例如,《美國公共健康雜志》AJPH從1983年起就要求投稿者刪除所有P值,否則就請轉投其他雜志?!读餍胁W》Epidemiology在1990創(chuàng)刊之初也公開聲明:“作者在投稿本刊時,若忽略顯著性檢驗,將有助于提高稿件被錄用的可能性……我們根本就不采用這一方法?!?em>Basic and Applied Social Psychology雜志最近也宣布禁止使用P值(Trafimow & Marks, 2015)。許多統(tǒng)計學家也同意這一觀點的,比如Wagenmakers和Rouder,他們一直呼吁讓大家使用貝葉斯因子。但令研究者無奈的時,推廣貝葉斯統(tǒng)計或者其他統(tǒng)計方法的阻力,也許比改變P值的標準更困難,更難以讓研究者們廣泛接受。

 

還有一個批評的聲音是:對于不同的問題,應該采用不同的顯著性標準。作者們完全同意這一點。比如基因研究和高能物理,確實使用了不同的標準。只是0.05這個標準已經在許多領域得到廣泛應用(如圖1所示),而0.005這個標準,也以許多領域來說是可以減少假陽性的,所以作者覺得有這個必要,將0.05這個標準向更嚴格的方向前移一下。

 

控制假陽性的鐘擺,是否真會擺向更加嚴格的方向?


研究者們在是否要“重新定義顯著性”這個問題上的爭議,本質上也是一種權衡:要嚴格地控制假陽性,集中資源來做一些更有可能被重復出來的研究?還是分散資源,同時在多個問題上進行嘗試?過去幾年中關于可重復性危機的反思中,不少研究者似乎傾向于更加嚴格地控制假陽性,而另一些研究則認為這種做法得不償失。

 

當然,隨著類似于“眾包”研究等新研究形式的出現,更加嚴格控制假陽性時要增加研究成本的問題,也許可能會緩解。

 

最終顯著性是否會被“重新定義”,要看科研界的整體政策走向,尤其是科研雜志的審稿政策。也許在這個“publish or perish”的環(huán)境中,學術雜志的標準,才是真正的“黃金標準”吧。但無論如何,參考一下顯著性檢驗的兩位“始作俑者”的原話(譯文引自呂小康.(2014)),仍是有益的:

 

假設檢驗不止是個數學問題,它還非常依賴高度哲學化的思考。只要給定足以作為出發(fā)點的原理,數學就能推導出檢驗假設所需要的公式。但這些原理并不源自數學本身,而是對各種條件進行分析的結果,而正這些條件決定了普通人是否愿意相信所提出的假設。即便沒有一個明了證明過程的數學家會拒絕一個得到準確證明的定理,人們也可因為認定建立假設的原理本身有誤,從而拒絕接受這些原理。

 

——Neyman

 

在我看來,不涉及實際經驗正是其(指Neyman-Pearson)工作的嚴重缺陷所在。他們的方法能在引入數學假定的前提下得到確定結果,但是否相信這些數學假定卻必須基于廣博的經驗。可惜的是,他們并未探討支持這些假定的證據為何。若顧及這一點,他們就會發(fā)現,實際中只有憑借經驗才能確定顯著性檢驗在頻率意義上的結果是否顯著??傊?,我們得到的結論,既依賴于對類似事物的直接實驗,也依賴于我們對觀測效應如何產生的一般性理解。潛在假定的引入,只會掩蓋這一事實:真實知識的產生過程其實是試探性的。

 

——Fisher


參考文獻

Benjamin, D. J., Berger, J. O., Johannesson, M., Johnson, V., Nosek, B., & Wagenmakers, E. J. (2017). We Should Redefine Statistical Significance.  Retrieved from https://cos.io/blog/we-should-redefine-statistical-significance/

Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E.-J., Berk, R., . . . Johnson, V. E. (2017). Redefine Statistical Significance. Nature Human Behaviour. doi:10.1038/s41562-017-0189-z

Bennett, J. H. (ed.). 1990. Statistical Inference and Analysis: Selected Correspondence of R. A. Fisher. Oxford: Clarendon Press.

Camerer, C. F., Dreber, A., Forsell, E., Ho, T.-H., Huber, J., Johannesson, M., . . . Wu, H. (2016). Evaluating replicability of laboratory experiments in economics. Science. doi:10.1126/science.aaf0918

Haller, H., & Krauss, S. (2002). Misinterpretations of significance: a problem students share with their teachers. Methods of Psychological Research Online, 7(1), 1–20. Retrieved from https://www.metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf

Johnson, V. E. (2013). Revised standards for statistical evidence. Proceedings of the National Academy of Sciences, 110(48), 19313-19317. doi:10.1073/pnas.1313476110

Oakes, M. W. (1986). Statistical inference: a commentary for the social and behavioral sciences. Chichester: Wiley.

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), 943. doi:10.1126/science.aac4716

Reid, C. 1982. Neyman-From Life. New York: Springer-Verlag.

Trafimow, D., & Marks, M. (2015). Editorial. Basic and Applied Social Psychology, 37(1), 1–2. doi:10.1080/01973533.2015.1012991

Wagenmakers, E.-J. (2017). Redefine Statistical Significance Part I: Sleep Trolls & Red Herrings.  Retrieved from https://www.bayesianspectacles.org/redefine-statistical-significance-part-i-sleep-trolls-red-herrings/

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA's statement on p-values: context, process, and purpose. The American Statistician, 70(2), 129–133. doi:10.1080/00031305.2016.1154108

胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, & 彭凱平. (2016). 心理學研究的可重復性問題:從危機到契機. 心理科學進展, 24(9), 1504–1518 Doi:10.3724/SP.J.1042.2016.01504

呂小康. (2014). 從工具到范式: 假設檢驗爭議的知識社會學反思. 社會, 34 (6), 216–236.




本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
胡傳鵬等:貝葉斯因子及其在 JASP 中的實現
心理學研究中應用統(tǒng)計方法應注意的幾個問題
數學思維的妙處(15):如何透徹理解貝葉斯公式,本篇給你講清楚
關于貝葉斯的一切:為什么個人對相似證據的評價不同?
九成以上研究者或無法正確理解p值
?這么多人反對P<0.05,P值將何去何從?
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服