我們常常在科研論文的數(shù)據(jù)分析部分或者某些科普文章引用的資料當(dāng)中見到涉及P值的統(tǒng)計學(xué)報表以及相關(guān)的顯著性判斷。非專業(yè)讀者看到這些關(guān)于P值和'顯著性'的描述往往是一頭霧水(如下表),大多略過,但實際上這些統(tǒng)計結(jié)果才是一篇論文中最準(zhǔn)確直接的定性結(jié)論。了解了P值的含義和顯著性的判定,可以幫助我們快速掌握科研論文中第一手研究數(shù)據(jù)的指向和意義。
一個p值統(tǒng)計報表的例子
P值往往涉及統(tǒng)計結(jié)果顯著性的判定,因此我們得從顯著性的概念說起。本文將用通俗的文字來簡介相關(guān)的統(tǒng)計學(xué)概念,并附上P值的計算方法。
任何理論(或認(rèn)識)都沒法保證其關(guān)于現(xiàn)實的推測是100%正確的,這歸因于理論永遠都只是對現(xiàn)實世界真相的大致概括和特征提取。理論只能無限趨近于真實,但無法達到真實。人類利用的僅僅是越來越接近真相的理論而已。
所以對于任何說法,都有一個可信度問題。而通過對于現(xiàn)實的重復(fù)測試,我們將能夠了解某個說法究竟有多可信,不同的說法之間是存在著可信度的差異的。這就像是盲人摸象之后,每個盲人說出的有關(guān)大象外形的可信度是有差別的,而且只要讓盲人們多摸幾次,他們對大象長相的描述會越來越接近真實。
了解不同觀點的可信度,是統(tǒng)計的目的之一。統(tǒng)計中所謂的'顯著性'就是可信度的一種指標(biāo)。
具有統(tǒng)計顯著性的結(jié)果反映的是經(jīng)過嚴(yán)格的測試得到的結(jié)果達到了一定可信度——專業(yè)術(shù)語叫'置信度'(又叫“置信水平”),它表明我們在多大程度上相信結(jié)論不會因隨機因素而發(fā)生偏差。更具體地說,置信度是我們所持理論預(yù)測出來的結(jié)果在指定區(qū)間出現(xiàn)的可能性。
顯著性跟置信度的內(nèi)涵異曲同工,但它們的表述方法剛好相反,且在應(yīng)用中描述方式略有差異:
· 對于置信度一般我們會說'……實驗結(jié)果落在某個置信區(qū)間的可能性可以達到多高……'(這個可能性越大置信度就越高)
· 而對于顯著性我們會說'……我們的理論假設(shè)被否定的可能性小于多少,我們的假設(shè)就可以被稱為顯著或者極顯著……'(這個可能性越小顯著性越高)
也就是說,置信度通常是正面描述(拒偽的),而且通常需要與一個置信區(qū)間關(guān)聯(lián)起來。而顯著性則是反面描述(拒真的),而且通常需要與一個預(yù)設(shè)的判斷門檻值聯(lián)系起來。
顯著性與置信度(置信水平)的關(guān)系
統(tǒng)計學(xué)使用P值來代表前面提到的'理論假設(shè)被否定的可能性'??茖W(xué)研究往往會選取與理論提出的假設(shè)相對的情況作為'證偽對象'——即嘗試證實'這種與我的觀點相對的假設(shè)'不大可能發(fā)生,這種用來當(dāng)'靶子'的假設(shè)在統(tǒng)計學(xué)中被稱為'零假設(shè)'(又叫'原假設(shè)',或者'虛無假設(shè)',通常用H0表示,英文Null Hypothesis),通俗地說即:靶子被打倒,研究即成立。
所以,P值通常被用于在假設(shè)檢驗中描述某理論假設(shè)的有效性,通常理論的反面會被設(shè)為'零假設(shè)'。例如:我認(rèn)為'讀者閱讀完本文的耗時大于10分鐘',其零假設(shè)便是'……讀完本文的耗時小于10分鐘'。因此我們只需要證明零假設(shè)發(fā)生幾率相當(dāng)小,那就可以說明我的說法是可信的。反之,只要證明我的說法的發(fā)生幾率大到某個程度也可以證明我的理論。
但統(tǒng)計學(xué)上往往采用否定零假設(shè)的方式來斷言某個說法的可靠性,而不是倒過來。因為概率論認(rèn)為'小概率事件'在單次測試時幾乎是不可能發(fā)生的。因此只要證明零假設(shè)是小概率事件就可以肯定對立假設(shè)了。這或許是統(tǒng)計分析往往采用否定零假設(shè)的方式來做置信度判定的原因。
于是我只需要真實地調(diào)查足夠多的讀者閱讀本文的真實耗時,就可以算出P值。P值是一個概率,取值在0和1之間,即絕對可能和絕對不可能之間。因此,如果P值為5%,則置信度就是95%(兩個加起來=1),這反映出我的說法跟現(xiàn)實的關(guān)聯(lián)顯著性較高,因此較為可信。
顯然,如果零假設(shè)('……耗時小于10分鐘')的發(fā)生可能性很低,即是個小概率事件,那么與之相反的對立假設(shè)('……耗時大于10分鐘')的發(fā)生可能性就很高。小概率事件在單次測試當(dāng)中幾乎是不可能發(fā)生的,因此可以等同認(rèn)為我的理論的單次斷言是完全可信的(但不能說我的理論的全部斷言都是可信的)。
零假設(shè)與對立假設(shè)就像在輪盤上猜滾珠落到黑格與紅格的關(guān)系
P值是一個概率,是一個數(shù),因此它可被用于衡量實驗證據(jù)對結(jié)論的支持強度,并以下面的方式來做顯著定性分析。確定統(tǒng)計顯著性有三種主要方法:
· 如果進行的檢驗得到的P值小于預(yù)設(shè)的α水平,則這個測試具有統(tǒng)計學(xué)顯著性。
· 如果置信區(qū)間不包含零假設(shè)的值,則檢驗結(jié)果具有統(tǒng)計顯著性。例如置信區(qū)間
· 如果您的P值小于α,在置信區(qū)間上不存在零假設(shè)的值,因此具有統(tǒng)計顯著性。(這是將前兩點綜合起來的推論)
注意:α值是人為預(yù)設(shè)的一個標(biāo)準(zhǔn)。根據(jù)經(jīng)驗慣例,α值通常取0.05作為顯著性的判定標(biāo)準(zhǔn),取0.001作為極顯著的判定標(biāo)準(zhǔn),也就是說。
· 較小的P值(通?!?.05)表示實驗結(jié)果是零假設(shè)不成立的有力證據(jù),因此零假設(shè)可以比較可信地推翻。
· 較大的P值(> 0.05)表示反對零假設(shè)的證據(jù)不充分,意味著零假設(shè)成立的幾率偏大。
· 極接近臨界值(0.05)的P值被認(rèn)為是邊際性的(這有點信不信由你的味道)。
P-值的圖示解釋
上圖:概率及統(tǒng)計顯著性示意??v軸是觀察的概率,橫軸是結(jié)果可能的取值。
例如,我剛在'餓了嗎'上點了一份餐,餓了嗎估算的送達時間是30分鐘,但我堅持認(rèn)為通常30分鐘內(nèi)都送不到。所以我可以進行一次假設(shè)檢驗,因為我認(rèn)為'送達時間在30分鐘以內(nèi)'的零假設(shè)是不正確的,因此我的對立假設(shè)是'送達時間大于30分鐘'(也就是說會遲到,要知道送餐遲到餓了嗎就要賠優(yōu)惠券,哈哈)。
為了證實我的觀點,我每天都點這同一家餐館,并實測每次送達所花的時間。在獲得了大量的樣本數(shù)據(jù)之后,我計算了樣本的P值,假設(shè)P值是0.001(遠小于0.05),這意味著,我關(guān)于'送餐會遲到的判斷會是錯誤的'的可能性大概是0.001,或者說我判斷錯誤的可能性遠小于0.05這個'統(tǒng)計學(xué)顯著性的經(jīng)驗門檻值'。因此,我基本上可以相信餓了嗎自動估算的時間是錯的,這樣一來餓了嗎每次都應(yīng)該給我賠償優(yōu)惠券。
但現(xiàn)實中這只是我的癡心妄想,基本上沒可能,因為餓了嗎公司的開發(fā)人員可沒有那么傻。他們一定會根據(jù)每次送餐的送達時間的統(tǒng)計情況,不斷刷新它們的估算公式,以確保他們估算結(jié)果的P值<0.05,甚至更低。餓了嗎APP搜集的大數(shù)據(jù)會確保在絕大多數(shù)時間,送餐人員的的遞送時間都不會超時(當(dāng)然他們的算法可能會更復(fù)雜,統(tǒng)計學(xué)結(jié)論可能只是其中的一部分)。
餓了嗎的超時賠付政策背后是有統(tǒng)計學(xué)顯著性支持的
置信度會因為一個重要的原因而降低——抽樣誤差,它是數(shù)據(jù)扭曲的常見原因。顯然,如果你研究基于的是有缺陷的數(shù)據(jù),結(jié)論肯定不會正確。
例如,你希望調(diào)查大眾最喜歡的食物。但是您跑到麥當(dāng)勞去調(diào)查,那么結(jié)果可能是最喜歡吃牛肉漢堡;但如你跑到素餐廳去調(diào)查,結(jié)果就大不相同了。這就是一個被夸大了的抽樣誤差問題。但所有的抽樣都會存在抽樣誤差,只是誤差大小區(qū)別而已。因此,統(tǒng)計上的顯著性并不一定能保證客觀上是正確的。這就是我們經(jīng)常發(fā)現(xiàn)一些貌似數(shù)據(jù)很有說服力的論文的結(jié)論被其他同類研究推翻的原因之一。
在科研領(lǐng)域,統(tǒng)計顯著性往往并不能完全斷言研究人員的假設(shè)就是100%正確的,但往往能夠告訴研究人員他的假設(shè)是有一定可信的事實基礎(chǔ)的,值得進一步研究。
這個部分是寫給有興趣了解在統(tǒng)計學(xué)上P值是如何計算的讀者的。如果您只是想粗淺地了解下P值和統(tǒng)計學(xué)顯著性的概念,那么后面的內(nèi)容就可以略看或者不看了。
計算并確定統(tǒng)計顯著性有點復(fù)雜,往往實用中會用一些軟件工具來計算,例如IBM的SPSS或者開源的Jamovi,這兩者都是統(tǒng)計學(xué)分析工具。此外,網(wǎng)上還有一些在線計算器,主要有Z測試計算器和T測試計算器之類,專用于做顯著性相關(guān)統(tǒng)計學(xué)評分的計算。
我在這里會介紹如何手工計算統(tǒng)計顯著性 ,這里是采用t分?jǐn)?shù)來獲取P值:
先指出哪個是零假設(shè)(H0)。在科研中,零假設(shè)通常會被設(shè)定為實驗措施無效,這意味著實驗失敗,也就是研究人員希望通過實驗否定的那個假設(shè)。
零假設(shè)確定之后,對立假設(shè)(Ha)也就確定了——對立假設(shè)與零假設(shè)在邏輯上互否。在科研中,對立假設(shè)通常是說科研需要證實的那個措施,這意味著實驗成功或者具有進一步研究意義。
例如,假設(shè)我們研究某種藥物對病人的有效性。我們的零假設(shè)將是:'這種藥物對病患完全沒有影響。' (既沒有正向的影響,也沒有負(fù)向的影響)
但通常測試藥物是否有效是通過'實驗組'樣本與'對照組'樣本的差別來確定的。對照組通常會給予'安慰劑',這相當(dāng)于沒有服藥(但是對照組的病人并不知道自己是否服用了有效的藥物)。
如果實驗組的結(jié)果與對照組沒有差異,則表示藥物無效。所以零假設(shè)可以轉(zhuǎn)設(shè)為 '實驗組和對照組沒有差異'。因此,只要我們通過統(tǒng)計分析否定這個零假設(shè),即可得出支持藥物有效性的結(jié)論。
對照組
我們需要設(shè)定一個顯著性門檻的級別,即前述α值,確切的說其含義是:某假設(shè)被認(rèn)為可信時零假設(shè)可能成立的概率(這可能有點繞)。
通常α值選取為0.05(即5%)作為顯著性的門檻,但不同實驗敏感度要求不同。在某些領(lǐng)域的研究當(dāng)中,可以提高顯著性的門檻,諸如藥物測試或精密儀器制造等等,對于這些領(lǐng)域,可能選取0.01更為合適。
由于置信度= 1-α(%),因此如果α值為0.05,那么達到此門檻的測試統(tǒng)計結(jié)果置信度就為95%。
阿爾法值和雙側(cè)或單側(cè)測試的示意
(在某些資料上也被稱為one-side或two-side測試)
在獲取P值之前需要確定采用單側(cè)測試還是雙側(cè)測試更恰當(dāng)。
· 單側(cè)測試在一個方向上檢查兩組對象數(shù)據(jù)之間的關(guān)系,例如藥物使病人病情改善;
· 而雙側(cè)測試從正反兩個方向上進行測試,例如藥物使病人病情改善或者惡化。
如果您不確定結(jié)果會朝哪個方向發(fā)展,那么采用雙側(cè)測試也是OK的。
單側(cè)或者雙側(cè)的選項在最后我們在t值表上查詢p值的時候需要用到。
接下來,確定樣本數(shù)滿足統(tǒng)計需要。
實際上這是一個先決條件,必須在實驗測試之前或者在實驗后處理數(shù)據(jù)之前確定我們至少需要獲得多少樣本才能確保置信度或者顯著性能夠到達期望的顯著性標(biāo)準(zhǔn)。因為在實操當(dāng)中往往有些樣本因為無效而被排除,這很可能導(dǎo)致樣本數(shù)達不到要求,因此在完成實驗之后進行數(shù)據(jù)處理的時候也需要重新核實樣本數(shù)滿足下限要求。
確定樣本數(shù)下限,我們需要進行統(tǒng)計功效分析。如果樣本數(shù)太少會使置信度(或者顯著性)不足,造成假陰性的結(jié)論,而樣本數(shù)太多則會增加統(tǒng)計的實施成本,費了力卻討不到多少好。一般來說,統(tǒng)計功效越高假陰性的可能性就越低。
功效分析包括四個主要部分:
· 效應(yīng)量,它告訴我們結(jié)果在被統(tǒng)計群體中的影響力大小,如果效應(yīng)不足,即便顯著性達標(biāo)也不能說明結(jié)果的實用性;
· 樣本數(shù)量,它告訴我們樣本中有多少個觀測值;
· 顯著性水平,即α值;
·統(tǒng)計功效,即我們接受對立假設(shè)的概率;
許多實驗均采用80%的典型功效(或1-β,β稱為假陰性率),進行分析。這個值也只是人為確定的經(jīng)驗值,可以根據(jù)需要更改。進行功效分析可讓我們知道在指定的置信區(qū)間上達到統(tǒng)計顯著性所需的樣本數(shù)量,即通過指定β值和α值求出必要的樣本數(shù)。
由于統(tǒng)計功效計算相對復(fù)雜,一般會利用工具軟件進行計算。
α值和β值實際上對應(yīng)兩類統(tǒng)計錯誤
上圖:兩類統(tǒng)計錯誤。
足夠的樣本數(shù)就是為了盡量規(guī)避β錯誤。
標(biāo)準(zhǔn)差 s (有時也寫成 σ,全稱是'標(biāo)準(zhǔn)偏差')可以讓我們知道數(shù)據(jù)的分散程度(越大越分散)。這是統(tǒng)計學(xué)上最常用的概念,其計算也不復(fù)雜。
樣本標(biāo)準(zhǔn)差公式為:
在這個方程式中
· s 是標(biāo)準(zhǔn)偏差
· ∑ 是求和的意思
· xi 是每個單獨的數(shù)據(jù)
· 帶上劃線x 是每組數(shù)據(jù)的平均值
· n 是總樣本數(shù)量(這里用n-1而不是n是為了降低系統(tǒng)誤差,在描述性統(tǒng)計中會采用n而非n-1作為標(biāo)準(zhǔn)差計算;當(dāng)n趨近無窮大時,這兩種計算方法的結(jié)果會趨近)
(注意標(biāo)準(zhǔn)偏差和標(biāo)準(zhǔn)誤差的差別)
在上一步我們已經(jīng)求得了兩個標(biāo)準(zhǔn)差,接下來我們需要求兩組數(shù)據(jù)的標(biāo)準(zhǔn)誤差。計算公式如下:
公式中:
· SE 是兩組樣本之間差別的標(biāo)準(zhǔn)誤差
· σ1 是第一組的標(biāo)準(zhǔn)差
· n1 是第一組的樣本數(shù)量
· σ2 是第二組的標(biāo)準(zhǔn)差
· n2 是第二組的樣本數(shù)量
t分?jǐn)?shù)是用于度量估計值(或稱為一組待驗數(shù)據(jù))與已知參考值(或稱為另一組參考數(shù)據(jù))之間的平均偏離程度相對于其標(biāo)準(zhǔn)誤差的比例,這個程度可以告訴我們兩組數(shù)據(jù)是否顯著不同。計算t分?jǐn)?shù)的公式是
其中:
· t0是計算得到的分?jǐn)?shù)
· 上劃線x1-x2兩組數(shù)據(jù)平均值之差
· SE是兩組數(shù)據(jù)的標(biāo)準(zhǔn)誤差
自由度(dF)即每組變量可以有多少個值可以選擇用于分析。若兩組樣本進行比較,那么應(yīng)該用兩組樣本數(shù)相加并減去二(實際上應(yīng)該嚴(yán)格描述為各組樣本數(shù)減一再相加)。
例如:如果有兩組數(shù)據(jù)一組有10個樣本,另一組有20個樣本,那么第一組的自由度是9,第二組的自由度是19,兩組一共有28個自由度。
因為小樣本量的隨機測試均值的分布不是正態(tài)分布,而是T分布。因為T分布的計算函數(shù)比較復(fù)雜,所以一般通過查t值表來獲得P值。
下面是一個t值表:
假設(shè)我們的實驗采用單側(cè)測試,兩組數(shù)據(jù)總共有28個自由度,計算出來的t值是3.5左右。
1. 我們首先在最左側(cè)df(自由度)一列查找,找到自由度為28那一行;
2. 然后再此行搜索我們的t值,我們可以發(fā)現(xiàn)大概是在左側(cè)兩列的數(shù)值(3.408-3.674)之間;
3. 在這兩列頂部one-tail(單側(cè))一行查看對應(yīng)的p值為0.001到0.0005之間。
根據(jù)這個p值我們即可判斷,我們測試的兩組數(shù)據(jù)的差異極其顯著。
通過本文了解了P值和統(tǒng)計學(xué)顯著性的涵義之后,讀者可以在今后閱讀科研論文時嘗試?yán)斫?/strong>其中涉及統(tǒng)計學(xué)顯著性的數(shù)據(jù)的內(nèi)容。
而對于某些有數(shù)據(jù)分析能力但對統(tǒng)計學(xué)假設(shè)測試分析尚不太熟悉的讀者(包括某些統(tǒng)計應(yīng)用程序的開發(fā)者),希望這部分讀者通過本文了解了P值的算法之后,可以大概理解求取P值的統(tǒng)計學(xué)思路,以便在自己的工作中逐步嘗試?yán)斫飧嗟慕y(tǒng)計學(xué)細節(jié)(當(dāng)然具體計算還是推薦采用計算工具哈)。