第1講 實(shí)驗(yàn)性研究定量數(shù)據(jù)統(tǒng)計(jì)策略(1):
正態(tài)性檢驗(yàn)與判斷
數(shù)據(jù)分析時(shí)需要執(zhí)行的關(guān)鍵步驟之一是判斷數(shù)據(jù)的正態(tài)性(Normality)。
統(tǒng)計(jì)分析拿到數(shù)據(jù)后,首先,研究者找到研究的目標(biāo)變量,特別是主要結(jié)局指標(biāo)(Primary outcome)。接著,評價(jià)結(jié)局指標(biāo)是何種類型的(定量還是定性或者等級)。如果是定量數(shù)據(jù),正態(tài)性則是接下來需要研判的內(nèi)容了。數(shù)據(jù)可根據(jù)變量的屬性分為正態(tài)分布數(shù)據(jù)和偏態(tài)分布數(shù)據(jù)。此外,在實(shí)際分析中,我們往往會(huì)將數(shù)據(jù)其分為正態(tài)分布數(shù)據(jù)、近似正態(tài)分布數(shù)據(jù)和嚴(yán)重偏態(tài)分布數(shù)據(jù)。非正態(tài)分布數(shù)據(jù)(偏態(tài)分布)
正態(tài)分布還是非正態(tài)分布的研判非常重要。統(tǒng)計(jì)分析時(shí),如果變量值呈正態(tài)分布,統(tǒng)計(jì)描述采用均數(shù)±標(biāo)準(zhǔn)差,假設(shè)檢驗(yàn)可采用t檢驗(yàn)、F檢驗(yàn);如果變量值呈偏態(tài)分布,則要采用中位數(shù)(四分位數(shù)間距)[M(IQR),或M(P25,P75)], 假設(shè)檢驗(yàn)方法上,非參數(shù)檢驗(yàn)更合適。
將出生28天的20只大鼠隨機(jī)分成兩組,分別飼以高蛋白和低蛋白飼料,8周后觀察其體重(g)。問兩種不同飼料組別的大鼠體重正態(tài)性情況如何?數(shù)據(jù)見數(shù)據(jù)庫weight.sav.
高蛋白組:133,145,112,138,99,157,126,121,139,106,115低蛋白組:118,75,106,87,94,110,102,124,130本案例由幾個(gè)變量組成?研究的關(guān)鍵變量是什么?是什么類型的數(shù)據(jù)?本案例包括2個(gè)變量,一個(gè)是大鼠體重(g),另外一個(gè)是分組變量(高蛋白組和低蛋白組)。主要研究的結(jié)局指標(biāo)是大鼠體重,定量數(shù)據(jù)。
數(shù)據(jù)的正態(tài)性問題,可從兩個(gè)層面來探討。第一個(gè)層面是所有大鼠體重值放在一起的整體正態(tài)性,另外一個(gè)層面是高蛋白組和低蛋白組兩組數(shù)據(jù)各自正態(tài)性。前者我稱為單樣本正態(tài)性,后者為兩樣本正態(tài)性。
正態(tài)性檢驗(yàn)界面:分析—描述統(tǒng)計(jì)—探索
① 因變量列表(dependent variable):這一選框選入檢驗(yàn)變量、或者結(jié)局變量(是希望去探討的目標(biāo)變量)
② 圖:見下圖:
① 莖葉圖和直方圖,兩者都√上。特別是直方圖,可以直觀地看出數(shù)據(jù)的分布形態(tài)。
② 含檢驗(yàn)的正態(tài)圖:這一選項(xiàng)即進(jìn)行正態(tài)性檢驗(yàn)。
SPSS提供兩種正態(tài)性檢驗(yàn)結(jié)果,分別是柯爾莫戈洛夫-斯米諾夫(Kolmogorow-Smironov,KS)檢驗(yàn),另外一個(gè)是夏皮洛-威爾克(Shapiro-wilk,SW)。中文翻譯起來非常別扭,建議用英文和縮寫區(qū)別二者。二者結(jié)果均有統(tǒng)計(jì)量(statistic),df(自由度),顯著性(sig., P值)。
劃重點(diǎn):一般小樣本(2000以下)選擇SW的方法,本例亦是如此。事實(shí)上,可能大部分研究正態(tài)性檢驗(yàn)選擇SW檢驗(yàn)方法。正態(tài)性檢驗(yàn)最重要的是看“顯著性”。關(guān)于“顯著性”,我這里要強(qiáng)調(diào)幾句!第一,這是我們?nèi)n程第一次出現(xiàn)“顯著性”字樣,英文為significance,縮寫sig.。第二,顯著性的值即為P值。P值是統(tǒng)計(jì)分析最重要的結(jié)果之一。第三,如果P值<0.05,不能敘述為“具有顯著性意義”,而是“具有統(tǒng)計(jì)學(xué)意義”。本例P值=1.000,>0.05,沒有統(tǒng)計(jì)學(xué)意義。什么意思?P值是關(guān)于H0的論證。本例H0是“該樣本所在的總體為正態(tài)分布”。P值是在H0成立的情況下,得到本樣本以及更極端樣本的概率。這話說起來拗口,一種通俗(雖不嚴(yán)謹(jǐn))理解是,P值代表H0成立的可能性。P=1.000,代表“該樣本所在總體是正態(tài)分布的可能性為100%”,表明,該樣本總體分布特征與正態(tài)分布的差異沒有統(tǒng)計(jì)學(xué)意義(P>0.05)。因此,本例結(jié)論是,P=1.000>0.05,差異沒有統(tǒng)計(jì)學(xué)意義,還不能說明該樣本的總體分布是偏態(tài)分布,可以認(rèn)為該體重正態(tài)性是符合的。此外,直方圖能夠較直觀判斷數(shù)據(jù)分布特征。可以看出,體重大致屬于中間多兩邊少的正態(tài)分布。多樣本正態(tài)性與單樣本正態(tài)性檢驗(yàn)相似,但“探索”界面稍有不同。① 因子列表(Factor variable):這一選框選入分組變量、或者原因變量。本研究分組變量為group(飼料類型),可以分為2組。
② 圖:見單樣本正態(tài)性檢驗(yàn),此處略
多樣本正態(tài)性檢驗(yàn)結(jié)果及解釋
經(jīng)SW檢驗(yàn),結(jié)果為:高蛋白組體重P=0.977,低蛋白組體重P=0.974,沒有統(tǒng)計(jì)學(xué)意義,兩組數(shù)據(jù)正態(tài)性均符合。
以上為規(guī)規(guī)矩矩的正態(tài)性檢驗(yàn)過程,看明白了嗎?正態(tài)性檢驗(yàn)的實(shí)際應(yīng)用
正態(tài)性檢驗(yàn),特別是SW檢驗(yàn),是統(tǒng)計(jì)分析基礎(chǔ)的工作,任何時(shí)候拿到定量數(shù)據(jù),第一反應(yīng)應(yīng)是考慮數(shù)據(jù)的分布,進(jìn)行探索性的分析,看是否符合正態(tài)性。
不過,值得注意的是,正態(tài)性檢驗(yàn)雖然嚴(yán)謹(jǐn),實(shí)際應(yīng)用上,可能并不是作為數(shù)據(jù)正態(tài)性判斷的唯一依據(jù)。特別是較大樣本時(shí),P<0.05的正態(tài)性檢驗(yàn)結(jié)果并不能認(rèn)為就是偏態(tài)分布而采用非參數(shù)檢驗(yàn)的方法。經(jīng)常有同學(xué)問“我的數(shù)據(jù)正態(tài)性檢驗(yàn)P<0.05,就不能用均數(shù)和標(biāo)準(zhǔn)差描述,不能用t檢驗(yàn)和F檢驗(yàn)了嗎”。其實(shí),也沒有不那么絕對。實(shí)際統(tǒng)計(jì)策略方面,諸位可以將數(shù)據(jù)分布分為三類:正態(tài)分布、近似正態(tài)分布數(shù)據(jù)和嚴(yán)重偏態(tài)分布數(shù)據(jù)。第2類:正態(tài)分布不符合,P<0.05,但直方圖還是呈現(xiàn)大致的中間多兩邊少,無嚴(yán)重極端值;第3類:正態(tài)分布不符合,P<0.05,數(shù)據(jù)嚴(yán)重偏態(tài),或者存在明顯極端異常值第1類(左)和第2類(右)數(shù)據(jù)的正態(tài)曲線圖第3類數(shù)據(jù)的正態(tài)圖:存在嚴(yán)重極端值(左)、嚴(yán)重偏態(tài)分布(右)一般情況下,前兩類仍然可以用均數(shù)及標(biāo)準(zhǔn)差描述,用t檢驗(yàn)和F檢驗(yàn)進(jìn)行統(tǒng)計(jì)推斷,后者須用非參數(shù)檢驗(yàn)。此外,判斷數(shù)據(jù)正態(tài)性的另外一種主觀性的思路是,直接看數(shù)據(jù)的均數(shù)和標(biāo)準(zhǔn)差大小。如果一組正態(tài)分布的數(shù)據(jù)觀察值全部是正值,一般來說,均數(shù)要遠(yuǎn)遠(yuǎn)大于標(biāo)準(zhǔn)差。總結(jié)來說,判斷數(shù)據(jù)正態(tài)性,需要結(jié)合直方圖和正態(tài)性檢驗(yàn),將數(shù)據(jù)分布分為三大類,在此基礎(chǔ)上分別選擇不同的統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì)描述和統(tǒng)計(jì)推斷。
帶字幕去水印的視頻可復(fù)制以下地址瀏覽器打開https://evod.zcmu.edu.cn/category.html?stationID=1&resourceMode=1&resourceAttr=1&categoryId=183