前言
寫(xiě)這個(gè)東西的目的是針對(duì)我們研究生在實(shí)驗(yàn)中所遇到的一些需要進(jìn)行數(shù)理統(tǒng)計(jì)的事實(shí)而進(jìn)行的。也許我們能夠看到許多論文中都有諸如單因素方差分析、多重比較、卡方檢驗(yàn)、一元線性回歸這樣的結(jié)果。一方面,我們佩服作者能夠得到這樣一個(gè)很好的實(shí)驗(yàn)結(jié)果,但是另一方面,如果我們有和作者數(shù)據(jù)相似的數(shù)據(jù)或者數(shù)據(jù)結(jié)構(gòu)一樣的數(shù)據(jù),如何通過(guò)數(shù)理統(tǒng)計(jì)來(lái)達(dá)到相同或者相似的結(jié)論呢。
也許我們?cè)诒究齐A段以及接觸過(guò)了數(shù)理統(tǒng)計(jì)的基礎(chǔ)知識(shí),這里我不想再重復(fù)這個(gè)過(guò)程。如果這個(gè)方面有所欠缺,建議你可以翻閱有關(guān)數(shù)理統(tǒng)計(jì)的相關(guān)書(shū)籍,《生物統(tǒng)計(jì)付實(shí)驗(yàn)設(shè)計(jì)》就是這樣一本很好的教材。如果我們已經(jīng)掌握了數(shù)理統(tǒng)計(jì)的基礎(chǔ)知識(shí),只是在實(shí)際運(yùn)用中不知如何去運(yùn)用軟件或者現(xiàn)在還不知道用哪些軟件。那么,我隆重推薦SAS軟件,這個(gè)軟件的好處在于,第一,它是國(guó)際上數(shù)理統(tǒng)計(jì)最為標(biāo)準(zhǔn)的軟件,其他軟件都是按照這個(gè)軟件的原理的方法進(jìn)行設(shè)計(jì)的。第二,SAS軟件中的編程部分使得你可以隨心所欲的編寫(xiě)你需要進(jìn)行統(tǒng)計(jì)的統(tǒng)計(jì)量、統(tǒng)計(jì)過(guò)程以及最后的顯示方式,SAS編程已經(jīng)成為了一門(mén)專業(yè)的計(jì)算機(jī)語(yǔ)言,其語(yǔ)法靈活,簡(jiǎn)單易學(xué)。第三,SAS軟件表現(xiàn)出對(duì)數(shù)量的強(qiáng)大的預(yù)處理功能,這是其他數(shù)理統(tǒng)計(jì)軟件所欠缺的。第四,SAS軟件可以從網(wǎng)站上容易的獲取,其對(duì)系統(tǒng)的要求也不高,可以兼容許多計(jì)算機(jī)版本。第五,SAS軟件的分析結(jié)果比較直觀,基本上都有注釋,只要你有一定的英語(yǔ)水平,看懂SAS分析結(jié)果應(yīng)該不是一件困難的事情。
這里,我不再論述SAS軟件系統(tǒng)的一些強(qiáng)大的可視化操作功能部分以及數(shù)據(jù)的預(yù)處理部分,這些部分可以通過(guò)SAS-GUIDE自己學(xué)到,我只是把一些我們能夠經(jīng)常用到的SAS程序給大家分享一下,同時(shí)也說(shuō)明這些過(guò)程或者程序?qū)?shù)據(jù)進(jìn)行了那些操作,將得到什么樣的結(jié)果。希望大家在處理數(shù)據(jù)的時(shí)候能夠?qū)μ?hào)入座,將自己的數(shù)據(jù)跟例題的數(shù)據(jù)進(jìn)行比較,將自己所要統(tǒng)計(jì)的東西跟例題進(jìn)行比較,我想這樣最起碼我們能夠發(fā)揮自己的聰明才智,在對(duì)SAS系統(tǒng)不是很了解的情況下也可以使用其部分功能完成自己的工作。
大家在使用SAS軟件分析數(shù)據(jù)時(shí)有任何問(wèn)題可以聯(lián)系本人(QQ:549875752,Tel:15105605836),此外由于本人水平有限,編寫(xiě)中難免有所錯(cuò)誤和遺漏,歡迎各位同學(xué)和老師批評(píng)指正。
描述性統(tǒng)計(jì)MEANS過(guò)程
一、描述性統(tǒng)計(jì):是描述一個(gè)整體(相同處理相同的情況)的平均數(shù)、方差、分布、峰態(tài)等總體情況的統(tǒng)計(jì)。
二、SAS中描述性統(tǒng)計(jì)的過(guò)程:
SAS中用于描述性統(tǒng)計(jì)的過(guò)程有很多,主要有MEANS、SUMMARY、UNIVARIATE三個(gè)過(guò)程,這里我們著重講解MEANS過(guò)程。因MEANS過(guò)程除了可以用于描述性統(tǒng)計(jì)以外,還可以用于單個(gè)樣本總體均數(shù)的t檢驗(yàn)過(guò)程,且MEANS過(guò)程可以滿足大部分用戶的需要,所以單樣本總體均數(shù)t檢驗(yàn)過(guò)程不再贅述。
三、MEANS過(guò)程的可選項(xiàng):
N:觀察值個(gè)數(shù)
NMISS:缺失值個(gè)數(shù)
MEAN:平均數(shù)
STD:標(biāo)準(zhǔn)差
MIN:最小值
MAX:最大值
RANGE:極差=最大值-最小值
SUM:總和
VAR:方差
USS:平方和
CSS:矯正平方和
CV:變異系數(shù)
STDERR:標(biāo)準(zhǔn)誤=標(biāo)準(zhǔn)差/變量個(gè)數(shù)
T:在H0:u=0時(shí)的t值
PRT或PRBOT:在H0:u=0時(shí)t大于t的概率
SKEWNESS:偏度
KURTOSIS:峰度
CLM:95%置信區(qū)間
LCLM:95%置信區(qū)間下限
UCLM:95%置信區(qū)間上限
MAXDEC:小數(shù)點(diǎn)后位數(shù)
四、一個(gè)MEANS過(guò)程統(tǒng)計(jì)程序:
data ;
Input x@@;
Cards;
1.2 1.5 1.7 2.1 2.5 2.1 1.7 2,1 1.5 1.1 1.5 2.1(此處為數(shù)據(jù))
;
Proc means n sum mean var std stderr cv clm skewness range maxdec=3;
Run;
五、運(yùn)行結(jié)果:
六:說(shuō)明
本程序演示了如何用MEANS過(guò)程進(jìn)行描述性統(tǒng)計(jì)。在data語(yǔ)句后直接輸入變量x,后面兩個(gè)@是指數(shù)據(jù)將按行輸入。cards語(yǔ)句用于輸入數(shù)據(jù),輸入完畢之后空一行加一個(gè)分號(hào)表示數(shù)據(jù)輸入完畢,然后調(diào)用SAS的means過(guò)程,直接在后面寫(xiě)需要MENAS過(guò)程統(tǒng)計(jì)的選項(xiàng)就可以了。(SAS不區(qū)分大小寫(xiě))
七:用MEANS過(guò)程統(tǒng)計(jì)單樣本總體均數(shù)t檢驗(yàn)
單樣本總體均數(shù)t檢驗(yàn)過(guò)程是指已知一個(gè)樣本和一個(gè)已知平均數(shù)的總體,問(wèn)題是如何判斷樣本是否來(lái)自于總體。例如根據(jù)以往經(jīng)驗(yàn)?zāi)硻C(jī)器生產(chǎn)的螺母直徑平均值為d=5.01cm,而某一次抽取了該機(jī)器生產(chǎn)的一批螺母,得到其直徑數(shù)據(jù)如下,問(wèn)該機(jī)器在這一次抽檢中生產(chǎn)的螺母比以往是否有顯著差異。
4.7 5.2 4.6 5.1 5.09 4.98 4.87 5.01 5.1 5.09
4.78 5.1 4.87 4.9 5.07 5.12 5.31 5.12 4.75 4.77
編寫(xiě)程序如下:
data;
Input x@@;
Y=x-5.01;
Cards;
4.7 5.2 4.6 5.1 5.09 4.98 4.87 5.01 5.1 5.09
4.78 5.1 4.87 4.9 5.07 5.12 5.31 5.12 4.75 4.77
;
Proc means n mean std t probt;
Var y;
Run;
運(yùn)行結(jié)果:
說(shuō)明:這里,因?yàn)镸EANS過(guò)程只能統(tǒng)計(jì)總體均數(shù)為0時(shí)的t值和p值,所以我們構(gòu)建了一個(gè)新的變量y(y=x-5.01),然后通過(guò)統(tǒng)計(jì)y在總體均數(shù)等于0情況下的t和p就可以得到x在總體均數(shù)等于5.01情況下的t和p。通過(guò)SAS運(yùn)行結(jié)果,p值>0.05,表明差異不顯著,即此次抽檢的螺母比以往生產(chǎn)的沒(méi)有顯著差異,如果p<0.05則表明差異顯著,樣本不是來(lái)自于總體。
八、數(shù)據(jù)預(yù)處理:
有一些直接由機(jī)器讀入的數(shù)據(jù)會(huì)因?yàn)闄C(jī)器信號(hào)的偏差出現(xiàn)某些不合理的波動(dòng),例如在測(cè)含氧量時(shí),由于含氧量不可能是負(fù)值而一些十分接近0的數(shù)值有時(shí)會(huì)因機(jī)器波動(dòng)而“由正變負(fù)”,顯然這些負(fù)數(shù)我們是要在統(tǒng)計(jì)分析之前剔除的,此時(shí)可以用SAS中自帶的數(shù)據(jù)預(yù)處理解決問(wèn)題。例如數(shù)據(jù)如下:
15 21 31 16 21 35 37 12 16 19 21 23
22 27 19 28 23 37 28 39 39 27 35 33
36 17 22 27 29 27 30 31 35 37 33 28
16 27 28 32 37 36 38 29 31 37 32 31
27 27 15 18 27 18 27 21 21 32 37 39
要從這60個(gè)數(shù)據(jù)中剔除20以下的數(shù)據(jù)然后進(jìn)行MEANS統(tǒng)計(jì),可以編寫(xiě)程序如下:
data;
Input x@@;
If x<20 then delete;
Cards;
15 21 31 16 21 35 37 12 16 19 21 23
22 27 19 28 23 37 28 39 39 27 35 33
36 17 22 27 29 27 30 31 35 37 33 28
16 27 28 32 37 36 38 29 31 37 32 31
27 27 15 18 27 18 27 21 21 32 37 39
;
Proc means n mean std cv;
Run;
運(yùn)行結(jié)果:
可以看到,符合條件的數(shù)據(jù)(大于等于20)只有49個(gè),這些數(shù)的平均數(shù)為30.16。
兩樣本總體均數(shù)T檢驗(yàn)
一、兩樣本總體均數(shù)T檢驗(yàn)用于檢驗(yàn)兩個(gè)總體平均數(shù)是否有顯著差異。是通過(guò)對(duì)兩個(gè)總體進(jìn)行抽樣實(shí)驗(yàn),根據(jù)樣本的特征來(lái)判斷這兩個(gè)總體是否具有顯著差異的一種方法。
二、兩樣本總體均數(shù)T檢驗(yàn)過(guò)程分為總體方差齊次和總體方差不齊次兩種情況??傮w方差齊次是建立在假設(shè)兩樣本所在總體的方差相等的情況下進(jìn)行的,而總體方差不齊次建立在兩樣本所在總體方差不等的情況下進(jìn)行。
三、SAS的T檢驗(yàn)過(guò)程可以將兩種假設(shè)同時(shí)計(jì)算結(jié)果,并且通過(guò)方差分析來(lái)判斷兩樣本方差的齊次情況。
四、一個(gè)T檢驗(yàn)實(shí)例:
隨機(jī)對(duì)20名中國(guó)人和25名法國(guó)人的身高進(jìn)行了測(cè)定,數(shù)據(jù)如下,統(tǒng)計(jì)分析中國(guó)人身高和法國(guó)人身高是否有顯著差異。
中國(guó)人身高(m):
1.72 1.68 1.81 1.73 1.75 1.77 1.82 1.85 1.9 1.73
1.75 1.70 1.69 1.65 1.50 1.72 1.76 1.82 1.8 1.79
法國(guó)人身高(m):
1.81 1.72 1.69 1.77 1.83 1.85 1.79 1.82 1.85 1.91
1.83 1.75 1.77 1.79 1.82 1.83 1.88 1.73 1.78 1.82
1.79 1.74 1.73 1.75 1.79
編寫(xiě)程序如下:
data;
input S$ n;
Do a=1 to n;
Input x@@;
Output;
End;
Cards;
CHN 20
1.72 1.68 1.81 1.73 1.75 1.77 1.82 1.85 1.9 1.73
1.75 1.70 1.69 1.65 1.50 1.72 1.76 1.82 1.8 1.79
FRN 25
1.81 1.72 1.69 1.77 1.83 1.85 1.79 1.82 1.85 1.91
1.83 1.75 1.77 1.79 1.82 1.83 1.88 1.73 1.78 1.82
1.79 1.74 1.73 1.75 1.79
;
Proc ttest;
Class s;
Var x;
Run;
運(yùn)行結(jié)果:
說(shuō)明:這里是兩組數(shù)據(jù)之間的比較,前面輸入S$代表屬于一個(gè)S,這個(gè)S是一個(gè)字符變量(組名),后面的n表明每一組數(shù)據(jù)的個(gè)數(shù)。后面用到一個(gè)循環(huán)語(yǔ)句進(jìn)行輸入,即do……end語(yǔ)句,這里,對(duì)于酶一個(gè)組,循環(huán)數(shù)從1循環(huán)到n,然后輸入每組的n個(gè)數(shù)據(jù)。因此,cards語(yǔ)句后面的數(shù)據(jù)輸入方法是:先輸入組名(CHN或者FRN),然后輸入這一組數(shù)據(jù)個(gè)數(shù)(20或者25),然后輸入此組數(shù)據(jù)。調(diào)用ttest過(guò)程對(duì)兩組數(shù)據(jù)進(jìn)行t檢驗(yàn),分組表示是以S分組,統(tǒng)計(jì)變量是x。結(jié)果表明,在Statistics表中列出了兩組每一組的平均數(shù)、方差、以及方差的95%上下限,在T-Tests表中給出按照兩種方法計(jì)算出的t值和p值。我們看到,無(wú)論是按照方差齊次(Equal)還是方差不齊次(Unequal),中國(guó)人的身高和法國(guó)人的身高之間都有顯著的差異。而從Equality of Variances表中我們可以看到,這兩組數(shù)據(jù)方差齊次的概率為p>F=0.0277,所以可以認(rèn)為此兩種數(shù)據(jù)方差不齊次。
五、其他方法輸入數(shù)據(jù):
1、在每一個(gè)數(shù)據(jù)之前都加上其所在的組,這個(gè)程序可以這樣寫(xiě):
data;
Input s$ x@@;
Cards;
CHN 1.72 CHN 1.68 CHN 1.81 CHN 1.73 CHN 1.75 CHN 1.77 CHN 1.82 CHN 1.85 CHN 1.9 CHN 1.73 CHN 1.75 CHN 1.70 CHN 1.69 CHN 1.65 CHN 1.50 CHN 1.72 CHN 1.76 CHN 1.82 CHN 1.8 CHN 1.79
FRN 1.81 FRN 1.72 FRN 1.69 FRN 1.77 FRN 1.83 FRN 1.85 FRN 1.79 FRN 1.82 FRN 1.85 FRN 1.91 FRN 1.83 FRN 1.75 FRN 1.77 FRN 1.79 FRN 1.82 FRN 1.83 FRN 1.88 FRN 1.73 FRN 1.78 FRN 1.82
FRN 1.79 FRN 1.74 FRN 1.73 FRN 1.75 FRN 1.79
;
Proc ttest;
Class s;
Var x;
Run;
2、如果每組數(shù)據(jù)個(gè)數(shù)相同,可以用兩個(gè)循環(huán)來(lái)輸入數(shù)據(jù)。例如,分別測(cè)得在輻照和正常情況下5只小樹(shù)的體重,統(tǒng)計(jì)分析輻照對(duì)小鼠體重有無(wú)影響:
輻照組:21.5 20.5 23.1 23.2 21.9
正常組:19.3 19.7 18.7 18.5 21.7
程序如下:
data;
Do a=1 to 2;
Do i=1 to 5;
Input x@@;
Output;
End;
End;
Cards;
21.5 20.5 23.1 23.2 21.9
19.3 19.7 18.7 18.5 21.7
;
Proc ttest;
Class a;
Var x;
Run;
運(yùn)行結(jié)果:
這里,1代表輻照組,2代表正常組,可以看到,輻照組和正常組小鼠體重差異顯著。輻照對(duì)小鼠的體重有影響。
六、配對(duì)樣本的t檢驗(yàn):
所謂配對(duì)樣本是指同一個(gè)實(shí)驗(yàn)對(duì)象在處理前后有無(wú)顯著差異。還以上面輻照的數(shù)據(jù)為例,假設(shè)現(xiàn)在是輻照前后每只小鼠的體重一一對(duì)應(yīng),這樣就構(gòu)成了一個(gè)配對(duì)樣本。配對(duì)樣本進(jìn)行t檢驗(yàn)時(shí)也是劃歸MEANS過(guò)程中總體均數(shù)等于0的t檢驗(yàn)??梢詫?xiě)程序如下:
data;
Input x y;
D=x-y;
Cards;
21.5 19.3
20.5 19.7
23.1 18.7
23.3 18.5
21.9 21.7
;
Proc means n mean std t probt;
Var d;
Run;
可以看到,如果假設(shè)數(shù)據(jù)是配對(duì)樣本,概率為0.0554,差異不顯著。也就是說(shuō),同樣一組數(shù)據(jù),不同的實(shí)驗(yàn)方法和不同的假設(shè)條件時(shí)統(tǒng)計(jì)結(jié)果可能是不一樣的!
單因素方差分析
一、單因素方差分析是考慮單一因素對(duì)實(shí)驗(yàn)是否有影響,即不同條件處理時(shí)有無(wú)顯著差異。單因素方差分析適合于3組或者3組以上的數(shù)據(jù)進(jìn)行比較。
二、單因素方差分析往往后續(xù)多重比較,方差分析只是分析出不同條件下是否有差異,至于不同條件的兩兩比較則需要通過(guò)多重比較來(lái)進(jìn)行判斷。
三、SAS系統(tǒng)中有專門(mén)進(jìn)行單因素方差分析的過(guò)程ANOVA,對(duì)于之后的多重比較,則最多使用DUNCAN比較,除DUNCAN之外,還可以進(jìn)行LSD比較以及T檢驗(yàn)比較。
四、例如,給小白鼠飼喂3種飼料一個(gè)月,分別測(cè)得其體重為(g)如下,試比較這3種飼料對(duì)于小白鼠的體重有無(wú)顯著差異。
1號(hào)飼料: 18.5 18.7 19.1 20.3 19.5 18.9 19.2 19.6 18.9 19.5
2號(hào)飼料: 21.3 23.2 19.9 20.8 21.1 22.7 19.9 21.3 23.1 22.7
3號(hào)飼料: 17.6 18.7 17.5 18.2 17.9 17.1 18.7 19.2 18.7 18.8
編寫(xiě)程序如下:
Data;
Do a=1 to 3; (總共3組,分別為1組、2組、3組)
Do i=1 to 10; (每組10個(gè)數(shù)據(jù))
input x@@;
Output;
End;
End;
Cards;
18.5 18.7 19.1 20.3 19.5 18.9 19.2 19.6 18.9 19.5
21.3 23.2 19.9 20.8 21.1 22.7 19.9 21.3 23.1 22.7
17.6 18.7 17.5 18.2 17.9 17.1 18.7 19.2 18.7 18.8
;
Proc anova;
Class a;
Model x=a;
Means a;
Means a/duncan;
Means a/duncan alpha=0.01;
Run;
運(yùn)行結(jié)果如下:
說(shuō)明:本程序用了兩個(gè)循環(huán)語(yǔ)句輸入數(shù)據(jù),大的循環(huán)語(yǔ)句用于輸入組號(hào),從1循環(huán)到3,內(nèi)部循環(huán)用于輸入每組的10個(gè)數(shù)據(jù)。然后在輸入數(shù)據(jù)后調(diào)用anova過(guò)程,指定分組變量為a(class a;)然后指定統(tǒng)計(jì)模型中試驗(yàn)誤差來(lái)源于a (model x=a;),然后以a為分組每組進(jìn)行一個(gè)簡(jiǎn)單的描述性統(tǒng)計(jì),即語(yǔ)句means a;最后進(jìn)行duncan的多重比較。在進(jìn)行duncan多重比較時(shí),分組變量還是a,而比較的水平使用了兩個(gè),一個(gè)是默認(rèn)的0.05,一個(gè)是我們指定的0.01。即語(yǔ)句 means a/duncan 后如果不加alpha,則表示用duncan多重比較,顯著水平為0.05(即在5%的水平進(jìn)行顯著性比較),如果加上alpha=數(shù)字,則表示以數(shù)字作為顯著水平,這里,我們使用了means a/duncan alpha=0.01。(在1%水平進(jìn)行顯著性比較)。結(jié)果有5頁(yè),第一頁(yè)告訴我們SAS系統(tǒng)對(duì)a=1、2、3的3個(gè)組的數(shù)據(jù)進(jìn)行了anova過(guò)程,攻擊30個(gè)數(shù)據(jù)。第二頁(yè)列出了方差分析的結(jié)果,從結(jié)果中我們可以看到,p>F=0.0001,說(shuō)明組建差異顯著。第3頁(yè)則是對(duì)每一個(gè)組進(jìn)行了簡(jiǎn)單的統(tǒng)計(jì),包括數(shù)據(jù)個(gè)數(shù)、平均數(shù)和標(biāo)準(zhǔn)差。第4頁(yè)和第5頁(yè)是duncan多重比較的結(jié)果,其中第4頁(yè)是在顯著水平alpha=0.05情況下進(jìn)行的,由于3個(gè)組所在的duncan group(鄧肯分組)沒(méi)有相同字母(三個(gè)組是a、b、c),所以3個(gè)組兩兩之間都是差異顯著的。而第5頁(yè)是在顯著水平alpha=0.01情況下進(jìn)行的,我們可以看到,第2組和第1、第3組之間沒(méi)有相同字母,所以第2組和第1組、第3組之間差異極顯著(達(dá)到0.01水平),而第1組和第3組之間有相同字母,所以第1組和第3組差異沒(méi)有達(dá)到0.01顯著水平。這里,我們可以看到,使用0.05水平時(shí),第1組和第3組之間差異顯著,而使用0.01水平時(shí)這兩組之間沒(méi)有顯著差異,也就是說(shuō),我們有95%~99%的把握說(shuō)這兩組之間有區(qū)別的。注意,統(tǒng)計(jì)學(xué)只能從一定概率上做出某種判斷,至于這種判斷是否真正準(zhǔn)確,還需要實(shí)驗(yàn)的進(jìn)一步驗(yàn)證。
五、每組數(shù)據(jù)個(gè)數(shù)不同的單因素方差分析
如果每一組數(shù)據(jù)個(gè)數(shù)不相同,則可以采用輸入每組個(gè)數(shù)后用內(nèi)部小循環(huán)的方式輸入數(shù)據(jù),這種輸入數(shù)據(jù)的方式有點(diǎn)類似于T檢驗(yàn)時(shí)的輸入方式。例如,分別測(cè)得3個(gè)細(xì)菌在培養(yǎng)10小時(shí)后的OD值,數(shù)據(jù)如下,試統(tǒng)計(jì)分析這3種細(xì)菌的生長(zhǎng)有無(wú)顯著差異。
細(xì)菌1:0.8 1.2 1.5 1.4 0.7
細(xì)菌2:1.6 1.9 2.1 1.6 1.8 1.9
細(xì)菌3:0.7 0.5 1.0 0.6 0.4 0.5 1.1 1.0
編寫(xiě)SAS程序如下:
data;
Do a=1 to 3;
Input n;
Do i=1 to n;
Input x@@;
Output;
End;
End;
Cards;
5
0.8 1.2 1.5 1.4 0.7
6
1.6 1.9 2.1 1.6 1.8 1.9
8
0.7 0.5 1.0 0.6 0.4 0.5 1.1 1.0
;
Proc anova;
Class a;
Model x=a;
Means a;
Means a/duncan;
Means a/duncan alpha=0.01;
Run;
運(yùn)行結(jié)果:
這里結(jié)果與上述數(shù)據(jù)個(gè)數(shù)相等的程序相似,不再贅述。
雙因素方差分析
一、雙因素方差分析是統(tǒng)計(jì)兩個(gè)變化因素是否對(duì)實(shí)驗(yàn)有影響,適合于每個(gè)因素有3個(gè)或者3個(gè)以上的不同水平的統(tǒng)計(jì)。
二、較之單因素方差分析,雙因素方差分析可以剖析出兩個(gè)因素各自對(duì)實(shí)驗(yàn)的作用,還可以剖析出兩個(gè)因素的共同作用(交互作用)。所謂交互作用是指兩個(gè)因素共同對(duì)實(shí)驗(yàn)數(shù)據(jù)所產(chǎn)生的影響。例如,在生產(chǎn)性能測(cè)試中,動(dòng)物的品種和飼料是最重要的兩個(gè)方面,但是,并不是最好的品種飼喂最好的飼料就能得到最好的結(jié)果。
三、SAS系統(tǒng)的glm過(guò)程專門(mén)來(lái)解決這一類需要剖析兩個(gè)因素的交互作用的統(tǒng)計(jì)過(guò)程。運(yùn)用glm過(guò)程時(shí),也可以進(jìn)行duncan多重比較。
四、例如,給3個(gè)品系的小鼠飼喂4種不同的飼料,分別測(cè)得在飼喂1周后體重增加(g)為:
品系飼料1飼料2飼料3飼料4
11.2 1.3 1.5 1.5 1.00.7 1.1 0.9 1.1 0.81.5 1.7 1.9 2.1 2.50.2 0.5 0.4 0.9 0.7
21.5 1.7 1.4 1.3 1.21.1 1.3 1.4 0.8 1.11.2 1.4 0.9 0.9 1.10.7 0.9 1.1 1.2 0.8
31.2 1.5 1.7 1.7 0.91.8 1.7 1.4 1.5 1.31.9 2.1 2.3 2.3 1.8 0.6 1.1 1.0 0.8 1.2
五、編寫(xiě)SAS程序如下:
Data;
Do a=1 to 3; (3個(gè)品系)
Do b=1 to 4; (4種飼料)
Do i=1 to 5; ( 每組5個(gè)數(shù))
Input x@@;
Output;
End;
End;
End;
Cards;
1.2 1.3 1.5 1.5 1.0 0.7 1.1 0.9 1.1 0.8 1.5 1.7 1.9 2.1 2.5 0.2 0.5 0.4 0.9 0.7 1.5 1.7 1.4 1.3 1.2 1.1 1.3 1.4 0.8 1.1 1.2 1.4 0.9 0.9 1.1 0.7 0.9 1.1 1.2 0.8 1.2 1.5 1.7 1.7 0.9 1.8 1.7 1.4 1.5 1.3 1.9 2.1 2.3 2.3 1.8 0.6 1.1 1.0 0.8 1.2
;
Proc glm;
Class a b;
Model x=a b a*b;
Means a;
Means a/duncan;
Means b;
Means b/duncan;
Lsmeans a*b/stderr tdiff pdiff;
Run;
運(yùn)行結(jié)果:
說(shuō)明:上述幾個(gè)結(jié)果中,有很多于單因素方差分析的結(jié)果類似,這里不再贅述,值得提出的是,glm過(guò)程算出了兩個(gè)交互作用a(品系)和b(飼料)之間的交互作用即a*b的p值也是小于0.0001的,也就是說(shuō),這兩個(gè)作用之間的交互作用也是差異顯著的,不同的品種飼喂不同的飼料對(duì)于體重的增加差異顯著。值得我們關(guān)注的是,在分別對(duì)a、b兩個(gè)因素進(jìn)行單因素方差分析之后,SAS系統(tǒng)給出了兩個(gè)因素交互作用的統(tǒng)計(jì)表(Least Square Means for a*b)。在這個(gè)統(tǒng)計(jì)表中,先用一個(gè)表頭分別說(shuō)明表中編號(hào)為1~12的12組分別對(duì)應(yīng)于a因素和b因素等于多少的組,然后是一個(gè)這12組之間的兩兩比較,比如第1組和第2組之間的比較,
從表中得出這兩組平均數(shù)之差等于2.40,概率p等于0.02,也就是說(shuō)這兩組之間差異顯著(p<0.05)。值得一題的是,由于1組和2組比較的結(jié)果應(yīng)該同2組與1組比較的結(jié)果一致,所以,實(shí)際上這個(gè)表我們只需要看上半部分(上三角部分)或者下半部分(下三角部分)就可以說(shuō)明情況了。
卡方檢驗(yàn)和聯(lián)表分析
一、卡方檢驗(yàn):當(dāng)樣本中的樣品數(shù)量比較少的時(shí)候,我們不適合把整體看成一個(gè)正態(tài)分布。這個(gè)時(shí)候我們需要進(jìn)行卡方檢驗(yàn)。實(shí)際運(yùn)用中,卡方檢驗(yàn)主要有兩個(gè)用途,一是檢驗(yàn)?zāi)炒螌?shí)驗(yàn)數(shù)據(jù)是否滿足某一理論上的比值,二是檢驗(yàn)?zāi)硟蓚€(gè)觀察因素之間有沒(méi)有顯著性的相關(guān)性。
二、SAS系統(tǒng)中沒(méi)有自帶這兩個(gè)過(guò)程,我們需要通過(guò)自己寫(xiě)一些SAS代碼來(lái)自行實(shí)現(xiàn)此兩項(xiàng)的功能。
三、檢驗(yàn)?zāi)骋淮螌?shí)驗(yàn)數(shù)據(jù)是否滿足某一理論比值,例如在孟德?tīng)柾愣闺s交實(shí)驗(yàn)中,得到F2代飽滿的果實(shí)200株,而皺癟的果實(shí)59株。我們知道,在一對(duì)相對(duì)性狀遺傳中,F(xiàn)2代顯性和隱性性狀比應(yīng)該滿足3:1,而實(shí)際實(shí)驗(yàn)中比值卻不是標(biāo)準(zhǔn)的3:1。那么,實(shí)際中得到的這個(gè)比值是否由于實(shí)驗(yàn)誤差造成了偏離。
四、編寫(xiě)SAS程序如下:
Data;
Input n1 n2;
N=n1+n2;
En1=n*3/4;
En2=n*1/4;
Chi=(n1-en1)*(n1-en1)/en1+(n2-en2)*(n2-en2)/en2;
P=1-probchi(chi,1);
Cards;
200 59
;
Proc print;
Run;
運(yùn)行結(jié)果:
說(shuō)明:用卡方檢驗(yàn)是,卡方值chi等于每個(gè)觀察數(shù)值減去理論數(shù)值的平方除以理論數(shù)值后的總和,這里,en1和en2代表理論上n1和n2 的值,而n1和n2則為實(shí)際上n1、n2的和,而后面的p代表差異顯著的概率,等于1減去小于chi值的卡方概率。這里直接用print將運(yùn)行結(jié)果輸出,可以看到,p值等于0.409,差異不顯著,即實(shí)際中得到的數(shù)值符合理論上的3:1比例。
五、檢查兩因素有無(wú)關(guān)聯(lián)性,例如某次研究吸煙和肺癌之間的關(guān)系時(shí),得到下列表格,試分析吸煙和肺癌之間有無(wú)關(guān)聯(lián)。
吸煙不吸煙
得肺癌3912
不得肺癌1828
編寫(xiě)SAS程序如下:
data;
Do a=1 to 2; (肺癌是否發(fā)生)
Do b=1 to 2; (是否吸煙)
Input x@@;
Output;
End;
End;
Cards;
39 12
18 28
;
Proc freq formchar(1,2,7)=’|-+’; (此行由于word中符號(hào)不兼容,需要在SAS中重寫(xiě))
Table a*b/chisq expected;
Weight x;
Run;
運(yùn)行結(jié)果:
說(shuō)明:這里,SAS系統(tǒng)給出一張統(tǒng)計(jì)表,上表中的第二行數(shù)字是每個(gè)格子中的理論值。從下表中我們可以看到,似然卡方值Likelihood Ratio Chi-Square 為14.24,概率為Prob=0.0002,差異顯著,說(shuō)明吸煙和肺癌之間具有相關(guān)性。
六:這里我們給出一些通過(guò)編寫(xiě)SAS程序來(lái)完成T檢驗(yàn)的實(shí)例。
1、某一次期末考試,1班同學(xué)有60人,其中32人在85分以上,優(yōu)秀率為0.37。2班同學(xué)有65人,45人在85分以上,優(yōu)秀率為0.69。試分析兩班的優(yōu)秀率是否有顯著差異。
SAS編程如下:
Data;
Input n1 m1 n2 m2;
N=n1+n2;
M=m1+m2;
p1=n1/m1;
P2=n2/m2;
P=(n1+n2)/(m1+m2);
Sp=sqrt(p*(1-p)*(1/m1+1/m2));
T=abs(p1-p2)/sp;
Prob=2*(1-probt(t,m1+m2-2));
Cards;
32 60
45 65
;
Proc print;
Run;
運(yùn)行結(jié)果:
說(shuō)明:按照百分?jǐn)?shù)T檢驗(yàn)公式T=|p1-p2|/sp,其中sp=
,pt=(n1+n2)/(m1+m2)其中n1=32,m1=60,n2=45,m2=65。中統(tǒng)計(jì)結(jié)果可以看到,prob值為0.07,大于0.05,說(shuō)明兩個(gè)班級(jí)優(yōu)秀率差異不顯著。
2、某工廠對(duì)兩臺(tái)機(jī)器生產(chǎn)的螺母進(jìn)行抽樣,從第一臺(tái)機(jī)器中抽取了100個(gè)樣品,計(jì)算出其平均數(shù)為5.02cm,方差為0.12。從第二臺(tái)機(jī)器中抽取了120個(gè)樣品,計(jì)算出其平均數(shù)為4.97cm,方差為0.09。試分析兩機(jī)器所生產(chǎn)的螺母是否有顯著差異。
SAS編程如下:
Data;
Input n1 m1 s1 n2 m2 s2;
Ss=s1*s1*(n1-1)+s2*s2*(n2-1);
St=sqrt(ss/(n1+n2-2));
T=abs(m1-m2)/st;
P=2*(1-probt(t,n1+n2-2));
Cards;
100 5.02 0.12 120 4.97 0.09
;
Proc print;
Run;
運(yùn)行結(jié)果:
說(shuō)明:根據(jù)T檢驗(yàn)的公式可以方便地書(shū)寫(xiě)程序。由SAS結(jié)果可知,概率p為0.633,兩機(jī)器生產(chǎn)的螺母沒(méi)有顯著差異。
線性回歸和相關(guān)系數(shù)
一、線性回歸問(wèn)題是研究相關(guān)的兩個(gè)變量之間的線性關(guān)系的問(wèn)題,通過(guò)線性回歸和相關(guān)分析,可以找出兩個(gè)變量之間的相關(guān)性。
二、線性回歸也是最簡(jiǎn)單的回歸,對(duì)于多元回歸和多項(xiàng)式回歸問(wèn)題,一般都劃歸到線性回歸問(wèn)題中進(jìn)行。
三、對(duì)一元線性回歸問(wèn)題,SAS系統(tǒng)自帶reg過(guò)程,對(duì)于相關(guān)系數(shù)問(wèn)題,SAS系統(tǒng)自帶corr過(guò)程,這兩個(gè)過(guò)程可以對(duì)兩個(gè)或者多個(gè)變量進(jìn)行線性回歸和相關(guān)分析。
四、例如,在某次體檢中,學(xué)生身高(cm)和體重(kg)之間存在著一定的關(guān)系,如何通過(guò)統(tǒng)計(jì)分析將兩者的關(guān)系找出。
身高(cm)體重(Kg)
17270
17572
18077
19085
19590
編寫(xiě)SAS程序如下:
data;
Input h w;
Cards;
172 70
175 72
180 77
190 85
195 90
;
Proc reg;
Model w=h;
Proc corr;
Run;
運(yùn)行結(jié)果:
說(shuō)明:這里,我們同時(shí)調(diào)用了reg和corr兩個(gè)過(guò)程,SAS分別統(tǒng)計(jì)出兩個(gè)結(jié)果。在REG表中,我們可以看到,相關(guān)系數(shù)R的平方等于0.9983,模型概率值<0.0001,說(shuō)明身高和體重之間有著顯著的線性相關(guān)性,在參數(shù)估計(jì)中,Intercept=-79.54,h=0.86812,回歸方程為:w=0.86812h-79.54。在相關(guān)性分析中,我們看到,身高和體重之間的相關(guān)系數(shù)等于0.99914,達(dá)到顯著水平,說(shuō)明兩個(gè)變量有著明顯的線性相關(guān)性。
多元回歸和多項(xiàng)式回歸
一、多元回歸是牽涉到幾個(gè)自變量和一個(gè)因變量之間的關(guān)系的回歸。多元回歸中,有些自變量對(duì)于因變量的變化起到關(guān)鍵作用,而有些自變量卻是可有可無(wú),其變化對(duì)因變量的取值變化影響很小。這時(shí)候,我們可以通過(guò)逐一判斷這些自變量和因變量之間的關(guān)系,然后一一刪除那些對(duì)因變量影響比較小的自變量。
二、在對(duì)多個(gè)變量進(jìn)行分析時(shí),除了回歸分析以外,還可以進(jìn)行變量間兩兩相關(guān)系數(shù)的分析以及兩個(gè)變量之間偏相關(guān)系數(shù)的分析?;貧w過(guò)程和分析過(guò)程同樣使用reg和corr。
三、在逐一刪除對(duì)因變量影響較小的自變量時(shí),可以采用向前法或者向后法。所謂向前法是指一一判斷哪些自變量對(duì)因變量的影響比較大,然后一一將這些自變量加入到回歸方程中。所謂向后法是指先將左右的自變量加入回歸方程,然后把那些影響較小的自變量一一刪除。
四、例如:現(xiàn)在統(tǒng)計(jì)一下x1、x2、x3和y之間的多元回歸過(guò)程,SAS程序如下:(下面程序中運(yùn)用了很多篩選自變量的方法,其中包括向前法forward,向后法backward,中間取值法minr,r平方法等)
data ;
input x1 x2 x3 y;
cards;
48.47 21.80 0.85 70.00
40.66 14.15 0.25 51.20
49.87 20.00 0.83 70.00
33.53 18.00 0.49 60.00
40.58 5.31 0.32 51.20
39.36 5.31 0.35 54.10
35.26 5.31 0.25 52.71
24.59 8.71 0.40 54.14
19.12 5.45 0.25 52.72
15.84 7.69 0.25 40.32
;
proc reg corr;
model y=x1-x3/selection=backward sls=0.05 stb;
run;
model y=x1-x3/selection=forward sls=0.05 stb;
run;
model y=x1-x3/seletcion=stepwise sls=0.05 stb;
run;
model y=x1-x3/selection=minr;
run;
model y=x1-x3/selection=rsquare;
run;
model y=x1-x3/selection=adjrsq;
run;
model y=x1-x3/selection=cp;
run;
model y=x1-x3/selection=none stb;
run;
五、運(yùn)行結(jié)果:
說(shuō)明:結(jié)果比較多。首先我們看到的是這些變量?jī)蓛芍g的相關(guān)系數(shù)表。第2張表開(kāi)始使用backward法進(jìn)行多元回歸分析,開(kāi)始將所有的自變量加入到回歸方程,建立了回歸方程為:y=0.18797x1+0.01666x2+28.82392x3+36.70540,然后逐一去除一些影響較小的自變量,首先在step1中將x2去除,得到回歸方程為:y=0.18840x1+29.20646x2+36.71286。繼而又在step2中將x1去除,得到回歸方程為y=35.41081x3+40.62481,此時(shí),系統(tǒng)發(fā)現(xiàn)無(wú)法再刪除變量x3,backward過(guò)程到此結(jié)束。然后用forward法進(jìn)行回歸分析,首先系統(tǒng)將x3加入回歸方程,建立了回歸方程,繼而系統(tǒng)又將x1加入到方程中建立方程為:y=0.18840x1+29.20646x2+36.71286,繼而系統(tǒng)發(fā)現(xiàn),無(wú)法將其他變量加入到回歸方程中,forward過(guò)程到此結(jié)束。后面兩種回歸過(guò)程請(qǐng)大家自己閱讀,值得注意的是,對(duì)于這么多的結(jié)果,SAS在每個(gè)小過(guò)程結(jié)束后都會(huì)有一個(gè)總結(jié)表,例如在backward結(jié)束后,會(huì)告訴你用這個(gè)方法進(jìn)行了兩個(gè)小的step,這兩個(gè)step分別將回歸方程中的x2和x1變量剔除出去。其余過(guò)程與之類似。
六、多項(xiàng)式回歸:對(duì)于多項(xiàng)式回歸,我們一般采取將其劃歸為多元回歸來(lái)處理,例如把y對(duì)于x的二次多項(xiàng)式回歸劃為y對(duì)x2和x的兩個(gè)變量的多元回歸。
例如:已知某生物體的總數(shù)和培養(yǎng)時(shí)間呈二次多項(xiàng)式關(guān)系,即y=ax2+bx+c,現(xiàn)測(cè)得y和x的數(shù)值,試統(tǒng)計(jì)分析建立回歸方程。
xy
12
25
313
421
528
645
753
873
993
七、編寫(xiě)SAS程序如下:
Data;
Input x1 y;
X2=x1*x1;
Cards;
1 2
2 5
3 13
4 21
5 28
6 45
7 53
8 73
9 93
;
Proc reg corr;
Model y=x1-x2;
Run;
運(yùn)行結(jié)果:
說(shuō)明:這里給出了3個(gè)變量(把x2看成一個(gè)單獨(dú)的變量x2)兩兩之間的相關(guān)系數(shù)。然后進(jìn)行了回歸,建立的回歸方程是:y=1.07792x2+0.42078x1+0.76190,即y=1.07792x2++0.42078x1+0.76190。相關(guān)系數(shù)0.9962。
聚類分析
一、聚類分析就是按照事物的某些特征將事物進(jìn)行分類的分析。
二、SAS中用于聚類分析的方法有很多,最常用的是cluster。采用的分類標(biāo)準(zhǔn)也很多,一般用mean(平均值法)或者med(中位數(shù)值法)。
三、例如,測(cè)得5種昆蟲(chóng)成年個(gè)體的翅長(zhǎng)、體長(zhǎng)以及觸角的長(zhǎng)度(cm),用SAS對(duì)這3種昆蟲(chóng)進(jìn)行系統(tǒng)分類。
四、SAS程序如下:
Data cao;
Input no$ cc tc cj;
Cards;
1 5 7 6
2 7 10 6
3 10 9 7
4 5.7 8.9 4.7
5 9 8.7 5.7
;
Proc cluster method=mean outtree=cao;
Var cc tc cj;
Id no;
Proc tree;
Run;
運(yùn)行結(jié)果
說(shuō)明:SAS系統(tǒng)先給出5種昆蟲(chóng)距離統(tǒng)計(jì)中心的距離,然后給出這5種昆蟲(chóng)的系統(tǒng)聚類圖??梢詮南旅鎴D中看到,1,2,4號(hào)位于一個(gè)聚類分支,3號(hào)和5號(hào)位于另外一個(gè)聚類分支。1號(hào)和2號(hào)、4號(hào)之間有一點(diǎn)差距。此外,如果再proc tree后面加上hor(horizon),SAS將會(huì)輸出橫向分類圖如下。
結(jié)束語(yǔ)
本次編寫(xiě)SAS常用程序參考了許建新老師的《SAS For Windows本科教材》、北京郵電大學(xué)出版社的《SAS統(tǒng)計(jì)由入門(mén)到精通》等書(shū)籍。對(duì)他們的努力和貢獻(xiàn)表示衷心感謝。本次編寫(xiě)的每一個(gè)程序(有些程序需要去掉括號(hào)中注釋的部分,有些程序需要把標(biāo)點(diǎn)符號(hào)稍微修改一下)均在SAS 9.0 版本軟件中運(yùn)行無(wú)誤。此外,程序刪除了那些對(duì)于結(jié)果沒(méi)有影響只是為了美觀的說(shuō)明語(yǔ)句,例如用類似options nodate nonumber語(yǔ)句將結(jié)果中的運(yùn)行時(shí)間和編號(hào)去掉,至于一些小的關(guān)于SAS軟件的細(xì)節(jié)問(wèn)題,大家不必過(guò)分深究。最后要說(shuō)明的一點(diǎn)是,大家在使用SAS軟件的時(shí)候由于它有一個(gè)使用時(shí)間限制,所以在沒(méi)有破解時(shí)間限制之前,請(qǐng)將電腦系統(tǒng)時(shí)間調(diào)到使用期限之內(nèi)。
安徽農(nóng)業(yè)大學(xué)
研究生學(xué)院
曹堃
QQ:549875752
聯(lián)系客服