編者按
logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數(shù)據(jù)挖掘,疾病自動(dòng)診斷等領(lǐng)域。例如,探討引發(fā)疾病的危險(xiǎn)因素,并根據(jù)危險(xiǎn)因素預(yù)測(cè)疾病發(fā)生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌,值為“是”或“否”,自變量就可以包括很多了,如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。然后通過logistic回歸分析,可以得到自變量的權(quán)重,從而可以大致了解到底哪些因素是胃癌的危險(xiǎn)因素。同時(shí)根據(jù)該權(quán)值可以根據(jù)危險(xiǎn)因素預(yù)測(cè)一個(gè)人患癌癥的可能性。
從多元線性回歸到Logistic 回歸
案例
對(duì)200個(gè)不同年齡和性別的人對(duì)某項(xiàng)服務(wù)產(chǎn)品的認(rèn)可的數(shù)據(jù)(logi.sav)進(jìn)行分析。其中: 年齡是連續(xù)變量,性別是有男和女(分別用1和0表示)兩個(gè)水平的定性變量,而變量“觀點(diǎn)”則為包含認(rèn)可(用1表示)和不認(rèn)可(用0表示)兩個(gè)水平的定性變量。
從下面的圖可以看出什么?
從下面這張圖又可以看出什么?
這里觀點(diǎn)是因變量, 只有兩個(gè)值;所以可以把它看作成功概率為p的Bernoulli試驗(yàn)的結(jié)果。但是和單純的Bernoulli試驗(yàn)不同,這里的概率p為年齡和性別的函數(shù),必須應(yīng)用Logistic回歸。
2
多元線性回歸不能應(yīng)用于定性因變量
首先,多元線性回歸中使用定性因變量嚴(yán)重違反本身假設(shè)條件,即:因變量只能取兩個(gè)值時(shí),對(duì)于任何給定的自變量值,e本身也只能取兩個(gè)值。這必然會(huì)違背線性回歸中關(guān)于誤差項(xiàng)e的假設(shè)條件。
其次,線性概率概型及其問題:由于因變量只有兩個(gè)值;所以可以把它看作成功概率p,取值范圍必然限制在0—1的區(qū)間中,然而線性回歸方程不能做到。另外概率發(fā)生的情況也不是線性的。
3
Logistic函數(shù)
Logistic的概率函數(shù)定義為:
我們將多元線性組合表示為:
于是,Logistic概率函數(shù)表示為:
經(jīng)過變形,可得到線性函數(shù):
這里,
事件發(fā)生概率=P (y=1)
事件不發(fā)生概率=1-P (y=0)
發(fā)生比:
對(duì)數(shù)發(fā)生比:
這樣,就可將logistic曲線線性化為:
從P到logit P經(jīng)歷了兩個(gè)步驟變換過程:
第一步:將p轉(zhuǎn)換成發(fā)生比,其值域?yàn)?到無窮
第二步:將發(fā)生比換成對(duì)數(shù)發(fā)生比,其值域科為
經(jīng)過轉(zhuǎn)換, 將P→logit P,在將其作為回歸因變量來解釋就不再有任何值域方面的限制了,即可線性化!
4
Logistic回歸系數(shù)的意義
以logit P方程的線性表達(dá)式來解釋回歸系數(shù),即:
在logistic回歸的實(shí)際研究中,通常不是報(bào)告自變量對(duì)P的作用,而是報(bào)告自變量對(duì)logit P的作用。以發(fā)生比Ω的指數(shù)表達(dá)式來解釋回歸系數(shù)。與logit P不同,發(fā)生比Ω具有一定的實(shí)際意義,代表一種相對(duì)風(fēng)險(xiǎn)。因此對(duì)logistic回歸系數(shù)的解釋通常是從發(fā)生比的指數(shù)表達(dá)式出發(fā)的。
例如:在取得了logistic回歸系數(shù)的各bi的解以后,將其帶入Ω函數(shù),
如果分析x 變化一個(gè)單位對(duì)于Ω的影響幅度,可以用(x +1)表示,并將其代入上式,得到新的發(fā)生比:
將兩個(gè)發(fā)生比集中在一起有:
將此稱為發(fā)生比率,它可測(cè)量自變量一個(gè)單位的增加給原來的發(fā)生比所帶來的變化,一般表達(dá)式為:
說明在其他情況不變的情況下,x一個(gè)單位的變化使原來的發(fā)生比擴(kuò)大倍。比如,原來的Ω為6:4(比值為1.5),如果一個(gè)自變量變化一個(gè)單位導(dǎo)致的發(fā)生比率為exp(0.693)=2,即表示這一變化將會(huì)導(dǎo)致新發(fā)生比值Ω*為原來的2倍,即新發(fā)生比將是12:4(比值為3)。
我們也可用發(fā)生比率減1的差來表示發(fā)生比的增長率,如發(fā)生比率為2.3,就可以說自變量一個(gè)單位的變化會(huì)使原發(fā)生比增加1.3倍(2.3-1=1.3).
當(dāng)logistic回歸系數(shù)為負(fù)數(shù)時(shí),發(fā)生比率小于1。這時(shí)的表達(dá)要特別小心。比如發(fā)生比率為0.8時(shí),表示新發(fā)生比只有原來的80%,那么下降的倍數(shù)則是(1-0.8=)0.2.
5
Logistic回歸應(yīng)用
以上例為例,說明logistic回歸分析
SPSS選項(xiàng):Analyze — Regression — Binary logistic。Logistic回歸的SPSS輸出結(jié)果
6
Logistic模型的檢驗(yàn)與評(píng)價(jià)
1. 對(duì)于整體模型的檢驗(yàn)
Logistic回歸方程求解參數(shù)是采用最大似然估計(jì)方法,因此其回歸方程的整體檢驗(yàn)通過似然函數(shù)值,表示為:
-2 Log Likelihood
該值越大,意味著回歸方程的似然值越小,模型的擬和程度越差。反之,擬和程度越好。
在評(píng)價(jià)或檢驗(yàn)一個(gè)含有自變量的Logistic回歸模型時(shí),通常是將其含有自變量的Logistic的-2 Log Likelihood與截距模型的相比較。兩者之差服從卡方分布,進(jìn)行卡方檢驗(yàn)。所謂截距模型,就是將所有自變量刪除后只剩一個(gè)截距系數(shù)的模型。
2.對(duì)于回歸系數(shù)的檢驗(yàn)
Logistic回歸系數(shù)的檢驗(yàn)是用Wald統(tǒng)計(jì)量進(jìn)行的。
7
Logistic回歸的標(biāo)準(zhǔn)化回歸系數(shù)
SPSS進(jìn)行Logistic回歸時(shí)不提供標(biāo)準(zhǔn)化 回歸系數(shù),但是其手工計(jì)算公式很簡單:
Age和Sex的標(biāo)準(zhǔn)化回歸系數(shù)分別約為:
8
Logistic回歸的偏回歸系數(shù)
通過比較兩個(gè)自變量的標(biāo)準(zhǔn)化回歸系數(shù),我們發(fā)現(xiàn)對(duì)于是否同意該觀點(diǎn)來說,年齡的負(fù)作用要比性別的負(fù)作用要大一些。
艾德醫(yī)訊|艾德課堂|科研服務(wù)
請(qǐng)留下你指尖的溫度
讓太陽擁抱你
記得這是一個(gè)有溫度的公眾號(hào)
聯(lián)系客服