本節(jié)我們將舉具體案例,與大家深入交流臨床研究中的預測模型構建思路。我們將以Journal of Clinical Oncology雜志(IF=26.3)中的一篇文章為例,為大家深入解讀臨床研究中的預測模型的構建和行文思路。
Journal of Clinical Oncology雜志主要刊登腫瘤治療方面的臨床研究,是國際醫(yī)學腫瘤臨床研究領域頂級代表性期刊、美國癌癥協(xié)會(ASCO)的官方雜志。(話題岔開,這個雜志很適合臨床研究的科研人員日常閱讀與學習,強烈推薦!)
該文由中科院分子影像重點實驗室田捷研究員團隊和廣東省人民醫(yī)院放射科合作,采用新興的影像組學(Radiomics)方法在結直腸癌淋巴結轉移預測研究方面取得了重要進展。臨床預后預測類文章均可參照此文。
結直腸癌的術前淋巴結轉移狀態(tài)影響著臨床決策,決定了手術的清掃范圍,影響早期直腸癌局切治療的選擇,以及新輔助放化療后cCR患者后續(xù)治療的選擇等等,但是目前常規(guī)的影像學檢查判斷術前淋巴結狀態(tài)的準確性亟待提高。同時,近年來影像組學已成為影像學領域最受關注的研究熱點和前沿方向之一。因而,本研究則是在抓住了關鍵問題(如何在術前進行較準確的淋巴結轉移判斷是當前結直腸癌臨床中遇到的挑戰(zhàn)性問題),同時應用了前沿方法,開發(fā)并驗證了影像組學聯(lián)合CT和臨床危險因素列線圖(nomogram)模型,用于預測結直腸癌(CRC)術前淋巴結轉移的風險。利用研發(fā)的預測模型可以輔助臨床醫(yī)生進行結直腸癌的術前決策,具有重要的臨床價值和應用前景。這也是田教授團隊成功發(fā)表JCO的關鍵所在。接下來我們深入分析該文。
①結直腸癌(Colorectal cancer)是人類最常見的消化道惡性腫瘤之一,其發(fā)病率和死亡率分別居所有癌癥的第三位和第四位。
②結直腸癌深入盆腔,解剖關系復雜,手術不易徹底,術后復發(fā)率高。特別是如果結直腸癌患者合并淋巴結轉移,將更難以治療,必須在手術時對所有受侵犯的淋巴結進行徹底清掃,否則很有可能出現(xiàn)術后復發(fā)及轉移。但是術前傳統(tǒng)CT影像學難以判斷淋巴結是否轉移,也很難通過穿刺活檢獲得淋巴結轉移信息;而術中對所有淋巴結盲目清掃又會帶來很多不必要的副作用(如淋巴水腫等)。
缺乏能準確判斷cRC術前淋巴結轉移情況的工具,影像組學伴隨圖像分析技術的進步能夠解決這一關鍵問題!
在這兒我們先岔開給大家簡單講一下影像組學這一未來非常有潛能的方向。影像組學(Radiomics)是利用數(shù)據(jù)挖掘等信息技術,從影像、病理、基因等海量數(shù)據(jù)中挖掘提取并量化腫瘤海量特征,解析影像與基因和臨床信息(分型、療效和預后等)關聯(lián)的新方法。
?影像組學的優(yōu)勢:
·無創(chuàng)
·容易獲得
·反映腫瘤整體性質
·可用于動態(tài)隨訪
?影像組學在肺癌及頭頸部腫瘤中的應用:
通過影像組學預測肺癌及頭頸部腫瘤的預后。
? 總體思路
1 患者資料
人群資料收集時我們需要思考的問題
?結直腸癌患者:入選/排除標準
?一般人口學信息
?影像學資料——紋理特征提取
?淋巴結轉移狀態(tài)(YES/NO)
針對這一挑戰(zhàn)性的問題,田捷研究員團隊和廣東省人民醫(yī)院放射科劉再毅教授、梁長虹教授團隊合作,回顧分析了廣東省人民醫(yī)院2007-2011年間500余例進行結直腸癌手術的患者資料,利用新興的影像組學方法,將影像特征、臨床病理特征(血清標記物和臨床指標)相結合,構建并驗證了基于影像組學標簽的結直腸癌淋巴結轉移術前預測模型,用于對淋巴結轉移的概率進行定量預測。
2圖像獲取方法
兩名影像科醫(yī)師在增強cT門脈相進行勾畫
RO:腫瘤最大徑層面的腫瘤外輪廓
ICC:觀察者內( reader1);
觀察者間( reader1 and reader2)
常規(guī)CT判斷LN+標準
淋巴結增大>1cm和/或>=3個成簇淋巴結
3特征提取方法
提取軟件:in-house software
算法分析: Matlab2010
單個圖像提取150種特征
統(tǒng)計軟件:R
4統(tǒng)計分析
?問題1:影像學信息特征選擇 (變量篩選)
單個圖像提取150種紋理特征
?問題2:如何建模?評價模型預測效果?
Logistics模型
?問題3:建立 NOMOGRAM,如何判斷模型是否可靠?
模型驗證
?問題4:建立的模型是否具有臨床應用價值?
結果分為三個部分:基本特征、模型建立以及校正曲線&決策曲線
1基本特征
原始集(primary cohort)與驗證集(validation cohort)的基線特征無明顯差異。
二者中LN(+)與LN(-)患者大部分特征有差異,尤其是Radiomics score中位數(shù)。
CT診斷LNM的準確率為0.63。
PS:一般而言,如果是做預測類模型,分為Primary cohort和validation cohort,validation cohort也可分internal validation(內部驗證)和external validation(外部驗證)。有時候有的研究只有內部驗證,或只有外部驗證,也是可以的。更為嚴謹?shù)难芯渴切枰猛獠繑?shù)據(jù)進行驗證。
還有就是,原則上我們希望Primary cohort和validation cohort在baseline方面盡量兩組差異較小。對于差異較大的變量,我們需要格外注意,其是否對結果產(chǎn)生嚴重的影響。
2模型建立
特征選擇(Feature Selection and Radiomics Signature Building)
利用 LASSO邏輯回歸模型,從提取出的150個特征中篩選出24個具有預測作用的特征,這些特征的回歸系數(shù)均非零。
PS:LASSO方法學部分和R軟件程序我們將在單獨開展一期推文。如果大家感興趣,我們將臨床研究這一系列推文形成視頻后推出。
通過R語言安裝'glmnet' 包計算LASSO,得到下列公式,最后計算出Rad score。
建立多元Logistic回歸模型(Multivariable logistic regression),建立兩個模型(PS:某些大文章會通過納入不同的變量,建立2-3個Model)。最終進入 model1的參數(shù)包括: Radionics signature、CEA水平、CT診斷的LN狀態(tài);mode12還包括活檢組織的組織學分級。
Nomogram預測淋巴結轉移風險(PS:Nomogram簡言之就是Logistic回歸或者Cox比例風險模型的可視化操作,具體的軟件應用也需要另外一篇推文詳細闡述Nomogram的原理和R包的應用)
上圖可通過三個相對簡單的變量(Radiomics signature, CEA level, CT-reported LN status)則可預測結直腸癌淋巴結轉移的風險。
3校正曲線&決策曲線
矯正曲線
決策曲線