構(gòu)建合適的機(jī)器學(xué)習(xí)模型,對(duì)樣本是否為疾病樣本進(jìn)行預(yù)測(cè),或預(yù)測(cè)腫瘤病人的預(yù)后信息。
轉(zhuǎn)錄組、拷貝數(shù)變異數(shù)據(jù)、甲基化數(shù)據(jù)、轉(zhuǎn)錄調(diào)控?cái)?shù)據(jù)等多組學(xué)數(shù)據(jù)。
將多個(gè)組學(xué)數(shù)據(jù)的公共數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測(cè)試集,在訓(xùn)練集上綜合考慮預(yù)后相關(guān)的多組學(xué)基因特征,訓(xùn)練基于隨機(jī)森林、邏輯回歸等算法的疾病診斷模型或預(yù)后風(fēng)險(xiǎn)評(píng)估模型。用 ROC曲線和AUC值做模型的評(píng)估。對(duì)于預(yù)后風(fēng)險(xiǎn)評(píng)估模型,我們根據(jù)訓(xùn)練好的風(fēng)險(xiǎn)模型計(jì)算測(cè)試集中的每個(gè)樣本的Risk score,做K-M生存分析,檢查是否有統(tǒng)計(jì)上的差異性。
分析內(nèi)容
(1)訓(xùn)練集與測(cè)試集的隨機(jī)劃分結(jié)果
(2)隨機(jī)森林、邏輯回歸模型的具體參數(shù)
(3)測(cè)試集每一個(gè)樣本的風(fēng)險(xiǎn)分值以及高風(fēng)險(xiǎn)/低風(fēng)險(xiǎn)分組
(4)模型重要性排序圖;模型評(píng)估結(jié)果:KM 生存曲線以及 ROC 曲線圖
科研服務(wù)咨詢
公眾號(hào)二維碼