12種機器學習+113種組合的純生信文!臨床醫(yī)生沒時間也能狂發(fā)多篇!
今天給各位老師分享一篇套路滿滿的生信分析文章,這篇文章的研究邏輯對時間不充裕的臨床醫(yī)生太實用了,沒時間也能連發(fā)多篇!文章研究的主要亮點之處在于構(gòu)建了一個基于12種機器學習算法113種組合的集成程序,用于間質(zhì)性膀胱炎相關基因的重度抑郁癥診斷。除了機器學習這一妙用,作者還進行了其他常見分析內(nèi)容:PPI網(wǎng)絡、功能富集、免疫浸潤分析、藥物敏感性預測等。
題目:一種集成機器學習框架,用于開發(fā)和驗證基于間質(zhì)性膀胱炎相關基因的重度抑郁癥診斷模型
英文名:An integrated machine learning framework for developing and validating a diagnostic model of major depressive disorder based on interstitial cystitis-related genes
雜志: Journal of Affective Disorders
影響因子:4.9
發(fā)表時間:2024年6月
研究背景(Introduction):間質(zhì)性膀胱炎 (IC) 是一種病因不明的持續(xù)性疼痛疾病,對女性的影響尤為嚴重,沒有已知的治愈方法。根據(jù)先前的研究,抑郁癥似乎是 IC 患者中常見的合并癥。重度抑郁癥 (MDD) 是導致自殺率的主要原因。所以,在 IC 患者中及早發(fā)現(xiàn) MDD 至關重要,以便在臨床癥狀出現(xiàn)之前開始治療。目前還沒有 MDD 和 IC 之間敏感性和特異性強的生物標志物。在此,作者利用生物信息學和機器學習算法確定了 IC與 MDD 相關的關鍵標志物。
研究思路(figure1 研究的主要流程圖):
材料方法:
1、 研究方法:通過分析GEO 數(shù)據(jù)集的轉(zhuǎn)錄組數(shù)據(jù),包括 MDD 和 IC 患者的轉(zhuǎn)錄組數(shù)據(jù),以開發(fā)和驗證作者構(gòu)建的模型。去批次效應后,鑒定出各自疾病組和對照組之間的差異表達基因 (DEGs)。然后對條件的共享 DEG 進行功能富集分析。此外,通過ssGSEA進行免疫浸潤分析。通過探索 12 種機器學習算法的 113 種組合,在訓練集上進行 10 倍交叉驗證,然后在測試集上進行外部驗證,構(gòu)建了 MDD 診斷模型。最后,利用“Enrichr”平臺識別出MDD的潛在藥物。
研究結(jié)果:
1、 鑒定與 IC 和 MDD 相關的差異表達
鑒于 MDD 和 IC 之間的相互關系,對 IC 和 MDD 進行了 limma 分析,以揭示 IC 相關 MDD 中的致病基因。在 IC 隊列中,確定了 1531 個 DEG,其中 906 個上調(diào)和 625 個下調(diào)。MDD組產(chǎn)生100個DEGs,其中33個上調(diào),67個下調(diào)。 IC 和 MDD 之間 DEGs有 21 個。
圖1
2、IC相關MDD中涉及的致病基因的功能富集
通過 GeneMANIA 數(shù)據(jù)庫對候選基因進行PPI網(wǎng)絡分析,并使用 GO、KEGG 和 DO 進行功能分析,以確定潛在的作用機制。 分析顯示,IC-MDD與機會性真菌病、腎衰竭、胰腺炎和腸道疾病顯著相關(圖 2)。
圖 2
3、 IC 和 MDD 中的免疫細胞浸潤分析
圖3
對 IC 和 MDD 之間重疊的 DEG 的功能和通路分析揭示了與炎癥和免疫過程的顯著關聯(lián)。相對于對照樣品,IC樣品表現(xiàn)出1型輔助性T細胞、記憶B細胞、巨噬細胞、未成熟樹突狀細胞、γδ-T細胞、效應記憶CD8+ T細胞和效應記憶CD4+ T細胞的富集(圖3A). 箱線圖分布圖 3B 表示 MDD 隊列中巨噬細胞、內(nèi)皮細胞和活化樹突狀細胞的比例升高,與對照組相比,效應記憶 CD8+ T 細胞的豐度降低。
4、通過機器學習識別具有診斷價值的樞紐基因,并開發(fā)IC相關MDD的診斷模型
在 10 倍交叉驗證過程中,總共結(jié)合了 12 種機器學習算法,以確定篩選的 21 個共因的最穩(wěn)健的診斷模型。通過集成Stepglm[both]和XGBoost算法,建立了性能best的最終模型。Stepglm[both]算法鑒定出11個關鍵基因(ABCD2、ATP8B4、TNNT1、AKR1C3、SLC26A8、S100A12、PTX3、FAM3B、ITGA2B、OLFM4、BCL7A),而XGBoost算法過濾出最可靠的模型。模型展現(xiàn)出穩(wěn)健的校準性能,與整體隊列相比,模型在 60 歲以下患者亞組或男性中表現(xiàn)出更高的診斷性能。
圖4
5、MDD診斷模型的比較
作者將自己構(gòu)建的MDD診斷模型于其他同類模型進行比較,作者的模型在訓練和測試隊列的 AUC 方面都表現(xiàn)出優(yōu)越的性能。
2、 候選藥物的鑒定
作者使用 Enrichr 上的 DSigDB 藥物數(shù)據(jù)庫分析模型基因,以確定潛在的靶向藥物。排名前10位的候選藥物依次為表沒食子兒茶素沒食子酸酯、硼替佐米、3-(1-甲基吡咯烷-2-基)吡啶、苯、阿司匹林、氧、達沙替尼、佛波醇12-肉豆蔻酸酯13-乙酸酯、Ouabain和Thapsigargin(表2).
Table 2. Bladder pain syndrome/interstitial cystitis (IC) and major depressive disorder (MDD) gene-targeted drugs.
Term | P value | Combined score | Genes |
Epigallocatechin gallate | 0.0223300 | 18.40834 | BCL7A;ITGA2B;AKR1C3;PTX3 |
Bortezomib | 0.0106770 | 37.18759 | BCL7A;AKR1C3;PTX3 |
3-(1-methylpyrrolidin-2-yl) pyridine | 0.0021937 | 90.22624 | ITGA2B;PTX3;OLFM4 |
Benzene | 0.0432026 | 22.06873 | ITGA2B;PTX3 |
Aspirin | 0.0365297 | 25.56394 | ITGA2B;AKR1C3 |
Oxygen | 0.0322215 | 28.46807 | AKR1C3;PTX3 |
Dasatinib | 0.0297659 | 30.44088 | AKR1C3;PTX3 |
Phorbol 12-myristate 13-acetate | 0.0277106 | 32.31902 | ITGA2B;PTX3 |
Ouabain | 0.0175925 | 46.70676 | S100A12;PTX3 |
Thapsigargin | 0.013451775 | 57.57157 | BCL7A;AKR1C3 |
文章小結(jié)(Abstract):文章到此結(jié)束,純分析發(fā)IF:4.9的文章,這篇8月見刊的文章如果再加一些下游機制驗證的數(shù)據(jù),發(fā)的會更高。傲星生物深耕分析十余載,另有完善的下游驗證、機制研究服務,一對一專屬服務為您排憂解難,助您輕松應對畢業(yè)和晉升!
傲星生物公眾號回復“20240813”領取原文PDF