差異表達(differentially expressed,DE)基因的檢測和評估一直是單細胞 scRNA-seq 數據分析中關鍵的一步,準確可靠的 DE 基因結果對下游分析具有深遠影響。scCODE 算法提出全新的單細胞 scRNA-seq 數據一站式個性化 DE 基因分析系統,通過對單細胞數據多次建模分析,自動評估優化分析結果,為科研人員深入解析單細胞數據提供準確高效的新工具。

2022 年 5 月 23 日, 復旦大學郝潔 / 鄒欣團隊與辰山植物園陳可 組在 Briefings in Bioinformatics(計算生物學一區,IF=11.6)上發表了題為:”scCODE: an R package for data-specific differentially expressed gene detection on single-cell RNA-sequencing data”的研究論文。該研究評估 40 余種 DE 分析策略,基于自主研發的,無需先驗信息的兩個新的評估參數,開發了 scRNA-seq 數據個性化 DE 基因篩選系統平臺——scCODE(圖 1)。
圖 1:Evaluation of DE gene detection performance and schematic of scCODE.
在以往的研究中,過濾低表達的基因被認為有助于 DE 分析,但其真正影響尚未得知,基因過濾也無統一標準。本研究第一部分從 FPR、TPR 和 AUROC 等評估標準分析了不同基因過濾方法對 DE 結果的影響。結果發現,恰當的基因過濾和 DE 方法的組合可以得到更好的 DE 結果,而不恰當的組合卻會起到相反的效果。當 DE 分析策略所推測的 DE 基因表達分布與實際的基因表達分布更接近時,才能得到更準確的 DE 基因結果(圖 2)。
圖 2:Investigation of DE gene distribution detected by different combinations of methods, based on simulated-EMTAB8077_heart_kidney.
實際應用中,探索未知領域的 scRNA-seq 樣本,其概率分布不同,且缺乏先驗知識,無法通過已有的評估標準如 AUROC 去挑選好的分析方法。在本研究中,研究者設計了新的評估參數 CDO 和 AUCC,可以在無需先驗知識的創新性研究中,獲得針對不同數據的分析策略,更高的真正例率(TPR)和很低的假陽性率(FPR)。
在對小鼠肺癌發育 CD4+ T 細胞分析時,好的分析策略檢測到的 DE 基因可以清楚地區分兩組細胞,并且隨著使用更多基因,細胞聚類的更加清晰。然而,差的分析策略的結果并非如此,未激活的 CD4+ T 細胞仍與活化的 CD4+ T 細胞聚集在一起(圖 3)。同時在小鼠心臟和腎臟內皮細胞以及人類肺癌 macrophage m1 m2 數據分析中也得到了類似的結果。
圖 3:scCODE validated on real scRNA-seq data comparing activated CD4+ T cells with na?ve cells.
該平臺已經發布于 GitHub(https://github.com/XZouProjects/scCODE)。目前已收到多個用戶反饋良好。論文的通訊作者為復旦大學附屬中山醫院郝潔研究員,復旦大學附屬金山醫院鄒欣副研究員和辰山植物園陳可副研究員。上海交通大學生命科學技術學院 2019 級碩士鄒佳偉為論文第一作者。
該研究得到了國家自然科學基金(82170045,31800253),上海交通大學醫學院高水平地方高校創新團隊 (SSMU-ZLCX20180502) 上海市綠化和市容管理局科研專項(G222410)等項目支持。
全文鏈接:https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbac180/6590434