數據處理是單細胞測序重要的環(huán)節(jié)之一 , 其中細胞類型注釋關乎后續(xù)研究的準確性 。細胞類型注釋是將未知的細胞聚類結果與已知的細胞類型進行相似程度的比對分析。伯豪生物根據多年的項目經驗發(fā)現,細胞類型注釋的準確性,取決于已知數據庫的準確性以及注釋前聚類分析的算法閾值。本文將針對單細胞測序數據分析環(huán)節(jié)中細胞注釋部分,分享伯豪生物的一點心得。
細胞注釋常用方法
方法一:使用 Single R 進行細胞類型注釋
操作教程:https://www.bioconductor.org/packages/release/bioc/vignettes/SingleR/inst/doc/SingleR.html
1、計算測試集(沒有注釋的轉錄組數據)與參考集(已注釋的轉錄組數據)的相似度(spearman correlation);
2、以參考集細胞類型為單位,計算 per-label score;
3、對所有的 label 重復這個過程,選取先進的分數的細胞類型標簽作為測試集中某類細胞的身份。
方法二: 其它類型 R 語言腳本程序:Garnett
操作教程:https://cloud.tencent.com/developer/article/1606016
方法三:根據經典 marker 基因進行細胞類型注釋
如何提高細胞注釋的準確性?
一、合適的數據庫可以提高細胞注釋的準確性。
隨著單細胞測序技術的發(fā)展,科學家們公開分享的數據庫呈遞增趨勢,如何選擇合適的數據庫作為參考,關乎著后續(xù)研究的的準確性。伯豪生物收錄統(tǒng)計了兩大類單細胞數據庫(按照物種區(qū)分:人,小鼠)可用作單細胞測序注釋的參考集,其中人相關的單細胞測序數據庫包含約 48 種組織,100 種細胞的數據信息;小鼠相關的單細胞測序數據庫包含約 43 種組織,90 種細胞的數據信息。針對種類繁多的數據庫類型,伯豪生物給出的建議:首先,根據樣本的組織部位來源選擇相同組織的單細胞測序數據庫,或相近部位樣本的單細胞測序數據庫作為參考數據庫;若沒有小范圍合適的參考數據庫,可以按照物種進行劃分(值得注意的是隨著數據庫的逐漸豐富,樣本的地域性因素也將逐漸納入參考數據庫的選擇指標)。
表 1. 伯豪生物已收錄整理的數據庫(部分)
二、借鑒經典 marker 基因可提高數據庫的注釋精度
盡管已有 R 包針對大部分數據可以進行兼容性注釋分析,然而在一些研究中,由于聚類閾值的設置導致細胞聚類準確性出現偏差,或者根據現有算法無法與高分研究的細胞分型匹配,此時為保證研究的延續(xù)性及可溯源性,需要手動對無法精準注釋的細胞類型進行調整。在這一過程中,伯豪收集整理大量的經典細的 marker 信息(來源于歷史項目經驗及高分文章發(fā)表數據),表 2 列出了,伯豪生物收集的部分數據供大家參考。
表 2. 通用經典的 marker 基因(部分展示)
更多伯豪生物人工服務: