一般我們拿到 10x 空間轉(zhuǎn)錄組數(shù)據(jù)分析的結(jié)果先看的肯定是 web_summary 網(wǎng)頁(yè)報(bào)告,因?yàn)閺倪@個(gè)結(jié)果里面我們大概就能判斷你的數(shù)據(jù)好不好,不好的問(wèn)題在哪里,數(shù)據(jù)到底能不能用等等。這里來(lái)詳細(xì)介紹一下怎么看 10x 空間轉(zhuǎn)錄組 web_summary 網(wǎng)頁(yè)版報(bào)告。
10x 空間轉(zhuǎn)錄組網(wǎng)頁(yè)版報(bào)告模板如下:
下面來(lái)詳細(xì)介紹一下每塊區(qū)域每個(gè)指標(biāo)的含義。
Reads 總體情況統(tǒng)計(jì)區(qū):
Number of Reads:樣本總的測(cè)序 reads 數(shù),雙端測(cè)序這個(gè)是指一端的 reads 數(shù),實(shí)際上算數(shù)據(jù)量需要用 reads*2* 讀長(zhǎng)。
Valid Barcodes:barcode 校準(zhǔn)后有效的 barcode 數(shù)占總的 reads 的比例,Space Ranger 會(huì)先嘗試糾正 barcode 序列中的序列錯(cuò)誤,然后再進(jìn)行統(tǒng)計(jì)。
Valid UMIs:有效的 UMI 數(shù)占總的 reads 的比例。
Sequencing Saturation: 測(cè)序飽和度值,就是在當(dāng)前測(cè)序深度情況下,有多少比例的捕獲到的 mRNA 被測(cè)出來(lái)了,比如這這里的測(cè)序飽和度是 74%,說(shuō)有 74% 的 mRNA 基因被檢測(cè)出來(lái)了,如果加大測(cè)序深度會(huì)有更多的 mRNA 被檢測(cè)出來(lái)。
Q30 Bases in Barcode:barcode 序列的 Q30 值
Q30 Bases in RNA Read:捕獲的 mRNA 序列的 Q30 值
Q30 Bases in UMI:UMI 序列的 Q30 值
Mapping 結(jié)果統(tǒng)計(jì)區(qū):
Reads Mapped to Genome:比對(duì)到基因組上 reads 的比例
Reads Mapped Confidently to Genome:先進(jìn)比對(duì)到基因組上 reads 的比例,也就是我們常說(shuō)的 mapped uniquely reads,不過(guò)這里如果某條 reds 先進(jìn)比對(duì)到一個(gè)基因的 exon 區(qū),同時(shí)又比對(duì)到了一處非 exon 區(qū),還是算先進(jìn)比對(duì)到 exon 區(qū)的 reads。
Reads Mapped Confidently to Intergenic Regions:比對(duì)到先進(jìn)基因間區(qū)的 reads 的比例
Reads Mapped Confidently to Intronic Regions:比對(duì)到先進(jìn)內(nèi)含子區(qū)的 reads 的比例
Reads Mapped Confidently to Exonic Regions:比對(duì)到先進(jìn)外顯子區(qū)的 reads 的比例
Reads Mapped Confidently toTranscriptome: 比對(duì)到先進(jìn)基因轉(zhuǎn)錄組上 reads 的比例,這一部分會(huì)包括剪切位點(diǎn)的 reads。這一部分的 reads 就是用來(lái)對(duì) UMI 進(jìn)行計(jì)數(shù)統(tǒng)計(jì)的。細(xì)心的朋友可能會(huì)發(fā)現(xiàn)這一部分的 reads 比例比 Reads Mapped Confidently to Exonic Regions 的值要低,這是因?yàn)橛行┗虻?exon 是有 overlap 的,處于 overlap 區(qū)域的 reads 是不進(jìn)入 UMI 計(jì)數(shù)的。
Reads Mapped Antisense to Gene:比對(duì)到基因轉(zhuǎn)錄組的反義鏈區(qū)域的 reads 比例,這部分 reads 是沒(méi)有意義的。從這里我們也可以發(fā)現(xiàn) 10x 空間轉(zhuǎn)錄組建庫(kù)和比對(duì)有方向性的。
Spot 信息統(tǒng)計(jì)區(qū):
Fraction Reads in Spots Under Tissue:比對(duì)到先進(jìn)基因轉(zhuǎn)錄組上 reads(Reads Mapped Confidently to Transcriptome)有多少比例覆蓋在組織區(qū)域的 spot 上,這里是 93%,那就說(shuō)明只有 7% 的 reads 分布在組織之外的灰色區(qū)域的。10x 軟件在這里有一個(gè)默認(rèn)的閾值為 50%,認(rèn)為這個(gè)比例值超過(guò) 50% 結(jié)果是正常的,低于 50% 則回到網(wǎng)頁(yè) zuì 上面區(qū)域提示報(bào)錯(cuò)信息(認(rèn)為可能是透化不完全導(dǎo)致背景 RNA 過(guò)高或者是組織區(qū)域選的不合適)。從這個(gè) 50% 的閾值上我們也可以判斷 10x 的這個(gè)空間轉(zhuǎn)錄組技術(shù)還是存在一定缺陷的,它允許接近 50% 的 reads 散落在組織以外的區(qū)域,說(shuō)明組織透化這一步想讓對(duì)應(yīng)區(qū)域的 mRNA 完全都落入對(duì)應(yīng) spot 點(diǎn)里面去還是很難的。
Mean Reads per Spot:每個(gè) spot 的平均 reads 數(shù),10x 這里采用的是所以測(cè)序 reads 總是除以組織上檢測(cè)到的 spot 數(shù)(跟單細(xì)胞的統(tǒng)計(jì)方法是一樣的),理論上來(lái)說(shuō)這樣統(tǒng)計(jì)是不合理的,因?yàn)榭偟?reads 包括沒(méi)有比對(duì)上的 reads、沒(méi)有 mapping 到轉(zhuǎn)錄本上的 reads、組織區(qū)域以外的 spot 上的 reads,所以是不能真實(shí)的反應(yīng)每個(gè) spot 上實(shí)際的 reads 數(shù)的。
Median Genes per Spot:每個(gè) spot 的基因中位數(shù)
Total Genes Detected:檢測(cè)到的基因總數(shù)
Median UMI Counts per Spot:每個(gè) spot 的中位 UMI 數(shù)
樣本信息區(qū):
Sample ID:樣本 id
Chemistry:試劑版本
Slide Serial Number:Slide 信號(hào)和區(qū)域
Reference Path:參考基因組路徑
Transcriptome:基因組轉(zhuǎn)錄組版本
Pipeline Version:spaceranger 軟件版本
Analysis 區(qū)域
UMI 分布展示:左邊是圖像上 UMI 的分布,右邊是 tsne 降維可視化后的 UMI 的分布,鼠標(biāo)放置到圖像上會(huì)現(xiàn)在對(duì)應(yīng)的位置信息和對(duì)應(yīng) spot 上的 UMI count 數(shù)。從這個(gè)圖我們可以判斷 UMI 主要分布在組織的哪些區(qū)域,哪些區(qū)域沒(méi)有捕獲到 mRNA 或捕獲的 mRNA 特別少。
Cluster 的分布展示:左邊是 cluster 在組織圖像上的分布,右邊是 tsne 降維可視化后的 cluster 的分布,鼠標(biāo)放置到圖像上會(huì)現(xiàn)在對(duì)應(yīng)的位置信息和對(duì)應(yīng) spot 上的 cluster 值和該 cluster 占總的 spot 的比例。這個(gè)圖片上 cluster 分群在組織上的層次關(guān)系特別明顯。
這一部分主要展示亞群的 top 基因的信息,因?yàn)椴还苁菃渭?xì)胞還是空間轉(zhuǎn)錄組基本上后面都會(huì)自己另外重新分析的,所以這部分和上面的 cluster 分布信息意義不大。
Sequencing Saturation(測(cè)序飽和度)
對(duì) reads 進(jìn)行隨機(jī)抽樣,觀察不同 spot 平均 reads 的情況下測(cè)序飽和度的分析,一直到實(shí)際的測(cè)序深度測(cè)序飽和度的值,理論上當(dāng)所有轉(zhuǎn)化的 mRNA 轉(zhuǎn)錄本均已測(cè)序后,飽和度接近 1.0(100%),虛線(xiàn)表示測(cè)序到合理的飽和點(diǎn)位置,也就是說(shuō)就是測(cè)序深度再高也不可能飽和度達(dá)到 100%。
Median Genes per Spot(sopt 點(diǎn)的中位基因)
也是對(duì) reads 進(jìn)行隨機(jī)抽樣,觀察不同 spot 平均 reads 的情況下 spot 的中位基因的值,曲線(xiàn)高點(diǎn)的斜率能反應(yīng)增加測(cè)序深度能得到大的 spot 的中位基因數(shù)。
總結(jié)
對(duì)于 web_summary 的結(jié)果我們大概重點(diǎn)可以從下面幾個(gè)方面來(lái)看數(shù)據(jù)效果:
1、總的 spot 數(shù),這個(gè)其實(shí)由組織的大小而定,沒(méi)有具體好壞的說(shuō)法;
2、每個(gè) spot 的中位基因數(shù),中位基因數(shù)太少說(shuō)明捕獲效果不好,有可能透化步驟條件不夠優(yōu)化,當(dāng)然也有可能是試劑或芯片的問(wèn)題;
3、測(cè)序飽和度,每個(gè)點(diǎn)的 UMI 中位數(shù),sopt 平均 reads 數(shù),飽和度、sopt 平均 reads 數(shù)和中位 UMI 數(shù)都太低說(shuō)明測(cè)序深度不夠,需要加大測(cè)序量。
4、基因組的比對(duì)率,比對(duì)率太低有可能是樣品污染;
5、組織 spot 上 reads 的比例,比對(duì)太低有可能透化時(shí)間不夠?qū)е卤尘?RNA 過(guò)高,需要優(yōu)化透化條件,也有可能組織區(qū)域選的不好,這個(gè)可以通過(guò) LoupeBrowser 手動(dòng)選擇組織區(qū)域。
更多伯豪生物人工服務(wù):