阿爾茲海默癥(AD)和帕金森氏癥(PD)是世界范圍內(nèi)的常見(jiàn)神經(jīng)退行性疾病。通過(guò)全基因組關(guān)聯(lián)研究(GWAS),科學(xué)家們已經(jīng)鑒定出了數(shù)千個(gè)與這兩類(lèi)疾病相關(guān)的單核苷酸多態(tài)性(SNP),但這些 SNP 大多處于基因組的非編碼區(qū)域,因此難以確定其功能。
近日,來(lái)自斯坦福大學(xué)的 Howard Chang 和 Tomas Montine 團(tuán)隊(duì),利用單細(xì)胞 / 多細(xì)胞 ATAC-Seq 和 HiChIP 數(shù)據(jù),分析了認(rèn)知健康人群大腦不同區(qū)域的染色質(zhì)可及性和三維基因組構(gòu)象,繪制了成年人類(lèi)大腦的多組學(xué)表觀遺傳圖譜。此外,研究團(tuán)隊(duì)還開(kāi)發(fā)了相應(yīng)的機(jī)器學(xué)習(xí)框架整合這些多組學(xué)數(shù)據(jù),用于預(yù)測(cè) AD 和 PD 相關(guān)的非編碼區(qū) SNP 功能。該研究結(jié)果發(fā)表在 Nature Genetics 上,文章題為“Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases”。
圖 1. 文章發(fā)表在 Nature Genetics
利用傳統(tǒng)的多細(xì)胞 ATAC-Seq,研究團(tuán)隊(duì)首先描繪了來(lái)自 39 個(gè)神經(jīng)系統(tǒng)健康個(gè)體的 7 個(gè)大腦區(qū)域的染色質(zhì)可及性圖譜(圖 2)。隨后又選取其中 10 個(gè)樣本進(jìn)行單細(xì)胞 ATAC-Seq 分析,一共獲得了 70,631 個(gè)細(xì)胞中的染色質(zhì)可及性數(shù)據(jù)。去除批次效應(yīng)后進(jìn)行聚類(lèi)分析,研究人員發(fā)現(xiàn)這些細(xì)胞可聚成 24 個(gè)類(lèi)別,分屬于 8 種不同的細(xì)胞類(lèi)型(圖 3),其中包括六種主要的大腦細(xì)胞類(lèi)型:興奮性神經(jīng)元(excitatory neurons),抑制性神經(jīng)元(inhibitory neurons),小膠質(zhì)細(xì)胞(microglia),寡突膠質(zhì)細(xì)胞(oligodendrocytes),星狀膠質(zhì)細(xì)胞(astrocytes)和寡突膠質(zhì)細(xì)胞祖細(xì)胞(oligodendrocyte progenitor cells)。
圖 2. 研究中取樣的 7 個(gè)大腦區(qū)域,圖片來(lái)源:Nature Genetics
圖 3. 70,631 個(gè)單細(xì)胞 ATAC-Seq 數(shù)據(jù)利用 UMAP 聚類(lèi)的結(jié)果,圖片來(lái)源:Nature Genetics
模體(Motif)分析的結(jié)果顯示,不同細(xì)胞類(lèi)型的染色質(zhì)可及性區(qū)域都結(jié)合有特異性的驅(qū)動(dòng)轉(zhuǎn)錄因子,例如小膠質(zhì)細(xì)胞中的 SPI1 和神經(jīng)元中的 JUN/FOS。同時(shí),研究人員對(duì)研究中的神經(jīng)元細(xì)胞進(jìn)行了聚類(lèi)分析,鑒定出了 30 種不同的細(xì)胞亞類(lèi)(圖 4)。
圖 4. UMAP 分析鑒定出的 30 種神經(jīng)元細(xì)胞亞類(lèi),圖片來(lái)源:Nature Genetics
為了找出非編碼區(qū)域 SNP 的靶標(biāo)基因,研究人員從開(kāi)始取樣的 7 個(gè)大腦區(qū)域中選擇了其中的 6 個(gè),制備 H3k27ac 介導(dǎo)的 HiChIP 文庫(kù)并進(jìn)行測(cè)序,共鑒定出了 833,975 對(duì)染色質(zhì)交互作用。同時(shí),研究團(tuán)隊(duì)利用單細(xì)胞之間可及性強(qiáng)度大小的協(xié)同變化情況(co-accessibility),預(yù)測(cè)出了 2,822,924 個(gè)交互作用。通過(guò)這兩種分析方式獲得的交互作用只有 20% 的重合,表明 HiChIP 只能鑒定出同一類(lèi)細(xì)胞共有的交互作用,無(wú)法捕獲細(xì)胞間特異性的交互作用。
此外,研究團(tuán)隊(duì)將 ATAC-Seq 和 HiChIP 數(shù)據(jù)結(jié)合預(yù)測(cè)了非編碼區(qū)域 SNP 的功能,并將 SNP 的功能按照重要程度分成幾個(gè)層級(jí)(圖 5):
1. SNP 位于多細(xì)胞或單細(xì)胞 ATAC-Seq 的可及性區(qū)域中(第三層次)。
2. 符合條件 1 的 SNP,同時(shí)參與 H3K27ac 介導(dǎo)的交互作用(次重要)。
3. 符合條件 1 和 2 的 SNP,同時(shí)處于轉(zhuǎn)錄因子結(jié)合位點(diǎn)中(較重要)。
對(duì)于屬于較重要類(lèi)別的 SNP,研究人員開(kāi)發(fā)了一種多組學(xué)機(jī)器學(xué)習(xí)框架(gapped k-mer supprot vector machine / gkm-svm)來(lái)預(yù)測(cè)單個(gè) SNP 在等位基因不同位點(diǎn)的結(jié)合情況。
圖 5. 非編碼區(qū)域 SNP 功能預(yù)測(cè)流程圖,圖片來(lái)源:Nature Genetics
研究人員認(rèn)為,新開(kāi)發(fā)的多組學(xué)結(jié)合的機(jī)器學(xué)習(xí)預(yù)測(cè)方法,主要解決了以下兩類(lèi)問(wèn)題:
1. 已知一些基因與疾病相關(guān),找出遠(yuǎn)程調(diào)控這些基因的 SNP。
例如,PICALM 是一個(gè)與 AD 相關(guān)的基因,作者發(fā)現(xiàn) rs1237999 位于 PICALM 上的遠(yuǎn)程調(diào)控元件中,并處于轉(zhuǎn)錄因子 FOS/AP1 結(jié)合 motif 上。同時(shí) rs1237999 特異性的結(jié)合在等位基因的其中一個(gè)位點(diǎn)上。
2. 已知一些 SNP 與疾病相關(guān),找出這些 SNP 調(diào)控的基因。
位于 ITIH1 的 Lead SNP 處于 600Kb 長(zhǎng)的 LD block 中,一共包含 317 個(gè) SNP。研究發(fā)現(xiàn),其中一個(gè) SNP rs181391313 位于微膠細(xì)胞特異性的調(diào)控元件中,而這個(gè)調(diào)控元件處于 STAB1 基因的內(nèi)含子內(nèi)部。STAB1 基因編碼一種大的跨膜受體蛋白,其功能與淋巴細(xì)胞歸巢(lymphocyte homing),低密度脂蛋白內(nèi)吞作用(endocytosis of ligands)相關(guān),這兩種功能都與微膠細(xì)胞參與 PD 吻合。同時(shí),該 SNP 破壞了轉(zhuǎn)錄因子 KLF4 的結(jié)合位點(diǎn),而 KLF4 在小膠質(zhì)細(xì)胞相關(guān)基因的活化中也發(fā)揮功能。
MAPT 基因編碼 tau 蛋白,這種蛋白的過(guò)度磷酸化在胞內(nèi)形成神經(jīng)元纖維纏結(jié),在 AD 中起著關(guān)鍵作用,但是目前還不清楚 MAPT 具體如何影響 PD。研究人員在 MAPT 基因區(qū)域創(chuàng)建了 haplotype 特異性的三維基因組圖譜,并鑒定出 28 個(gè)可及性發(fā)生變化的區(qū)域,其中就包括在 MAPT 啟動(dòng)子上游 68Kb 處 H1 單倍型特異性的遠(yuǎn)程調(diào)控元件,和下游 330Kb 處位于 KANSL1 啟動(dòng)子處的調(diào)控元件,這兩個(gè)調(diào)控元件只在 H1 單倍型中才與 MAPT 啟動(dòng)子發(fā)生特異性的交互作用。而在 H2 單倍型中,染色體倒位區(qū)域的兩個(gè)邊界區(qū)域發(fā)生特異性的交互。
圖 6. MAPT 基因啟動(dòng)子與遠(yuǎn)程調(diào)控元件的 H1 單倍型特異性的遠(yuǎn)程交互作用,圖片來(lái)源:Nature Genetics
綜上所述,該研究通過(guò)結(jié)合 ATAC-Seq 和 HiChIP 數(shù)據(jù),發(fā)現(xiàn)了更多與 AD 和 PD 相關(guān)的 基因,并通過(guò)整合多組學(xué)數(shù)據(jù)開(kāi)發(fā)機(jī)器學(xué)習(xí)分類(lèi)預(yù)測(cè)非編碼區(qū)域 SNP 的功能,有助于理解非編碼區(qū)域的改變對(duì) AD 和 PD 的影響。從更廣泛的意義上來(lái)講,該工作提出了一種了解疾病遺傳變異的系統(tǒng)方法,同時(shí),由于基因組上非編碼區(qū)域的調(diào)控機(jī)制十分復(fù)雜,因此這項(xiàng)工作也為篩選新的治療靶標(biāo)提供了途徑。
本文:來(lái)源測(cè)序中國(guó)(侵刪)
參考資料:
1. Corces, M.R., Shcherbina, A., Kundu, S. et al. Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases. Nat Genet 52, 1158–1168 (2020). https://doi.org/10.1038/s41588-020-00721-x
更多伯豪生物人工服務(wù):