轉(zhuǎn)錄因子(Transcription Factors, TFs) 指能夠以序列特異性方式結(jié)合 DNA 并且調(diào)節(jié)轉(zhuǎn)錄的蛋白質(zhì)。轉(zhuǎn)錄因子通過識(shí)別特定的 DNA 序列來控制染色質(zhì)和轉(zhuǎn)錄,以形成指導(dǎo)基因組表達(dá)的復(fù)雜系統(tǒng)。盡管眾多科學(xué)家對(duì)理解轉(zhuǎn)錄因子如何控制基因表達(dá)有著濃厚的興趣,精準(zhǔn)定位轉(zhuǎn)錄因子在基因組上的特異性結(jié)合位點(diǎn),以及轉(zhuǎn)錄因子結(jié)合后如何參與轉(zhuǎn)錄調(diào)節(jié)仍然具有挑戰(zhàn)性。
本綜述主要涵蓋了 1600 多種可能的人類轉(zhuǎn)錄因子和與其中三分之二轉(zhuǎn)錄因子結(jié)合的 motif,來鑒定轉(zhuǎn)錄因子并對(duì)其功能進(jìn)行注釋。本文根據(jù)目前對(duì)轉(zhuǎn)錄因子及其功能的理解,為思考轉(zhuǎn)錄因子如何單獨(dú)又如何作為整體工作提供了思路。
轉(zhuǎn)錄因子是對(duì)基因組的直接闡釋,是執(zhí)行 DNA 解碼序列的首步。許多轉(zhuǎn)錄因子充當(dāng)著主調(diào)節(jié)因子和選擇基因的角色,控制著細(xì)胞類型的決定、發(fā)育模式和特定途徑控制(如免疫反應(yīng))的過程。在實(shí)驗(yàn)室中,轉(zhuǎn)錄因子可以促進(jìn)細(xì)胞分化、去分化和轉(zhuǎn)分化。轉(zhuǎn)錄因子和轉(zhuǎn)錄因子結(jié)合位點(diǎn)突變是人類致病的主要因素。在后生動(dòng)物中,他們蛋白質(zhì)序列調(diào)控區(qū)的生理作用通常非常保守,這表明基因組調(diào)控" 網(wǎng)絡(luò) "可能同樣是保守的。但是,個(gè)別監(jiān)管序列的轉(zhuǎn)換率很高,當(dāng)時(shí)間尺度更長時(shí),轉(zhuǎn)錄因子可能會(huì)發(fā)生多拷貝和突變。相同的轉(zhuǎn)錄因子可以調(diào)節(jié)不同細(xì)胞類型中的不同基因(例如,乳腺和子宮內(nèi)膜細(xì)胞系中的 ESR1),這表明即使在同一生物體內(nèi)轉(zhuǎn)錄因子的調(diào)節(jié)也是動(dòng)態(tài)的。確定轉(zhuǎn)錄因子如何以不同方式組裝以識(shí)別綁定位點(diǎn)和調(diào)控" 網(wǎng)絡(luò) "轉(zhuǎn)錄是一項(xiàng)龐大而令人望而生畏的工作,但是,對(duì)于理解它們的生理作用、解碼基因組的特定功能,以及在復(fù)雜生物中繪制高度特異性表達(dá)程序的編排是至關(guān)重要的。
相對(duì)于其他序列,轉(zhuǎn)錄因子對(duì)特異性結(jié)合序列具有 1,000 倍甚至更高的偏好,因?yàn)檗D(zhuǎn)錄因子可以通過阻斷其他蛋白質(zhì)的 DNA 結(jié)合位點(diǎn)進(jìn)而發(fā)揮作用(例如,經(jīng)典的 lambda,lac 和 trp 阻遏物),單獨(dú)結(jié)合特定 DNA 序列的能力通常被視為調(diào)節(jié)轉(zhuǎn)錄能力的指標(biāo)。如果沒有轉(zhuǎn)錄因子結(jié)合的 DNA 序列的詳細(xì)信息,就不能在功能上理解這些蛋白質(zhì)。轉(zhuǎn)錄因子與特異性 DNA 結(jié)合通常概括為“基序”(motif),是指給定 TF 優(yōu)先的相關(guān)短序列組的模型,其可用于掃描較長序列(例如,啟動(dòng)子)以鑒定潛在的結(jié)合位點(diǎn)。確定 DNA 結(jié)合的 motif 通常是詳細(xì)闡釋轉(zhuǎn)錄因子功能的首步,鑒定潛在的結(jié)合位點(diǎn)為進(jìn)一步分析提供了途徑。在過去的十年中,我們開發(fā) motif 和基因組結(jié)合位點(diǎn)的能力得到了顯著提高,從而產(chǎn)生了關(guān)于 TF-DNA 相互作用的前所未有的大量數(shù)據(jù)。為了開發(fā)目前的 TF 目錄,本文主要參考了 TRANSFAC,JASPAR,HT-SELEX,UniPROBE 和 CisBP,以及先前的人類轉(zhuǎn)錄因子目錄。
早在 20 世紀(jì) 80 年代,就描述了真核生物中的主要 TF 家族,如 C2H2- 鋅指(ZF),同源域,堿性螺旋 - 環(huán) - 螺旋(bHLH),堿性亮氨酸拉鏈(bZIP)和核激素受體(NHR)。通常通過諸如 DNA 酶足跡法或遷移率變換的方法鑒定結(jié)合位點(diǎn),再使用 N - 末端肽測序,噬菌體文庫或單雜交篩選鑒定特定結(jié)合蛋白。繼續(xù)通過實(shí)驗(yàn)方法鑒定(例如,單雜交測定,DNA 親和純化 - 質(zhì)譜,和蛋白質(zhì)微陣列可以篩選新的 DNA 結(jié)合蛋白),但是今天,大多數(shù)已知和推定的 TF 已經(jīng)通過先前表征的 DNA 結(jié)合結(jié)構(gòu)域(DBD)的序列同源性來鑒定,這也用于對(duì) TF 進(jìn)行分類。目前在蛋白質(zhì)數(shù)據(jù)庫(PDB)中可獲得大約 100 種已知的真核生物 DBD 類型。迄今為止,除了少數(shù)充分表征的哺乳動(dòng)物轉(zhuǎn)錄因子之外的所有轉(zhuǎn)錄因子都含有已知的 DBD。在僅基于與 DBD 的同源性匹配來推斷功能時(shí)必須小心,因?yàn)椴⒎撬薪Y(jié)構(gòu)域都一定會(huì)結(jié)合特定 DNA 序列。
首先根據(jù)結(jié)合位點(diǎn)中每個(gè)堿基的轉(zhuǎn)錄因子的相對(duì)偏好產(chǎn)生一張基礎(chǔ)表或“位置權(quán)重矩陣”(PWM)。在每個(gè)堿基位置,四個(gè)堿基中的每一個(gè)都具有得分,并且將序列的每個(gè)堿基的這些得分相乘來預(yù)測得到轉(zhuǎn)錄因子對(duì)該序列的相對(duì)親和力。在許多情況下,這反映了對(duì)一個(gè)或少數(shù)相關(guān)序列的強(qiáng)烈偏好。此外,PWM 還存在一些缺點(diǎn):基線位置之間可能存在依賴關(guān)系由于 DNA 形狀或可變形性;轉(zhuǎn)錄因子可以具有多種結(jié)合模式(例如,蛋白質(zhì)的不同物理構(gòu)型導(dǎo)致分離的,不同的基序)等。為了解釋這些復(fù)雜性,科學(xué)家們開發(fā)了更復(fù)雜的模型,例如結(jié)合了對(duì)二核苷酸和高級(jí) k -mers 的偏好,使得轉(zhuǎn)錄因子及其家族的準(zhǔn)確性有所提高。然而,在許多情況下,改進(jìn)的效果很小甚至檢測不到。PWM 仍然是分析轉(zhuǎn)錄因子結(jié)合常用的模型,并術(shù)語“motif”來表示 PWM。
接下來通常通過實(shí)驗(yàn)確定的結(jié)合位點(diǎn)和與 motif 匹配的序列之間僅存在部分重疊,甚至實(shí)驗(yàn)確定的結(jié)合位點(diǎn)是相對(duì)較差的預(yù)測因子。同時(shí),motif 匹配通常是 ChIP-seq(染色質(zhì)免疫沉淀測序)數(shù)據(jù)集中富集的序列之一,表明內(nèi)在 DNA 結(jié)合的特異性對(duì)于體內(nèi)轉(zhuǎn)錄因子的結(jié)合是重要的。出現(xiàn)這樣的現(xiàn)象不是空穴來風(fēng),大多數(shù)轉(zhuǎn)錄因子結(jié)合位點(diǎn)很小(通常是 6 -12 個(gè)堿基),并且是靈活的,因此典型的人類基因(> 20 kb)將包含大多數(shù)轉(zhuǎn)錄因子的多個(gè)潛在結(jié)合位點(diǎn)。因此我們需要通過其它途徑來解決問題,例如轉(zhuǎn)錄因子之間的協(xié)同性和協(xié)同作用,為這種特異性缺陷提供了一個(gè)現(xiàn)成的解決方案。大多數(shù)人類的轉(zhuǎn)錄因子必須共同努力才能完成任何事情,但是他們之間的相互作用和關(guān)系的細(xì)節(jié)大多數(shù)是未知的。結(jié)合 DNA 后轉(zhuǎn)錄因子的生物化學(xué)作用也在很大程度上未被反映出來。因此,解碼基因調(diào)控如何與 TF 結(jié)合基序和基因序列相關(guān)仍然是一個(gè)主要的現(xiàn)實(shí)層面的挑戰(zhàn)。
理論論證和實(shí)踐觀察表明,后生動(dòng)物的轉(zhuǎn)錄因子一般必須共同作用才能與 DNA 結(jié)合,在效應(yīng)功能中達(dá)到所需的特異性。轉(zhuǎn)錄因子有多種合作方式,例如幫助相互結(jié)合 DNA(協(xié)同結(jié)合)或通過不同機(jī)制影響染色質(zhì)狀態(tài)或轉(zhuǎn)錄(協(xié)同調(diào)節(jié))。TF 還可以作為同二聚體(例如,bZIP 和 bHLH),三聚體(例如,熱休克因子)或更高級(jí)結(jié)構(gòu)協(xié)同結(jié)合。
協(xié)同結(jié)合可以通過幾種方式發(fā)生。當(dāng)它由蛋白質(zhì) - 蛋白質(zhì)相互作用介導(dǎo)時(shí)容易理解,當(dāng)兩個(gè)(或更多個(gè))相互作用蛋白質(zhì)以相容的間隔和方向結(jié)合 DNA 時(shí),便賦予其額外的穩(wěn)定性。高通量體外研究表明,協(xié)同結(jié)合常常影響復(fù)合物中轉(zhuǎn)錄因子的序列偏好,并且還可能對(duì)兩個(gè)結(jié)合位點(diǎn)之間的間隔序列產(chǎn)生限制。單分子成像的結(jié)果研究證實(shí),當(dāng)多個(gè)轉(zhuǎn)錄因子結(jié)合在一起時(shí)會(huì)占據(jù)更長時(shí)間。
近期的研究表明 DNA 介導(dǎo)的協(xié)同結(jié)合也在轉(zhuǎn)錄因子功能中起重要作用。分子建模和結(jié)構(gòu)分析表明,在某些情況下,協(xié)同性是由于 DNA 促進(jìn)了蛋白質(zhì)之間的接觸。在其他情況下,蛋白質(zhì)結(jié)合在 DNA 的對(duì)立面或彼此相對(duì)較遠(yuǎn)的一邊,表明 DNA 直接介導(dǎo)了協(xié)同性。也就是說,一個(gè)轉(zhuǎn)錄因子的結(jié)合以促進(jìn)另一個(gè)轉(zhuǎn)錄因子結(jié)合的方式影響 DNA 的形狀。
為了與核小體 DNA 結(jié)合,TF 必須與核小體競爭或以某種方式與核小體或核小體 DNA 相互作用以進(jìn)入其位點(diǎn)。TF 也可內(nèi)在地與核小體競爭結(jié)合 TF,此外,一些 TF 可以啟動(dòng)核小體的置換或至少改變它們的構(gòu)象。這些 TF 的活性也可能取決于它們結(jié)合核小體 DNA 的能力,這可能受核小體上結(jié)合位點(diǎn)的旋轉(zhuǎn)定位的影響(例如,Yamanaka 因子 POU5F1,SOX2,KLF4 和 MYC)。另一個(gè)有趣的現(xiàn)象是,不同的染色質(zhì)重塑器具有特定 DNA 序列和 / 或核小體構(gòu)象的偏好,表明核小體和核小體的定位機(jī)制賦予了 TF 功能上額外的 DNA 序列特異性。
轉(zhuǎn)錄因子在與 DNA 結(jié)合時(shí)影響轉(zhuǎn)錄的方式變化很大。一些轉(zhuǎn)錄因子(例如,TBP)可以直接 RNA 招募聚合酶,還有一些可以招募促進(jìn)特定轉(zhuǎn)錄階段的輔助因子。大多數(shù)真核生物的轉(zhuǎn)錄因子被認(rèn)為通過招募輔助因子起作用。這種“共激活因子”和“輔阻遏物”初期被鑒定為轉(zhuǎn)錄因子效應(yīng)子活性的介質(zhì),通常是大的多亞基蛋白質(zhì)復(fù)合物,或通過幾種機(jī)制調(diào)節(jié)轉(zhuǎn)錄的多結(jié)構(gòu)域蛋白質(zhì)。它們通常涉及染色質(zhì)結(jié)合,核小體重塑和組蛋白或其他蛋白質(zhì)結(jié)構(gòu)域的共價(jià)修飾。IFNβ 增強(qiáng)體是共激活因子招募的一個(gè)經(jīng)典例子,其中多個(gè)轉(zhuǎn)錄因子的結(jié)合導(dǎo)致 GCN5 / KAT2A 和 CBP / p300 組蛋白乙酰轉(zhuǎn)移酶的募集。由此產(chǎn)生的局部染色質(zhì)環(huán)境變化會(huì)引起核小體重塑,如 SWI / SNF 復(fù)合物為 RNA 聚合酶創(chuàng)造空間以結(jié)合并啟動(dòng)轉(zhuǎn)錄。一些共激活因子和輔阻遏物似乎更廣泛。p300 經(jīng)常被用作增強(qiáng)子的標(biāo)記物,與數(shù)十種 TF 相關(guān)聯(lián)。連接 TF 和 RNA 聚合酶 II 的 Mediator 復(fù)合物類似地與數(shù)千個(gè)基因座相關(guān)聯(lián)。
特異性的效應(yīng)結(jié)構(gòu)域通??梢越閷?dǎo) TF 特異性輔助因子的招募。同樣,核激素受體的配體結(jié)合結(jié)構(gòu)域以配體和背景依賴的方式促進(jìn)與共激活因子、輔阻遏物和其他 TF 的相互作用。經(jīng)大量研究后,發(fā)現(xiàn)蛋白質(zhì)中存在的經(jīng)典轉(zhuǎn)錄激活因子序列(例如,TP53,E2F 和 SP1 中發(fā)現(xiàn)的酸性序列),它們通常是非結(jié)構(gòu)化的低復(fù)雜性序列,具有稱為短線性基序的小功能區(qū)域。
TF 傳統(tǒng)上被歸類為“激活物”和“阻遏物”;然而許多 TF 根據(jù)所在序列的位置和輔助因子的作用可以招募具有相反作用的多種輔助因子,例如,MAX 作為與 MNT 或 MXD1 作為異二聚體與 DNA 結(jié)合時(shí)起抑制劑作用,當(dāng)作為異二聚體與 MYC 結(jié)合時(shí)起激活作用。目前還沒有全面的輔助因子目錄。此外,基因激活或增強(qiáng)子和啟動(dòng)子之間的通信所需的生化功能在很大程度上仍然是未知的。人體中多達(dá) 443 種不同的染色質(zhì)修飾蛋白已經(jīng)做好了歸類,并且已經(jīng)了解了輔助因子和染色質(zhì)蛋白之間的許多相互作用。但是,相同的研究檢測到很少的 TF,這表明 TF- 輔助因子的相互作用是弱的 / 瞬時(shí)。
目前并沒有一個(gè)通用的解決方案可以自動(dòng)生成我們所需要的列表,因此當(dāng)下結(jié)構(gòu)域無法高精度地推測出轉(zhuǎn)錄因子,文庫又是高度不統(tǒng)一的,電子信息的注解有沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。新的人類轉(zhuǎn)錄因子庫發(fā)表于 2009 年,總共涵蓋了 535 個(gè)人的轉(zhuǎn)錄因子,并描述了所推測的 DBD。近年來,該文庫迅速擴(kuò)展。本綜述對(duì)人類轉(zhuǎn)錄因子集進(jìn)行了一定程度的修訂。
本綜述手工查詢了 2,765 種蛋白質(zhì),為每種蛋白質(zhì)創(chuàng)建了一個(gè)網(wǎng)頁,其中包含所有相關(guān)信息和外部數(shù)據(jù)庫的鏈接。本綜述考慮了全局序列比對(duì)和 DNA 已知的結(jié)合的殘基,以便在僅有亞基結(jié)合 DNA 的家族(例如,ARID,HMG 和 Myb / SANT)中對(duì)表征不佳的蛋白質(zhì)做一個(gè)評(píng)估??紤]到可行性的因素,我們沒有搜索或記錄蛋白質(zhì)修飾或結(jié)合配偶體等復(fù)雜性。 “HumanTFs”網(wǎng)站(http://humantfs.ccbr.utoronto.ca/)顯示結(jié)果,每個(gè) TF 都有一個(gè)單獨(dú)的頁面,以及每種 DBD 類型的所有已知 motif 和信息以及序列比對(duì)。此網(wǎng)站還有一個(gè)用戶可以選擇提交其他信息的選項(xiàng)。
Table1. 判斷和識(shí)別 TF 特異性結(jié)合的實(shí)驗(yàn)方法
記錄的 1,639 個(gè)已知或潛在的人類轉(zhuǎn)錄因子,其中大多數(shù)至少包含了兩種 DBD 類型中的一種(C2H2-ZFs 和 Homeodomains)。剩下近一半(46%)是另外六個(gè) bHLH、bZIP、Forkhead、核激素受體、HMG / Sox 和 ETS(圖 1B)。在考慮了缺乏 DNA 序列特異性的已知亞類后,含有 Myb / SANT 和 HMG 結(jié)構(gòu)域的 TF 比先前估計(jì)的少得多。1,639 個(gè) TF 中的大多數(shù)(93%)或作為單體與 DNA 結(jié)合或作為同源多聚體與 DNA 結(jié)合。且許多都包含相同 DBD 類型的多拷貝(圖 1C),但其中大多數(shù)是 C2H2-ZF,它們與 DNA 按列結(jié)合(圖 1A)。每種蛋白質(zhì)的 C2H2-ZF 數(shù)量變化很大,一定程度上取決于效應(yīng)結(jié)構(gòu)域(圖 1B)。含有 KRAB 的亞型中的大量 C2H2-ZF 可能是由于靶向單個(gè)轉(zhuǎn)座子所需的特異性。只有一小部分 TF(47 或?3%)含有多種類型的 DBD,而 POU 是常見的同源域是常見的(圖 1C)。大多數(shù)人類 TF 也含有其他蛋白質(zhì)結(jié)構(gòu)域(圖 1D):其中有 391 種不同類型的非 DNA 結(jié)合結(jié)構(gòu)域,與 TF 效應(yīng)子功能的多樣化和廣泛網(wǎng)絡(luò)的概念一致。
當(dāng)前的 TF 列表可能仍然不完整,完整的 DBD 系列可能仍然未被完全發(fā)掘。實(shí)際上,由于缺乏規(guī)范的 DBD,此列表中的 69 個(gè) TF 被歸類為“unknown family”。大多數(shù)這些蛋白質(zhì)缺乏 motif(見下文),晶體結(jié)構(gòu)基本上是無法獲得的,并且與 DNA 結(jié)合的證據(jù)僅包括在單個(gè)文庫中鑒定的少數(shù)序列。因此,在獲得更多實(shí)驗(yàn)數(shù)據(jù)結(jié)果前,應(yīng)謹(jǐn)慎對(duì)待此類別的 TF。
此外,一些已知的 DBD 系列可能比目前所理解的更大。例如,根據(jù) Interpro 和 SMART 數(shù)據(jù)庫,預(yù)測的簡單的 AT 鉤結(jié)構(gòu)域(由 13 個(gè)氨基酸 [aa] 共有序列表示)分別存在于 3 和 21 號(hào)人類基因中。然而,一個(gè)更寬泛的定義,只需要在 22 個(gè)堿基窗口上存在側(cè)翼為多個(gè)堿性殘基的 GRP 三肽(Aravind 和 Landsman,1998),它存在于數(shù)百種人類蛋白質(zhì)中,每種蛋白質(zhì)都可以代表真正的 TF。C2H2-ZF 家族也值得評(píng)估,因?yàn)槌霈F(xiàn)了更好的模型來識(shí)別這些短的(?23 aa)結(jié)構(gòu)域,并將參與 DNA 結(jié)合的那些區(qū)域與促進(jìn)與 RNA 或其他蛋白質(zhì)相互作用的區(qū)域區(qū)分開來(Brayer 和 Segal,2008)。
Figure1. 人類轉(zhuǎn)錄因子合集
目前大約四分之三(1,211)的人類轉(zhuǎn)錄因子具有與其結(jié)合的 motif。已知 motif 中的 913 個(gè)是通過體外高通量法(例如 HT-SELEX 或 PBM)測定出來的。圖 1B 說明大多數(shù)類別的 TF 具有高或完全的 motif 覆蓋,而少數(shù)具有主要差異。例如,幾乎所有的同源結(jié)構(gòu)域(188/196)都有一個(gè)已知或推斷的 motif,可能是由于它們相對(duì)容易在體外研究,它們的深層次的特點(diǎn)能夠通過同源性推斷。相比之下,C2H2-ZF 類轉(zhuǎn)錄因子目前缺少數(shù)百個(gè) motif(267/747)(圖 1B),可能是因?yàn)樗鼈冸y以在體外研究(許多是大蛋白),而且保守的相對(duì)較少。
許多 TF 識(shí)別相似的 motif,通常對(duì)應(yīng)到 TF 家族或亞家族,這個(gè)現(xiàn)象與許多先前的研究一致(圖 2A)。值得注意的是,C2H2-ZF 蛋白為 motif 中多樣性的(圖 2B),這與先前所研究得結(jié)構(gòu)和 DNA 接觸殘基的多樣性一致。圖 2C 顯示的是 NHR 家族的 motif,說明轉(zhuǎn)錄因子多樣性涉及單體 DNA 序列偏好和蛋白質(zhì)復(fù)合物形成的變化。圖 2C 中的許多 motif 被二聚體識(shí)別。在人體中總共有超過 500 個(gè)特異性的 motif,表明廣泛的 DNA 序列可以作為轉(zhuǎn)錄因子結(jié)合位點(diǎn)。
Figure2. 特異性結(jié)合人類轉(zhuǎn)錄因子的 DNA
轉(zhuǎn)錄因子的演變通常比它們的調(diào)控位點(diǎn)的演變慢得多。人和果蠅之間的轉(zhuǎn)錄因子直系同源物通常顯示出幾乎相同的序列特異性。盡管如此,轉(zhuǎn)錄因子確實(shí)在不斷進(jìn)化,它們的 motif、結(jié)合物和表達(dá)模式都在不停地改變著。人類轉(zhuǎn)錄因子中不變與改變中的一個(gè)突出例子便是大多數(shù)哺乳動(dòng)物基因組編碼了數(shù)百種含有 KRAB 的 C2H2-ZF 蛋白,其中許多都顯示出了多樣化選擇的標(biāo)志,在人和小鼠之間也具有復(fù)雜的直系同源模式。在人類中,KRAB C2H2-ZF 蛋白通常都與轉(zhuǎn)座子(TEs)(主要是 LINE 和內(nèi)源性逆轉(zhuǎn)錄病毒)結(jié)合,在初期可能是通過抑制 KRAB 結(jié)構(gòu)域的功能使它們沉默。轉(zhuǎn)座子和轉(zhuǎn)錄因子之間的“軍事競賽”為其迅速而又多樣化的變化做出了很好的解釋。
基于它們?cè)谡婧嘶蚪M中的分布(圖 3A),當(dāng)前的 1,639 個(gè)轉(zhuǎn)錄因子根據(jù)親緣關(guān)系得知其涵蓋了包括脊椎動(dòng)物,四足動(dòng)物,胎盤哺乳動(dòng)物或靈長類動(dòng)物在內(nèi)的后生動(dòng)物主要群體。有趣的是,幾乎所有脊椎動(dòng)物都具有同源域蛋白的可識(shí)別對(duì)應(yīng)物,而幾乎所有哺乳動(dòng)物特異性蛋白都含有 C2H2-ZF 結(jié)構(gòu)域。實(shí)際上,Ensembl 定義的人類 TF-TF 旁系同源物之間的分化都有兩種趨向:兩側(cè)對(duì)稱動(dòng)物中多種 TFs 家族出現(xiàn)了首波重復(fù),由 KRAB C2H2-ZF 主導(dǎo)的第二波重復(fù)則出現(xiàn)在 Amniota(圖 3B,左)。早期時(shí)整個(gè)多樣性的 TF 家族的復(fù)制與脊椎動(dòng)物中整個(gè)基因組發(fā)生兩輪復(fù)制的假說一致。該事件與細(xì)胞類型的多元化發(fā)展是大致符合的,并且復(fù)制的 TF 可能有助于調(diào)控新細(xì)胞類型。KRAB 的輻射性增加可能在一定程度上解釋了為什么胎盤能夠很大可能的傳遞逆轉(zhuǎn)錄病毒。值得注意的是,在過去的 3 億年里,KRAB 的輻射區(qū)域中 TF-TF 的復(fù)制主導(dǎo)了其在所有人類同源物的分布(圖 3B,右)。
Figure3. 人類轉(zhuǎn)錄因子的直系同源基因和旁系同源基因
基因(包括轉(zhuǎn)錄因子)的組織和細(xì)胞類型包括 TFs 的特異性表達(dá)通常對(duì)應(yīng)著相應(yīng)的特定功能。我們使用來自人類組織圖譜中的 RNA-seq 數(shù)據(jù)檢查了在 37 個(gè)成人組織中的 1,554 個(gè)轉(zhuǎn)錄因子的表達(dá)模式(圖 4A),采用其組織特異性表達(dá)的定量定義。這種基因表達(dá)模式的全局視圖捕獲了許多特征明確的 TF 的已知作用。例如,SOX2,OLIG1 和 POU3F2(OCT7)幾乎只在大腦皮層中表達(dá),而 GATA4 和 TBX20 僅在心肌中高度表達(dá)。該數(shù)據(jù)集中大約三分之一(543)的人類 TF 表現(xiàn)出組織特異性表達(dá)的特點(diǎn),其中包括許多具有不良特征的生理作用。
在其他的 TF 家族中,一半(49%)是具有組織特異性的,并提供了關(guān)于其特定生理功能的線索。更高分辨率的數(shù)據(jù),例如來自單細(xì)胞 RNA-seq,可以解析同一組織的不同類型細(xì)胞對(duì)轉(zhuǎn)錄因子間的聯(lián)系,使得對(duì)于細(xì)胞鑒定和受轉(zhuǎn)錄因子調(diào)控的基因有更深刻的理解。
轉(zhuǎn)錄因子占所有人類基因的約 8%,并且與多種疾病和表型相關(guān)。轉(zhuǎn)錄因子突變通常是高度有害的,這也解釋了為什么基因組 TF 編碼位點(diǎn)富含超保守的位點(diǎn)。轉(zhuǎn)錄因子遺傳分析可能因基因調(diào)控網(wǎng)絡(luò)固有的功能冗余而變得復(fù)雜,因?yàn)楸硇涂赡茈y以僅在特定條件下檢測得到或表現(xiàn)出來,或者因?yàn)樵谌后w水平上具有高度有害作用的變體不存在。盡管如此,關(guān)于臨床表型中人類 TF 的全球視角確實(shí)揭示了一個(gè)共同的主題。圖 4B 展示出了編碼 TF 的基因內(nèi)或附近的大量突變相關(guān)的人類疾病表型。對(duì)于與先天性生長激素缺乏有關(guān)的垂體前葉發(fā)育不全觀察到了觀察到大量基因的富集。已知的 15 種基因參與該表型,其中有 12 種是編碼 TF(p<10 -11),包括多個(gè)同源域和 Sox 家族的轉(zhuǎn)錄因子??偟膩碚f,人 313 個(gè)(19.1%)的轉(zhuǎn)錄因子至少與一種表型相關(guān),顯著高于所觀察到的部分(16.2%)。相比之下,基于近期的 CRISPR 篩選的數(shù)據(jù)(3% 對(duì) 10%),轉(zhuǎn)錄因子從人類癌細(xì)胞系中的核心必需基因組中排除,可能是因?yàn)槿祟惖霓D(zhuǎn)錄因子庫已主要用于發(fā)育或組織功能特定化。
一些多基因疾病的全基因組關(guān)聯(lián)研究(GWAS)信號(hào)也富集了基因座編碼的轉(zhuǎn)錄因子(圖 4C)。這些疾病中的很多都具有強(qiáng)烈的免疫依賴性,表明許多免疫反應(yīng)相關(guān)的轉(zhuǎn)錄因子所具有的突出作用。此外,許多獨(dú)立的轉(zhuǎn)錄因子基因座具有針對(duì)多種疾病的強(qiáng) GWAS 信號(hào)。例如,編碼 Ikaros 基因家族 C2H2-ZFS 的基因座中,突變體 IKZF1 和 IKFZ3,在適應(yīng)性免疫應(yīng)答中起到了至關(guān)重要的作用。
轉(zhuǎn)錄因子的模塊化結(jié)構(gòu)有助于突變影響的機(jī)制的識(shí)別。DBD 突變會(huì)改變序列特異性,位于 DBD 之外的突變也可能對(duì)基因表達(dá)產(chǎn)生很大的影響。在癌癥中,染色體異??梢援a(chǎn)生具有新功能的癌融合蛋白,例如 Ets 因子 ERG 和 FLI1 與 RNA 結(jié)合蛋白 EWSR1 融合。同樣的,對(duì)于任何基因,在控制 TF 表達(dá)的調(diào)節(jié)區(qū)內(nèi)的突變,導(dǎo)致 TF 功能改變。例如,在驅(qū)動(dòng) MYC 表達(dá)的增強(qiáng)子中弱化 TCF7L2(TCF-4)結(jié)合位點(diǎn)可降低結(jié)腸中腫瘤發(fā)生的風(fēng)險(xiǎn)。
轉(zhuǎn)錄因子作為一類獨(dú)特的基因,它們的結(jié)合位點(diǎn)會(huì)受所調(diào)節(jié)的 DNA 的變異或突變影響。目前發(fā)現(xiàn)了許多這樣的例子,其中涵蓋了大量的的轉(zhuǎn)錄因子家族疾病。更深入地了解轉(zhuǎn)錄因子對(duì)于如何找到對(duì)應(yīng)目標(biāo)并控制基因表達(dá)模式對(duì)于我們了解 85%-93% 的常見疾病相關(guān)的遺傳變異有極大的幫助。
基因組中的大多數(shù)的功能性 DNA 都是具有調(diào)節(jié)性的,轉(zhuǎn)錄因子在其的識(shí)別和功能發(fā)揮中起著核心作用。在許多人類疾病中 TFs 有著明顯的作用,使得理解轉(zhuǎn)錄因子所介導(dǎo)的基因調(diào)控機(jī)制的重要性更加突出。目前所面臨的挑戰(zhàn)依然存在,包括解決調(diào)節(jié)相同基因的多種元件之間的協(xié)同作用和冗余,預(yù)測增強(qiáng)子 - 啟動(dòng)子的聯(lián)系,沿染色體及其三維結(jié)構(gòu)上大規(guī)模調(diào)控的特點(diǎn),以及各種類型的表觀遺傳記憶。解決這些挑戰(zhàn)的計(jì)算機(jī)方法是正在進(jìn)行中,開發(fā)探索轉(zhuǎn)錄因子在成核和調(diào)停的實(shí)驗(yàn)技術(shù)同樣也在進(jìn)行著。這些進(jìn)展將有助于我們達(dá)到下一個(gè)人類遺傳學(xué)前沿:以 TF 的方式解碼基因組。
Figure4. 人類轉(zhuǎn)錄因子的功能特性
參考文獻(xiàn)
Lambert SA, Jolma A, Campitelli LF, Das PK, Yin Y, Albu M, Chen X, Taipale J, Hughes TR, Weirauch MT. The Human Transcription Factors. Cell. 2018;175:598–9.
本文來源于網(wǎng)絡(luò):如侵權(quán),請(qǐng)郵件提示刪除,接收郵箱:market@shbio.com