保守序列

用ClustalO生成出的哺乳动物组蛋白序列比对
这些序列是蛋白质中氨基酸120-180残基。灰色高亮的残基在所有序列中高度保守。在蛋白质序列下方标注为 保守序列 (*),保守突变(:),半保守突变 (.),或者非保守突变( )。[1]
保守残基
保守序列残基示例图:小鼠体内不同G蛋白偶联受体的序列比对。图中红色所示为高度保守的序列残基。

保守序列(英語:conserved sequences)在生物学中是指在核酸序列(如RNA及DNA序列)、蛋白质序列、蛋白质结构多聚糖序列内相似或相同的序列,这种情况可以发生在各物种间(种间同源序列)或由相同生物产生的不同分子(种内同源序列)间。对于物种间保守的情况,这意味着尽管物种形成一些特定的序列仍在进化过程中被保留了下来。也就是说系统树越向上推,特定序列越保守。因为序列信息在通常情况下通过基因自双亲传向子代,那么一条保守序列即意味着存在着一条保守基因

人们普遍认为“高度保守”区域的突变会引发不能生存或無法延續的生命形式(例如血球生產、性成熟的重要基因失效),或是在自然选择中消亡的生命形式(例如控制免疫表達的基因)。环境决定着基因的保守或非保守。例如,在有抗生素存在的环境下,微生物中的抗生素抗药性基因将高度保守。如果环境中没有抗生素的存在,这种基因将变成非保守基因。

核酸和蛋白质序列

高度保守的DNA序列被认为有功能型价值。人们对许多高度保守的非编码DNA序列的功能还不甚理解。Bejerano和同事们在2004年第一次提出人类、小鼠和大鼠中的极端保守元素或序列(UCEs或者UCRs,高度保守区域)有100%的一致性。[2] 最近的一项研究显示,缺少四个高度保守非编码基因的序列的小鼠可以存活,而且和正常小鼠相比并没有显著的表型差异。作者将他们的发现描述为“意料之外”。[3]许多DNA区域,包括高度保守的DNA序列,由重复序列元素组成。一个可能的解释是,如果假设在在维持基本的生命过程中,一个序列已经足够,重复的序列都是多余的,那么只删除一个或一个子集的重复序列理论上可以维持表型功能。但是在这篇文章中并没有特别说明被移除的序列是不是重复序列。虽然许多保守序列的生物功能还是未知的,对少数保守序列转录表达的研究显示,在人类的癌症组织中,它们的表达是反常的。[4]

Conserved Polyadenylation Sequence zh

种系甲基化可以被用于关闭基因表达。基因中的胞嘧啶(C)鸟嘌呤(G)二核苷酸序列是潜在的甲基化位点,一旦甲基化,将会部分影响基因的正常表达。甲基化的胞嘧啶(C)(5-甲基-胞嘧啶)脱甲基之后,将会转变为胸腺嘧啶(T),然后错误的与鸟嘌呤(G)配对。之后,鸟嘌呤(G)会被腺嘌呤(A)取代,造成基因序列的改变。长久下来,5-甲基-胞嘧啶(C)很容易发生脱氨基反应,然后降低基因甲基化区域中的胞嘧啶鸟嘌呤(CG)频率。然而,基因中的某些区域会有高密度的胞嘧啶鸟嘌呤二核苷酸(CG)序列存在,因为它们没有被甲基化。没有甲基化的过程允许了基因的正常表达。这些区域,通常被称为CG岛,据说是高度保守的序列。CG岛被认为是高度保守的序列因为序列中的任何改变,例如甲基化,对生物体都是有害的。因此,CG岛是在选择压力下存在的。相似的CG岛可以在不同物种中的基因组中存在,表示这些序列已经存在了很长一段时间。

一种CpG岛形成的假说图解:通过未被甲基化,从而在漫长的进化史上保留下来

生物作用

基本的细胞功能、稳定或繁殖通常需要高度保守序列。序列的相似性可以用作结构、功能保守和序列中的演化关系的证据。因此,常常通过搜寻基因组中的保守序列来确定功能元素。 蛋白质编码序列的保守导致蛋白质结构中相同氨基酸残基在类似的区域中表达,因此也拥有相同的功能。保守突变把氨基酸改变为相似的化学残基,所以可能并不影响蛋白质的功能。最高度保守的序列为活性位点和蛋白质受体的结合位点。

非编码保守序列不编译蛋白质,但是通常包含顺式作用元件。高度保守序列在人类中有一些缺失 (hCONDELs)。普遍的观点认为这一点是人类和其他哺乳动物存在解剖和行为差异的潜在原因。[5][6]TATA启动子序列可以作为真核生物DNA序列高度保守的例子。

核心启动子元素(图中粉色部分为TATA盒

高分子碳水化合物序列

糖胺聚糖肝素的单糖序列在大量物种中保守。

应用

保守序列的研究对科学界是极其有利的。不同物种间的相似基因组序列的检测可以提供关于这些物种的进化历史的有用信息。此外,保守序列的检测还有助于医学研究。通过识别在保守序列中罕见的等位基因,信息可以用于编译和评估人类疾病的风险。全基因组关联研究项目(GWAS) 比较人类基因组中不同的等位基因在及其与特定疾病风险的关系。

分析方法

对CCDC132进行BLAST分析的结果
一个TMEM66蛋白的多序列比对的摘录
使用ClustalW和从公共NCBI蛋白质数据库得到的TMEM66蛋白序列所创建。

算法

分析软件

MEGA(分子进化遗传学分析)

MEGA软件的目标一直是为了从进化学角度对脱氧核糖核酸(DNA)和蛋白质的探索,发现,和分析提供工具。1990年,MEGA的第一个版本——MEGA1就已经问世。最新的版本为MEGA7。可于MEGA官网免费下载。[7]

GERP(基因组进化速率评测)

GERP(基因组进化速率评测)是一种使用最大似然进化速率估计法对具体位点的进化限制进行估算的方法。这个评测只给出位点特异性得分,而不对元素进行预测。 [8]GERP分数用于衡量进化中跨物种基因序列的保守情况。序列的GERP分数和序列中等位基因突变的比例是有联系的。序列的GERP分数增加,意味着序列中的突变减少。高GERP分数意味着序列高度保守,因为改变是有害的,所以,不利的突变会损害机体的健康,从而会被选择性针对。

GEPR++

GERP++是一款快速有效的利用深层多序列比对来提供核苷酸和元素双级别的限制性分数的工具。它利用最大似然进化速率估算来对位点特异性进行评分的软件。跟以往自下而上的分析方法不同,它采用一种新颖的动态编程方法随后定义约束元素。 GERP++ 评估一个丰富的候选元素断点集合,并基于统计学意义对其进行排名,从而不需要有偏扩展启发式技术。[9]

GERP++软件可在此网页找到:http://mendel.stanford.edu/SidowLab/downloads/gerp/(英文)页面存档备份,存于互联网档案馆[8]

数据库

NCBI(美国国家生物技术信息中心)
Ensembl

参见

外部链接

参考文献

  1. ^ Clustal FAQ #Symbols. Clustal. [8 December 2014]. (原始内容存档于2016-10-24). 
  2. ^ Bejerano, G; Pheasant, M; Makunin, I; Stephen, S; Kent, WJ; Mattick, JS; Haussler, D. Ultraconserved elements in the human genome.. Science. 2004-05-28, 304 (5675): 1321–5. PMID 15131266. doi:10.1126/science.1098119. 
  3. ^ Ahituv N, Zhu Y, Visel A, et al. Deletion of ultraconserved elements yields viable mice. PLoS Biol. 2007, 5 (9): e234. PMC 1964772可免费查阅. PMID 17803355. doi:10.1371/journal.pbio.0050234. 
  4. ^ Calin, GA; Liu, CG; Ferracin, M; Hyslop, T; Spizzo, R; Sevignani, C; Fabbri, M; Cimmino, A; Lee, EJ; Wojcik, SE; Shimizu, M; Tili, E; Rossi, S; Taccioli, C; Pichiorri, F; Liu, X; Zupo, S; Herlea, V; Gramantieri, L; Lanza, G; Alder, H; Rassenti, L; Volinia, S; Schmittgen, TD; Kipps, TJ; Negrini, M; Croce, CM. Ultraconserved regions encoding ncRNAs are altered in human leukemias and carcinomas.. Cancer Cell. September 2007, 12 (3): 215–29. PMID 17785203. doi:10.1016/j.ccr.2007.07.027. 
  5. ^ McLean, Cory Y.; et al. Human-specific loss of regulatory DNA and the evolution of human-specific traits. Nature. 10 March 2011, 471 (7337): 216–219 [2016-10-21]. PMC 3071156可免费查阅. PMID 21390129. doi:10.1038/nature09774. (原始内容存档于2011-09-02). 
  6. ^ Gross, Liza. Are "Ultraconserved" Genetic Elements Really Indispensable?. PLOS Biology. September 2007, 5 (9): e253 [2016-10-21]. PMC 1964769可免费查阅. PMID 20076686. doi:10.1371/journal.pbio.0050253. (原始内容存档于2014-05-02). 
  7. ^ Molecular Evolutionary Genetic Analysis Homepage. [2016-11-27]. (原始内容存档于2016-11-27). 
  8. ^ 8.0 8.1 Genomic Evolutionary Rate Profiling at Sidow Lab. [2016-10-21]. (原始内容存档于2017-01-14). 
  9. ^ Davydov, EV; Goode, DL; Sirota, M; Cooper, GM; Sidow, A; Batzoglou,. Identifying a High Fraction of the Human Genome to be under Selective Constraint Using GERP++. PLoS Comput Biol. December 2, 2010, 6 (12): e1001025. doi:10.1371/journal.pcbi.1001025. 

延伸阅读