Sequência conservada

Um alinhamento de sequências múltiplo de cinco proteínas histona H1 de mamíferos
Sequências são os aminoácidos para resíduos 120-180 das proteínas. Os resíduos que são conservados em todas as seqüências são destacados em cinza. Abaixo de cada sítio (i.e., posição) do alinhamento da sequência proteica é uma chave que denota sítios conservados (*), sítios com substituições conservativas (:), sítios com substituições semi-conservativas (.), e sítios com substituições não-conservativas ( ).[1]

Em biologia evolutiva, sequências conservadas são sequências similares ou idênticas em ácidos nucleicos (DNA e RNA) ou proteínas através das espécies (sequências ortólogas) ou dentro de um genoma (sequências parálogas). Conservação indica que uma sequência foi mantida por seleção natural.[2][3][4][5][6]

Uma sequência altamente conservada é aquela que permaneceu relativamente inalterada desde muito tempo atrás na árvore filogenética, e, portanto, muito longe no tempo geológico.[7][8][9] Exemplos de sequências altamente conservadas incluem componentes do RNA de ribossomos presentes em todos os domínios da vida,[10][11][12] as sequências homeobox difundidas entre eucariotas,[13][14] e o tmRNA em bactérias.[15][16] O estudo da conservação de sequências se sobrepõe aos campos de genômica, proteômica, biologia evolucionária, filogenética, bioinformática e matemática.

História

A descoberta do papel do DNA na herança, e observações por Frederick Sanger de variações entre insulinas animais em 1949,[17] fez com que os primeiros biólogos moleculares estudassem taxonomia de uma perspectiva molecular.[18][19] Estudos nos anos 1960 usaram hibridização de DNA e técnicas de reatividade cruzada de proteínas para medir a similaridade entre proteínas ortólogos, tais como a hemoglobina[20] e citocromo c.[21] Em 1965, Émile Zuckerkandl e Linus Pauling introduziram o conceito de relógio molecular,[22] propondo que taxas constantes de mutação poderiam ser usadas para estimar o tempo desde que dois organismos divergiram. Enquanto as filogenias iniciais se aproximavam do registro fóssil, observações que alguns genes pareciam evoluir a taxas diferentes levaram ao desenvolvimento de teorias de evolução molecular.[18][19] A comparação de 1966 de Margaret Dayhoff de sequências de ferredoxina mostrou que seleção natural agiria para conservar e otimizar sequências de proteínas essenciais à vida.[23]

Mecanismos

Ao longo de muitas gerações, as sequências de ácidos nucleicos no genoma de uma linhagem evolutiva pode mudar gradualmente ao longo do tempo devido a mutações aleatórias deleções.[24][25] Sequências também podem recombinar ou ser deletadas devido a rearranjos cromossômicos. Sequências conservadas são aquelas que persistem no genoma apesar de tais forças, e têm taxas de mutação mais lentas do que a taxa de mutação de fundo.[26]

Conservação pode ocorrer em sequências de ácidos nucleicos codificantes e não codificantes. Acredita-se que sequências de DNA altamente conservadas tenham valor funcional, embora o papel de muitas sequências de DNA não codificadoras altamente conservadas seja pouco compreendido. A extensão em que uma sequência é conservada pode ser afetada por variações pressões seletivas, sua robustez à mutação, tamanho da população e deriva genética.[27][28] Muitas sequências funcionais também são modulares, contendo regiões que podem ser sujeitas a pressões seletivas, tais como domínios proteicos.[29][30]

Sequência codificante

Em sequências codificantes, o ácido nucleico e a sequência de aminoácidos podem ser armazenados em diferentes extensões, como a degeneração do código genético significa que mutações sinônimas em uma sequência codificante não afeta a sequência de aminoácidos de seu produto proteico.[31][32][33][34][35][36]

Sequências de aminoácidos podem ser preservadas mantendo a estrutura ou função de uma proteína ou domínio. Proteínas conservadas sofrem menos substituições de aminoácidos, ou são mais propensos a substituir aminoácidos com propriedades bioquímicas semelhantes. Dentro de uma sequência, os aminoácidos que são importantes para enovelamento, estabilidade estrutural, ou que formem uma sítio de ligação podem ser mais altamente conservados.[37][38][39]

A sequência de ácido nucléico de um gene codificador de proteína também pode ser conservada por outras pressões seletivas. O viés de uso de códon em alguns organismos pode restringir os tipos de mutações sinônimas em uma sequência. Sequências de ácidos nucleicos que causam estrutura secundária no mRNA de um gene codificador pode ser selecionado contra, como algumas estruturas podem afetar negativamente a tradução, ou conservado onde o mRNA também atua como um RNA não codificante funcional.[40][41]

Não codificante

Sequências não codificantes importantes para regulação gênica, como os sítios de ligação ou reconhecimento de ribossomas e fatores de transcrição, pode ser conservado dentro de um genoma. Por exemplo, o promotor de um gene conservado ou operon também pode ser conservado. Tal como acontece com as proteínas, os ácidos nucleicos que são importantes para a estrutura e função de RNA não codificante (ncRNA) também pode ser conservado. No entanto, a conservação de sequências em ncRNAs é geralmente pobre em comparação com sequências de codificação de proteína, e em vez disso, pares de bases que contribuem para a estrutura ou função são muitas vezes conservados.[42][43]

Identificação

Sequências conservadas são tipicamente identificadas por abordagens de bioinformática baseadas em alinhamento de sequências. Avanços em sequenciamento de DNA de alto rendimento e espectrometria de massa de proteínas tem aumentado substancialmente a disponibilidade de sequências de proteínas e genomas inteiros para comparação desde o início dos anos 2000.[44][45][46][47][48]

Pesquisa de homologia

Sequências conservadas podem ser identificadas por pesquisa de homologia, usando ferramentas tais como BLAST, HMMER e Infernal.[49] As ferramentas de busca de homologia podem tomar um ácido nucléico individual ou uma sequência de proteínas como entrada, ou usar modelos estatísticos gerados a partir de alinhamentos múltiplos de sequências de sequências relacionadas conhecidas. Modelos estatísticos tais como perfil-HMMs, e modelos de covariância de RNA os quais também incorporam informações estruturais,[50] podem ser úteis ao procurar sequências relacionadas mais distantemente. As sequências de entrada são então alinhadas contra um banco de dados de sequências de indivíduos relacionados ou outras espécies. Os alinhamentos resultantes são então classificados com base no número de aminoácidos ou bases correspondentes, e no número de intervalos ou deleções gerados pelo alinhamento. Substituições conservativas aceitáveis podem ser identificadas usando matrizes de substituição tais como PAM e BLOSUM. Alinhamentos de alta pontuação são assumidos como sendo de sequências homólogas. A conservação de uma sequência pode então ser inferida pela detecção de homólogos altamente similares em uma ampla faixa filogenética.[51][52][53][54][55][56][57][58]

Alinhamento de múltiplas sequências

Um logotipo de sequência para o motivo de ligação LexA de bactéria gram-positiva. Como a adenosina na posição 5 é altamente conservada, parece maior do que outros caracteres.[59]

Alinhamentos de múltiplas sequências podem ser usados para visualizar sequências conservadas. O formato CLUSTAL inclui uma chave de texto simples para anotar as colunas conservadas do alinhamento, denotando a sequência conservada (*), mutações conservativas (:), mutações semi-conservativas (.), mutações não conservativas ( )[60] Os logotipos de sequência também podem mostrar uma sequência conservada representando as proporções de caracteres em cada ponto no alinhamento por altura.[59]

Alinhamento de genoma

Alinhamentos do genoma inteiro (abreviados na literatura em inglês como WGAs, de whole genome alignments) também pode ser usado para identificar regiões altamente conservadas entre as espécies. Atualmente a precisão e escalabilidade de ferramentas WGA permanece limitada devido à complexidade computacional de lidar com rearranjos, regiões de repetição e o grande tamanho de muitos genomas eucarióticos.[61] Contudo, WGAs de 30 ou mais bactérias intimamente relacionadas (procariontes) agora são cada vez mais viáveis.[62][63]

Sistemas de pontuação

Outras abordagens usam medidas de conservação baseadas em testes estatísticos que tentam identificar sequências que sofrem mutações de forma diferente de uma taxa de mutação de fundo (neutra) esperada.[64]

A estrutura GERP (Genomic Evolutionary Rate Profiling, Perfil de Taxa Evolucionária Genômica) pontua a conservação de sequências genéticas entre espécies. Esta abordagem estima a taxa de mutação neutra num conjunto de espécies a partir de um alinhamento de múltiplas sequências e, em seguida, identifica regiões da sequência que exibem menos mutações do que o esperado. Estas regiões são então atribuídas pontuações com base na diferença entre a taxa de mutação observada e a taxa de mutação de fundo esperada. Uma alta pontuação GERP consequentemente indica uma sequência altamente conservada.[65][66]

Outras abordagens, como PhyloP e PhyloHMM incorporam métodos filogenéticos estatísticos para comparar distribuições de probabilidade de taxas de substituição, o que permite a detecção tanto da conservação quanto da mutação acelerada. Em primeiro lugar, é gerada uma distribuição de probabilidades do número de substituições que se espera que ocorram para uma coluna num alinhamento de múltiplas sequências, baseada em uma árvore filogenética. As relações evolutivas estimadas entre as espécies de interesse são usadas para calcular a significância de quaisquer substituições (i.e. uma substituição entre duas espécies estreitamente relacionadas pode ser menos provável de ocorrer do que outras relacionadas, e, portanto, mais significativas). Para detectar a conservação, uma distribuição de probabilidade é calculada para um subconjunto do alinhamento de múltiplas sequências, e comparada à distribuição de fundo usando um teste estatístico tal como um teste da razão de verossimilhança ou teste de pontuação. Valores-p gerados a partir da comparação das duas distribuições são usadas para identificar regiões conservadas. PhyloHMM usa modelos ocultos de Markov para gerar distribuições de probabilidade. O pacote de software PhyloP compara distribuições de probabilidade usando um teste da razão de verossimilhança ou teste de pontuação, assim como usando um sistema de pontuação do tipo GERP.[67][68][69]

Conservação extrema

Elementos ultraconservados

Elementos ultraconservados (abreviados na literatura em inglês como UCEs, de ultra-conserved element) são sequências que são altamente semelhantes ou idênticas em múltiplos agrupamentos taxonômicos. Estes foram descobertos pela primeira vez em vertebrados,[70] e foram subsequentemente identificados em taxa largamente diferentes.[71] Enquanto a origem e função de UCEs são pobremente compreendidas,[72] eles tem sido usados para investigar divergências de tempo profundo em amniotas,[73] insetos,[74] e entre animais e plantas.[75]

Genes universalmente conservados

Os genes mais altamente conservados são aqueles que podem ser encontrados em todos os organismos. Estes consistem principalmente dos ncRNAs e proteínas necessárias para transcrição e tradução, os quais se presume terem sido conservados a partir do último ancestral universal de toda a vida.[76]

Os genes ou famílias de genes que foram encontrados como sendo universalmente conservados incluem fatores de alongamento de ligação ao GTP, metionina aminopeptidase 2, serina hidroximetiltransferase e transportadores ATP.[77] Componentes da maquinaria de transcrição, tais como RNA polimerase e helicases e da maquinaria de tradução, tais como RNA ribossomiais, tRNAs e proteínas ribossomiais também são universalmente conservados.[78]

Aplicações

Filogenética e taxonomia

Conjuntos de sequências conservadas são frequentemente usados para gerar árvores filogenéticas, dado que é aceito que que organismos com sequências similares estão intimamente relacionados.[79] A escolha das sequências pode variar dependendo do escopo taxonômico do estudo. Por exemplo, os genes mais altamente conservados, como o 16S RNA e outras sequências ribossomais são úteis para reconstruir relações filogenéticas profundas e identificar filos de bactérias em estudos metagenômicos.[80][81] Sequências que são conservadas dentro de um clado mas passam por algumas mutações, tais como genes housekeeping, pode ser usado para estudar as relações entre espécies.[82][83][84] A região espaçador interno transcrito (ITS, internal transcribed spacer), a qual é necessária para o espaçamento de genes rRNA mas sofre evolução rápida, é comumente usada para classificar fungos e cepas de bactérias evoluindo rapidamente.[85][86][87][88]

Pesquisa médica

Como sequências altamente conservadas têm frequentemente importantes funções biológicas, podem ser um útil ponto de partida para identificar a causa de doenças genéticas. Muitos distúrbios metabólicos congênitos e doenças de depósito lisossômico são o resultado de alterações em genes individuais conservados, resultando em enzimas faltantes ou defeituosas que são a causa subjacente dos sintomas da doença. As doenças genéticas podem ser previstas pela identificação de sequências conservadas entre humanos e organismos de laboratório, como ratos[89] ou moscas da fruta,[90] e estudando os efeitos de nocautes destes genes.[91] Estudos de associação genômica ampla também podem ser usados para identificar variações nas sequências conservadas associadas a doenças ou resultados de saúde.[92][93]

Anotação funcional

A identificação de sequências conservadas pode ser usada para descobrir e prever sequências funcionais, como genes.[94] Sequências conservadas com uma função conhecida, como domínios de proteínas, também podem ser usadas para prever a função de uma sequência. Bancos de dados de domínios proteicos conservados, como Pfam e o Conserved Domain Database (Banco de Dados de Domínio Conservado) pode ser usado para anotar domínios funcionais em genes codificadores de proteínas previstos.[95]

Ver também

Referências

  1. «Clustal FAQ #Symbols». Clustal. Consultado em 8 de dezembro de 2014. Arquivado do original em 24 de outubro de 2016 
  2. Conserved Sequence - www.informatics.jax.org
  3. N Stojanovic, L Florea, C Riemer, D Gumucio, J Slightom, M Goodman, W Miller, and R Hardison; Comparison of five methods for finding conserved sequences in multiple alignments of gene regulatory regions. Nucleic Acids Res. 1999 Oct 1; 27(19): 3899–3910. PMCID: PMC148654 PMID: 10481030
  4. Troy CS, MacHugh DE, Bailey JF, Magee DA, Loftus RT, Cunningham P, Chamberlain AT, Sykes BC, Bradley DG. Genetic evidence for Near-Eastern origins of European cattle. Chapter 4 Principles and Methods of Sequence Analysis. Nature, 2001, vol. 410, p. 1091
  5. Koonin EV, Galperin MY. [https://www.ncbi.nlm.nih.gov/books/NBK20255/ Sequence - Evolution - Function: Computational Approaches in Comparative Genomics. Boston: Kluwer Academic; 2003.
  6. Gregory M. Cooper and Christopher D. Brown; Qualifying the relationship between sequence conservation and molecular function; Genome Res. 2008. 18: 201-205. doi: 10.1101/gr.7205808
  7. Chris Simon, Francesco Frati, Andrew Beckenbach, Bernie Crespi, Hong Liu, Paul Flook; Evolution, Weighting, and Phylogenetic Utility of Mitochondrial Gene Sequences and a Compilation of Conserved Polymerase Chain Reaction Primers; Annals of the Entomological Society of America, Volume 87, Issue 6, 1 November 1994, Pages 651–701 - PDF
  8. Nikola Stojanovic, Liliana Florea, Cathy Riemer, Deborah Gumucio, Jerry Slightom, Morris Goodman, Webb Miller, Ross Hardison; Comparison of five methods for finding conserved sequences in multiple alignments of gene regulatory regions; Nucleic Acids Research, Volume 27, Issue 19, 1 October 1999, Pages 3899–3910
  9. Juan Antonio Torres Acosta, Larry C. Fowke, and Hong Wang; Analyses of phylogeny, evolution, conserved sequences and genome-wide expression of the ICK/KRP family of plant CDK inhibitors; Ann Bot. 2011 May; 107(7): 1141–1157. doi: 10.1093/aob/mcr034 PMCID: PMC3091803 PMID: 21385782
  10. Ofengand J., Bakin A., Nurse K. (1993) The Functional Role of Conserved Sequences of 16S Ribosomal RNA in Protein Synthesis. In: Nierhaus K.H., Franceschi F., Subramanian A.R., Erdmann V.A., Wittmann-Liebold B. (eds) The Translational Apparatus. Springer, Boston, MA. DOI 10.1007/978-1-4615-2407-6 46 Springer, Boston, MA Print ISBN 978-1-4613-6021-6
  11. Prinz A, Behrens C, Rapoport TA, Hartmann E, Kalies K-U. Evolutionarily conserved binding of ribosomes to the translocation channel via the large ribosomal RNA. The EMBO Journal. 2000;19(8):1900-1906. doi:10.1093/emboj/19.8.1900.
  12. George E. Fox; Origin and Evolution of the Ribosome; Cold Spring Harb Perspect Biol. 2010 Sep; 2(9): a003483. doi: 10.1101/cshperspect.a003483 PMCID: PMC2926754 PMID: 20534711
  13. Fongang B, Kong F, Negi S, Braun W, Kudlicki A. A Conserved Structural Signature of the Homeobox Coding DNA in HOX genes. Scientific Reports. 2016;6:35415. doi:10.1038/srep35415.
  14. Graça Celeste Gomes Rocha, Régis Lopes Corrêa, Anna Cristina Neves Borges, Claudio Bustamante Pereira de Sá and Márcio Alves-Ferreira; Identification and characterization of homeobox genes in Eucalyptus; Genetics and Molecular Biology, 28, 3 (suppl), 511-519 (2005)
  15. Kapoor S, Samhita L, Varshney U. Functional Significance of an Evolutionarily Conserved Alanine (GCA) Resume Codon in tmRNA in Escherichia coli. Journal of Bacteriology. 2011;193(14):3569-3576. doi:10.1128/JB.01446-10.
  16. Schönhuber W, Le Bourhis G, Tremblay J, Amann R, Kulakauskas S. Utilization of tmRNA sequences for bacterial identification. BMC Microbiol. 2001 Sep 7;1:20.
  17. Sanger, F. (24 de setembro de 1949). «Species Differences in Insulins». Nature. 164 (4169): 529–529. doi:10.1038/164529a0 
  18. a b Marmur, J; Falkow, S; Mandel, M (outubro de 1963). «New Approaches to Bacterial Taxonomy». Annual Review of Microbiology. 17 (1): 329–372. doi:10.1146/annurev.mi.17.100163.001553 
  19. a b Pace, N. R.; Sapp, J.; Goldenfeld, N. (17 de janeiro de 2012). «Phylogeny and beyond: Scientific, historical, and conceptual significance of the first tree of life». Proceedings of the National Academy of Sciences. 109 (4): 1011–1018. PMC 3268332Acessível livremente. doi:10.1073/pnas.1109716109 
  20. Zuckerlandl, Emile; Pauling, Linus B. (1962). «Molecular disease, evolution, and genetic heterogeneity». Horizons in Biochemistry: 189–225 
  21. Margoliash, E (outubro de 1963). «PRIMARY STRUCTURE AND EVOLUTION OF CYTOCHROME C». Proc Natl Acad Sci U S A. 50 (4): 672–679. PMC 221244Acessível livremente. doi:10.1073/pnas.50.4.672 
  22. Zuckerkandl, E; Pauling, LB (1965). «Evolutionary Divergence and Convergence in Proteins». Evolving Genes and Proteins: 96–166. doi:10.1016/B978-1-4832-2734-4.50017-6 
  23. Eck, R. V.; Dayhoff, M. O. (15 de abril de 1966). «Evolution of the Structure of Ferredoxin Based on Living Relics of Primitive Amino Acid Sequences». Science. 152 (3720): 363–366. doi:10.1126/science.152.3720.363 
  24. Kimura, M (17 de fevereiro de 1968). «Evolutionary Rate at the Molecular Level». Nature. 217 (5129): 624–626. doi:10.1038/217624a0 
  25. King, J. L.; Jukes, T. H. (16 de maio de 1969). «Non-Darwinian Evolution». Science. 164 (3881): 788–798. doi:10.1126/science.164.3881.788 
  26. Kimura, M; Ohta, T (1974). «On Some Principles Governing Molecular Evolution» (PDF). Proc Natl Acad Sci USA. 71 (7): 2848–2852. PMC 388569Acessível livremente. PMID 4527913. doi:10.1073/pnas.71.7.2848 
  27. Zhang, Jianzhi, and Jian-Rong Yang. “Determinants of the Rate of Protein Sequence Evolution.” Nature reviews. Genetics 16.7 (2015): 409–420. PMC. Web. 21 July 2018.
  28. Christian D. Huber, Bernard Y. Kim, Clare D. Marsden, Kirk E. Lohmueller; Determining the factors driving selective effects of new nonsynonymous mutations; Proceedings of the National Academy of Sciences Apr 2017, 114 (17) 4465-4470; DOI: 10.1073/pnas.1619508114
  29. Schmidt, Edward E., and Christopher J. Davies. “The Origins of Polypeptide Domains.” BioEssays : news and reviews in molecular, cellular and developmental biology 29.3 (2007): 262–270. PMC. Web. 21 July 2018.
  30. Kaessmann, Henrik. “Origins, Evolution, and Phenotypic Impact of New Genes.” Genome Research 20.10 (2010): 1313–1326. PMC. Web. 21 July 2018.
  31. Rogozin, Igor B. et al.; Purifying and directional selection in overlapping prokaryotic genes; Trends in Genetics, Volume 18, Issue 5, p228–232, 1 May 2002.
  32. Wayne Delport, Konrad Scheffler, and Cathal Seoighe; Models of coding sequence evolution; Brief Bioinform. 2009 Jan; 10(1): 97–109.
  33. Eugene V. Koonin and Artem S. Novozhilov; Origin and evolution of the genetic code: the universal enigma; IUBMB Life. 2009 Feb; 61(2): 99–111. doi: 10.1002/iub.146
  34. Michael F. Lin, Pouya Kheradpour, Stefan Washietl, Brian J. Parker, Jakob S. Pedersen and Manolis Kellis; Locating protein-coding sequences under selection for additional, overlapping functions in 29 mammalian genomes; Genome Res. 2011. 21: 1916-1928. doi: 10.1101/gr.108753.110
  35. Fabienne F. V. Chevance, Soazig Le Guyon, and Kelly T. Hughes; Josep Casadesús, Editor; The Effects of Codon Context on In Vivo Translation Speed; PLoS Genet. 2014 Jun; 10(6): e1004392.
  36. Vincent P. Mauro and Stephen A. Chappell; A critical analysis of codon optimization in human therapeutics; Trends Mol Med. 2014 Nov; 20(11): 604–613. doi: 10.1016/j.molmed.2014.09.003
  37. Einat Sitbon and Shmuel Pietrokovski; Occurrence of protein structure elements in conserved sequence regions; BMC Struct Biol. 2007; 7: 3. doi: 10.1186/1472-6807-7-3
  38. Birgit Pils, Richard R Copley, and Jörg Schultz; Variation in structural location and amino acid conservation of functional sites in protein domain families; BMC Bioinformatics. 2005; 6: 210. doi: 10.1186/1471-2105-6-210
  39. Kristoffer Illergård; On the effects of structure and function on protein evolution; : Department of Biochemistry and Biophysics, Stockholm University; y US-AB, Stockholm 2010. ISBN 978-91-7155-980-7
  40. Chamary, JV; Hurst, Laurence D (2005). «Evidence for selection on synonymous mutations affecting stability of mRNA secondary structure in mammals». Genome Biology. 6 (9): R75. doi:10.1186/gb-2005-6-9-r75 
  41. Wadler, C. S.; Vanderpool, C. K. (27 de novembro de 2007). «A dual function for a bacterial small RNA: SgrS performs base pairing-dependent regulation and encodes a functional polypeptide». Proceedings of the National Academy of Sciences. 104 (51): 20454–20459. PMC 2154452Acessível livremente. doi:10.1073/pnas.0708102104 
  42. Johnsson, Per; Lipovich, Leonard; Grandér, Dan; Morris, Kevin V. (março de 2014). «Evolutionary conservation of long non-coding RNAs; sequence, structure, function». Biochimica et Biophysica Acta (BBA) - General Subjects. 1840 (3): 1063–1071. PMC 3909678Acessível livremente. doi:10.1016/j.bbagen.2013.10.035 
  43. Freyhult, E. K.; Bollback, J. P.; Gardner, P. P. (6 de dezembro de 2006). «Exploring genomic dark matter: A critical assessment of the performance of homology search methods on noncoding RNA». Genome Research. 17 (1): 117–125. doi:10.1101/gr.5890907 
  44. Adam J. Liska, Andrej Shevchenko; Expanding the organismal scope of proteomics: Cross-species protein identification by mass spectrometry and its implications; Proteomics 2003, 3, 19–28
  45. Searle BC, Dasari S, Turner M, Reddy AP, Choi D, Wilmarth PA, McCormack AL, David LL, Nagalla SR. High-throughput identification of proteins and unanticipated sequence modifications using a mass-based alignment algorithm for MS/MS de novo sequencing results. Anal Chem. 2004 Apr 15;76(8):2220-30.
  46. Bianca Habermann, Jeffrey Oegema, Shamil Sunyaev, and Andrej Shevchenko; The Power and the Limitations of Cross-Species Protein Identification by Mass Spectrometry-driven Sequence Similarity Searches; Molecular & Cellular Proteomics 3.3, 2004. pg 238-249
  47. William R. Pearson; An Introduction to Sequence Similarity (“Homology”) Searching; Curr Protoc Bioinformatics. 2013 Jun; 0 3: 10.1002/0471250953.bi0301s42. doi: 10.1002/0471250953.bi0301s42
  48. Rute R.da Fonseca, et al; Next-generation biology: Sequencing and data analysis approaches for non-model organisms; Marine Genomics, Volume 30, December 2016, Pages 3-13
  49. Nawrocki, E. P.; Eddy, S. R. (4 de setembro de 2013). «Infernal 1.1: 100-fold faster RNA homology searches». Bioinformatics. 29 (22): 2933–2935. doi:10.1093/bioinformatics/btt509 
  50. Eddy, SR; Durbin, R (11 de junho de 1994). «RNA sequence analysis using covariance models.». Nucleic Acids Research. 22 (11): 2079–88. PMC 308124Acessível livremente. PMID 8029015. doi:10.1093/nar/22.11.2079 
  51. Dayhoff, M. O. (1978). Survey of new data and computer methods of analysis. Atlas of protein sequence and structure, 5.
  52. Winona C. Barker, Lynne K. Ketcham, Margaret O. Dayhoff; A comprehensive examination of protein sequences for evidence of internal gene duplication; Journal of Molecular Evolution; December 1978, Volume 10, Issue 4, pp 265–281.
  53. Roger L. Blanken, Lynn C. Klotz, Alan G. Hinnebusch; Computer comparison of new and existing criteria for constructing evolutionary trees from sequence data; Journal of Molecular Evolution; December 1982, Volume 19, Issue 1, pp 9–19.
  54. Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proceedings of the national academy of sciences of the united states of america, 22(89):10915–10919.
  55. John H. Gillespie; The Causes of Molecular Evolution; Oxford University Press, 1994. pg 43
  56. Society of General Physiologists. Symposium; Molecular Evolution of Physiological Processes: Society of General Physiologists, 47th Annual Symposium; Rockefeller Univ. Press, 1994. pg 121
  57. Thiago de Souza Rodrigues; Codificação de Seqüências de Aminoácidos e sua Aplicação na Classificação de Proteínas com Redes Neurais Artificiais; Tese submetida à Banca Examinadora designada pelo Programa de Pós-Graduação em Bioinformática da Universidade Federal de Minas Gerais, como requisito parcial à obtenção do título de Doutor em Bioinformática. Universidade Federal de Minas Gerais Instituto de Ciências Biológicas Programa de Pós-Graduação em Bioinformática. Belo Horizonte Abril, 2007.
  58. John Oakeshott, Max J. Whitten; Molecular Approaches to Fundamental and Applied Entomology; Springer Science & Business Media, 2012. pg 206
  59. a b «Weblogo». UC Berkeley. Consultado em 30 de dezembro de 2017 
  60. «Clustal FAQ #Symbols». Clustal. Consultado em 8 de dezembro de 2014. Arquivado do original em 24 de outubro de 2016 
  61. Earl, Dent; Nguyen, Ngan; Hickey, Glenn; Harris, Robert S.; Fitzgerald, Stephen; Beal, Kathryn; Seledtsov, Igor; Molodtsov, Vladimir; Raney, Brian J.; Clawson, Hiram; Kim, Jaebum; Kemena, Carsten; Chang, Jia-Ming; Erb, Ionas; Poliakov, Alexander; Hou, Minmei; Herrero, Javier; Kent, William James; Solovyev, Victor; Darling, Aaron E.; Ma, Jian; Notredame, Cedric; Brudno, Michael; Dubchak, Inna; Haussler, David; Paten, Benedict (dezembro de 2014). «Alignathon: a competitive assessment of whole-genome alignment methods». Genome Research. 24 (12): 2077–2089. doi:10.1101/gr.174920.114 
  62. Rouli, L.; Merhej, V.; Fournier, P.-E.; Raoult, D. (setembro de 2015). «The bacterial pangenome as a new tool for analysing pathogenic bacteria». New Microbes and New Infections. 7: 72–85. doi:10.1016/j.nmni.2015.06.005 
  63. Méric, Guillaume; Yahara, Koji; Mageiros, Leonardos; Pascoe, Ben; Maiden, Martin C. J.; Jolley, Keith A.; Sheppard, Samuel K.; Bereswill, Stefan (27 de março de 2014). «A Reference Pan-Genome Approach to Comparative Bacterial Genomics: Identification of Novel Epidemiological Markers in Pathogenic Campylobacter». PLoS ONE. 9 (3): e92798. doi:10.1371/journal.pone.0092798 
  64. BERT, T. M.; SEYOUM, S.; TRINGALI, M. D. and MCMILLEN-JACKSON, A.. Methodologies for conservation assessments of the genetic biodiversity of aquatic macro-organisms. Braz. J. Biol. 2002, vol.62, n.3, pp.387-408.
  65. Cooper, G. M. (17 de junho de 2005). «Distribution and intensity of constraint in mammalian genomic sequence». Genome Research. 15 (7): 901–913. doi:10.1101/gr.3577405 
  66. http://mendel.stanford.edu/SidowLab/downloads/gerp/  Em falta ou vazio |título= (ajuda)
  67. Pollard, K. S.; Hubisz, M. J.; Rosenbloom, K. R.; Siepel, A. (26 de outubro de 2009). «Detection of nonneutral substitution rates on mammalian phylogenies». Genome Research. 20 (1): 110–121. doi:10.1101/gr.097857.109 
  68. http://compgen.cshl.edu/phast/index.php  Em falta ou vazio |título= (ajuda)
  69. Fan, Xiaodan; Zhu, Jun; Schadt, Eric E; Liu, Jun S (2007). «Statistical power of phylo-HMM for evolutionarily conserved element detection». BMC Bioinformatics. 8 (1). 374 páginas. doi:10.1186/1471-2105-8-374 
  70. Bejerano, G. (28 de maio de 2004). «Ultraconserved Elements in the Human Genome». Science. 304 (5675): 1321–1325. doi:10.1126/science.1098119 
  71. Siepel, A. (1 de agosto de 2005). «Evolutionarily conserved elements in vertebrate, insect, worm, and yeast genomes». Genome Research. 15 (8): 1034–1050. doi:10.1101/gr.3715005 
  72. Harmston, N.; Baresic, A.; Lenhard, B. (11 de novembro de 2013). «The mystery of extreme non-coding conservation». Philosophical Transactions of the Royal Society B: Biological Sciences. 368 (1632): 20130021–20130021. doi:10.1098/rstb.2013.0021 
  73. Faircloth, B. C.; McCormack, J. E.; Crawford, N. G.; Harvey, M. G.; Brumfield, R. T.; Glenn, T. C. (9 de janeiro de 2012). «Ultraconserved Elements Anchor Thousands of Genetic Markers Spanning Multiple Evolutionary Timescales». Systematic Biology. 61 (5): 717–726. doi:10.1093/sysbio/sys004 
  74. Faircloth, Brant C.; Branstetter, Michael G.; White, Noor D.; Brady, Seán G. (maio de 2015). «Target enrichment of ultraconserved elements from arthropods provides a genomic perspective on relationships among Hymenoptera». Molecular Ecology Resources. 15 (3): 489–501. doi:10.1111/1755-0998.12328 
  75. Reneker, J.; Lyons, E.; Conant, G. C.; Pires, J. C.; Freeling, M.; Shyu, C.-R.; Korkin, D. (10 de abril de 2012). «Long identical multispecies elements in plant and animal genomes». Proceedings of the National Academy of Sciences. 109 (19): E1183–E1191. doi:10.1073/pnas.1121356109 
  76. Isenbarger, Thomas A.; Carr, Christopher E.; Johnson, Sarah Stewart; Finney, Michael; Church, George M.; Gilbert, Walter; Zuber, Maria T.; Ruvkun, Gary (14 de outubro de 2008). «The Most Conserved Genome Segments for Life Detection on Earth and Other Planets». Origins of Life and Evolution of Biospheres. 38 (6): 517–533. doi:10.1007/s11084-008-9148-z 
  77. Harris, J. K. (12 de fevereiro de 2003). «The Genetic Core of the Universal Ancestor». Genome Research. 13 (3): 407–412. doi:10.1101/gr.652803 
  78. Ban, Nenad; Beckmann, Roland; Cate, Jamie HD; Dinman, Jonathan D; Dragon, François; Ellis, Steven R; Lafontaine, Denis LJ; Lindahl, Lasse; Liljas, Anders; Lipton, Jeffrey M; McAlear, Michael A; Moore, Peter B; Noller, Harry F; Ortega, Joaquin; Panse, Vikram Govind; Ramakrishnan, V; Spahn, Christian MT; Steitz, Thomas A; Tchorzewski, Marek; Tollervey, David; Warren, Alan J; Williamson, James R; Wilson, Daniel; Yonath, Ada; Yusupov, Marat (fevereiro de 2014). «A new system for naming ribosomal proteins». Current Opinion in Structural Biology. 24: 165–169. doi:10.1016/j.sbi.2014.01.002 
  79. Gadagkar, Sudhindra R.; Rosenberg, Michael S.; Kumar, Sudhir (15 de janeiro de 2005). «Inferring species phylogenies from multiple genes: Concatenated sequence tree versus consensus gene tree». Journal of Experimental Zoology Part B: Molecular and Developmental Evolution. 304B (1): 64–74. doi:10.1002/jez.b.21026 
  80. Ludwig, W; Schleifer, KH (outubro de 1994). «Bacterial phylogeny based on 16S and 23S rRNA sequence analysis.». FEMS Microbiology Reviews. 15 (2–3): 155–73. PMID 7524576. doi:10.1111/j.1574-6976.1994.tb00132.x 
  81. Hug, Laura A.; Baker, Brett J.; Anantharaman, Karthik; Brown, Christopher T.; Probst, Alexander J.; Castelle, Cindy J.; Butterfield, Cristina N.; Hernsdorf, Alex W.; Amano, Yuki; Ise, Kotaro; Suzuki, Yohey; Dudek, Natasha; Relman, David A.; Finstad, Kari M.; Amundson, Ronald; Thomas, Brian C.; Banfield, Jillian F. (11 de abril de 2016). «A new view of the tree of life». Nature Microbiology. 1 (5). 16048 páginas. doi:10.1038/nmicrobiol.2016.48 
  82. Zhang, Liqing; Li, Wen-Hsiung (fevereiro de 2004). «Mammalian Housekeeping Genes Evolve More Slowly than Tissue-Specific Genes». Molecular Biology and Evolution. 21 (2): 236–239. doi:10.1093/molbev/msh010 
  83. Clermont, O.; Bonacorsi, S.; Bingen, E. (1 de outubro de 2000). «Rapid and Simple Determination of the Escherichia coli Phylogenetic Group». Applied and Environmental Microbiology. 66 (10): 4555–4558. doi:10.1128/AEM.66.10.4555-4558.2000 
  84. Kullberg, Morgan; Nilsson, Maria A.; Arnason, Ulfur; Harley, Eric H.; Janke, Axel (agosto de 2006). «Housekeeping Genes for Phylogenetic Analysis of Eutherian Relationships». Molecular Biology and Evolution. 23 (8): 1493–1503. doi:10.1093/molbev/msl027 
  85. Schoch, C. L.; Seifert, K. A.; Huhndorf, S.; Robert, V.; Spouge, J. L.; Levesque, C. A.; Chen, W.; Bolchacova, E.; Voigt, K.; Crous, P. W.; Miller, A. N.; Wingfield, M. J.; Aime, M. C.; An, K.-D.; Bai, F.-Y.; Barreto, R. W.; Begerow, D.; Bergeron, M.-J.; Blackwell, M.; Boekhout, T.; Bogale, M.; Boonyuen, N.; Burgaz, A. R.; Buyck, B.; Cai, L.; Cai, Q.; Cardinali, G.; Chaverri, P.; Coppins, B. J.; Crespo, A.; Cubas, P.; Cummings, C.; Damm, U.; de Beer, Z. W.; de Hoog, G. S.; Del-Prado, R.; Dentinger, B.; Dieguez-Uribeondo, J.; Divakar, P. K.; Douglas, B.; Duenas, M.; Duong, T. A.; Eberhardt, U.; Edwards, J. E.; Elshahed, M. S.; Fliegerova, K.; Furtado, M.; Garcia, M. A.; Ge, Z.-W.; Griffith, G. W.; Griffiths, K.; Groenewald, J. Z.; Groenewald, M.; Grube, M.; Gryzenhout, M.; Guo, L.-D.; Hagen, F.; Hambleton, S.; Hamelin, R. C.; Hansen, K.; Harrold, P.; Heller, G.; Herrera, C.; Hirayama, K.; Hirooka, Y.; Ho, H.-M.; Hoffmann, K.; Hofstetter, V.; Hognabba, F.; Hollingsworth, P. M.; Hong, S.-B.; Hosaka, K.; Houbraken, J.; Hughes, K.; Huhtinen, S.; Hyde, K. D.; James, T.; Johnson, E. M.; Johnson, J. E.; Johnston, P. R.; Jones, E. B. G.; Kelly, L. J.; Kirk, P. M.; Knapp, D. G.; Koljalg, U.; Kovacs, G. M.; Kurtzman, C. P.; Landvik, S.; Leavitt, S. D.; Liggenstoffer, A. S.; Liimatainen, K.; Lombard, L.; Luangsa-ard, J. J.; Lumbsch, H. T.; Maganti, H.; Maharachchikumbura, S. S. N.; Martin, M. P.; May, T. W.; McTaggart, A. R.; Methven, A. S.; Meyer, W.; Moncalvo, J.-M.; Mongkolsamrit, S.; Nagy, L. G.; Nilsson, R. H.; Niskanen, T.; Nyilasi, I.; Okada, G.; Okane, I.; Olariaga, I.; Otte, J.; Papp, T.; Park, D.; Petkovits, T.; Pino-Bodas, R.; Quaedvlieg, W.; Raja, H. A.; Redecker, D.; Rintoul, T. L.; Ruibal, C.; Sarmiento-Ramirez, J. M.; Schmitt, I.; Schussler, A.; Shearer, C.; Sotome, K.; Stefani, F. O. P.; Stenroos, S.; Stielow, B.; Stockinger, H.; Suetrong, S.; Suh, S.-O.; Sung, G.-H.; Suzuki, M.; Tanaka, K.; Tedersoo, L.; Telleria, M. T.; Tretter, E.; Untereiner, W. A.; Urbina, H.; Vagvolgyi, C.; Vialle, A.; Vu, T. D.; Walther, G.; Wang, Q.-M.; Wang, Y.; Weir, B. S.; Weiss, M.; White, M. M.; Xu, J.; Yahr, R.; Yang, Z. L.; Yurkov, A.; Zamora, J.-C.; Zhang, N.; Zhuang, W.-Y.; Schindel, D. (27 de março de 2012). «Nuclear ribosomal internal transcribed spacer (ITS) region as a universal DNA barcode marker for Fungi». Proceedings of the National Academy of Sciences. 109 (16): 6241–6246. doi:10.1073/pnas.1117018109 
  86. Man, S. M.; Kaakoush, N. O.; Octavia, S.; Mitchell, H. (26 de março de 2010). «The Internal Transcribed Spacer Region, a New Tool for Use in Species Differentiation and Delineation of Systematic Relationships within the Campylobacter Genus». Applied and Environmental Microbiology. 76 (10): 3071–3081. doi:10.1128/AEM.02551-09 
  87. Ranjard, L.; Poly, F.; Lata, J.-C.; Mougel, C.; Thioulouse, J.; Nazaret, S. (1 de outubro de 2001). «Characterization of Bacterial and Fungal Soil Communities by Automated Ribosomal Intergenic Spacer Analysis Fingerprints: Biological and Methodological Variability». Applied and Environmental Microbiology. 67 (10): 4479–4487. doi:10.1128/AEM.67.10.4479-4487.2001 
  88. Bidet, Philippe; Barbut, Frédéric; Lalande, Valérie; Burghoffer, Béatrice; Petit, Jean-Claude (junho de 1999). «Development of a new PCR-ribotyping method for based on ribosomal RNA gene sequencing». FEMS Microbiology Letters. 175 (2): 261–266. doi:10.1111/j.1574-6968.1999.tb13629.x 
  89. Ala, Ugo; Piro, Rosario Michael; Grassi, Elena; Damasco, Christian; Silengo, Lorenzo; Oti, Martin; Provero, Paolo; Di Cunto, Ferdinando; Tucker-Kellogg, Greg (28 de março de 2008). «Prediction of Human Disease Genes by Human-Mouse Conserved Coexpression Analysis». PLoS Computational Biology. 4 (3): e1000043. doi:10.1371/journal.pcbi.1000043 
  90. Pandey, U. B.; Nichols, C. D. (17 de março de 2011). «Human Disease Models in Drosophila melanogaster and the Role of the Fly in Therapeutic Drug Discovery». Pharmacological Reviews. 63 (2): 411–436. doi:10.1124/pr.110.003293 
  91. Huang, Hui; Winter, Eitan E; Wang, Huajun; Weinstock, Keith G; Xing, Heming; Goodstadt, Leo; Stenson, Peter D; Cooper, David N; Smith, Douglas; Albà, M Mar; Ponting, Chris P; Fechtel, Kim (2004). Genome Biology. 5 (7): R47. doi:10.1186/gb-2004-5-7-r47 
  92. Ge, Dongliang; Fellay, Jacques; Thompson, Alexander J.; Simon, Jason S.; Shianna, Kevin V.; Urban, Thomas J.; Heinzen, Erin L.; Qiu, Ping; Bertelsen, Arthur H.; Muir, Andrew J.; Sulkowski, Mark; McHutchison, John G.; Goldstein, David B. (16 de agosto de 2009). «Genetic variation in IL28B predicts hepatitis C treatment-induced viral clearance». Nature. 461 (7262): 399–401. doi:10.1038/nature08309 
  93. Bertram, L. (2009). «Genome-wide association studies in Alzheimer's disease». Human Molecular Genetics. 18: R137–R145. doi:10.1093/hmg/ddp406 
  94. Kellis, Manolis; Patterson, Nick; Endrizzi, Matthew; Birren, Bruce; Lander, Eric S. (15 de maio de 2003). «Sequencing and comparison of yeast species to identify genes and regulatory elements». Nature. 423 (6937): 241–254. doi:10.1038/nature01644 
  95. Marchler-Bauer, A.; Lu, S.; Anderson, J. B.; Chitsaz, F.; Derbyshire, M. K.; DeWeese-Scott, C.; Fong, J. H.; Geer, L. Y.; Geer, R. C.; Gonzales, N. R.; Gwadz, M.; Hurwitz, D. I.; Jackson, J. D.; Ke, Z.; Lanczycki, C. J.; Lu, F.; Marchler, G. H.; Mullokandov, M.; Omelchenko, M. V.; Robertson, C. L.; Song, J. S.; Thanki, N.; Yamashita, R. A.; Zhang, D.; Zhang, N.; Zheng, C.; Bryant, S. H. (24 de novembro de 2010). «CDD: a Conserved Domain Database for the functional annotation of proteins». Nucleic Acids Research. 39 (Database): D225–D229. doi:10.1093/nar/gkq1189