Ao longo de muitas gerações, as sequências de ácidos nucleicos no genoma de uma linhagem evolutiva pode mudar gradualmente ao longo do tempo devido a mutações aleatórias deleções.[24][25] Sequências também podem recombinar ou ser deletadas devido a rearranjos cromossômicos. Sequências conservadas são aquelas que persistem no genoma apesar de tais forças, e têm taxas de mutação mais lentas do que a taxa de mutação de fundo.[26]
Em sequências codificantes, o ácido nucleico e a sequência de aminoácidos podem ser armazenados em diferentes extensões, como a degeneração do código genético significa que mutações sinônimas em uma sequência codificante não afeta a sequência de aminoácidos de seu produto proteico.[31][32][33][34][35][36]
A sequência de ácido nucléico de um gene codificador de proteína também pode ser conservada por outras pressões seletivas. O viés de uso de códon em alguns organismos pode restringir os tipos de mutações sinônimas em uma sequência. Sequências de ácidos nucleicos que causam estrutura secundária no mRNA de um gene codificador pode ser selecionado contra, como algumas estruturas podem afetar negativamente a tradução, ou conservado onde o mRNA também atua como um RNA não codificante funcional.[40][41]
Sequências não codificantes importantes para regulação gênica, como os sítios de ligação ou reconhecimento de ribossomas e fatores de transcrição, pode ser conservado dentro de um genoma. Por exemplo, o promotor de um gene conservado ou operon também pode ser conservado. Tal como acontece com as proteínas, os ácidos nucleicos que são importantes para a estrutura e função de RNA não codificante (ncRNA) também pode ser conservado. No entanto, a conservação de sequências em ncRNAs é geralmente pobre em comparação com sequências de codificação de proteína, e em vez disso, pares de bases que contribuem para a estrutura ou função são muitas vezes conservados.[42][43]
Sequências conservadas podem ser identificadas por pesquisa de homologia, usando ferramentas tais como BLAST, HMMER e Infernal.[49] As ferramentas de busca de homologia podem tomar um ácido nucléico individual ou uma sequência de proteínas como entrada, ou usar modelos estatísticos gerados a partir de alinhamentos múltiplos de sequências de sequências relacionadas conhecidas. Modelos estatísticos tais como perfil-HMMs, e modelos de covariância de RNA os quais também incorporam informações estruturais,[50] podem ser úteis ao procurar sequências relacionadas mais distantemente. As sequências de entrada são então alinhadas contra um banco de dados de sequências de indivíduos relacionados ou outras espécies. Os alinhamentos resultantes são então classificados com base no número de aminoácidos ou bases correspondentes, e no número de intervalos ou deleções gerados pelo alinhamento. Substituições conservativas aceitáveis podem ser identificadas usando matrizes de substituição tais como PAM e BLOSUM. Alinhamentos de alta pontuação são assumidos como sendo de sequências homólogas. A conservação de uma sequência pode então ser inferida pela detecção de homólogos altamente similares em uma ampla faixa filogenética.[51][52][53][54][55][56][57][58]
Alinhamento de múltiplas sequências
Alinhamentos de múltiplas sequências podem ser usados para visualizar sequências conservadas. O formato CLUSTAL inclui uma chave de texto simples para anotar as colunas conservadas do alinhamento, denotando a sequência conservada (*), mutações conservativas (:), mutações semi-conservativas (.), mutações não conservativas ( )[60] Os logotipos de sequência também podem mostrar uma sequência conservada representando as proporções de caracteres em cada ponto no alinhamento por altura.[59]
Alinhamento de genoma
Alinhamentos do genoma inteiro (abreviados na literatura em inglês como WGAs, de whole genome alignments) também pode ser usado para identificar regiões altamente conservadas entre as espécies. Atualmente a precisão e escalabilidade de ferramentas WGA permanece limitada devido à complexidade computacional de lidar com rearranjos, regiões de repetição e o grande tamanho de muitos genomas eucarióticos.[61] Contudo, WGAs de 30 ou mais bactérias intimamente relacionadas (procariontes) agora são cada vez mais viáveis.[62][63]
Sistemas de pontuação
Outras abordagens usam medidas de conservação baseadas em testes estatísticos que tentam identificar sequências que sofrem mutações de forma diferente de uma taxa de mutação de fundo (neutra) esperada.[64]
A estrutura GERP (Genomic Evolutionary Rate Profiling, Perfil de Taxa Evolucionária Genômica) pontua a conservação de sequências genéticas entre espécies. Esta abordagem estima a taxa de mutação neutra num conjunto de espécies a partir de um alinhamento de múltiplas sequências e, em seguida, identifica regiões da sequência que exibem menos mutações do que o esperado. Estas regiões são então atribuídas pontuações com base na diferença entre a taxa de mutação observada e a taxa de mutação de fundo esperada. Uma alta pontuação GERP consequentemente indica uma sequência altamente conservada.[65][66]
Outras abordagens, como PhyloP e PhyloHMM incorporam métodos filogenéticos estatísticos para comparar distribuições de probabilidade de taxas de substituição, o que permite a detecção tanto da conservação quanto da mutação acelerada. Em primeiro lugar, é gerada uma distribuição de probabilidades do número de substituições que se espera que ocorram para uma coluna num alinhamento de múltiplas sequências, baseada em uma árvore filogenética. As relações evolutivas estimadas entre as espécies de interesse são usadas para calcular a significância de quaisquer substituições (i.e. uma substituição entre duas espécies estreitamente relacionadas pode ser menos provável de ocorrer do que outras relacionadas, e, portanto, mais significativas). Para detectar a conservação, uma distribuição de probabilidade é calculada para um subconjunto do alinhamento de múltiplas sequências, e comparada à distribuição de fundo usando um teste estatístico tal como um teste da razão de verossimilhança ou teste de pontuação. Valores-p gerados a partir da comparação das duas distribuições são usadas para identificar regiões conservadas. PhyloHMM usa modelos ocultos de Markov para gerar distribuições de probabilidade. O pacote de software PhyloP compara distribuições de probabilidade usando um teste da razão de verossimilhança ou teste de pontuação, assim como usando um sistema de pontuação do tipo GERP.[67][68][69]
Conservação extrema
Elementos ultraconservados
Elementos ultraconservados (abreviados na literatura em inglês como UCEs, de ultra-conserved element) são sequências que são altamente semelhantes ou idênticas em múltiplos agrupamentos taxonômicos. Estes foram descobertos pela primeira vez em vertebrados,[70] e foram subsequentemente identificados em taxa largamente diferentes.[71] Enquanto a origem e função de UCEs são pobremente compreendidas,[72] eles tem sido usados para investigar divergências de tempo profundo em amniotas,[73]insetos,[74] e entre animais e plantas.[75]
Genes universalmente conservados
Os genes mais altamente conservados são aqueles que podem ser encontrados em todos os organismos. Estes consistem principalmente dos ncRNAs e proteínas necessárias para transcrição e tradução, os quais se presume terem sido conservados a partir do último ancestral universal de toda a vida.[76]
Conjuntos de sequências conservadas são frequentemente usados para gerar árvores filogenéticas, dado que é aceito que que organismos com sequências similares estão intimamente relacionados.[79] A escolha das sequências pode variar dependendo do escopo taxonômico do estudo. Por exemplo, os genes mais altamente conservados, como o 16S RNA e outras sequências ribossomais são úteis para reconstruir relações filogenéticas profundas e identificar filos de bactérias em estudos metagenômicos.[80][81] Sequências que são conservadas dentro de um clado mas passam por algumas mutações, tais como genes housekeeping, pode ser usado para estudar as relações entre espécies.[82][83][84] A região espaçador interno transcrito (ITS, internal transcribed spacer), a qual é necessária para o espaçamento de genes rRNA mas sofre evolução rápida, é comumente usada para classificar fungos e cepas de bactérias evoluindo rapidamente.[85][86][87][88]
Pesquisa médica
Como sequências altamente conservadas têm frequentemente importantes funções biológicas, podem ser um útil ponto de partida para identificar a causa de doenças genéticas. Muitos distúrbios metabólicos congênitos e doenças de depósito lisossômico são o resultado de alterações em genes individuais conservados, resultando em enzimas faltantes ou defeituosas que são a causa subjacente dos sintomas da doença. As doenças genéticas podem ser previstas pela identificação de sequências conservadas entre humanos e organismos de laboratório, como ratos[89] ou moscas da fruta,[90] e estudando os efeitos de nocautes destes genes.[91]Estudos de associação genômica ampla também podem ser usados para identificar variações nas sequências conservadas associadas a doenças ou resultados de saúde.[92][93]
Anotação funcional
A identificação de sequências conservadas pode ser usada para descobrir e prever sequências funcionais, como genes.[94] Sequências conservadas com uma função conhecida, como domínios de proteínas, também podem ser usadas para prever a função de uma sequência. Bancos de dados de domínios proteicos conservados, como Pfam e o Conserved Domain Database (Banco de Dados de Domínio Conservado) pode ser usado para anotar domínios funcionais em genes codificadores de proteínas previstos.[95]
↑Troy CS, MacHugh DE, Bailey JF, Magee DA, Loftus RT, Cunningham P, Chamberlain AT, Sykes BC, Bradley DG. Genetic evidence for Near-Eastern origins of European cattle. Chapter 4 Principles and Methods of Sequence Analysis. Nature, 2001, vol. 410, p. 1091
↑George E. Fox; Origin and Evolution of the Ribosome; Cold Spring Harb Perspect Biol. 2010 Sep; 2(9): a003483. doi: 10.1101/cshperspect.a003483 PMCID: PMC2926754 PMID: 20534711
↑Zuckerkandl, E; Pauling, LB (1965). «Evolutionary Divergence and Convergence in Proteins». Evolving Genes and Proteins: 96–166. doi:10.1016/B978-1-4832-2734-4.50017-6
↑Eck, R. V.; Dayhoff, M. O. (15 de abril de 1966). «Evolution of the Structure of Ferredoxin Based on Living Relics of Primitive Amino Acid Sequences». Science. 152 (3720): 363–366. doi:10.1126/science.152.3720.363
↑Kimura, M (17 de fevereiro de 1968). «Evolutionary Rate at the Molecular Level». Nature. 217 (5129): 624–626. doi:10.1038/217624a0
↑King, J. L.; Jukes, T. H. (16 de maio de 1969). «Non-Darwinian Evolution». Science. 164 (3881): 788–798. doi:10.1126/science.164.3881.788
↑Schmidt, Edward E., and Christopher J. Davies. “The Origins of Polypeptide Domains.” BioEssays : news and reviews in molecular, cellular and developmental biology 29.3 (2007): 262–270. PMC. Web. 21 July 2018.
↑Freyhult, E. K.; Bollback, J. P.; Gardner, P. P. (6 de dezembro de 2006). «Exploring genomic dark matter: A critical assessment of the performance of homology search methods on noncoding RNA». Genome Research. 17 (1): 117–125. doi:10.1101/gr.5890907
↑Nawrocki, E. P.; Eddy, S. R. (4 de setembro de 2013). «Infernal 1.1: 100-fold faster RNA homology searches». Bioinformatics. 29 (22): 2933–2935. doi:10.1093/bioinformatics/btt509
↑Society of General Physiologists. Symposium; Molecular Evolution of Physiological Processes: Society of General Physiologists, 47th Annual Symposium; Rockefeller Univ. Press, 1994. pg 121
↑Thiago de Souza Rodrigues; Codificação de Seqüências de Aminoácidos e sua Aplicação na Classificação de Proteínas com Redes Neurais Artificiais; Tese submetida à Banca Examinadora designada pelo Programa de Pós-Graduação em Bioinformática da Universidade Federal de Minas Gerais, como requisito parcial à obtenção do título de Doutor em Bioinformática. Universidade Federal de Minas Gerais Instituto de Ciências Biológicas Programa de Pós-Graduação em Bioinformática. Belo Horizonte Abril, 2007.
↑Rouli, L.; Merhej, V.; Fournier, P.-E.; Raoult, D. (setembro de 2015). «The bacterial pangenome as a new tool for analysing pathogenic bacteria». New Microbes and New Infections. 7: 72–85. doi:10.1016/j.nmni.2015.06.005
↑Méric, Guillaume; Yahara, Koji; Mageiros, Leonardos; Pascoe, Ben; Maiden, Martin C. J.; Jolley, Keith A.; Sheppard, Samuel K.; Bereswill, Stefan (27 de março de 2014). «A Reference Pan-Genome Approach to Comparative Bacterial Genomics: Identification of Novel Epidemiological Markers in Pathogenic Campylobacter». PLoS ONE. 9 (3): e92798. doi:10.1371/journal.pone.0092798
↑Cooper, G. M. (17 de junho de 2005). «Distribution and intensity of constraint in mammalian genomic sequence». Genome Research. 15 (7): 901–913. doi:10.1101/gr.3577405
↑Pollard, K. S.; Hubisz, M. J.; Rosenbloom, K. R.; Siepel, A. (26 de outubro de 2009). «Detection of nonneutral substitution rates on mammalian phylogenies». Genome Research. 20 (1): 110–121. doi:10.1101/gr.097857.109
↑Fan, Xiaodan; Zhu, Jun; Schadt, Eric E; Liu, Jun S (2007). «Statistical power of phylo-HMM for evolutionarily conserved element detection». BMC Bioinformatics. 8 (1). 374 páginas. doi:10.1186/1471-2105-8-374
↑Bejerano, G. (28 de maio de 2004). «Ultraconserved Elements in the Human Genome». Science. 304 (5675): 1321–1325. doi:10.1126/science.1098119
↑Siepel, A. (1 de agosto de 2005). «Evolutionarily conserved elements in vertebrate, insect, worm, and yeast genomes». Genome Research. 15 (8): 1034–1050. doi:10.1101/gr.3715005
↑Harmston, N.; Baresic, A.; Lenhard, B. (11 de novembro de 2013). «The mystery of extreme non-coding conservation». Philosophical Transactions of the Royal Society B: Biological Sciences. 368 (1632): 20130021–20130021. doi:10.1098/rstb.2013.0021
↑Faircloth, B. C.; McCormack, J. E.; Crawford, N. G.; Harvey, M. G.; Brumfield, R. T.; Glenn, T. C. (9 de janeiro de 2012). «Ultraconserved Elements Anchor Thousands of Genetic Markers Spanning Multiple Evolutionary Timescales». Systematic Biology. 61 (5): 717–726. doi:10.1093/sysbio/sys004
↑Faircloth, Brant C.; Branstetter, Michael G.; White, Noor D.; Brady, Seán G. (maio de 2015). «Target enrichment of ultraconserved elements from arthropods provides a genomic perspective on relationships among Hymenoptera». Molecular Ecology Resources. 15 (3): 489–501. doi:10.1111/1755-0998.12328
↑Reneker, J.; Lyons, E.; Conant, G. C.; Pires, J. C.; Freeling, M.; Shyu, C.-R.; Korkin, D. (10 de abril de 2012). «Long identical multispecies elements in plant and animal genomes». Proceedings of the National Academy of Sciences. 109 (19): E1183–E1191. doi:10.1073/pnas.1121356109
↑Isenbarger, Thomas A.; Carr, Christopher E.; Johnson, Sarah Stewart; Finney, Michael; Church, George M.; Gilbert, Walter; Zuber, Maria T.; Ruvkun, Gary (14 de outubro de 2008). «The Most Conserved Genome Segments for Life Detection on Earth and Other Planets». Origins of Life and Evolution of Biospheres. 38 (6): 517–533. doi:10.1007/s11084-008-9148-z
↑Harris, J. K. (12 de fevereiro de 2003). «The Genetic Core of the Universal Ancestor». Genome Research. 13 (3): 407–412. doi:10.1101/gr.652803
↑Ban, Nenad; Beckmann, Roland; Cate, Jamie HD; Dinman, Jonathan D; Dragon, François; Ellis, Steven R; Lafontaine, Denis LJ; Lindahl, Lasse; Liljas, Anders; Lipton, Jeffrey M; McAlear, Michael A; Moore, Peter B; Noller, Harry F; Ortega, Joaquin; Panse, Vikram Govind; Ramakrishnan, V; Spahn, Christian MT; Steitz, Thomas A; Tchorzewski, Marek; Tollervey, David; Warren, Alan J; Williamson, James R; Wilson, Daniel; Yonath, Ada; Yusupov, Marat (fevereiro de 2014). «A new system for naming ribosomal proteins». Current Opinion in Structural Biology. 24: 165–169. doi:10.1016/j.sbi.2014.01.002
↑Gadagkar, Sudhindra R.; Rosenberg, Michael S.; Kumar, Sudhir (15 de janeiro de 2005). «Inferring species phylogenies from multiple genes: Concatenated sequence tree versus consensus gene tree». Journal of Experimental Zoology Part B: Molecular and Developmental Evolution. 304B (1): 64–74. doi:10.1002/jez.b.21026
↑Ludwig, W; Schleifer, KH (outubro de 1994). «Bacterial phylogeny based on 16S and 23S rRNA sequence analysis.». FEMS Microbiology Reviews. 15 (2–3): 155–73. PMID7524576. doi:10.1111/j.1574-6976.1994.tb00132.x
↑Hug, Laura A.; Baker, Brett J.; Anantharaman, Karthik; Brown, Christopher T.; Probst, Alexander J.; Castelle, Cindy J.; Butterfield, Cristina N.; Hernsdorf, Alex W.; Amano, Yuki; Ise, Kotaro; Suzuki, Yohey; Dudek, Natasha; Relman, David A.; Finstad, Kari M.; Amundson, Ronald; Thomas, Brian C.; Banfield, Jillian F. (11 de abril de 2016). «A new view of the tree of life». Nature Microbiology. 1 (5). 16048 páginas. doi:10.1038/nmicrobiol.2016.48
↑Zhang, Liqing; Li, Wen-Hsiung (fevereiro de 2004). «Mammalian Housekeeping Genes Evolve More Slowly than Tissue-Specific Genes». Molecular Biology and Evolution. 21 (2): 236–239. doi:10.1093/molbev/msh010
↑Clermont, O.; Bonacorsi, S.; Bingen, E. (1 de outubro de 2000). «Rapid and Simple Determination of the Escherichia coli Phylogenetic Group». Applied and Environmental Microbiology. 66 (10): 4555–4558. doi:10.1128/AEM.66.10.4555-4558.2000
↑Kullberg, Morgan; Nilsson, Maria A.; Arnason, Ulfur; Harley, Eric H.; Janke, Axel (agosto de 2006). «Housekeeping Genes for Phylogenetic Analysis of Eutherian Relationships». Molecular Biology and Evolution. 23 (8): 1493–1503. doi:10.1093/molbev/msl027
↑Schoch, C. L.; Seifert, K. A.; Huhndorf, S.; Robert, V.; Spouge, J. L.; Levesque, C. A.; Chen, W.; Bolchacova, E.; Voigt, K.; Crous, P. W.; Miller, A. N.; Wingfield, M. J.; Aime, M. C.; An, K.-D.; Bai, F.-Y.; Barreto, R. W.; Begerow, D.; Bergeron, M.-J.; Blackwell, M.; Boekhout, T.; Bogale, M.; Boonyuen, N.; Burgaz, A. R.; Buyck, B.; Cai, L.; Cai, Q.; Cardinali, G.; Chaverri, P.; Coppins, B. J.; Crespo, A.; Cubas, P.; Cummings, C.; Damm, U.; de Beer, Z. W.; de Hoog, G. S.; Del-Prado, R.; Dentinger, B.; Dieguez-Uribeondo, J.; Divakar, P. K.; Douglas, B.; Duenas, M.; Duong, T. A.; Eberhardt, U.; Edwards, J. E.; Elshahed, M. S.; Fliegerova, K.; Furtado, M.; Garcia, M. A.; Ge, Z.-W.; Griffith, G. W.; Griffiths, K.; Groenewald, J. Z.; Groenewald, M.; Grube, M.; Gryzenhout, M.; Guo, L.-D.; Hagen, F.; Hambleton, S.; Hamelin, R. C.; Hansen, K.; Harrold, P.; Heller, G.; Herrera, C.; Hirayama, K.; Hirooka, Y.; Ho, H.-M.; Hoffmann, K.; Hofstetter, V.; Hognabba, F.; Hollingsworth, P. M.; Hong, S.-B.; Hosaka, K.; Houbraken, J.; Hughes, K.; Huhtinen, S.; Hyde, K. D.; James, T.; Johnson, E. M.; Johnson, J. E.; Johnston, P. R.; Jones, E. B. G.; Kelly, L. J.; Kirk, P. M.; Knapp, D. G.; Koljalg, U.; Kovacs, G. M.; Kurtzman, C. P.; Landvik, S.; Leavitt, S. D.; Liggenstoffer, A. S.; Liimatainen, K.; Lombard, L.; Luangsa-ard, J. J.; Lumbsch, H. T.; Maganti, H.; Maharachchikumbura, S. S. N.; Martin, M. P.; May, T. W.; McTaggart, A. R.; Methven, A. S.; Meyer, W.; Moncalvo, J.-M.; Mongkolsamrit, S.; Nagy, L. G.; Nilsson, R. H.; Niskanen, T.; Nyilasi, I.; Okada, G.; Okane, I.; Olariaga, I.; Otte, J.; Papp, T.; Park, D.; Petkovits, T.; Pino-Bodas, R.; Quaedvlieg, W.; Raja, H. A.; Redecker, D.; Rintoul, T. L.; Ruibal, C.; Sarmiento-Ramirez, J. M.; Schmitt, I.; Schussler, A.; Shearer, C.; Sotome, K.; Stefani, F. O. P.; Stenroos, S.; Stielow, B.; Stockinger, H.; Suetrong, S.; Suh, S.-O.; Sung, G.-H.; Suzuki, M.; Tanaka, K.; Tedersoo, L.; Telleria, M. T.; Tretter, E.; Untereiner, W. A.; Urbina, H.; Vagvolgyi, C.; Vialle, A.; Vu, T. D.; Walther, G.; Wang, Q.-M.; Wang, Y.; Weir, B. S.; Weiss, M.; White, M. M.; Xu, J.; Yahr, R.; Yang, Z. L.; Yurkov, A.; Zamora, J.-C.; Zhang, N.; Zhuang, W.-Y.; Schindel, D. (27 de março de 2012). «Nuclear ribosomal internal transcribed spacer (ITS) region as a universal DNA barcode marker for Fungi». Proceedings of the National Academy of Sciences. 109 (16): 6241–6246. doi:10.1073/pnas.1117018109
↑Man, S. M.; Kaakoush, N. O.; Octavia, S.; Mitchell, H. (26 de março de 2010). «The Internal Transcribed Spacer Region, a New Tool for Use in Species Differentiation and Delineation of Systematic Relationships within the Campylobacter Genus». Applied and Environmental Microbiology. 76 (10): 3071–3081. doi:10.1128/AEM.02551-09
↑Ranjard, L.; Poly, F.; Lata, J.-C.; Mougel, C.; Thioulouse, J.; Nazaret, S. (1 de outubro de 2001). «Characterization of Bacterial and Fungal Soil Communities by Automated Ribosomal Intergenic Spacer Analysis Fingerprints: Biological and Methodological Variability». Applied and Environmental Microbiology. 67 (10): 4479–4487. doi:10.1128/AEM.67.10.4479-4487.2001
↑Ala, Ugo; Piro, Rosario Michael; Grassi, Elena; Damasco, Christian; Silengo, Lorenzo; Oti, Martin; Provero, Paolo; Di Cunto, Ferdinando; Tucker-Kellogg, Greg (28 de março de 2008). «Prediction of Human Disease Genes by Human-Mouse Conserved Coexpression Analysis». PLoS Computational Biology. 4 (3): e1000043. doi:10.1371/journal.pcbi.1000043
↑Pandey, U. B.; Nichols, C. D. (17 de março de 2011). «Human Disease Models in Drosophila melanogaster and the Role of the Fly in Therapeutic Drug Discovery». Pharmacological Reviews. 63 (2): 411–436. doi:10.1124/pr.110.003293
↑Huang, Hui; Winter, Eitan E; Wang, Huajun; Weinstock, Keith G; Xing, Heming; Goodstadt, Leo; Stenson, Peter D; Cooper, David N; Smith, Douglas; Albà, M Mar; Ponting, Chris P; Fechtel, Kim (2004). Genome Biology. 5 (7): R47. doi:10.1186/gb-2004-5-7-r47
↑Ge, Dongliang; Fellay, Jacques; Thompson, Alexander J.; Simon, Jason S.; Shianna, Kevin V.; Urban, Thomas J.; Heinzen, Erin L.; Qiu, Ping; Bertelsen, Arthur H.; Muir, Andrew J.; Sulkowski, Mark; McHutchison, John G.; Goldstein, David B. (16 de agosto de 2009). «Genetic variation in IL28B predicts hepatitis C treatment-induced viral clearance». Nature. 461 (7262): 399–401. doi:10.1038/nature08309
↑Bertram, L. (2009). «Genome-wide association studies in Alzheimer's disease». Human Molecular Genetics. 18: R137–R145. doi:10.1093/hmg/ddp406
↑Kellis, Manolis; Patterson, Nick; Endrizzi, Matthew; Birren, Bruce; Lander, Eric S. (15 de maio de 2003). «Sequencing and comparison of yeast species to identify genes and regulatory elements». Nature. 423 (6937): 241–254. doi:10.1038/nature01644
↑Marchler-Bauer, A.; Lu, S.; Anderson, J. B.; Chitsaz, F.; Derbyshire, M. K.; DeWeese-Scott, C.; Fong, J. H.; Geer, L. Y.; Geer, R. C.; Gonzales, N. R.; Gwadz, M.; Hurwitz, D. I.; Jackson, J. D.; Ke, Z.; Lanczycki, C. J.; Lu, F.; Marchler, G. H.; Mullokandov, M.; Omelchenko, M. V.; Robertson, C. L.; Song, J. S.; Thanki, N.; Yamashita, R. A.; Zhang, D.; Zhang, N.; Zheng, C.; Bryant, S. H. (24 de novembro de 2010). «CDD: a Conserved Domain Database for the functional annotation of proteins». Nucleic Acids Research. 39 (Database): D225–D229. doi:10.1093/nar/gkq1189