Aprendizaje automático en bioinformática

Predicción (en azul) de la estructura de la proteína TOP7 (en rojo) usando Rosetta@Home, un proyecto para el cual se ha sugerido integrar Aprendizaje Automático en casos donde no hay suficientes datos para los métodos tradicionales.[1]

El aprendizaje automático en bioinformática consiste en la aplicación de algoritmos de aprendizaje automático, en entornos de bioinformática, como, por ejemplo, la genómica, la proteómica, los microarrays, la biología de sistemas, la biología evolutiva y la minería de textos.[2]​ Esto permite automatizar la búsqueda de patrones complejos en series de datos, facilitando la comprensión de procesos biológicos tan complejos como la estructura de las proteínas,[3]​ lo que diferencia a esta disciplina de los enfoques tradicionales de bioinformática, que requieren supervisión y que dificultan la aparición de patrones inesperados u ocultos.[4]

Se trata de un campo emergente debido al gran crecimiento de la cantidad de conjuntos de datos biológicos disponibles, necesarios para entrenar algoritmos con un nivel de detalle alto.[5][6][7]

Funcionamiento

Los algoritmos de aprendizaje automático en bioinformática pueden utilizarse para la predicción, la clasificación y la selección de características.[2]​ Los métodos para lograr esta tarea son variados y abarcan muchas disciplinas; los más conocidos son el aprendizaje automático y la estadística.[8]​ Las tareas de clasificación y predicción tienen como objetivo construir modelos que describan y distingan clases o conceptos para su futura predicción.[9]​ Las diferencias entre ellas son las siguientes:

  • La clasificación produce una variable discreta, mientras que la predicción produce una característica de valor numérico.
  • El tipo de algoritmo o proceso utilizado para construir los modelos de predicción a partir de los datos utilizando analogías, reglas, redes neuronales, probabilidades y/o estadísticas.

Debido al crecimiento exponencial[10]​ de las tecnologías de la información y de los modelos aplicables, incluyendo la inteligencia artificial y la minería de datos, además del acceso a conjuntos de datos cada vez más amplios, se han creado nuevas y mejores técnicas de análisis de la información, basadas en su capacidad de aprendizaje. Dichos modelos permiten ir más allá de la descripción y proporcionan conocimientos en forma de modelos comprobables. Algunos de los enfoques más usados son:

Clasificación

En este tipo de tareas de aprendizaje automático, la salida es una variable discreta. Un ejemplo de este tipo de tarea en bioinformática es el etiquetado de nuevos datos genómicos (como genomas de bacterias no cultivables) basado en un modelo de datos ya etiquetados.[11]

Modelos ocultos de Markov

Los modelos ocultos de Markov son un tipo de modelos estadísticos para datos secuenciales. Un Modelo de Markov está compuesto por dos objetos matemáticos: un proceso observado dependiente del estado , y un proceso de estado no observado u oculto. Así, el proceso en estudio no se observa directamente, sino que se realizan observaciones sobre un proceso dependiente del proceso de interés, y cuyos cambios sirven como una medida ruidosa de los estados del sistema de interés.[12]​ Así, pueden utilizarse para perfilar y convertir un alineamiento de secuencias múltiples en un sistema de puntuación específico para cada posición, adecuado para buscar secuencias homólogas en las bases de datos de forma remota.[13]

Redes neuronales convolucionales

Las redes neuronales convolucionales son una clase de redes neuronales profundas cuya arquitectura se en una serie de perceptores con varias capas, que posteriormente se conectan entre sí. Estas redes fueron inspiradas por procesos biológicos[14][15][16][17]​ en los que el patrón de conectividad entre neuronas se asemeja a la organización de la corteza visual animal, y utilizan relativamente poco preprocesamiento en comparación con otros algoritmos. Así, la red aprende a optimizar sus filtros a través del aprendizaje automatizado, mientras que en los algoritmos tradicionales requieren que estos filtros sean diseñados a mano.

Bosque aleatorio

Los bosques aleatorios clasifican construyendo un conjunto de árboles de decisión, y emitiendo la predicción media de los árboles individuales.[18]​ Desde el punto de vista computacional, los bosques aleatorios son atractivos porque manejan de forma natural tanto la regresión como la clasificación, son relativamente rápidos de entrenar y predecir, dependen sólo de uno o dos parámetros de ajuste, tienen una estimación incorporada del error de generalización, pueden utilizarse directamente para problemas de alta dimensión y pueden implementarse fácilmente en paralelo. Desde el punto de vista estadístico, los bosques aleatorios son atractivos para las características adicionales, como las medidas de importancia de las variables, la ponderación diferencial de las clases, la imputación de valores perdidos, la visualización, la detección de valores atípicos y el aprendizaje no supervisado.[19]

Agrupamiento

La agrupación (clustering) de un conjunto de datos en subconjuntos, de modo que los datos de cada subconjunto estén lo más cerca posible entre sí y lo más distantes posible de los datos de cualquier otro subconjunto, es una técnica común para el análisis estadístico de datos. El clustering es fundamental para muchas investigaciones bioinformáticas, y sirve como un poderoso método computacional para analizar datos no estructurados y de alta dimensión en forma de secuencias, expresiones, textos, imágenes, etc. El clustering también se utiliza para obtener información sobre los procesos biológicos a nivel genómico, por ejemplo, las funciones de los genes, los procesos celulares, los subtipos de células, la regulación génica y los procesos metabólicos.[20]​ Existen dos tipos de algoritmos de agrupamiento, a grandes rasgos:

  • Los algoritmos jerárquicos encuentran grupos usando grupos previamente establecidos, de forma aglomerativa (bottom-up, poniendo cada elemento en un grupo propio, y fusionándolos sucesivamente en otros más grandes) o divisiva (top-down, dividiendo el conjunto en subgrupos). Un ejemplo es BIRC, que es particularmente bueno en bioinformática por su complejidad de tiempo casi lineal dado conjuntos de datos generalmente grandes.[21]
  • Los algoritmos particionales determinan todos los clusters a la vez, pues se basan en especificar un número inicial de grupos, y reasignar iterativamente los objetos entre los grupos hasta la convergencia; por ejemplo, k-means o k-medoids.[22]

Aplicaciones

El crecimiento de la base de datos de secuencias genómicas de GenBank en las últimas décadas.
     Genbank
     WGS

Genómica

Aunque los datos de genómica han sido históricamente escasos debido a la dificultad técnica de secuenciar un fragmento de ADN, en los últimos años el número de secuencias indexadas en bases de datos está creciendo exponencialmente.[10]​ Sin embargo, la interpretación de estos datos está ocurriendo a un ritmo mucho más lento,[23]​ por lo que existe una necesidad creciente de desarrollar sistemas que puedan determinar automáticamente qué partes de una secuencia de ADN dada codifican proteínas y cuáles no: se trata de la predicción de gen.

Esta predicción se puede realizar mediante búsqueda extrínseca e intrínseca:

  • En la extrínseca, una secuencia de ADN se pasa por una base de datos de secuencias anotadas, buscando homólogos a genes ya existentes
  • En la intrínseca, se buscan regiones codificantes en la cadena "por sí misma", sin ayuda de agentes externos.

El aprendizaje automático también puede usarse para la alineación de secuencias, que junta regiones de semejanza para detectar una historia evolutiva compartida, así como regiones recombinantes.[24]

Metagenómica

La metagenómica es un campo nuevo de investigación que se ha desarrollado en la última década, con el objeto de entender la diversidad y le riqueza microbiana de diferentes nichos ecológicos conformados por microorganismos cultivables y no cultivables,[25]​ teniendo así aplicaciones en diferentes campos de la investigación médica, sistemas agropecuarios, estudios medioambientales y de sostenibilidad, y en la industria.

La metagenómica es el estudio de comunidades microbianas de un entorno, por medio de muestras de ADN. Esta conlleva a la extracción, clonación, secuenciación y análisis del genoma de una comunidad microbiana, lo cual permite el estudio de una gran variedad de genes y sus productos;[25]​ esto nos puede proporcionar información taxonómica e incluso metabólica o funcional de las comunidades estudiadas.

Actualmente, en el estudio metagenómico bioinformático predominan las limitaciones y desafíos en la implementación de herramientas de aprendizaje automático debido a la cantidad de datos en las muestras ambientales,[26]​ ya que al tomar una muestra de un ambiente, esta contienen genes de todo organismo perteneciente a este entorno; esto lleva a la alta dimensionalidad de los conjuntos de datos del microbioma. En vista de las limitaciones actuales en el análisis metagenómico bioinformático, se requiere una exploración más profunda de enfoques innovadores que puedan hacer frente a la alta dimensionalidad de los conjuntos de datos del microbioma. Estrategias que integren técnicas avanzadas de aprendizaje automático podrían ser clave para superar estos desafíos y revelar patrones sutiles en la composición genética de los ambientes estudiados. Un énfasis adicional debe ponerse en la reproducibilidad de los estudios metagenómicos y la implementación de estándares robustos. Esto no solo mejorará la calidad de la investigación, sino que también facilitará la comparación entre estudios, permitiendo una comprensión más completa de las comunidades microbianas en diversos entornos. La implementación de herramientas de aprendizaje automático en estudios metagenómicos podría beneficiarse de la integración de datos multidisciplinarios. La colaboración entre bioinformáticos, biólogos, y expertos en aprendizaje automático puede ofrecer nuevas perspectivas y soluciones holísticas para abordar la complejidad inherente de los datos de microbiomas ambientales.

Proteómica

Las proteínas son cadenas de aminoácidos cuya funcionalidad depende en gran medida de su estructura tridimensional. Esta estructura se va "plegando" progresivamente, pasando desde la estructura primaria (la cadena lineal de aminoácidos) a la estructura secundaria que predice la terciaria, y si se asocia con otras cadenas peptídicas, la cuaternaria. Así, la predicción de la estructura secundaria directamente desde la primaria es un campo con grandes aplicaciones en el área de la farmacodinámica, aunque se trata de un proceso increíblemente costoso y que requiere mucho tiempo, y que, hasta la llegada del aprendizaje automático, debía realizarse manualmente.[27]

Hoy en día, mediante el uso del aprendizaje automático se puede alcanzar una precisión del 82-84%, usando redes neuronales artificiales para clasificar regiones del ADN en función de si codifican para una hélice alfa, lámina beta o espiral).[25]​ El aprendizaje automático también se puede usar para la predicción de cadenas laterales, el modelado de bucles de proteínas, y la generación de mapas de contacto.

Microarrays

Los microarrays son un tipo de chip de laboratorio utilizado para recopilar datos de forma automática sobre grandes cantidades de material biológico. Esta tecnología permite controlar la expresión diferencial de genes, ayudando a diagnosticar enfermedades como el cáncer.[28]​ Sin embargo, debido a la enorme cantidad de datos recopilados, se hace necesario discernir cuales son de interés y cuales no para el diagnóstico, para lo que se pueden usar métodos de aprendizaje automático tales como el aprendizaje profundo o los árboles de decisión.

Biología de sistemas

La biología de sistemas se centra en el estudio de las interacciones complejas de componentes biológicos simples en un sistema.[29]​ Por ejemplo, se pueden modelar redes génicas y estructuras reguladoras a partir de la expresión de los genes individuales usando modelos gráficos probabilistas, identificar sitios de unión de factores de transcripción utilizando la optimización de cadena de Markov o identificar la sensibilidad de los genes NCR (encargados de desatar la citotoxicidad)[30]​ en levadura.[31]

Minería de textos

La minería de textos se puede usar para establecer relaciones entre conjuntos de datos, ya sean biológicos o políticos. En la imagen, un mapa narrativo de las elecciones de 2012 en Estados Unidos

El aumento de las publicaciones científicas dificulta la búsqueda y compilación de toda la información relevante disponible sobre un tema determinado. Esto, a su vez, dificulta la recopilación de datos biológicos necesaria para todas las aplicaciones anteriormente mencionadas.[32]​ El procesamiento del lenguaje natural permite extraer la información útil dentro de los informes generados por humanos en una base de datos dada. Además, como las anotaciones de proteínas en las bases de datos de proteínas a menudo no reflejan el conjunto de conocimiento conocido, se puede extraer información adicional de la literatura biomédica, permitiendo funciones como la anotación automática, la determinación de la localización subcelular de una proteína, el análisis de interacción de proteínas a gran escala o la detección y visualización de regiones que comparten un alto grado de semejanza.[33]

Bases de datos

Una parte importante de la bioinformática es la gestión de grandes conjuntos de datos, conocidos como bases de datos de referencia. Existen bases de datos para cada tipo de datos biológicos, por ejemplo para los grupos de genes biosintéticos y los metagenomas.

  • Centro Nacional de Información Biotecnológica: El NCBI ofrece un amplio conjunto de recursos en línea de información y datos biológicos, como la base de datos de secuencias de ácidos nucleicos GenBank y la base de datos de citas y resúmenes de revistas de ciencias de la vida PubMed. Muchas de las aplicaciones web se complementan con implementaciones personalizadas del programa BLAST, optimizadas para la búsqueda de conjuntos de datos especializados. Los recursos incluyen la gestión de datos de PubMed, los elementos funcionales de RefSeq, la descarga de datos del genoma, la API de servicios de variación, Magic-BLAST, QuickBLASTp y los grupos de proteínas idénticas. Se puede acceder a todos estos recursos a través del NCBI.[34]
  • antiSMASH: Permite la rápida identificación, anotación y análisis de grupos de genes de biosíntesis de metabolitos secundarios en genomas bacterianos y fúngicos. Se integra y cruza con un gran número de herramientas de análisis in silico de metabolitos secundarios.[35]
  • gutSMASH: Evalúa sistemáticamente el potencial metabólico bacteriano mediante la predicción de clústeres de genes metabólicos (MGC), tanto conocidos como novedosos, del microbioma intestinal.[36]
  • MIBiG: Son las siglas de Minimal Identifier for Biosintetic Gene cluster, y proporciona un estándar para las anotaciones y metadatos sobre los clústeres de genes biosintéticos y sus productos moleculares.[37]​ Se trata de un proyecto del Consorcio de Estándares Genómicos que se basa en el marco de información mínima sobre cualquier secuencia (MIxS).[38]
  • SILVA: es un proyecto interdisciplinario entre biólogos e informáticos que reúne una base de datos completa de secuencias de genes de ARN ribosómico (ARNr), tanto de las subunidades pequeñas (16S,18S, SSU) como de las grandes (23S, 28S, LSU), que pertenecen a los dominios de las bacterias, las arqueas y las eucariotas. Estos datos están disponibles gratuitamente para uso académico y comercial.[39]
  • Greengenes: es una base de datos de genes de ARN ribosomal 16S de longitud completa que proporciona cribado de quimeras,[40]​ alineación estándar y una taxonomía curada basada en la inferencia de árboles de novo.[41]
  • Open Tree of life Taxonomy: Tiene como objetivo construir un Árbol de la Vida completo, dinámico y disponible digitalmente, sintetizando los árboles filogenéticos publicados junto con los datos taxonómicos. Aunque menos utilizada, tiene un mayor número de secuencias clasificadas taxonómicamente hasta el nivel de género en comparación con SILVA y Greengenes.[42]
  • Ribosomal Database Project Archivado el 19 de agosto de 2020 en Wayback Machine.: Es una base de datos que proporciona secuencias de ARN ribosómico (ARNr) de subunidades pequeñas de dominio bacteriano y arqueológico (16S); y secuencias de ARNr fúngico de subunidades grandes (28S).[43]

Referencias

  1. Farrell, Daniel P.; Anishchenko, Ivan; Shakeel, Shabih; Lauko, Anna; Passmore, Lori A.; Baker, David; DiMaio, Frank (3 de mayo de 2020). Deep learning enables the atomic structure determination of the Fanconi Anemia core complex from cryoEM (en inglés). pp. 2020.05.01.072751. doi:10.1101/2020.05.01.072751v1. Consultado el 11 de noviembre de 2021. 
  2. a b «Machine learning in bioinformatics». academic.oup.com. Consultado el 11 de noviembre de 2021. 
  3. Yang, Yuedong; Gao, Jianzhao; Wang, Jihua; Heffernan, Rhys; Hanson, Jack; Paliwal, Kuldip; Zhou, Yaoqi (31 de diciembre de 2016). «Sixty-five years of the long march in protein secondary structure prediction: the final stretch?». Briefings in Bioinformatics: bbw129. doi:10.1093/bib/bbw129. 
  4. Chicco, Davide (2017). «Ten quick tips for machine learning in computational biology». BioData Mining 10 (1): 35. doi:10.1186/s13040-017-0155-3. 
  5. Littmann, Maria; Selig, Katharina; Cohen-Lavi, Liel; Frank, Yotam; Hönigschmid, Peter; Kataka, Evans; Mösch, Anja; Qian, Kun et al. (2020-01). «Validity of machine learning in biology and medicine increased through collaborations across fields of expertise». Nature Machine Intelligence (en inglés) 2 (1): 18-24. ISSN 2522-5839. doi:10.1038/s42256-019-0139-8. Consultado el 20 de noviembre de 2021. 
  6. «Introduction to Machine Learning and Bioinformatics». Routledge & CRC Press (en inglés). Consultado el 20 de noviembre de 2021. 
  7. Larrañaga, Pedro; Calvo, Borja; Santana, Roberto; Bielza, Concha; Galdiano, Josu; Inza, Iñaki; Lozano, José A.; Armañanzas, Rubén; Santafé, Guzmán; Pérez, Aritz; Robles, Victor (1 de marzo de 2006). «Machine learning in bioinformatics». Briefings in Bioinformatics 7 (1): 86-112. doi:10.1093/bib/bbk007. 
  8. Hamada, Michiaki; Asai, Kiyoshi (2012-5). «A Classification of Bioinformatics Algorithms from the Viewpoint of Maximizing Expected Accuracy (MEA)». Journal of Computational Biology 19 (5): 532-549. ISSN 1066-5277. PMC 3342518. PMID 22313125. doi:10.1089/cmb.2011.0197. Consultado el 21 de noviembre de 2021. 
  9. Dinesh Kumar, Sarika; Iquebal, M A. «BIOINFORMATICS TOOLS FOR CLASSIFICATION AND PREDICTION». E-Reference Manual on Statistical Models for Forcasting in Agriculture (Indian Agricultural Statistics Research Institute). 
  10. a b «GenBank and WGS Statistics». www.ncbi.nlm.nih.gov. Consultado el 19 de noviembre de 2021. 
  11. Soueidan; Nikolski (2019). pdf «Aprendizaje automático para metagenómica: métodos y herramientas». Metagenomics 1. S2CID 17418188. arXiv:06621 1510. 06621. doi:10.1515/metgen-2016-0001. 
  12. Rabiner, L.; Juang, B. (1986-01). «An introduction to hidden Markov models». IEEE ASSP Magazine 3 (1): 4-16. ISSN 1558-1284. doi:10.1109/MASSP.1986.1165342. Consultado el 21 de noviembre de 2021. 
  13. «Profile hidden Markov models». Bioinformatics 14 (9): 755-63. 1 de octubre de 1998. PMID 9918945. doi:10.1093/bioinformatics/14.9.755. 
  14. Fukushima, K (2007). «Neocognitron». Scholarpedia 2 (1): 1717. Bibcode:1717F 2007SchpJ...2. 1717F. doi:10.4249/scholarpedia.1717. 
  15. Hubel, DH; Wiesel, TN (March 1968). «Receptive fields and functional architecture of monkey striate cortex». The Journal of Physiology 195 (1): 215-43. PMC 1557912. PMID 4966457. doi:10.1113/jphysiol.1968.sp008455. 
  16. Fukushima, K (1980). «Neocognitron: a self organizing neural network model for a mechanism of pattern recognition unffected by shift in position». Biological Cybernetics 36 (4): 193-202. PMID 7370364. S2CID 206775608. doi:10.1007/BF00344251. 
  17. «Reconocimiento de la expresión facial independiente del sujeto con detección facial robusta utilizando una red neuronal convolucional». Neural Networks 16 (5-6): 555-9. 2003. PMID 12850007. doi:10.1016/S0893-6080(03)00115-1. 
  18. Bosques de decisión aleatorios. Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14-16 August 1995. 1995. pp. 278-282. 
  19. Zhang, C; Ma, Yi (2012). Ensemble machine learning: methods and applications. New York: Springer New York Dordrecht Heidelberg London. pp. 157-175. ISBN 978-1-4419-9325-0. 
  20. «Deep learning-based clustering approaches for bioinformatics». Briefings in Bioinformatics 22 (1): 393-415. January 2021. PMC 7820885. PMID 32008043. doi:10.1093/bib/bbz170. 
  21. «Variations on the Clustering Algorithm BIRCH». Big Data Research 11: 44-53. 1 de marzo de 2018. doi:10.1016/j.bdr.2017.09.002. 
  22. «Un marco computacional para explorar la diversidad biosintética a gran escala». Nature Chemical Biology 16 (1): 60-68. January 2020. PMC 6917865. PMID 31768033. doi:10.1038/s41589-019-0400-9. 
  23. Mathé, Catherine; Sagot, Marie-France; Schiex, Thomas; Rouzé, Pierre (1 de octubre de 2002). «SURVEY AND SUMMARY: Current methods of gene prediction, their strengths and weaknesses». Nucleic Acids Research 30 (19): 4103-4117. ISSN 0305-1048. PMID 12364589. Consultado el 19 de noviembre de 2021. 
  24. Pratas, D; Silva, R; Pinho, A; Ferreira, P (18 de mayo de 2015). «An alignment-free method to find and visualise rearrangements between pairs of DNA sequences.». Scientific Reports (Group Nature) 5 (10203): 10203. PMC 4434998. PMID 25984837. doi:10.1038/srep10203. 
  25. a b c Uribe Vélez, Daniel (Diciembre 2009). «Metagenómica¿ Una oportunidad para el estudio de la diversidad microbiana en Colombia?». Revista colombiana de biotecnología 11 (2): 4-7.  Error en la cita: Etiqueta <ref> no válida; el nombre «:3» está definido varias veces con contenidos diferentes
  26. «Machine learning for metagenomics: methods and tools». arXiv:1510.06621  [q-bio.GN]. 2016-03-08. 
  27. Pauling, L.; Corey, R. B.; Branson, H. R. (1 de abril de 1951). «The structure of proteins; two hydrogen-bonded helical configurations of the polypeptide chain». Proceedings of the National Academy of Sciences of the United States of America 37 (4): 205-211. ISSN 0027-8424. PMC 1063337. PMID 14816373. doi:10.1073/pnas.37.4.205. 
  28. Pirooznia, Mehdi; Yang, Jack Y.; Yang, Mary Qu; Deng, Youping (2008). «A comparative study of different machine learning methods on microarray gene expression data». BMC Genomics 9 (1): S13. ISSN 1471-2164. PMC 2386055. PMID 18366602. doi:10.1186/1471-2164-9-S1-S13. 
  29. «Machine Learning in Molecular Systems Biology». Frontiers (en inglés). Consultado el 9 de junio de 2017. 
  30. Guefrachi, Ibtissem; Nagymihaly, Marianna; Pislariu, Catalina I.; Van de Velde, Willem; Ratet, Pascal; Mars, Mohamed; Udvardi, Michael K.; Kondorosi, Eva et al. (25 de agosto de 2014). «Extreme specificity of NCR gene expression in Medicago truncatula». BMC genomics 15: 712. ISSN 1471-2164. PMC 4168050. PMID 25156206. doi:10.1186/1471-2164-15-712. Consultado el 20 de noviembre de 2021. 
  31. «Machine Learning in Systems Biology». BMC Proceedings 2 (4): S1. 2008. ISSN 1753-6561. doi:10.1186/1753-6561-2-S4-S1. 
  32. Krallinger, Martin; Erhardt, Ramon Alonso-Allende; Valencia, Alfonso (15 de marzo de 2005). «Text-mining approaches in molecular biology and biomedicine». Drug Discovery Today 10 (6): 439-445. doi:10.1016/S1359-6446(05)03376-3. 
  33. «Visualization of Distinct DNA Regions of the Modern Human Relatively to a Neanderthal Genome». Iberian Conference on Pattern Recognition and Image Analysis. Springer: 235-242. June 20–23, 2017. 
  34. «Database resources of the National Center for Biotechnology Information». Nucleic Acids Research 46 (D1): D8-D13. January 2018. PMC 5753372. PMID 29140470. doi:10.1093/nar/gkx1095. 
  35. Blin, Kai; Shaw, Simon; Steinke, Katharina; Villebro, Rasmus; Ziemert, Nadine; Lee, Sang Yup; Medema, Marnix H; Weber, Tilmann (2 de julio de 2019). «antiSMASH 5.0: updates to the secondary metabolite genome mining pipeline». Nucleic Acids Research 47 (W1): W81-W87. ISSN 0305-1048. PMC 6602434. PMID 31032519. doi:10.1093/nar/gkz310. Consultado el 21 de noviembre de 2021. 
  36. Pascal Andreu, Victòria; Roel-Touris, Jorge; Dodd, Dylan; Fischbach, Michael A; Medema, Marnix H (21 de mayo de 2021). «The gutSMASH web server: automated identification of primary metabolic gene clusters from the gut microbiota». Nucleic Acids Research 49 (W1): W263-W270. ISSN 0305-1048. PMC 8262752. PMID 34019648. doi:10.1093/nar/gkab353. Consultado el 21 de noviembre de 2021. 
  37. «MIBiG 2. 0: a repository for biosynthetic gene clusters of known function». Nucleic Acids Research 48 (D1): D454-D458. January 2020. PMC 7145714. PMID 31612915. doi:10.1093/nar/gkz882. 
  38. «MIBiG: Minimum Information about a Biosynthetic Gene cluster». mibig.secondarymetabolites.org (en inglés). Consultado el 21 de noviembre de 2021. 
  39. «The SILVA ribosomal RNA gene database project: procesamiento de datos mejorado y herramientas basadas en la web». Nucleic Acids Research 41 (Database issue): D590-6. January 2013. PMC 3531112. PMID 23193283. doi:10.1093/nar/gks1219. 
  40. DeSantis, TZ (July 2006). «Greengenes, a chimera-checked 16S rRNA gene database and workbench compatible with ARB». Applied and Environmental Microbiology 72 (7): 5069-72. PMC 1489311. PMID 16820507. doi:10.1128/AEM.03006-05. 
  41. «Una taxonomía Greengenes mejorada con rangos explícitos para los análisis ecológicos y evolutivos de bacterias y arqueas». The ISME Journal 6 (3): 610-8. March 2012. PMC 3280142. PMID 22134646. doi:10.1038/ismej.2011.139. 
  42. «Síntesis de la filogenia y la taxonomía en un árbol completo de la vida». Proceedings of the National Academy of Sciences of the United States of America 112 (41): 12764-9. October 2015. Bibcode:2015PNAS..11212764H. PMC 4611642. PMID 26385966. doi:10.1073/pnas.1423041112. 
  43. «Ribosomal Database Project: Datos y herramientas para el análisis de ARNr de alto rendimiento». Nucleic Acids Research 42 (Base de datos): D633-42. enero de 2014. PMC 3965039. PMID 24288368. doi:10.1093/nar/gkt1244. 

Enlaces externos