Se trata de un campo emergente debido al gran crecimiento de la cantidad de conjuntos de datos biológicos disponibles, necesarios para entrenar algoritmos con un nivel de detalle alto.[5][6][7]
Funcionamiento
Los algoritmos de aprendizaje automático en bioinformática pueden utilizarse para la predicción, la clasificación y la selección de características.[2] Los métodos para lograr esta tarea son variados y abarcan muchas disciplinas; los más conocidos son el aprendizaje automático y la estadística.[8] Las tareas de clasificación y predicción tienen como objetivo construir modelos que describan y distingan clases o conceptos para su futura predicción.[9] Las diferencias entre ellas son las siguientes:
El tipo de algoritmo o proceso utilizado para construir los modelos de predicción a partir de los datos utilizando analogías, reglas, redes neuronales, probabilidades y/o estadísticas.
Debido al crecimiento exponencial[10] de las tecnologías de la información y de los modelos aplicables, incluyendo la inteligencia artificial y la minería de datos, además del acceso a conjuntos de datos cada vez más amplios, se han creado nuevas y mejores técnicas de análisis de la información, basadas en su capacidad de aprendizaje. Dichos modelos permiten ir más allá de la descripción y proporcionan conocimientos en forma de modelos comprobables. Algunos de los enfoques más usados son:
Clasificación
En este tipo de tareas de aprendizaje automático, la salida es una variable discreta. Un ejemplo de este tipo de tarea en bioinformática es el etiquetado de nuevos datos genómicos (como genomas de bacterias no cultivables) basado en un modelo de datos ya etiquetados.[11]
Modelos ocultos de Markov
Los modelos ocultos de Markov son un tipo de modelos estadísticos para datos secuenciales. Un Modelo de Markov está compuesto por dos objetos matemáticos: un proceso observado dependiente del estado , y un proceso de estado no observado u oculto. Así, el proceso en estudio no se observa directamente, sino que se realizan observaciones sobre un proceso dependiente del proceso de interés, y cuyos cambios sirven como una medida ruidosa de los estados del sistema de interés.[12] Así, pueden utilizarse para perfilar y convertir un alineamiento de secuencias múltiples en un sistema de puntuación específico para cada posición, adecuado para buscar secuencias homólogas en las bases de datos de forma remota.[13]
Redes neuronales convolucionales
Las redes neuronales convolucionales son una clase de redes neuronales profundas cuya arquitectura se en una serie de perceptores con varias capas, que posteriormente se conectan entre sí. Estas redes fueron inspiradas por procesos biológicos[14][15][16][17] en los que el patrón de conectividad entre neuronas se asemeja a la organización de la corteza visual animal, y utilizan relativamente poco preprocesamiento en comparación con otros algoritmos. Así, la red aprende a optimizar sus filtros a través del aprendizaje automatizado, mientras que en los algoritmos tradicionales requieren que estos filtros sean diseñados a mano.
Bosque aleatorio
Los bosques aleatorios clasifican construyendo un conjunto de árboles de decisión, y emitiendo la predicción media de los árboles individuales.[18] Desde el punto de vista computacional, los bosques aleatorios son atractivos porque manejan de forma natural tanto la regresión como la clasificación, son relativamente rápidos de entrenar y predecir, dependen sólo de uno o dos parámetros de ajuste, tienen una estimación incorporada del error de generalización, pueden utilizarse directamente para problemas de alta dimensión y pueden implementarse fácilmente en paralelo. Desde el punto de vista estadístico, los bosques aleatorios son atractivos para las características adicionales, como las medidas de importancia de las variables, la ponderación diferencial de las clases, la imputación de valores perdidos, la visualización, la detección de valores atípicos y el aprendizaje no supervisado.[19]
Agrupamiento
La agrupación (clustering) de un conjunto de datos en subconjuntos, de modo que los datos de cada subconjunto estén lo más cerca posible entre sí y lo más distantes posible de los datos de cualquier otro subconjunto, es una técnica común para el análisis estadístico de datos. El clustering es fundamental para muchas investigaciones bioinformáticas, y sirve como un poderoso método computacional para analizar datos no estructurados y de alta dimensión en forma de secuencias, expresiones, textos, imágenes, etc. El clustering también se utiliza para obtener información sobre los procesos biológicos a nivel genómico, por ejemplo, las funciones de los genes, los procesos celulares, los subtipos de células, la regulación génica y los procesos metabólicos.[20] Existen dos tipos de algoritmos de agrupamiento, a grandes rasgos:
Los algoritmos jerárquicos encuentran grupos usando grupos previamente establecidos, de forma aglomerativa (bottom-up, poniendo cada elemento en un grupo propio, y fusionándolos sucesivamente en otros más grandes) o divisiva (top-down, dividiendo el conjunto en subgrupos). Un ejemplo es BIRC, que es particularmente bueno en bioinformática por su complejidad de tiempo casi lineal dado conjuntos de datos generalmente grandes.[21]
Los algoritmos particionales determinan todos los clusters a la vez, pues se basan en especificar un número inicial de grupos, y reasignar iterativamente los objetos entre los grupos hasta la convergencia; por ejemplo, k-means o k-medoids.[22]
Aplicaciones
El crecimiento de la base de datos de secuencias genómicas de GenBank en las últimas décadas.
Genbank
WGS
Genómica
Aunque los datos de genómica han sido históricamente escasos debido a la dificultad técnica de secuenciar un fragmento de ADN, en los últimos años el número de secuencias indexadas en bases de datos está creciendo exponencialmente.[10] Sin embargo, la interpretación de estos datos está ocurriendo a un ritmo mucho más lento,[23] por lo que existe una necesidad creciente de desarrollar sistemas que puedan determinar automáticamente qué partes de una secuencia de ADN dada codifican proteínas y cuáles no: se trata de la predicción de gen.
Esta predicción se puede realizar mediante búsqueda extrínseca e intrínseca:
En la extrínseca, una secuencia de ADN se pasa por una base de datos de secuencias anotadas, buscando homólogos a genes ya existentes
En la intrínseca, se buscan regiones codificantes en la cadena "por sí misma", sin ayuda de agentes externos.
El aprendizaje automático también puede usarse para la alineación de secuencias, que junta regiones de semejanza para detectar una historia evolutiva compartida, así como regiones recombinantes.[24]
Metagenómica
La metagenómica es un campo nuevo de investigación que se ha desarrollado en la última década, con el objeto de entender la diversidad y le riqueza microbiana de diferentes nichos ecológicos conformados por microorganismos cultivables y no cultivables,[25] teniendo así aplicaciones en diferentes campos de la investigación médica, sistemas agropecuarios, estudios medioambientales y de sostenibilidad, y en la industria.
La metagenómica es el estudio de comunidades microbianas de un entorno, por medio de muestras de ADN. Esta conlleva a la extracción, clonación, secuenciación y análisis del genoma de una comunidad microbiana, lo cual permite el estudio de una gran variedad de genes y sus productos;[25] esto nos puede proporcionar información taxonómica e incluso metabólica o funcional de las comunidades estudiadas.
Actualmente, en el estudio metagenómico bioinformático predominan las limitaciones y desafíos en la implementación de herramientas de aprendizaje automático debido a la cantidad de datos en las muestras ambientales,[26] ya que al tomar una muestra de un ambiente, esta contienen genes de todo organismo perteneciente a este entorno; esto lleva a la alta dimensionalidad de los conjuntos de datos del microbioma. En vista de las limitaciones actuales en el análisis metagenómico bioinformático, se requiere una exploración más profunda de enfoques innovadores que puedan hacer frente a la alta dimensionalidad de los conjuntos de datos del microbioma. Estrategias que integren técnicas avanzadas de aprendizaje automático podrían ser clave para superar estos desafíos y revelar patrones sutiles en la composición genética de los ambientes estudiados. Un énfasis adicional debe ponerse en la reproducibilidad de los estudios metagenómicos y la implementación de estándares robustos. Esto no solo mejorará la calidad de la investigación, sino que también facilitará la comparación entre estudios, permitiendo una comprensión más completa de las comunidades microbianas en diversos entornos. La implementación de herramientas de aprendizaje automático en estudios metagenómicos podría beneficiarse de la integración de datos multidisciplinarios. La colaboración entre bioinformáticos, biólogos, y expertos en aprendizaje automático puede ofrecer nuevas perspectivas y soluciones holísticas para abordar la complejidad inherente de los datos de microbiomas ambientales.
Proteómica
Las proteínas son cadenas de aminoácidos cuya funcionalidad depende en gran medida de su estructura tridimensional. Esta estructura se va "plegando" progresivamente, pasando desde la estructura primaria (la cadena lineal de aminoácidos) a la estructura secundaria que predice la terciaria, y si se asocia con otras cadenas peptídicas, la cuaternaria. Así, la predicción de la estructura secundaria directamente desde la primaria es un campo con grandes aplicaciones en el área de la farmacodinámica, aunque se trata de un proceso increíblemente costoso y que requiere mucho tiempo, y que, hasta la llegada del aprendizaje automático, debía realizarse manualmente.[27]
Los microarrays son un tipo de chip de laboratorio utilizado para recopilar datos de forma automática sobre grandes cantidades de material biológico. Esta tecnología permite controlar la expresión diferencial de genes, ayudando a diagnosticar enfermedades como el cáncer.[28] Sin embargo, debido a la enorme cantidad de datos recopilados, se hace necesario discernir cuales son de interés y cuales no para el diagnóstico, para lo que se pueden usar métodos de aprendizaje automático tales como el aprendizaje profundo o los árboles de decisión.
El aumento de las publicaciones científicas dificulta la búsqueda y compilación de toda la información relevante disponible sobre un tema determinado. Esto, a su vez, dificulta la recopilación de datos biológicos necesaria para todas las aplicaciones anteriormente mencionadas.[32] El procesamiento del lenguaje natural permite extraer la información útil dentro de los informes generados por humanos en una base de datos dada. Además, como las anotaciones de proteínas en las bases de datos de proteínas a menudo no reflejan el conjunto de conocimiento conocido, se puede extraer información adicional de la literatura biomédica, permitiendo funciones como la anotación automática, la determinación de la localización subcelular de una proteína, el análisis de interacción de proteínas a gran escala o la detección y visualización de regiones que comparten un alto grado de semejanza.[33]
Bases de datos
Una parte importante de la bioinformática es la gestión de grandes conjuntos de datos, conocidos como bases de datos de referencia. Existen bases de datos para cada tipo de datos biológicos, por ejemplo para los grupos de genes biosintéticos y los metagenomas.
Centro Nacional de Información Biotecnológica: El NCBI ofrece un amplio conjunto de recursos en línea de información y datos biológicos, como la base de datos de secuencias de ácidos nucleicos GenBank y la base de datos de citas y resúmenes de revistas de ciencias de la vida PubMed. Muchas de las aplicaciones web se complementan con implementaciones personalizadas del programa BLAST, optimizadas para la búsqueda de conjuntos de datos especializados. Los recursos incluyen la gestión de datos de PubMed, los elementos funcionales de RefSeq, la descarga de datos del genoma, la API de servicios de variación, Magic-BLAST, QuickBLASTp y los grupos de proteínas idénticas. Se puede acceder a todos estos recursos a través del NCBI.[34]
antiSMASH: Permite la rápida identificación, anotación y análisis de grupos de genes de biosíntesis de metabolitos secundarios en genomas bacterianos y fúngicos. Se integra y cruza con un gran número de herramientas de análisis in silico de metabolitos secundarios.[35]
gutSMASH: Evalúa sistemáticamente el potencial metabólico bacteriano mediante la predicción de clústeres de genes metabólicos (MGC), tanto conocidos como novedosos, del microbioma intestinal.[36]
MIBiG: Son las siglas de Minimal Identifier for Biosintetic Gene cluster, y proporciona un estándar para las anotaciones y metadatos sobre los clústeres de genes biosintéticos y sus productos moleculares.[37] Se trata de un proyecto del Consorcio de Estándares Genómicos que se basa en el marco de información mínima sobre cualquier secuencia (MIxS).[38]
SILVA: es un proyecto interdisciplinario entre biólogos e informáticos que reúne una base de datos completa de secuencias de genes de ARN ribosómico (ARNr), tanto de las subunidades pequeñas (16S,18S, SSU) como de las grandes (23S, 28S, LSU), que pertenecen a los dominios de las bacterias, las arqueas y las eucariotas. Estos datos están disponibles gratuitamente para uso académico y comercial.[39]
Greengenes: es una base de datos de genes de ARN ribosomal 16S de longitud completa que proporciona cribado de quimeras,[40] alineación estándar y una taxonomía curada basada en la inferencia de árboles de novo.[41]
Open Tree of life Taxonomy: Tiene como objetivo construir un Árbol de la Vida completo, dinámico y disponible digitalmente, sintetizando los árboles filogenéticos publicados junto con los datos taxonómicos. Aunque menos utilizada, tiene un mayor número de secuencias clasificadas taxonómicamente hasta el nivel de género en comparación con SILVA y Greengenes.[42]
Ribosomal Database ProjectArchivado el 19 de agosto de 2020 en Wayback Machine.: Es una base de datos que proporciona secuencias de ARN ribosómico (ARNr) de subunidades pequeñas de dominio bacteriano y arqueológico (16S); y secuencias de ARNr fúngico de subunidades grandes (28S).[43]
↑Yang, Yuedong; Gao, Jianzhao; Wang, Jihua; Heffernan, Rhys; Hanson, Jack; Paliwal, Kuldip; Zhou, Yaoqi (31 de diciembre de 2016). «Sixty-five years of the long march in protein secondary structure prediction: the final stretch?». Briefings in Bioinformatics: bbw129. doi:10.1093/bib/bbw129.
↑Chicco, Davide (2017). «Ten quick tips for machine learning in computational biology». BioData Mining10 (1): 35. doi:10.1186/s13040-017-0155-3.
↑Fukushima, K (1980). «Neocognitron: a self organizing neural network model for a mechanism of pattern recognition unffected by shift in position». Biological Cybernetics36 (4): 193-202. PMID7370364. S2CID206775608. doi:10.1007/BF00344251.
↑«Reconocimiento de la expresión facial independiente del sujeto con detección facial robusta utilizando una red neuronal convolucional». Neural Networks16 (5-6): 555-9. 2003. PMID12850007. doi:10.1016/S0893-6080(03)00115-1.
↑Bosques de decisión aleatorios. Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14-16 August 1995. 1995. pp. 278-282.
↑ abcUribe Vélez, Daniel (Diciembre 2009). «Metagenómica¿ Una oportunidad para el estudio de la diversidad microbiana en Colombia?». Revista colombiana de biotecnología11 (2): 4-7.Error en la cita: Etiqueta <ref> no válida; el nombre «:3» está definido varias veces con contenidos diferentes
↑«Machine learning for metagenomics: methods and tools». arXiv:1510.06621 [q-bio.GN]. 2016-03-08.