Proyecto Anatomía del Genoma del CáncerEl Proyecto Anatomía del Genoma del Cáncer (CGAP por sus siglas en inglés), creado por el Instituto Nacional del Cáncer (NCI) en 1997 y presentado por Al Gore, es una base de datos en línea sobre genomas normales, precancerosos y cancerosos. También proporciona herramientas para la visualización y el análisis de los datos, lo que permite identificar genes implicados en diversos aspectos de la progresión tumoral. El objetivo del CGAP es caracterizar el cáncer a nivel molecular proporcionando una plataforma con datos actualizados de fácil acceso y un conjunto de herramientas tales que los investigadores puedan relacionar fácilmente sus hallazgos con los conocimientos existentes. También se hace hincapié en el desarrollo de herramientas informáticas que mejoren el uso de conjuntos de datos grandes y complejos.[1][2] El proyecto está dirigido por Daniela S. Gerhard e incluye subproyectos o iniciativas, entre las que destacan el Proyecto de Aberraciones Cromosómicas del Cáncer (CCAP) y la Iniciativa de Anotaciones Genéticas (GAI). El CGAP contribuye a muchas bases de datos y organizaciones como el NCBI contribuyen a las bases de datos del CGAP. Entre los posibles resultados del CGAP figuran el establecimiento de una correlación entre la progresión de un cáncer concreto y su resultado terapéutico, la mejora de la evaluación del tratamiento y el desarrollo de técnicas novedosas de prevención, detección y tratamiento. Esto se consigue mediante la caracterización de productos de ARNm de tejidos biológicos. InvestigaciónContextoLa causa fundamental del cáncer es la incapacidad de una célula para regular su expresión génica. Para caracterizar un tipo concreto de cáncer, pueden examinarse las proteínas que se producen a partir de la expresión génica alterada o el ARNm precursor de la proteína. El CGAP trabaja para asociar el perfil de expresión, la firma molecular o el transcriptoma de una célula concreta, que es esencialmente la huella dactilar de la célula, con el fenotipo de la célula. Por lo tanto, existen perfiles de expresión que tienen en cuenta el tipo de cáncer y la fase de progresión.[3] SecuenciaciónEl objetivo inicial del CGAP era establecer un Índice de Genes Tumorales (TGI) para almacenar los perfiles de expresión. De este modo se contribuiría tanto a las bases de datos nuevas como a las ya existentes.[4] Esto contribuyó a dos tipos de bibliotecas, la dbEST y más tarde la dbSAGE. Esto se llevó a cabo en una serie de pasos[3]
El TGI se centró al principio en los cánceres de próstata, mama, ovario, pulmón y colon, y el CGAP amplió sus investigaciones a otros tipos de cáncer. En la práctica, surgieron problemas que el CGAP tuvo en cuenta a medida que se disponía de nuevas tecnologías. Muchos cánceres se producen en tejidos con múltiples tipos de células. Las técnicas tradicionales tomaban toda la muestra de tejido y producían bibliotecas de ADNc de tejido a granel. Esta heterogeneidad celular hacía que la información sobre la expresión génica en términos de biología del cáncer fuera menos precisa. Un ejemplo es el tejido de cáncer de próstata, en el que las células epiteliales, que se ha demostrado que son el único tipo celular que da lugar al cáncer, sólo constituyen el 10% del recuento celular. Esto condujo al desarrollo de la microdisección por captura láser (LCM), una técnica que permite aislar tipos celulares individuales, lo que dio lugar a bibliotecas de ADNc de tipos celulares específicos.[4] La secuenciación del ADNc producirá el transcrito completo del ARNm que lo generó. En la práctica, sólo se necesita una parte de la secuencia para identificar de forma unívoca el ARNm o la proteína asociada. La parte resultante de la secuencia se denomina etiqueta de secuencia expresada (EST) y se encuentra siempre al final de la secuencia, cerca de la cola poli A. Los datos EST se almacenan en una base de datos denominada dbEST. Las EST sólo tienen que tener unas 400 bases de longitud, pero con las técnicas de secuenciación NGS esto sigue produciendo lecturas de baja calidad. Por lo tanto, también se utiliza un método mejorado llamado análisis en serie de la expresión génica (SAGE). Este método identifica, para cada molécula de transcrito de ADNc producida a partir de la expresión génica de una célula, regiones de sólo 10-14 bases de longitud en cualquier parte de la secuencia de lectura, suficientes para identificar de forma única ese transcrito de ADNc. Estas bases se recortan y se unen, y después se incorporan a plásmidos bacterianos como se ha mencionado anteriormente. Las bibliotecas SAGE tienen una mejor calidad de lectura y generan una mayor cantidad de datos cuando se secuencian, y puesto que los transcritos se comparan en niveles absolutos en lugar de relativos, SAGE tiene la ventaja de no requerir la normalización de los datos mediante la comparación con una referencia.[1][4] RecursosTras la secuenciación y la creación de bibliotecas, el CGAP incorpora los datos junto con las fuentes de datos existentes y proporciona diversas bases de datos y herramientas para el análisis. En el sitio web del CGAP del NCI puede encontrarse una descripción detallada de las herramientas y bases de datos creadas o utilizadas por el CGAP. A continuación se presentan algunas de las iniciativas o herramientas de investigación proporcionadas por el CGAP. Iniciativa de anotación genómicaEl objetivo de la Iniciativa de Anotación Genómica del Proyecto de Anatomía Genómica del Cáncer (CGAP-GAI) es descubrir y catalogar los polimorfismos de un solo nucleótido (SNP) que se correlacionan con el inicio y la progresión del cáncer.[4] CGAP-GAI ha creado una serie de herramientas para el descubrimiento, análisis y visualización de SNPs. Los SNP son valiosos en la investigación del cáncer, ya que pueden utilizarse en varios estudios genéticos diferentes, comúnmente para rastrear la transmisión, identificar formas alternativas de genes y analizar complejas vías moleculares que regulan el metabolismo, el crecimiento o la diferenciación celular.[5] Los SNP en el CGAP-GAI se encuentran como resultado de la resecuenciación de genes de interés en diferentes individuos o buscando en bases de datos EST humanas existentes y haciendo comparaciones.[2] Examina transcritos de individuos sanos, individuos con enfermedades, tejido tumoral y líneas celulares de un gran conjunto de individuos; por lo tanto, es más probable que la base de datos incluya mutaciones raras de enfermedades además de variantes de alta frecuencia.[6] Un reto común en la detección de SNP es la diferenciación entre errores de secuenciación y polimorfismos reales. Los SNP que se encuentran se someten a un análisis estadístico utilizando la canalización de SNP del CGAP para calcular la probabilidad de que la variante sea de hecho un polimorfismo. Los SNP de alta probabilidad se validan y hay herramientas disponibles que hacen predicciones sobre si la función está alterada.[2] Para facilitar el acceso a los datos, CGAP-GAI cuenta con una serie de herramientas que pueden mostrar tanto una alineación de secuencias como una visión general del ensamblaje con el contexto de las secuencias a partir de las cuales se predijeron. Los SNP se anotan y a menudo se determinan mapas genéticos/físicos integrados.[6] Proyecto de Aberraciones Cromosómicas del Cáncer (CCAP)La inestabilidad genómica es una característica común del cáncer, por lo que comprender las anomalías estructurales y cromosómicas puede dar una idea de la progresión de la enfermedad. El Proyecto de Aberraciones Cromosómicas del Cáncer (cCAP) es una iniciativa apoyada por el CGAP que se utiliza para definir la estructura cromosómica y caracterizar los reordenamientos asociados a la transformación maligna.[4][7] Incorpora la versión en línea de la base de datos de Mitelman, creada por Felix Mitelman, Bertil Johansson y Fredrik Mertens antes de la creación del CGAP, otra recopilación de reordenamientos cromosómicos conocidos. El CCAP tiene varios objetivos:[7]
La base de datos contiene información citogenética de más de 64.000 casos de pacientes, incluidas más de 2.000 fusiones génicas.[1] Como parte de este proyecto existe un repositorio de clones BAC cartografiados física y citogenéticamente para el genoma humano que están disponibles físicamente a través de una red de distribuidores.[1] Los mapas de clones del CCAP se han cartografiado citogenéticamente mediante FISH con una resolución de 1-2Mb en todo el genoma humano, y físicamente mediante sitios marcados con secuencias (STS).[8] Los datos de los clones BAC también están disponibles a través de las bases de datos CGAP y NCBI. Otros recursosA continuación se enumeran algunos otros recursos disponibles a través de CGAP.[9] Indicador diferencial digitalUna de las primeras técnicas utilizadas por el CGAP es la visualización diferencial digital (DDD), que utiliza la prueba exacta de Fisher para comparar las bibliotecas entre sí, con el fin de encontrar una diferencia significativa entre las poblaciones. El CGAP se aseguró de que la DDD pudiera comparar todas las bibliotecas de ADNc de dbEST, y no sólo las generadas por el CGAP.[4] Colección de genes de mamíferos (MGC)El MGC proporciona a los investigadores información sobre proteínas de longitud completa a partir de ADNc, a diferencia de las bases de datos EST o SAGE, que sólo proporcionan la etiqueta identificativa. El proyecto incluye genes humanos y de ratón, y posteriormente se añadieron los ADNc de vaca generados por Genome Canada.[9] SAGEmapaSAGEmap es la base de datos utilizada para almacenar las bibliotecas SAGE. En 2001 existían más de 3,4 millones de etiquetas SAGE. Se pueden utilizar herramientas para asignar etiquetas SAGE a grupos UniGene, una base de datos que almacena transcriptomas. Esto permite identificar más fácilmente la secuencia correspondiente a una etiqueta SAGE. Además, existen herramientas asociadas a SAGEmaps.[10]
Localizador de genesEl CGAP localiza un gen o una lista de genes basándose en criterios de búsqueda específicos y proporciona enlaces a diferentes bases de datos del NCI y del NCBI. Se puede buscar un gen específicamente utilizando un identificador único, como los símbolos del gen y el número del gen Entrez, así como generalmente por función, tejido o palabra clave.[11] Otras herramientas genéticas accesibles a través de la interfaz web del CGAP son el Navegador de Ontología Genética (GO) y la herramienta Nucleotide BLAST. Herramientas de expresión génicacDNA xProfiler y cDNA Digital gene expression displayer (DGED) se utilizan conjuntamente para encontrar genes de interés estadísticamente significativos que se expresan de forma diferencial dentro de dos grupos de bibliotecas de cDNA, normalmente se realiza una comparación entre tejidos normales y cancerosos.[12] El DGED determina la significación estadística mediante una combinación de estadística bayesiana y un cociente de probabilidades de secuencia para calcular una probabilidad. El DGED de ADNc se basa en la base de datos relacional UniGene, mientras que el xProfiler de ADNc utiliza una base de datos de archivos planos que no está disponible en línea.[13] Resultados y FuturoEl CGAP es ahora una ubicación centralizada para varias herramientas genómicas y bases de datos genéticos y se emplea ampliamente en la investigación del cáncer y la biología molecular. Las bases de datos creadas por el CGAP siguen contribuyendo al conocimiento de los cánceres en cuanto a sus vías y progresión. Las bases de datos del transcriptoma también pueden utilizarse en investigaciones no relacionadas con el cáncer, ya que contienen información que puede emplearse para identificar rápida y fácilmente determinados genes secuenciados. Los datos también tienen repercusiones clínicas, ya que los ADNc pueden utilizarse para crear microarrays con fines de diagnóstico y comparación de tratamientos. El CGAP se ha utilizado en muchos estudios, con ejemplos como:[1][4]
Además, la gran cantidad de datos generados por CGAP ha impulsado la mejora de las técnicas de análisis y minería de datos, con ejemplos que incluyen:[9]
Véase tambiénReferencias
Enlaces externos |
Portal di Ensiklopedia Dunia