es An%C3%A1lisis de variables sustitutas

Surrogate Variable Analysis (SVA)^[1] o Análisis de Variables Sustitutas, es un algoritmo que permite modelar el efecto de la heterogeneidad de expresión (EH, Expression Heterogeneity) en matrices de expresión génica. Esta EH se utiliza para describir los patrones de variación debidos a la influencia de cualquier variable no tenida en cuenta en el modelo.

El algoritmo parte de la eliminación de las variables consideradas en una matriz de expresión génica $\textstyle \mathbf {X}$ para estimar posibles variables sustitutas (surrogate variables) $\textstyle \mathbf {h} _{1},\mathbf {h} _{2},\dots ,\mathbf {h} _{k}$ que modelen los efectos de variables ocultas no tenidas en cuenta en el modelo.

De acuerdo con los autores ,^[1] la utilización de SVA aumenta la precisión biológica y la reproducibilidad de análisis en los estudios de expresión de todo el genoma.

Algoritmo

El algoritmo SVA consta de cuatro pasos básicos.

Paso 1: Descomposición en genes

En este primer paso, se eliminan las variables primarias consideradas en el modelo de expresión $\textstyle x_{ij}=\mu _{i}+f_{i}(y_{j})+e_{ij}$ mediante el cálculo de los residuos:

r_{ij}=x_{ij}-{\hat {\mu _{i}}}-{\hat {f_{i}}}(y_{j})

Posteriormente se modelan los residuos utilizando descomposición en valores singulares de la matriz de residuos $\textstyle \mathbf {R}$ (donde cada elemento $\textstyle (i,j)$ de $\textstyle \mathbf {R}$ es $\textstyle r_{ij}$ ) para identificar los efectos de EH en términos de una base ortogonal de vectores singulares que reproduce estos efectos:

\mathbf {R} =\mathbf {U} \mathbf {D} \mathbf {V} ^{T}

Finalmente, se calcula un valor de significancia estadística para cada gen. Para ello se calcula un valor estadístico $\textstyle T_{k}$ que representará la varianza expresada por el $\textstyle k$ -ésimo gen, y se calculan $\textstyle B$ valores $\textstyle T_{k}^{0}$ alternativos (hipótesis nula) mediante la permutación de las filas de $\textstyle \mathbf {R}$ . Se tomará como significancia de cada gen el valor $\textstyle p_{k}$ :

p_{k}={\frac {\#\{T_{k}^{0b}\geq T_{k};b=1,\dots ,B\}}{B}}

Paso 2: Identificación de las fuentes de EH

En este paso se identifica el subconjunto de genes que producen cada efecto ortogonal de la EH mediante un análisis de significancia estadística de las asociaciones entre los genes y los efectos individuales de EH en la matriz de expresión residual.

Para ello se estiman $\textstyle {\hat {\mu }}$ y $\textstyle {\hat {f_{i}}}$ ajustando el modelo $\textstyle x_{ij}=\mu _{i}+f_{i}(y_{j})+e_{ij}$ y se vuelven a calcular los residuos $\textstyle r_{ij}=x_{ij}-{\hat {\mu _{i}}}-{\hat {f_{i}}}(y_{j})$ . La matriz de residuos $\textstyle \mathbf {R}$ se vuelve a descomponer usando descomposición en valores singulares, y llamamos los genes-propios residuales a las señales residuales de eh independientes de las variables primarias, las columnas de $\textstyle \mathbf {V}$ : $\textstyle \mathbf {e} _{k}=(e_{k1},\dots ,e_{kn})^{T}$ .

Finalmente los $\textstyle {\hat {m}}_{1}$ genes-propios más significativos (de acuerdo con los $\textstyle p_{k}$ calculados anteriormente) respecto al gen-propio $\textstyle \mathbf {e} _{k}$ son seleccionados en un subconjunto para el siguiente paso.

Paso 3: Construcción de variables sustitutas

Para cada subconjunto de genes se construye la variable sustituta basándose en la variación total de la EH de ese subconjunto en los datos originales de expresión. Para ello se construye la matriz de expresión reducida $\textstyle {\hat {m}}_{1}\times n$ $\textstyle \mathbf {X_{r}} =(\mathbf {x} _{s1},\dots \mathbf {x} _{s{\hat {m}}_{1}})$ . Esta matriz representa la expresión de los genes que contienen la variación EH representada por la variable sustituta $\textstyle \mathbf {h} _{k}$ . La matriz de expresión reducida se descompone de nuevo en genes-propios $\textstyle \mathbf {e} _{j}^{r}$ .

Posteriormente, se establece la $\textstyle k$ -ésima variable sustituta como $\textstyle {\hat {\mathbf {h} }}_{k}=e_{j^{*}}^{r}$ , donde $\textstyle j^{*}={\textrm {argmax}}_{1\leq j\leq n}\mathbf {cor} (\mathbf {e} _{k},\mathbf {e} _{j}^{r})$ , el gen-propio de la matriz reducida más correlado con el gen-propio residual correspondiente.

Paso 4: Construcción del modelo

Todas las variables sustitutas que hayan sido consideradas significativas se incluyen como covariables en el análisis de regresión siguiente, permitiendo coeficientes específicos para cada variable sustituta:

x_{ij}=\mu _{i}+f_{i}(y_{j})+\sum _{k=1}^{K}{\lambda _{ki}h_{kj}}+e_{ij}^{*}

Usos

Su uso se restringe actualmente como corrección a modelos de expresión génica.

Referencias

↑ ^a ^b Jeffrey T. Leek, John D. Storey, Capturing Heterogeneity in Gene Expression Studies by Surrogate Variable Analysis, PLoS Genet 3(9) (2007) e161. http://dx.doi.org/10.1371/journal.pgen.0030161 (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última)..

Bibliografía

Jeffrey T. Leek, John D. Storey, Capturing Heterogeneity in Gene Expression Studies by Surrogate Variable Analysis, PLoS Genet 3(9) (2007) e161. http://dx.doi.org/10.1371/journal.pgen.0030161 (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).

Enlaces externos

Código de SVA en R Archivado el 4 de marzo de 2016 en Wayback Machine..

Datos: Q24960438

[sva-1] Jeffrey T. Leek, John D. Storey, Capturing Heterogeneity in Gene Expression Studies by Surrogate Variable Analysis, PLoS Genet 3(9) (2007) e161. http://dx.doi.org/10.1371/journal.pgen.0030161 (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última)..

[1]

Análisis de variables sustitutas