Em teoria da probabilidade e na estatística, a covariância, ou variância conjunta, é uma medida do grau de interdependência (ou inter-relação) numérica entre duas variáveis aleatórias[1]. Assim, variáveis independentes têm covariância zero.
A covariância é por vezes chamada de medida de dependência linear entre as duas variáveis aleatórias.
A covariância ou variância conjunta é um momento conjunto de primeira ordem das variáveis aleatórias X e Y, centrados nas respectivas médias. É a média do grau de interdependência ou inter-relação numérica linear entre elas[1].
Se a variável for discreta, a covariância pode ser calculada de duas formas:
, onde é a frequência relativa (ou probabilidade de ocorrer o par e é a média para os valores da variável indicada.
![{\displaystyle \operatorname {cov} (X,Y)={\frac {1}{n}}\left[\sum _{i=1}^{n}x_{i}y_{i}-{\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}\right)\left(\sum _{i=1}^{n}y_{i}\right)\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0d1b8022345925a28e06d0238f83d49376cd2765)
Prova matemática
Em teoria da probabilidade e na estatística, a covariância entre duas variáveis aleatórias reais X e Y, com valores esperados e é definida como uma medida de como duas variáveis variam conjuntamente:
![{\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} [(X-\mu _{X})(Y-\mu _{Y})],\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7ba54e5744b86298dd511649deedc70b1f177b5b)
onde é o operador do valor esperado[2]. Desenvolvendo a expressão para a Covariância, temos:
![{\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} [(X-\mu _{X})(Y-\mu _{Y})]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2d47827c2735cd5019f18d4eed8fb91a453b701c)
Usando a propriedade de que a Esperança (Valor esperado) de uma variável aleátória X qualquer é um operador linear, determinamos que a Esperança de uma soma é a soma das Esperanças:
![{\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} (XY)-\operatorname {E} [X\operatorname {E} (Y)]-\operatorname {E} [Y\operatorname {E} (X)]+\operatorname {E} [\operatorname {E} (X)\operatorname {E} (Y)]\ }](https://wikimedia.org/api/rest_v1/media/math/render/svg/4fce3846511f4b012cc1ec09df1369005b5e984b)
Novamente utilizando da linearidade da Esperança, temos que a Esperança de uma constante K qualquer multiplicada pela variável X é equivalente à constante K multiplicada pela Esperança da variável X. Sendo a Esperança de X um número qualquer definido no conjunto dos Números Reais, podemos fatorá-la em dois fatores:
Isto equivale à seguinte fórmula, a qual é geralmente usada para fazer os cálculos[2]:
![{\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y)\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6828ce419f780dd808cd2ee6db8475c5ced8f4b4)
Se X e Y são independentes, então a sua covariância é zero. Isto acontece porque sob independência[2]:
.
Assim:
![{\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y)\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6828ce419f780dd808cd2ee6db8475c5ced8f4b4)
![{\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} (X)\operatorname {E} (Y)-\operatorname {E} (X)\operatorname {E} (Y)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/276fd503ac53533d0aa820fab07f58cf755c6d19)
![{\displaystyle \operatorname {cov} (X,Y)=0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a104c4e27bacd6416a096d894b1b311224e3a4ec)
O inverso, no entanto, não é verdadeiro: é possível que X e Y não sejam independentes e terem no entanto covariância zero[2]. Variáveis aleatórias cuja covariância é zero são chamadas descorrelacionadas.
Propriedades da Covariância
Se X e Y são variáveis aleatórias de valor real e a, b, c e d constantes ("constante", neste contexto, significa não aleatória), então os seguintes factos são uma consequência da definição da covariância[2]:
![{\displaystyle \operatorname {cov} (X,X)=\operatorname {var} (X)\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c53220e15e7a364db45bca3964ce5fef53a61cac)
![{\displaystyle \operatorname {cov} (X,Y)=\operatorname {cov} (Y,X)\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/036ef0a40c5547effecd58aded99f253de826954)
![{\displaystyle \operatorname {cov} (aX+b,cY+d)=a\ c\ \operatorname {cov} (X,Y)\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/76735dfabd34d20256328bc529692c13a452b31f)
![{\displaystyle \operatorname {cov} \left(\sum _{i}{X_{i}},\sum _{j}{Y_{j}}\right)=\sum _{i}{\sum _{j}{\operatorname {cov} \left(X_{i},Y_{j}\right)}}\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e4f59860dcad14e84a1c81be287037c094102a76)
Para variáveis aleatórias em vetores coluna X e Y com respectivos valores esperados μX e μY, e n e m de componentes escalares respectivamente, a covariância é definida como matriz n×m
![{\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} ((X-\mu _{X})(Y-\mu _{Y})^{\top }).\,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/444a3d46431c23fdce5910d172499708ed38780a)
Para variáveis aleatórias em vetor, cov(X, Y) e cov(Y, X) são a transposta de cada um.
Relação entre variância e covariância
A covariância entre duas variáveis pode ser obtida de dados de variância[1]. Para variáveis aleatórias X e Y, sejam:
é a variância populacional de X
é a variância populacional de Y
é a variância populacional de uma variável obtida a partir da soma simples das variáveis X e Y.
- "a" e "b" são constantes
Então, teremos:
![{\displaystyle \operatorname {cov} (X,Y)={\frac {\operatorname {var} (aX+bY)-a^{2}\operatorname {var} (X)\,-b^{2}\operatorname {var} (Y)\,}{2ab}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/866c9ce7d3de7a3866259fd4211fdb555bcda726)
Outras nomenclaturas
A covariância é por vezes chamada de medida de dependência linear entre as duas variáveis aleatórias.
O Coeficiente de Correlação Linear é um conceito relacionado usado para medir o grau de dependência linear entre duas variáveis, variando entre -1 e 1, indicando o sentido da dependência.
Exemplo de cálculo de covariância populacional
Seja X a variável "altura dos jogadores de basquete" e seja Y a variável "peso dos mesmos atletas". A partir desses dados, é possível montar uma tabela com os desvios em relação a média. Essa tabela auxilia no cálculo da covariância[1]:
Atleta |
Variável X (altura em metros) |
Variável Y (peso em kg) |
Desvio de X (valor menos média da variável) |
Desvio de Y (valor menos média da variável) |
Multiplicação dos desvios
|
1) Pedro |
1,95 |
93,1 |
-0,038 |
-1,34 |
-0,038*-1,34=+0,05092
|
2) João |
1,96 |
93,9 |
-0,028 |
-0,54 |
-0,028*-0,54=+0,01512
|
3) José |
1,95 |
89,9 |
-0,038 |
-4,54 |
-0,038*-4,54=+0,17252
|
4) Renato |
1,98 |
95,1 |
-0,008 |
+0,66 |
-0,008*0,66=-0,00528
|
5) André |
2,10 |
100,2 |
+0,112 |
+5,76 |
0,112*5,76=0,64512
|
Soma |
= 1,95+1,96+...+2,10=9,94 |
![{\displaystyle {\color {Sepia}\sum _{y=1}^{N}y}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/575e34a7e5cb225ef7e04ec1b5c53389d97647c2) ![{\displaystyle =472{,}2}](https://wikimedia.org/api/rest_v1/media/math/render/svg/27f2dffaa59ca08072bdbf8851b641c00adc9fef) |
A soma de desvios é sempre igual a zero |
A soma de desvios é sempre igual a zero |
+0,05092+0,01512+0,17252-0,00528+0,64512=0,8784.
|
Número de elementos |
N = 5 alturas medidas |
N = 5 pesos medidos |
5 desvios calculados |
5 desvios calculados |
5 multiplicações feitas
|
Média |
![{\displaystyle {\frac {\color {Red}\sum _{x=1}^{N}x}{N}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/923fae1cecd640d3edf9c0438807e5ff69df03db) ![{\displaystyle ={\frac {9{,}94}{5}}=1{,}988}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7afaf0978489e675397d08b6a7224814aec4e16f) |
![{\displaystyle {\dfrac {\color {Sepia}\sum _{y=1}^{N}y}{N}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6e6ab5eba49a462b3a5cc97721e8a2e4abf1144c) ![{\displaystyle ={\frac {472,2}{5}}=94{,}44}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5c0b22d3d2588965d7501bc02c58b8c196c9c95d) |
A média de desvios é sempre igual a zero |
A média de desvios é sempre igual a zero |
0,8784/(5)=0,17568=covariância de X e Y
|
Referências
|