Regressão linearEm estatística ou econometria, regressão linear é uma equação para se estimar a condicional (valor esperado) de uma variável y, dados os valores de algumas outras variáveis x.[1][2] A regressão, em geral, tem como objetivo tratar de um valor que não se consegue estimar inicialmente. A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não-linear. Sendo uma das primeiras formas de análise regressiva a ser estudada rigorosamente, é usada extensamente em aplicações práticas. Isso acontece porque modelos que dependem de forma linear dos seus parâmetros desconhecidos, são mais fáceis de ajustar que os modelos não-lineares aos seus parâmetros, e porque as propriedades estatísticas dos estimadores resultantes são fáceis de determinar.[3] Modelos de regressão linear são frequentemente ajustados usando a abordagem dos mínimos quadrados, mas que também pode ser montada de outras maneiras, tal como minimizando a "falta de ajuste" em alguma outra norma (com menos desvios absolutos de regressão), ou através da minimização de uma penalização da versão dos mínimos quadrados. Por outro lado, a abordagem de mínimos quadrados pode ser utilizado para ajustar a modelos que não são modelos lineares. Assim, embora os termos "mínimos quadrados" e "modelo linear" estejam intimamente ligados, eles não são sinônimos. [carece de fontes] Equação da Regressão LinearPara se estimar o valor esperado, usa-se de uma equação, que determina a relação entre ambas as variáveis.
, onde: : Variável explicada (dependente); representa o que o modelo tentará prever : É uma constante, que representa a interceptação da reta com o eixo vertical; : Representa a inclinação (coeficiente angular) em relação à variável explicativa; : Variável explicativa (independente); : Representa todos os factores residuais mais os possíveis erros de medição. O seu comportamento é aleatório, devido à natureza dos factores que encerra. Para que essa fórmula possa ser aplicada, os erros devem satisfazer determinadas hipóteses, que são: terem distribuição normal, com a mesma variância , independentes e independentes da variável explicativa X, ou seja, i.i.d. (independentes e identicamente distribuídas). Notação MatricialA equação acima pode ser reescrita em forma de matriz:
Onde é uma matriz de observações, é uma matriz de tamanho (sendo a primeira coluna com valores sempre = 1, representando a constante , e é a quantidade de variáveis explicativas), é uma matriz de variáveis explicativas (sendo que representa a constante ) e é uma matriz de de resíduos. Estimativa dos fatores eA técnica mais usual para estimativa dos parâmetros e é o Método dos mínimos quadrados, mas também podem ser usados:
Interpretação dos parâmetros do modeloO chamado intercepto ou coeficiente linear () é utilizado para representar o ponto em que a reta da regressão corta o eixo Y quando X = 0. Já o parâmetro representa a inclinação da reta ( ) é denominado como coeficiente de regressão ou coeficiente angular. A interpretação geométrica dos coeficientes podem ser vistos na imagem abaixo.
Dado isto, temos que a regressão do modelo acima e dado por:
Assim temos que :
Quando deparamos com casos como este, dizemos que o erro é homocedástico, ou seja, a variância é constante.
Ver tambémLigações externas
Referências
Bibliografia
|
Portal di Ensiklopedia Dunia