Regressão logísticaA regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias.[1][2] A regressão logística é amplamente usada em ciências médicas e sociais, e tem outras denominações, como modelo logístico, modelo logit, e classificador de máxima entropia. A regressão logística é utilizada em áreas como as seguintes:
O êxito da regressão logística assenta sobretudo nas numerosas ferramentas que permitem interpretar de modo aprofundado os resultados obtidos. Em comparação com as técnicas conhecidas em regressão, em especial a regressão linear, a regressão logística distingue-se essencialmente pelo facto de a variável resposta ser categórica. Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neurais, etc.), ou ainda a análise discriminante preditiva em estatística exploratória. É possível de as colocar em concorrência para escolha do modelo mais adaptado para um certo problema preditivo a resolver. Trata-se de um modelo de regressão para variáveis dependentes ou de resposta binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros factores. É um modelo linear generalizado que usa como função de ligação a função logit.
Não pressupõe normalidade dos resíduos nem homogeneidade de variâncias. Por isso torna preferível em situações práticas. AplicaçõesA regressão logística é usada em vários campos, incluindo o aprendizado de máquina (machine learning), a maioria dos campos médicos e ciências sociais. Por exemplo, o Trauma and Injury Severity Score (TRISS), que é amplamente utilizado para prever a mortalidade em pacientes feridos, foi originalmente desenvolvido por Boyd et al. usando regressão logística.[5] Muitas outras escalas médicas usadas para avaliar a severidade de doenças em pacientes têm sido desenvolvidas utilizando a regressão logística.[6][7][8][9] A regressão logística pode ser utilizada para prever o risco de desenvolver uma dada doença (por exemplo, diabetes ou doença arterial coronária), baseado em características observadas do paciente (idade, sexo, índice de massa corporal, resultados de vários testes de sangue, etc, etc.).[10][11][12] Um outro exemplo de uso da regressão logística seria para prever, por exemplo, se um eleitor votará em um dado partido baseado na idade, na renda, no sexo, na raça, no estado de residência, os votos em eleições precedentes, etc. do eleitor.[13] A técnica também pode ser utilizada na engenharia, especialmente para predizer a probabilidade de falha em um dado processo, sistema ou produto.[14][15] Ela também é utilizada em marketing na previsão da propensão de um cliente para comprar um produto, interromper a assinatura de um serviço, etc.[16] Em economia ela pode ser utilizada para prever a probabilidade de uma pessoa estar trabalhando, de um proprietário optar por uma hipoteca. Campos aleatórios condicionais, uma extensão da regressão logística ao dados seqüênciais, são utilizados em processamento de linguagem natural. DescriçãoA regressão logística analisa dados distribuídos binomialmente da forma onde os números de ensaios de Bernoulli ni são conhecidos e as probabilidades de êxito pi são desconhecidas. Um exemplo desta distribuição é a percentagem de sementes (pi) que germinam depois de ni serem plantadas. O modelo é então obtido na base de que cada ensaio (valor de i) e o conjunto de variáveis explicativas/independentes possa informar acerca da probabilidade final. Estas variáveis explicativas podem-se ver como um vector Xi k-dimensional e o modelo toma então a forma Os logits das probabilidades binomiais desconhecidas (i.e., os logaritmos dos odds) são modelados como uma função linear dos Xi. Note-se que um elemento particular de Xi pode ser ajustado a 1 para todo o i obtendo-se um intercepto no modelo. Os parâmetros desconhecidos βj são habitualmente estimados através de máxima verossimilhança. A interpretação dos valores estimados do parâmetro βj é similar aos efeitos aditivos em log odds ratio para uma unidade de mudança na jésima variável explicativa. No caso de uma variável explicativa dicotómica, por exemplo o género, é o estimador de odds ratio de ter o resultado para, por exemplo, homens comparados com mulheres. O modelo tem uma formulação equivalente dada por Esta forma funcional é habitualmente identificada como um perceptron (ou perceptrão em português europeu) de uma camada simples ou rede neuronal artificial de uma só camada. Uma rede neuronal de uma só camada calcula uma saída contínua em vez de uma função por troços. A derivada de pi em relação a X = x1...xk é calculada na forma geral: onde f(X) é uma função analítica em X. Com esta escolha, a rede de camada simples é idêntica ao modelo de regressão logística. Esta função tem uma derivada contínua, a qual permite ser usada na propagação para trás. Esta função também é preferida pois a sua derivada é facilmente calculável: ExtensõesExistem diversas extensões do modelo para tratar variáveis dependentes multicategóricas e/ou ordinais, tais como a regressão politómica. A classificação em várias classes por regressão logística é conhecida como logit multinomial. Uma extensão do modelo logístico para ajustar conjuntos de variáveis independentes é o campo aleatório condicional. ExemploSeja p(x) a probabilidade de êxito quando o valor da variável preditiva é x. Então, seja Depois de alguma álgebra prova-se que onde são os odds favoráveis (êxito). Se tomarmos um valor de exemplo, digamos p(50) = 2/3, então Quando x = 50, um êxito é duas vezes mais provável que uma falha, ou seja, pode dizer-se simplesmente que os odds são 2 para 1. Ver também
Referências
Fontes
Ligações externas |
Portal di Ensiklopedia Dunia