In statistica, il coefficiente di determinazione, più comunemente R2, è un indice che misura il legame tra la variabilità dei dati e la correttezza del modello statistico utilizzato. Intuitivamente, esso è legato alla frazione della varianza non spiegata dal modello.
Definizione
La definizione più generale è la seguente:
con devianza residua (Residual Sum of Squares):
devianza totale (Total Sum of Squares):
dove:
- sono i dati stimati dal modello,
- sono i dati osservati,
- è la media dei dati osservati.
Adjusted R2
L'adjusted (o ) (meglio conosciuto in Italiano come corretto o aggiustato) è una variante dell' semplice.
Mentre semplice è utilizzato per l'analisi di regressione lineare semplice come principale indice di bontà della curva di regressione, corretto viene utilizzato per l'analisi di regressione lineare multipla. Esso serve a misurare la frazione di devianza spiegata, cioè la proporzione di variabilità di "spiegata" dalla variabile esplicativa . All'aumentare del numero di variabili esplicative (o predittori) , aumenta anche il valore di , per cui spesso è utilizzato al suo posto , che serve a misurare la frazione di varianza spiegata.
Il coefficiente può essere negativo e vale sempre la disuguaglianza .
dove:
- è il numero delle osservazioni;
- è il numero dei regressori.
R2 e Correlazione lineare
Se si ha a disposizione la correlazione tra due variabili discrete, , (o indice di correlazione di Pearson) si può determinare il coefficiente di determinazione, elevando semplicemente al quadrato la correlazione. Viceversa, se si ha a disposizione , si può determinare la correlazione, facendo la radice quadrata.
dove:
- è la correlazione tra le variabili e , ottenibile dividendo la covarianza tra le due variabili e il prodotto dei loro scarti quadratici medi .
La formula empirica di questo modello è il seguente:
dove è la devianza spiegata dal modello (Explained Sum of Squares). Questa definizione è possibile poiché, per regressioni lineari semplici, la devianza può essere scomposta come .
R2 varia tra e 1: quando è 0 il modello utilizzato offre una spiegazione dei dati non migliore del valore medio (); quando è 1 il modello spiega perfettamente i dati. Un modello peggiore della media () ha coefficiente minore di 0.
Interpretazione
Se o sono prossimi a 1, significa che i regressori predicono bene il valore della variabile dipendente in campione; mentre se è uguale a 0, significa che non lo fanno.[1]
I coefficienti e non dicono se:
- una variabile sia statisticamente significativa;
- i regressori sono causa effettiva dei movimenti della variabile dipendente;
- c'è una distorsione da variabile omessa;
- è stato scelto il gruppo dei regressori più appropriato.
Note
- ^ James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 174, ISBN 978-88-7192-267-6.
Bibliografia
- James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 121, ISBN 978-88-7192-267-6. 9788871922676
- Draper, N.R. and Smith, H. (1998). Applied Regression Analysis. Wiley-Interscience. ISBN 0-471-17082-8
- Everitt, B.S. (2002). Cambridge Dictionary of Statistics (2nd Edition). CUP. ISBN 0-521-81099-X
- Nagelkerke, Nico J.D. (1992) Maximum Likelihood Estimation of Functional Relationships, Pays-Bas, Lecture Notes in Statistics, Volume 69, 110p ISBN 0-387-97721-X
- Luigi Fabbris, Statistica multivariata (analisi esplorativa dei dati). 1997, McGrawHill. ISBN 88-386-0765-6
Altri progetti
Collegamenti esterni