Un correlogramma, o autocorrelogramma, è un grafico che rappresenta la autocorrelazione di una serie storica in funzione del ritardo con cui la autocorrelazione è calcolata.
Calcolo dei valori
Una serie storica è un insieme di valori che un dato fenomeno assume in successivi istanti o periodi di tempo (la quotazione di un titolo alla chiusura di successive giornate di borsa, il PIL prodotto in trimestri o anni successivi ecc.).
Indicando con Y il fenomeno e con t un indice variabile da 1 a T (rispettivamente, primo e ultimo istante o periodo), una serie storica si indica con una notazione come la seguente:
Rispetto ad essa, si dice ritardata la serie in una nuova variabile, ad esempio Z, tale che:
dove k è l'entità del ritardo. Ad esempio, ponendo k = 3, se Ya è il PIL italiano del 2007, Za è il PIL italiano del 2004.
Per costruire un correlogramma, si esaminano le correlazioni tra la serie storica e più serie ritardate di k periodi; ad esempio, data la serie
si costruisce idealmente una tabella come la seguente, in cui K indica il valore massimo di k:
e si esaminano le K correlazioni tra la colonna Yt e ciascuna delle K colonne Yt-k.
Si vede che se k = 1 il primo valore della serie originaria non può essere confrontato con un corrispondente valore della serie ritardata (questa non può contenere un valore Y1-1=Y0), se k = 2 ciò accade per i primi due valori (non esistono i valori Y1-2=Y-1, Y2-2=Y0). Normalmente, quindi:
si parte sempre dalla (K+1)-esima riga anche quando la serie originaria viene confrontata con serie di ritardo minore del massimo, in modo da confrontare sempre serie di uguale lunghezza; ad esempio, se K = 20 le serie ritardate presentano da 1 a 20 valori in meno rispetto alla serie originaria, ma si parte dalla ventunesima riga per tutte, anche per quelle che presentano valori nelle righe precedenti, in modo da confrontare sempre T–20 coppie di valori;
K, il valore massimo di k, non è maggiore di T/4, al fine di non ridurre troppo il numero di confronti.
Il calcolo avviene facendo variare k da 1 a K e rilevando la correlazione r tra la colonna Yt e la colonna della variabile ritardata Yt-k:
, dove è la media della colonna .
Si ottiene così un valore di rk per ciascun valore di k.
Le coppie di valori (k, rk) sono presentate in un grafico cartesiano, con i ritardi sull'asse delle ascisse e le corrispondenti correlazioni sull'asse delle ordinate:
Tali grafici possono presentare gli andamenti più disparati, ma vengono normalmente confrontati con quelli illustrati nella figura. Si hanno infatti le seguenti tre situazioni tipiche:
il valore di rk è sempre positivo e decresce lentamente all'aumentare di k (grafico a sinistra nella figura); ciò vuol dire che i valori della serie storica sono fortemente correlati a quelli della serie ritardata di un periodo, poi un po' meno per quella ritardata di due periodi e così via, ovvero che il presente è influenzato dal passato recente, questo dal passato più remoto e, in generale, che la serie presenta una tendenza di fondo (ad esempio, tende a crescere linearmente o esponenzialmente nel tempo; nel gergo dell'analisi delle serie storiche, si dice che prevale la componente tendenziale, o trend);
il valore di rk varia, ma è positivo e massimo in corrispondenza di valori di k tali da configurare una periodicità annuale, ad esempio per k uguale a 4 o suoi multipli nel caso di dati trimestrali, mentre è minore o negativo per altri valori di k (grafico al centro nella figura); ciò vuol dire che i valori di un dato istante o periodo dell'anno sono fortemente correlati con quelli degli stessi istanti o periodi degli anni precedenti, quindi che il fenomeno varia nel corso di ciascun anno e in modo simile da un anno all'altro (si dice che prevale la componente stagionale);
i valori di rk variano, ma per k > 0 oscillano sempre entro una banda ristretta (grafico a destra nella figura);[1] ciò vuol dire che la serie non è significativamente correlata con le serie ritardate, ovvero che il passato non "spiega" il presente e che le variazioni da un istante o periodo ad un altro sono sostanzialmente casuali (si dice che prevale la componente accidentale o parte stocastica).
Il correlogramma è quindi utile per individuare subito un'eventuale componente dominante prima di procedere alla vera e propria analisi della serie, ma anche per verificare i risultati di questa. Ad esempio, l'analisi può condurre alla elaborazione di un modello del tipo:
ed alla stima dei suoi parametri; indicando con le stime dei parametri, si possono calcolare valori stimati del fenomeno:
nonché le differenze tra i valori osservati ed i valori stimati, dette residui:
Il correlogramma di tali differenze dovrebbe mostrare un andamento analogo a quello del grafico a destra nella figura, cioè le differenze dovrebbero apparire casuali; in caso contrario, si dovrebbe ritenere che il modello non è pienamente adeguato alla descrizione e interpretazione del fenomeno (ad esempio, potrebbe non riuscire a cogliere una componente tendenziale o stagionale).
Esempio
Si immagini di disporre di una serie di 100 osservazioni trimestrali. Potrebbero essere i dati relativi ai consumi delle famiglie per beni alimentari, o simili, e presentare un andamento come quello illustrato nel primo grafico a sinistra della figura seguente:[2]
Dal momento che la serie presenta un chiaro andamento crescente, si potrebbe pensare ad un modello di crescita lineare del tipo:
con come componente residuale puramente casuale.
Tuttavia, il correlogramma della serie (secondo grafico da sinistra) dovrebbe indicare che, accanto al trend di crescita lineare, esiste una componente stagionale (r non è sempre decrescente, ma aumenta per k multiplo di 4). Infatti, calcolando i residui tra i valori osservati e quelli stimati e producendo il relativo correlogramma si otterrebbe il terzo grafico da sinistra, che indica chiaramente la presenza di una componente stagionale.
Si potrebbe quindi introdurre la stagionalità cambiando il modello come segue:
dove D1t vale 1 se t corrisponde ad un primo trimestre e 0 in caso contrario, D2t vale 1 se t corrisponde ad un secondo trimestre e 0 altrimenti e così via (in sostanza, il modello dice che il fenomeno aumenta in media di 42.2 ogni trimestre, ma diminuisce ogni anno di 328, 392 e 362, rispettivamente, nel primo, secondo e terzo trimestre, mentre aumenta di 1082 nel quarto trimestre). Calcolando il nuovo correlogramma dei residui si otterrebbe il quarto grafico; questo indica che le differenza tra i valori osservati e quelli stimati sono ora sostanzialmente casuali e che, quindi, il secondo modello interpreta in modo soddisfacente l'andamento del fenomeno.
Note
^I grafici della figura sono stati prodotti con la funzione acf() del pacchetto statistico R, che include anche il valore di r per k = 0; in tal caso la serie è correlata con se stessa e si ha ovviamente r = 1.
^I dati sono stati creati in R come segue: t = 1:100 y = 21500+42.2*t s = rep(c(-328,-392,-362,1082),25) a = rnorm(100)*100 Y = y+s+a
Bibliografia
Tommaso Di Fonzo e Francesco Lisi, Serie storiche economiche, Roma, Carocci, 2005. ISBN 9788843034239.
Gary Koop, Logica statistica dei dati economici, Torino, UTET, 2001. ISBN 8877507357.