Regola 68-95-99,7In statistica, la regola 68-95-99,7, nota anche come regola empirica, è un'abbreviazione utilizzata per ricordare la percentuale di valori che si trovano all'interno di una banda attorno alla media in una distribuzione normale con un'ampiezza di due, quattro e sei deviazioni standard, rispettivamente; più precisamente, il 68,27%, il 95,45% e il 99,73% dei valori si trovano rispettivamente all'interno di una, due e tre deviazioni standard della media. Nella notazione matematica, questi concetti possono essere espressi come segue, dove Χ è un'osservazione da una variabile casuale con distribuzione normale, μ è la media della distribuzione e σ è la sua deviazione standard: Nelle scienze empiriche la cosiddetta regola empirica dei tre sigma esprime un'euristica convenzionale secondo cui quasi tutti i valori sono considerati entro tre deviazioni standard della media, e quindi è empiricamente utile trattare la probabilità del 99,7% come quasi certezza.[1] L'utilità di questa euristica dipende soprattutto dalla questione in esame. Nelle scienze sociali, un risultato può essere considerato significativo se il suo livello di confidenza è dell'ordine di un effetto due sigma (95%), mentre nella fisica delle particelle per motivi teorici si necessita di un effetto cinque sigma (99,99994% livello di confidenza) per qualificare una scoperta. Una regola dei tre sigma più debole può essere derivata dalla disuguaglianza di Chebyshev, affermando che anche per variabili non distribuite normalmente, almeno l'88,8% dei casi dovrebbe rientrare in intervalli di tre sigma correttamente calcolati. Per le distribuzioni unimodali, la probabilità di essere all'interno dell'intervallo è almeno del 95% secondo la disuguaglianza di Vysochanskij-Petunin. Ci possono essere alcune ipotesi per una distribuzione che forzano questa probabilità ad essere almeno del 98%.[2][3] Funzione di distribuzione cumulativaQuesti valori numerici "68%, 95%, 99,7%" derivano dalla funzione di distribuzione cumulativa della distribuzione normale. L'intervallo di predizione per qualsiasi punteggio standard corrisponde numericamente a . Ad esempio, oppure , corrispondente a un intervallo di predizione di . Questo non è un intervallo simmetrico: è semplicemente la probabilità che un'osservazione sia inferiore a . Per calcolare la probabilità che un'osservazione si trovi entro due deviazioni standard della media (piccole differenze dovute all'arrotondamento): Ciò è correlato all'intervallo di confidenza utilizzato nelle statistiche: è circa un intervallo di confidenza del 95% dove è la media di un campione di dimensioni . Test di normalitàLa "regola 68-95-99,7" viene spesso utilizzata per ottenere rapidamente una stima approssimativa della probabilità di qualcosa, data la sua deviazione standard, se si presume che la popolazione sia normale. Viene anche utilizzato come semplice test per i valori anomali se la popolazione è considerata normale e come test di normalità se la popolazione è potenzialmente non normale. Per passare da un campione a un numero di deviazioni standard, si calcola prima la deviazione, l'errore o il residuo a seconda che si conosca la media della popolazione o la si stimi soltanto. Il passo successivo è la standardizzazione (dividendo per la deviazione standard della popolazione), se i parametri della popolazione sono noti, o la studentizzazione (dividendo per una stima della deviazione standard), se i parametri sono sconosciuti e solo stimati. Per utilizzarla come test per valori anomali o test di normalità, si calcola la dimensione delle deviazioni in termini di deviazioni standard e la si confronta con la frequenza prevista. Dato un insieme di campioni, è possibile calcolare i residui studentizzati e confrontarli con la frequenza attesa: i punti che cadono per più di 3 deviazioni standard dalla norma sono probabilmente valori anomali (a meno che la dimensione del campione non sia significativamente estrema), e se ci sono molti punti con più di 3 deviazioni standard dalla norma, è probabile che si abbia motivo di mettere in dubbio la presunta normalità della distribuzione. Questo vale a maggior ragione per discostamenti di 4 o più deviazioni standard. Si può calcolare in modo più preciso, approssimando il numero di discostamenti estremi di una data grandezza o maggiore da una distribuzione di Poisson: semplicemente, se si hanno più 4 discostamenti di deviazione standard in un campione di dimensione 1000, si ha una buona ragione per considerare questi valori anomali o mettere in dubbio la presunta normalità della distribuzione. Ad esempio, un evento 6σ corrisponde a una possibilità di circa due parti per miliardo. Ciò significa che se gli eventi ordinari si verificassero con cadenza quotidiana, vi sarebbe un evento anomalo previsto ogni 1,4 milioni di anni. Da questo si ricava un semplice test di normalità: se si osserva un 6σ nei dati giornalieri e sono trascorsi significativamente meno di 1 milione di anni, è molto probabile che l'ampiezza o la frequenza di notevoli deviazioni da quanto osservato non possano essere spiegate dal modello considerato per una distribuzione normale. Nel saggio Il cigno nero, Nassim Nicholas Taleb fornisce l'esempio di modelli di rischio secondo i quali il crollo del lunedì nero del 1987 corrisponderebbe a un evento di 36σ: il verificarsi di un tale evento dovrebbe immediatamente suggerire che il modello è difettoso, cioè che il processo in esame non è modellizzato in modo soddisfacente da una distribuzione normale. Si dovrebbero quindi considerare modelli raffinati, ad esempio mediante l'introduzione della volatilità stocastica. In questi studi è importante essere consapevoli del problema dell'errore dello scommettitore, che afferma che una singola osservazione di un evento raro non contraddice il fatto che l'evento sia in realtà raro. È l'osservazione di una pluralità di eventi presumibilmente rari che mina sempre più l'ipotesi che siano effettivamente rari, ovvero la validità del modello assunto. Una corretta modellizzazione di questo processo di graduale perdita di fiducia in un'ipotesi comporterebbe la necessità di calcolare la probabilità a priori non solo dell'ipotesi stessa ma anche di tutte le possibili ipotesi alternative. Per questo motivo, la verifica delle ipotesi statistiche funziona non tanto confermando un'ipotesi ritenuta probabile, quanto confutando ipotesi ritenute improbabili. Tabella dei valori numericiA causa delle code esponenziali della distribuzione normale, le probabilità di deviazioni maggiori diminuiscono molto rapidamente. Dalle regole per i dati normalmente distribuiti per un evento quotidiano:
Note
Voci correlateAltri progetti
Collegamenti esterni
|