Test dei runIn statistica il test dei run, o test delle sequenze, o test di Wald-Wolfowitz (da Abraham Wald e Jacob Wolfowitz) è un test di verifica d'ipotesi, non parametrico, condotto sull'indipendenza dei dati in una sequenza binaria. Il test ammette che la sequenza venga da un processo di Bernoulli e ne accetta le frequenze osservate, per controllare la casualità della distribuzione dei dati. Per fare questo considera il numero di catene alternate di simboli uguali, o run. I runAd esempio, la sequenza "1111000111001111110000" possiede 6 run: "1111 000 111 00 111111 0000". I simboli comunemente usati sono "+" e "-", perché il test viene solitamente condotto per controllare la distribuzione dei valori superiori o inferiori alla mediana o ad una funzione di interpolazione. Una sequenza in cui i run siano pochi (come "111111000000") o troppi (come "101010101010") rispetto alla frequenza dei simboli probabilmente non è il risultato di una fluttuazione dei dati e può indicare un errore sistematico. TestIl test dei run suppone che il numero di run di una sequenza lunga , di simboli "+" e simboli "-" (quindi con si comporti come una variabile aleatoria di legge normale con Solitamente si chiede che entrambi e siano superiori a 20. Test d'ipotesi alternativi sono il test di Kolmogorov-Smirnov e il test χ², che è "complementare" al test dei run (nel senso che considera i valori assoluti degli scostamenti dalla media, non i loro segni). ProbabilitàLa situazione del test è modellizzata da un processo di Bernoulli di parametro p, ovvero in una successione di variabili aleatorie indipendenti X1, ..., Xn con probabilità di verificare una proprietà (simbolo "+") e di non verificarla (simbolo "-"). Il numero di simboli dopo n prove è dato dalle variabili aleatorie e , con valore atteso rispettivamente n+=np e n-=nq. Il numero di run può essere definito come
dove le variabili aleatorie contano i nuovi run. La speranza e la varianza di sono
Lo stimatore del valore atteso di , , è privo di bias:
EsempioAd esempio, per una sequenza con N=16, N+=10 e N-=6 (normalmente il test viene condotto su sequenze più lunghe), secondo il test dei run se i caratteri fossero indipendenti il numero di run dovrebbe seguire la legge normale con
In particolare, gli stessi dati sono presenti con diverse distribuzioni in queste sequenze:
i loro valori p (ovvero le probabilità di discostarsi così tanto dalla media) sono all'incirca 0,0005 per la prima, 0,01 per a seconda e 0,76 per la terza. Voci correlate |
Portal di Ensiklopedia Dunia