Legge di Benford
La distribuzione di Benford, meglio nota come legge di Benford, o come legge della prima cifra, descrive la distribuzione di probabilità con cui compare la prima cifra dei numeri in molti esempi di raccolte di dati reali (per esempio: popolazione dei comuni, quotazioni di azioni, costanti fisiche o matematiche, numero di strade esistenti nelle località). Nel caso della cifra "1", per esempio, questa variabile casuale discreta dovrebbe essere nel 30,1% dei casi la prima cifra. La funzione di probabilità è data da Una delle estensioni della legge di Benford prende in considerazione la coppia delle prime due cifre (da 10 a 99 dunque), lasciando invariata la formula, ma modificandone solo l'intervallo di validità, da [1,9] a [10,99]. IntuizioneUna breve spiegazione intuitiva del perché una tale disparità di distribuzione accada in "natura" (con la cifra "1" che si presenta con maggior frequenza, poi, a seguire, la cifra 2 e così via) tiene conto del fatto che nel contare si inizia dal numero 1 in avanti fino al 9. Se si restringe il campo ai soli numeri da 1 a 9 è chiaro che la probabilità che una cifra inizi con 1 o 2 o 3 o 9 debba essere sempre uguale. Laddove, però, già si inizino a prendere in considerazione i numeri da 1 a 20, vi saranno molti più numeri che iniziano con la cifra 1 (da 10 a 19). Se si prendono quelli da 1 a 30, si avranno molti che iniziano con 1 ma anche con 2. Come si può facilmente notare, per avere, ad esempio, numeri che inizino con 9, occorre andare molto in là con i numeri. Lo stesso discorso si può fare con insiemi di numeri di più cifre, per cui in una distribuzione di numeri legati a superfici, popolazioni, sarà più alta la probabilità di averne che inizino con 1 piuttosto che con 9. La cosa comunque singolare è che Benford riuscì a far vedere che, per molte distribuzioni, la probabilità che un numero inizi con una certa cifra tra 1 e 9 è sempre la stessa (30,1% per la cifra 1, 17,6% per la cifra 2, 4,6% per la cifra 9). StoriaScoperte, riscoperte e approfondimentiLa legge di Benford pare sia stata scoperta dal matematico e astronomo Simon Newcomb e descritta nell'"American Journal of Mathematics" nel 1881. Secondo quello che forse è solo un aneddoto, Newcomb notò come, nei libri con le tavole dei logaritmi, le pagine con le tabelle aventi "1" quale prima cifra fossero molto più sporche delle altre, forse perché usate più spesso. Venne controargomentato che in qualsiasi libro al quale si accede alle pagine in modo sequenziale le prime sarebbero state più usate delle ultime. In seguito, nel 1938, fu il fisico Frank Albert Benford ad analizzare raccolte di numeri provenienti da molti altri ambiti di applicazione e questo fece sì che la legge venisse attribuita al suo nome. Nel 1996, Ted Hill dimostrò il teorema sulle distribuzioni miste. I dati presentati da Benford nel 1938
Nella tabella, la prima colonna indica il tipo di dato considerato e l'ultima indica il corrispondente numero di dati considerati. Le altre colonne indicano la frequenza con cui ciascun numero compare come prima cifra. Bibliografia storica
EsempiAbitanti dei comuni italiani al censimento 2001
Ambiti di applicazioni e limitiNel 1972 Hal Varian suggerì la possibilità di utilizzare questa legge per individuare eventuali falsificazioni nelle raccolte di dati usate per sostenere decisioni politiche, basandosi sul presupposto che chi vuole "addomesticare" dei dati ha una preferenza a usare numeri con cifre distribuite in modo non "naturale". Confrontando la frequenza relativa delle prime cifre dei numeri usati con la v.c. di Benford si potrebbero così evidenziare risultati anomali. Alla stessa maniera, si può usare questa variabile casuale per cercare falsificazioni in raccolte di dati riguardanti assicurazioni, costi, entrate, scritture contabili di aziende, ecc. Nel 1992 Mark Nigrini propose l'utilizzo di questa variabile casuale per mettere alla prova la credibilità delle scritture contabili, dopo averla sperimentata con successo su casi reali in cui vi era frode accertata. Tuttavia, è necessaria una certa prudenza prima di applicare la legge di Benford, in quanto solo un insieme di numeri scelti a caso da una data variabile casuale obbedisce a tale legge, mentre in un insieme di dati "reali" in cui siano stati imposti dei limiti (anche in modo inconsapevole), essa può, ma non deve, seguire tale legge. Per esempio, mentre la distribuzione della prima cifra di statistiche quali "popolazione dei comuni italiani che cominciano con la lettera F" oppure "quotazione delle azioni che hanno subito una perdita nella giornata di borsa" si suppone segua la v.c. di Benford, ciò non è presumibilmente più valido se la statistica viene definita in modi come "popolazione dei comuni italiani con 1000 fino 9 999 abitanti".[senza fonte] La legge di Bedford non si applica alle estrazioni del superenalotto, da un calcolo fatto negli ultimi 10 anni questi sono i risultati: 1=1574 2=1563 3=1589 4=1657 5=1625 6=1637 7=1588 8=1643 9=318. MetodologiaFunzione di probabilitàIl valore atteso è E(X)=μ=3,44, la varianza pari a σ²=6,06 e l'asimmetria =0,79, nel caso che x debba essere compreso tra 1 e 9 (inclusi). Al di là delle spiegazioni "comuni", la v.c. di Benford può essere costruita facendo ricorso a ζ la funzione zeta di Riemann (vedasi pure variabile casuale Zeta). Teoremi e corollariInvarianza di scalaSe un fenomeno segue la legge di Benford, allora moltiplicando tutti i valori per un numero prefissato, si ottiene una nuova raccolta di valori che seguono a loro volta la legge di Benford. Esempio: se le quotazioni espresse in Lire delle azioni quotate in borsa seguono la legge di Benford, allora le stesse quotazioni espresse in Euro seguono anch'esse la legge di Benford. L'invarianza di scala richiede che Essendo richiesto che e che anche si ricava che la forma dev'essere del tipo 1/x. Effettivamente
è una distribuzione continua di probabilità che produce valori casuali le cui prime cifre rispettano la legge di Benford. Probabilità della seconda cifra
La probabilità che la seconda cifra sia n è pari a
Tale formula può essere generalizzata per determinare la probabilità della terza, quarta cifra, le quali sono sempre più "equamente" distribuite (ovvero la differenza tra la prima e l'ultima tende a ridursi). Generalizzazione a sistemi non decimaliPer un qualsiasi sistema numerico a base B, la probabilità della prima "cifra" diventa dove d indica la prima "cifra" e ln il logaritmo naturale di base e (vale a dire ln=loge) Voci correlateAltri progetti
Collegamenti esterni
|