Legge di Zipf

Viene detta legge di Zipf una legge empirica che descrive la frequenza di un evento facente parte di un insieme, in funzione della posizione (detta rango) nell'ordinamento decrescente rispetto alla frequenza stessa di tale evento.

dove:

  • indica il rango
  • indica l'evento che occupa l'i-esimo rango (ovvero l'i-esimo evento più frequente)
  • è il numero di volte (frequenza) che si verifica l'evento
  • è una costante di normalizzazione, pari al valore .

Il linguista George Kingsley Zipf la descrisse nel 1949 in Human Behaviour and the Principle of Least-Effort (Comportamento umano e il principio del minimo sforzo).

Campi di applicabilità

I campi di applicabilità della legge di Zipf sono svariati, e sono anche esistite tendenze di pensiero che l'hanno addirittura proposta come la controparte della distribuzione gaussiana nell'ambito delle scienze sociali. In realtà come le distribuzioni nelle scienze naturali non seguono sempre un andamento gaussiano, tanto meno le distribuzioni delle scienze sociali o degli eventi correlati all'attività umana possono essere precisamente inquadrate negli andamenti iperbolici della legge di Zipf. Esistono tuttavia casi in cui i risultati previsti dalla legge di Zipf sono fortemente verificati dai dati osservati; fra i più famosi senz'altro vi sono quelli che considerano le frequenze delle parole negli scritti, o quelli che analizzano la distribuzione della popolazione nelle varie città di uno stato. Questi ultimi esempi sono stati approfonditamente analizzati e documentati dallo stesso Zipf nei suoi più famosi scritti. In campo economico la legge di Zipf si adatta bene a rappresentare la situazione di produttività delle varie compagnie che operano in un medesimo settore. Se si rappresenta la produttività di una azienda in funzione della sua posizione di classifica si ottiene l'andamento iperbolico della legge di Zipf. Questo fatto era stato, del resto, già osservato alla fine dell'Ottocento dall'economista Vilfredo Pareto.

Più in generale la legge di Zipf può essere riformulata come:

con costante positiva prossima a 0 (per si rientrerebbe nella distribuzione casuale, cioè nell'equiprobabilità)

Aspetti teorici

La legge di Zipf e la funzione zeta

Usando la legge di Zipf più generale il termine

è la funzione zeta di Riemann

Zipf, Mandelbrot e Shannon

Benoît Mandelbrot dimostrò negli anni cinquanta che simili leggi possono essere dedotte a partire dalla teoria dell'informazione di Claude Shannon.

La legge dinamica indica come massimizzare l'utilità di un canale massimizzando l'entropia, utilizzando preferibilmente i simboli meno costosi. Ad esempio, nel codice morse la frequente lettera e è codificata con un singolo punto (.), mentre la meno frequente lettera x è rappresentata da una linea, due punti e una linea (-..-).
Il codice di Huffman applica tale legge dinamica.

Mandelbrot fa l'ipotesi che il costo di utilizzo sia direttamente proporzionale al costo di memorizzazione, dopo averlo constatato su tutti i dispositivi che ha osservato, dalla scrittura contabile fino ai computer.

Eliminando il costo tra le due equazioni si ritrova una famiglia di equazioni che legano la frequenza di una parola al suo rango affinché il canale venga utilizzato in maniera ottimale. Questa ulteriore generalizzazione, detta pure 'legge di Mandelbrot è data da

n(pi) (b + c i)a = cost per cui la legge semplice di Zipf è quella in cui a=1, b=0 e c=1.


È stato osservato come nella maggior parte delle lingue esistenti il parametro all'esponente a sia prossimo a 1,1 e 1,2, mentre nel linguaggio dei bambini si approssima a 1,6.

Rappresentando le leggi di Zipf e di Mandelbrot in un sistema cartesiano con le coordinate log-log, allora la legge di Zipf corrisponde ad una retta, mentre la legge di Mandelbrot mostra una gobba.

La legge di Zipf e le variabili casuali

Una interpretazione della legge di Zipf come variabile casuale è data dalla variabile casuale Zeta, per questo motivo detta pure variabile casuale di Zipf. L'equivalente continuo è la variabile casuale paretiana.

Casi simili sono considerati la legge di Bradford, la variabile casuale di Yule e la legge di Benford.

Analogie

Il rapporto esistente tra le leggi di Zipf e di Mandelbrot è simile a quello esistente tra la legge di Mariotte e quella di van der Waals, considerato che in entrambi i casi un fattore di correzione (il parametro a nel caso della legge di Mandelbrot) permette di approssimare i dati osservati con i valori teorici, rappresentando un qualche cosa di "incomprimibile".

Tipi di raccolte di dati assunte a sostegno della legge

  • frequenza degli accessi alle pagine internet;
  • frequenza delle parole in determinati testi;
  • note in spartiti musicali;
  • dimensione degli abitati, città;
  • distribuzione dei redditi;
  • distribuzione delle imprese;
  • forza dei terremoti;
  • trascritti di singola cellula[1].

Note

  1. ^ (EN) Silvia Lazzardi, Filippo Valle e Andrea Mazzolini, Emergent Statistical Laws in Single-Cell Transcriptomic Data, in bioRxiv, 17 giugno 2021, pp. 2021.06.16.448706, DOI:10.1101/2021.06.16.448706. URL consultato il 18 giugno 2021.

Voci correlate

Altri progetti

Collegamenti esterni

Controllo di autoritàGND (DE4190937-9