dove p(x,y) è ora la funzione di "densità" di probabilità congiunta di X e Y, e e sono le funzioni di densità di probabilità marginale rispettivamente di X e Y.
Queste definizioni sono ambigue perché la base della funzione logaritmica non è specificata. Per disambiguare, la funzione I potrebbe essere parametrizzata come I(X,Y,b) dove b è la base. Alternativamente, poiché la più comune unità di misura della mutua informazione è il bit, potrebbe essere specificata una base di 2.
Intuitivamente, l'informazione mutua misura l'informazione che X e Y condividono: essa misura quanto la conoscenza di una di queste variabili riduce la nostra incertezza riguardo all'altra. Ad esempio, se X e Y sono indipendenti, allora la conoscenza di X non dà alcuna informazione riguardo a Y e viceversa, perciò la loro mutua informazione è zero. All'altro estremo, se X e Y sono identiche allora tutte le informazioni trasmesse da X sono condivise con Y: la conoscenza di X determina il valore di Y e viceversa. Come risultato, nel caso di identità l'informazione mutua è la stessa contenuta in Y (o X) da sola, vale a dire l'entropia di Y (o X: chiaramente se X e Y sono identiche, hanno identica entropia).
L'informazione mutua quantifica la dipendenza tra la distribuzione congiunta di X e Y e quale sarebbe la distribuzione congiunta se X e Y fossero indipendenti. L'informazione mutua è una misura di dipendenza nel seguente senso: I(X; Y) = 0 se e solo seX e Y sono variabili casuali indipendenti. Questo è facile da vedere in una sola direzione: se X e Y sono indipendenti, allora p(x,y) = p(x) p(y), e perciò:
Inoltre, la mutua informazione è non negativa (cioè I(X;Y) ≥ 0; vedi sotto) e simmetrica (cioè I(X;Y) = I(Y;X)).
Relazione con altre quantità
L'informazione mutua può essere espressa in modo equivalente come
dove H(X) e H(Y) sono le entropie marginali, H(X|Y) e H(Y|X) sono le entropie condizionali, e H(X,Y) è l'entropia congiunta di X e Y. Poiché H(X) ≥ H(X|Y), questa caratterizzazione è coerente con la proprietà di non negatività enunciata sopra.
Intuitivamente, se l'entropia H(X) è considerata una misura dell'incertezza riguardo a una variabile casuale, allora H(X|Y) è una misura di ciò che Ynon dice riguardo a X. Questo è "l'ammontare di incertezza che rimane riguardo a X dopo che Y è noto", e così il lato destro di queste uguaglianze può essere letto come "l'ammontare di incertezza in X, meno l'ammontare di incertezza in X che rimane dopo che Y è noto", che è equivalente "all'ammontare di incertezza in X che è eliminato conoscendo Y". Questo corrobora il significato intuitivo di informazione mutua come l'ammontare di informazione (cioè, la riduzione di incertezza) che la conoscenza di una delle due variabili fornisce riguardo all'altra.
Si noti che nel caso discreto H(X|X) = 0 e perciò H(X) = I(X;X). Così I(X;X) ≥ I(X;Y), e si può formulare il principio basilare che una variabile contiene almeno altrettanta informazione riguardo a sé stessa di quanta ne può fornire una qualsiasi altra variabile.
Così l'informazione mutua può essere intesa anche come l'aspettativa della divergenza di Kullback-Leibler della distribuzione univariata p(x) di X dalla distribuzione condizionalep(x|y) di X data Y: più le distribuzioni p(x|y) e p(x) sono differenti, maggiore è il guadagno di informazione.
Varianti
Sono state proposte parecchie variazioni sull'informazione mutua per adattarsi a varie necessità. Tra queste vi sono varianti normalizzate e generalizzazioni a più di due variabili.
Metrica
Molte applicazioni richiedono una metrica, cioè, una misura di distanza tra punti. La quantità
A volte è utile esprimere l'informazione mutua di due variabili casuali condizionate a una terza.
che possono essere semplificate come
Il condizionamento a una terza variabile casuale potrebbe o aumentare o diminuire l'informazione mutua, ma è sempre vero che
per le variabili casuali discrete, distribuite congiuntamente X, Y, Z. Questo risultato è stato utilizzato come mattone basilare per provare altre disuguaglianze nella teoria dell'informazione.
(Questa definizione dell'informazione mutua multivariata è identica a quella dell'informazione sulle interazioni tranne che per un cambiamento di segno dove il numero delle variabili casuali è dispari.)
Applicazioni
Applicare pedissequamente i diagrammi dell'informazione per derivare la definizione di cui sopra[senza fonte] è stato criticato, e in effetti ha trovato applicazione pratica piuttosto limitata, poiché è difficile visualizzare o afferrare il significato di questa quantità per un gran numero di variabili casuali. Può essere zero, positivo o negativo per qualsiasi
Uno schema di generalizzazione ad alta dimensione che massimizza l'informazione mutua tra la distribuzione congiunta e altre variabili obiettivo si trova essere utile nella selezione delle caratteristiche.[2]
Varianti normalizzate
Varianti normalizzate dell'informazione mutua sono fornite dal coefficiente di vincolo (Coombs, Dawes & Tversky, 1970) o dal coefficiente d'incertezza (Press & Flannery, 1988)
I due coefficienti non sono necessariamente uguali. Una misura d'informazione scalata più utile e simmetrica è la ridondanza[senza fonte]
che raggiunge un minimo di zero quando le variabili sono indipendenti e un valore massimo di
quando una variabile diventa completamente ridondante con la conoscenza dell'altra. Si veda anche Ridondanza (teoria dell'informazione). Un'altra misura simmetrica è l'incertezza simmetrica (Witten & Frank, 2005), data da
che rappresenta una media ponderata dei due coefficienti d'incertezza (Press & Flannery, 1988).
Altre versioni normalizzate sono fornite dalle seguenti espressioni (Yao, 2003; Strehl & Ghosh, 2002).
Se consideriamo la mutua informazione come un caso speciale della correlazione totale, la normalizzazione è:
La quantità
è una metrica, cioè soddisfa la disuguaglianza triangolare ecc. La metrica è anche una metrica universale.[3]
Varianti ponderate
Nella formulazione tradizionale dell'informazione mutua,
ciascun evento od oggetto specificato da è ponderato mediante la probabilità corrispondente . Questo assume che tutti gli oggetti o eventi siano equivalenti a parte la loro probabilità di occorrenza. Tuttavia, in alcune applicazioni potrebbe accadere che certi oggetti o eventi siano più significativi di altri, o che certi schemi di associazione siano semanticamente più importanti di altri.
Ad esempio, la mappatura deterministica potrebbe essere considerata più forte della mappatura deterministica , sebbene queste relazioni produrrebbero la stessa informazione mutua. Ciò accade perché l'informazione mutua non è affatto sensibile ad alcun ordinamento insito nei valori delle variabili (Cronbach, 1954; Coombs & Dawes, 1970; Lockhead, 1970), e perciò non è affatto sensibile alla forma della relazione tra le variabili associate. Se si deesidera che la precedente relazione — che mostrava accordo su tutti i valori delle variabili — sia stimata più forte della relazione successiva, allora è possibile utilizzate la seguente informazione mutua ponderata (Guiasu, 1977)
che pone un peso sulla probabilità di ogni co-occorrenza dei valori delle variabili, . Questo consente che certe probabilità possano portate più o meno significato di altre, con ciò permettendo la quantificazione dei relativi fattori olistici o pregnanti. Nell'esempio di sopra, utilizzare pesi relativi più grandi per , e avrebbe l'effetto di valutare maggiore informatività per la relazione che per la relazione , il che potrebbe essere desiderabile in alcuni casi di riconoscimento degli schemi, e simili. Tuttavia, sono stati realizzati pochi studi matematici sull'informazione mutua ponderata.
Informazione mutua assoluta
Usando i concetti della complessità di Kolmogorov, si può considerare l'informazione mutua di due sequenze indipendente da qualsiasi distribuzione di probabilità:
In molte applicazioni, si vuole massimizzare la mutua informazione (accrescendo così le dipendenze), il che è spesso equivalente a minimizzare l'entropia condizionale. Gli esempi comprendono:
La capacità di canale è uguale all'informazione mutua, massimizzata su tutte le distribuzioni di input.
L'informazione mutua è usata nell'imaging biomedico per la registrazione delle immagini. Data un'immagine di riferimento (ad esempio, una scansione cerebrale), e una seconda immagine che si deve mettere nello stesso sistema di coordinate, come l'immagine di riferimento, questa immagine è deformata finché l'informazione mutua tra di essa e l'immagine di riferimento non è massimizzata.
La mutua informazione è usata come misura di confronto dei clustering (Vinh et al., 2009), fornendo alcuni vantaggi su altre misure classiche come l'indice di Rand e l'indice di Rand aggiustato.
^Alexander Kraskov, Harald Stögbauer, Ralph G. Andrzejak, and Peter Grassberger, "Hierarchical Clustering Based on Mutual Information", (2003) ArXiv q-bio/0311039
Coombs, C. H., Dawes, R. M. & Tversky, A. (1970), Mathematical Psychology: An Elementary Introduction, Prentice-Hall, Englewood Cliffs, NJ.
Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in H Quastler, ed., Information Theory in Psychology: Problems and Methods, Free Press, Glencoe, Illinois, pp. 14–30.
Kenneth Ward Church and Patrick Hanks. Word association norms, mutual information, and lexicography, Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics, 1989.
Guiasu, Silviu (1977), Information Theory with Applications, McGraw-Hill, New York.
Lockhead G. R. (1970). Identification and the form of multidimensional discrimination space, Journal of Experimental Psychology85(1), 1-10.
Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
Press, W. H., Flannery, B. P., Teukolsky, S. A. & Vetterling, W. T. (1988), Numerical Recipes in C: The Art of Scientific Computing, Cambridge University Press, Cambridge, p. 634
Witten, Ian H. & Frank, Eibe (2005), Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, Amsterdam.
Yao, Y. Y. (2003) Information-theoretic measures for knowledge discovery and data mining, in Entropy Measures, Maximum Entropy Principle and Emerging Applications , Karmeshu (ed.), Springer, pp. 115–136.
Peng, H.C., Long, F., and Ding, C., "Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1226–1238, 2005. Program
Andre S. Ribeiro, Stuart A. Kauffman, Jason Lloyd-Price, Bjorn Samuelsson, and Joshua Socolar, (2008) "Mutual Information in Random Boolean models of regulatory networks", Physical Review E, Vol.77, No.1. arXiv:0707.3642.
N.X. Vinh, Epps, J. and Bailey, J., 'Information Theoretic Measures for Clusterings Comparison: Is a Correction for Chance Necessary?', in Proc. the 26th International Conference on Machine Learning (ICML'09), PDF.