Informazione mutua

Entropie individuali , congiunte , e condizionali per una coppia di sottosistemi correlati con informazione mutua .

Nella teoria della probabilità e nella teoria dell'informazione, l'informazione mutua (in passato detta anche transinformazione) di due variabili casuali è una quantità che misura la mutua dipendenza delle due variabili. La più comune unità di misura della mutua informazione è il bit, quando si usano i logaritmi in base 2.

Formalmente l'informazione mutua di due variabili casuali discrete X e Y può essere definita come:

dove p(x,y) è la funzione di distribuzione di probabilità congiunta di X e Y, e e sono le funzioni di distribuzione di probabilità marginale rispettivamente di X e Y.

Nel caso continuo, la sommatoria è sostituita da un integrale doppio definito:

dove p(x,y) è ora la funzione di "densità" di probabilità congiunta di X e Y, e e sono le funzioni di densità di probabilità marginale rispettivamente di X e Y.

Queste definizioni sono ambigue perché la base della funzione logaritmica non è specificata. Per disambiguare, la funzione I potrebbe essere parametrizzata come I(X,Y,b) dove b è la base. Alternativamente, poiché la più comune unità di misura della mutua informazione è il bit, potrebbe essere specificata una base di 2.

Intuitivamente, l'informazione mutua misura l'informazione che X e Y condividono: essa misura quanto la conoscenza di una di queste variabili riduce la nostra incertezza riguardo all'altra. Ad esempio, se X e Y sono indipendenti, allora la conoscenza di X non dà alcuna informazione riguardo a Y e viceversa, perciò la loro mutua informazione è zero. All'altro estremo, se X e Y sono identiche allora tutte le informazioni trasmesse da X sono condivise con Y: la conoscenza di X determina il valore di Y e viceversa. Come risultato, nel caso di identità l'informazione mutua è la stessa contenuta in Y (o X) da sola, vale a dire l'entropia di Y (o X: chiaramente se X e Y sono identiche, hanno identica entropia).

L'informazione mutua quantifica la dipendenza tra la distribuzione congiunta di X e Y e quale sarebbe la distribuzione congiunta se X e Y fossero indipendenti. L'informazione mutua è una misura di dipendenza nel seguente senso: I(X; Y) = 0 se e solo se X e Y sono variabili casuali indipendenti. Questo è facile da vedere in una sola direzione: se X e Y sono indipendenti, allora p(x,y) = p(x) p(y), e perciò:

Inoltre, la mutua informazione è non negativa (cioè I(X;Y) ≥ 0; vedi sotto) e simmetrica (cioè I(X;Y) = I(Y;X)).

Relazione con altre quantità

[modifica | modifica wikitesto]

L'informazione mutua può essere espressa in modo equivalente come

dove H(X) e H(Y) sono le entropie marginali, H(X|Y) e H(Y|X) sono le entropie condizionali, e H(X,Y) è l'entropia congiunta di X e Y. Poiché H(X) ≥ H(X|Y), questa caratterizzazione è coerente con la proprietà di non negatività enunciata sopra.

Intuitivamente, se l'entropia H(X) è considerata una misura dell'incertezza riguardo a una variabile casuale, allora H(X|Y) è una misura di ciò che Y non dice riguardo a X. Questo è "l'ammontare di incertezza che rimane riguardo a X dopo che Y è noto", e così il lato destro di queste uguaglianze può essere letto come "l'ammontare di incertezza in X, meno l'ammontare di incertezza in X che rimane dopo che Y è noto", che è equivalente "all'ammontare di incertezza in X che è eliminato conoscendo Y". Questo corrobora il significato intuitivo di informazione mutua come l'ammontare di informazione (cioè, la riduzione di incertezza) che la conoscenza di una delle due variabili fornisce riguardo all'altra.

Si noti che nel caso discreto H(X|X) = 0 e perciò H(X) = I(X;X). Così I(X;X) ≥ I(X;Y), e si può formulare il principio basilare che una variabile contiene almeno altrettanta informazione riguardo a sé stessa di quanta ne può fornire una qualsiasi altra variabile.

L'informazione mutua può essere espressa anche come una divergenza di Kullback-Leibler, del prodotto p(x) × p(y) della distribuzioni marginali delle due variabili casuali X e Y, per p(x,y), la distribuzione congiunta delle variabili casuali:

Inoltre, sia p(x|y) = p(x, y) / p(y). Allora

Così l'informazione mutua può essere intesa anche come l'aspettativa della divergenza di Kullback-Leibler della distribuzione univariata p(x) di X dalla distribuzione condizionale p(x|y) di X data Y: più le distribuzioni p(x|y) e p(x) sono differenti, maggiore è il guadagno di informazione.

Sono state proposte parecchie variazioni sull'informazione mutua per adattarsi a varie necessità. Tra queste vi sono varianti normalizzate e generalizzazioni a più di due variabili.

Molte applicazioni richiedono una metrica, cioè, una misura di distanza tra punti. La quantità

soddisfa le proprietà basilari di una metrica; in particolare, la disuguaglianza triangolare, ma anche la non negatività, indiscernibilità e simmetria. Questa metrica della distanza è nota anche come variazione dell'informazione.

Poiché si ha , una variante normalizzata naturale è

La metrica D è una metrica universale, in quanto se qualsiasi altra misura pone vicino X e Y, allora anche la D le stimerà vicine.[1]

Un'interpretazione dell'informazione secondo la teoria degli insiemi (si veda la figura per l'entropia condizionale) mostra che

che è effettivamente la distanza di Jaccard tra X e Y.

Informazione mutua condizionale

[modifica | modifica wikitesto]

A volte è utile esprimere l'informazione mutua di due variabili casuali condizionate a una terza.

che possono essere semplificate come

Il condizionamento a una terza variabile casuale potrebbe o aumentare o diminuire l'informazione mutua, ma è sempre vero che

per le variabili casuali discrete, distribuite congiuntamente X, Y, Z. Questo risultato è stato utilizzato come mattone basilare per provare altre disuguaglianze nella teoria dell'informazione.

Informazione mutua multivariata

[modifica | modifica wikitesto]

Sono state proposte parecchie generalizzazioni della informazione mutua a più di due variabili, come la correlazione totale e l'informazione sulle interazioni. Se Shannon è vista come una misura con segno nel contesto dei diagrammi dell'informazione come spiegato nella voce Teoria dell'informazione e teoria della misura, allora l'unica definizione di informazione mutua multivariata [senza fonte] è come segue:

e per

dove (come sopra) definiamo

(Questa definizione dell'informazione mutua multivariata è identica a quella dell'informazione sulle interazioni tranne che per un cambiamento di segno dove il numero delle variabili casuali è dispari.)

Applicare pedissequamente i diagrammi dell'informazione per derivare la definizione di cui sopra[senza fonte] è stato criticato, e in effetti ha trovato applicazione pratica piuttosto limitata, poiché è difficile visualizzare o afferrare il significato di questa quantità per un gran numero di variabili casuali. Può essere zero, positivo o negativo per qualsiasi

Uno schema di generalizzazione ad alta dimensione che massimizza l'informazione mutua tra la distribuzione congiunta e altre variabili obiettivo si trova essere utile nella selezione delle caratteristiche.[2]

Varianti normalizzate

[modifica | modifica wikitesto]

Varianti normalizzate dell'informazione mutua sono fornite dal coefficiente di vincolo (Coombs, Dawes & Tversky, 1970) o dal coefficiente d'incertezza (Press & Flannery, 1988)

I due coefficienti non sono necessariamente uguali. Una misura d'informazione scalata più utile e simmetrica è la ridondanza[senza fonte]

che raggiunge un minimo di zero quando le variabili sono indipendenti e un valore massimo di

quando una variabile diventa completamente ridondante con la conoscenza dell'altra. Si veda anche Ridondanza (teoria dell'informazione). Un'altra misura simmetrica è l'incertezza simmetrica (Witten & Frank, 2005), data da

che rappresenta una media ponderata dei due coefficienti d'incertezza (Press & Flannery, 1988).

Altre versioni normalizzate sono fornite dalle seguenti espressioni (Yao, 2003; Strehl & Ghosh, 2002).

Se consideriamo la mutua informazione come un caso speciale della correlazione totale, la normalizzazione è:

La quantità

è una metrica, cioè soddisfa la disuguaglianza triangolare ecc. La metrica è anche una metrica universale.[3]

Varianti ponderate

[modifica | modifica wikitesto]

Nella formulazione tradizionale dell'informazione mutua,

ciascun evento od oggetto specificato da è ponderato mediante la probabilità corrispondente . Questo assume che tutti gli oggetti o eventi siano equivalenti a parte la loro probabilità di occorrenza. Tuttavia, in alcune applicazioni potrebbe accadere che certi oggetti o eventi siano più significativi di altri, o che certi schemi di associazione siano semanticamente più importanti di altri.

Ad esempio, la mappatura deterministica potrebbe essere considerata più forte della mappatura deterministica , sebbene queste relazioni produrrebbero la stessa informazione mutua. Ciò accade perché l'informazione mutua non è affatto sensibile ad alcun ordinamento insito nei valori delle variabili (Cronbach, 1954; Coombs & Dawes, 1970; Lockhead, 1970), e perciò non è affatto sensibile alla forma della relazione tra le variabili associate. Se si deesidera che la precedente relazione — che mostrava accordo su tutti i valori delle variabili — sia stimata più forte della relazione successiva, allora è possibile utilizzate la seguente informazione mutua ponderata (Guiasu, 1977)

che pone un peso sulla probabilità di ogni co-occorrenza dei valori delle variabili, . Questo consente che certe probabilità possano portate più o meno significato di altre, con ciò permettendo la quantificazione dei relativi fattori olistici o pregnanti. Nell'esempio di sopra, utilizzare pesi relativi più grandi per , e avrebbe l'effetto di valutare maggiore informatività per la relazione che per la relazione , il che potrebbe essere desiderabile in alcuni casi di riconoscimento degli schemi, e simili. Tuttavia, sono stati realizzati pochi studi matematici sull'informazione mutua ponderata.

Informazione mutua assoluta

[modifica | modifica wikitesto]

Usando i concetti della complessità di Kolmogorov, si può considerare l'informazione mutua di due sequenze indipendente da qualsiasi distribuzione di probabilità:

Stabilire che questa quantità è simmetrica fino ad un fattore logaritmico () richiede la regola della catena per la complessità di Kolmogorov (Li, 1997). Si possono usare approssimazioni di questa quantità attraverso la compressione per definire una misura di distanza per eseguire un clustering gerarchico di sequenze senza avere alcuna conoscenza del dominio delle sequenze stesse (Cilibrasi, 2005).

In molte applicazioni, si vuole massimizzare la mutua informazione (accrescendo così le dipendenze), il che è spesso equivalente a minimizzare l'entropia condizionale. Gli esempi comprendono:

  1. ^ Alexander Kraskov, Harald Stögbauer, Ralph G. Andrzejak, and Peter Grassberger, "Hierarchical Clustering Based on Mutual Information", (2003) ArXiv q-bio/0311039
  2. ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2008, ISBN 0-521-86571-9.
  3. ^ Kraskov, et al. ibid.
  • R. Cilibrasi, Paul Vitányi, Clustering by compression (PDF) [collegamento interrotto], in IEEE Transactions on Information Theory, vol. 51, n. 4, 2005, pp. 1523–1545, DOI:10.1109/TIT.2005.844059.
  • Coombs, C. H., Dawes, R. M. & Tversky, A. (1970), Mathematical Psychology: An Elementary Introduction, Prentice-Hall, Englewood Cliffs, NJ.
  • Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in H Quastler, ed., Information Theory in Psychology: Problems and Methods, Free Press, Glencoe, Illinois, pp. 14–30.
  • Kenneth Ward Church and Patrick Hanks. Word association norms, mutual information, and lexicography, Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics, 1989.
  • Guiasu, Silviu (1977), Information Theory with Applications, McGraw-Hill, New York.
  • Ming Li, Paul Vitányi, An introduction to Kolmogorov complexity and its applications, New York, Springer-Verlag, 1997, ISBN 0-387-94868-6.
  • Lockhead G. R. (1970). Identification and the form of multidimensional discrimination space, Journal of Experimental Psychology 85(1), 1-10.
  • Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
  • Press, W. H., Flannery, B. P., Teukolsky, S. A. & Vetterling, W. T. (1988), Numerical Recipes in C: The Art of Scientific Computing, Cambridge University Press, Cambridge, p. 634
  • Alexander Strehl, Joydeep Ghosh, Cluster ensembles -- a knowledge reuse framework for combining multiple partitions (PDF), in Journal of Machine Learning Research, vol. 3, 2002, pp. 583–617, DOI:10.1162/153244303321897735.
  • Witten, Ian H. & Frank, Eibe (2005), Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, Amsterdam.
  • Yao, Y. Y. (2003) Information-theoretic measures for knowledge discovery and data mining, in Entropy Measures, Maximum Entropy Principle and Emerging Applications , Karmeshu (ed.), Springer, pp. 115–136.
  • Peng, H.C., Long, F., and Ding, C., "Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1226–1238, 2005. Program
  • Andre S. Ribeiro, Stuart A. Kauffman, Jason Lloyd-Price, Bjorn Samuelsson, and Joshua Socolar, (2008) "Mutual Information in Random Boolean models of regulatory networks", Physical Review E, Vol.77, No.1. arXiv:0707.3642.
  • N.X. Vinh, Epps, J. and Bailey, J., 'Information Theoretic Measures for Clusterings Comparison: Is a Correction for Chance Necessary?', in Proc. the 26th International Conference on Machine Learning (ICML'09), PDF.
  • W.M. III Wells, Viola, P., Atsumi, H., Nakajima, S., Kikinis, R., Multi-modal volume registration by maximization of mutual information (PDF), in Medical Image Analysis, vol. 1, n. 1, 1996, pp. 35–51, DOI:10.1016/S1361-8415(01)80004-9, PMID 9873920 (archiviato dall'url originale il 6 settembre 2008).

Voci correlate

[modifica | modifica wikitesto]
Controllo di autoritàGND (DE4779212-7
  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica