Probabilità bayesiana

La probabilità bayesiana è un'interpretazione del concetto di probabilità, in cui, anziché la frequenza o la propensione di qualche fenomeno, la probabilità viene interpretata come aspettazione razionale[1] rappresentante uno stato di conoscenza[2] o come quantificazione di una convinzione personale.[3]

L'interpretazione bayesiana della probabilità può essere vista come coestensiva della logica proposizionale con l'inclusione del ragionamento tramite ipotesi,[4] vale a dire, con proposizioni la cui verità o falsità è sconosciuta. Nella visione bayesiana, una probabilità viene assegnata a un'ipotesi, mentre nell'approccio frequentista alle inferenze, un'ipotesi viene tipicamente verificata senza che venga ad essa assegnata una probabilità.

La probabilità bayesiana appartiene alla categoria delle "probabilità probatorie": per valutare la probabilità di un'ipotesi, infatti, il probabilista bayesiano deve specificare una probabilità iniziale (probabilità a priori o prior probability). Questa, a sua volta, viene poi aggiornata ad una probabilità finale alla luce di nuovi dati pertinenti (prove o evidenze).[5] L'interpretazione bayesiana inoltre fornisce un insieme standard di procedure e formule per eseguire questo calcolo.

Il termine bayesiano deriva dal matematico e teologo del XVIII secolo Thomas Bayes, che fornì la prima trattazione formale di un problema non banale riguardante l'analisi dei dati usando quella che è ora nota come inferenza bayesiana.[6] Il matematico e fisico francese Pierre-Simon Laplace (1749 - 1827) fu un pioniere nel rendere popolare quella che oggi è chiamata probabilità bayesiana.

Metodologia bayesiana

La metodologia bayesiana è caratterizzata da alcuni concetti e procedure:

  • L'uso di variabili casuali, o quantità più generalmente sconosciute,[7] per modellare tutte le fonti di incertezza nei modelli statistici, compresa l'incertezza risultante dalla mancanza di informazioni.
  • La necessità di determinare la distribuzione di probabilità iniziali tenendo conto delle informazioni (precedenti) disponibili.
  • L'uso sequenziale del Teorema di Bayes: quando si rendono disponibili più dati (evidenze) la probabilità finale si determina usando la formula di Bayes; successivamente, la distribuzione finale di probabilità diventa a sua volta una probabilità iniziale, passibile di modifiche a seguito di nuove evidenze.
  • Mentre per il frequentista, un'ipotesi è una proposizione (che deve essere vera o falsa ) in modo che la probabilità di un'ipotesi sia 0 o 1, nelle statistiche bayesiane, la probabilità che può essere assegnata a un'ipotesi può essere un valore qualsiasi nell'intervallo di valori reali tra 0 e 1 (valore di probabilità incerto).

Probabilità oggettive e probabilità soggettive

In linea di massima, ci sono due interpretazioni prevalenti sulla probabilità bayesiana. Per gli oggettivisti, che interpretano la probabilità come coestensiva della logica, la probabilità quantifica le aspettative ragionevoli che tutti coloro che condividono le stesse conoscenze dovrebbero condividere seguendo le regole della statistica bayesiana, che possono essere giustificate dal teorema di Cox.[2][8] Per i soggettivisti, la probabilità corrisponde invece ad un grado di credenza personale.[3] All'interno di questa visione i vincoli principali alla credenza personale sono dati dai concetti razionalità e coerenza; tali vincoli sono giustificati dall'argomento delle scommessa olandese o dalla teoria delle decisioni e dal teorema di De Finetti. Le interpretazioni oggettiva e soggettiva della probabilità bayesiana differiscono principalmente nella loro interpretazione e attribuzione di valore alle probabilità iniziali.

Storia

Il termine bayesiano deriva da Thomas Bayes (1702–1761), presbitero e matematico britannico che dimostrò un caso speciale di quello che ora viene chiamato teorema di Bayes in un documento intitolato An Essay towards solving a Problem in the Doctrine of Chances.[9] Fu Pierre-Simon Laplace (1749–1827) che introdusse una versione generale del teorema e la usò per affrontare i problemi della meccanica celeste, della statistica medica e della giurisprudenza.[10] L'inferenza bayesiana originariamente utilizzava probabilità iniziali uniformi seguendo il principio di Laplace (anche detto principio di ragione insufficiente, o principio di equiprobabilità) ed era chiamata "probabilità inversa" (perché agisce "all'indietro", ossia dalle osservazioni ai parametri o dagli effetti alle cause).[11] Dopo gli anni '20 questo approccio fu ampiamente soppiantato da una raccolta di metodi che vennero chiamati statistiche frequentiste, sulla scia dei lavori di matematici come Richard von Mises e filosofi come Hans Reichenbach.

Nel XX secolo le idee di Laplace si svilupparono in due direzioni, dando origine alle correnti oggettivistica e soggettivistica dell'approccio bayesiano. L'opera "Theory of probability" di Harold Jeffreys (pubblicata per la prima volta nel 1939) ebbe un ruolo importante nel rilanciare la visione bayesiana della probabilità, seguita dalle opere di Abraham Wald (1950) e Leonard J. Savage (1954). L'aggettivo Bayesian stesso risale solamente agli anni '50; mentre il termine derivato neo-bayesianesimo fu coniato negli anni '60.[12][13][14] Nell'approccio oggettivistico l'analisi statistica dipende solo dal modello assunto e dai dati analizzati;[15] non risulta necessario coinvolgere decisioni soggettive. Al contrario, gli statistici "soggettivisti", come ad esempio l'italiano Bruno De Finetti, negano la possibilità di un'analisi pienamente obiettiva per il caso generale.

Negli anni '80, c'è stata una crescita drammatica nella ricerca e nelle applicazioni dei metodi bayesiani, principalmente attribuita alla scoperta dei metodi catena di Markov Monte Carlo e alla conseguente rimozione di molti dei problemi computazionali, e al crescente interesse per applicazioni complesse non standard.[16] Sebbene le statistiche frequentiste rimangano molto utilizzate (come si vede dal fatto che la maggior parte degli insegnamenti universitari si basa ancora su di essa[17]), i metodi bayesiani sono ampiamente accettati e utilizzati, ad esempio, nel campo dell'apprendimento automatico.[18]

Giustificazione dell'approccio bayesiano

L'uso delle probabilità bayesiane, come punto di partenza dell'inferenza bayesiana, è stato supportato da diversi argomenti, come gli assiomi di Cox, l'argomento della scommessa olandese o sulla base di argomenti basati sulla teoria delle decisioni e il teorema di De Finetti.

Approccio assiomatico

Richard T. Cox ha mostrato che[8] l'aggiornamento bayesiano segue da diversi assiomi, tra cui due equazioni funzionali e un'ipotesi di differenziabilità. Altre assiomatizzazioni sono state suggerite da vari autori allo scopo di rendere la teoria più rigorosa.[7]

Approccio alla scommessa olandese

L'argomento della scommessa olandese è stata proposta dal matematico Bruno De Finetti e si basa sulle scommesse. Una scommessa olandese è una situazione che si viene a creare quando un giocatore d'azzardo razionale piazza una serie di scommesse che gli garantiscono un profitto, indipendentemente dall'esito delle scommesse. Se un bookmaker segue le regole del calcolo bayesiano nella costruzione delle sue probabilità, una scommessa olandese non può essere realizzata. In base a questo argomento De Finetti definisce il concetto di coerenza.

Ian Hacking tuttavia ha mostrato come gli argomenti tradizionali della "scommessa olandese" non richiedono necessariamente un approccio bayesiano ma permettono un approccio non-bayesiano all'aggiornamento delle probabilità.

In effetti esistono regole di aggiornamento non bayesiane che evitano le scommesse olandesi. Le ipotesi aggiuntive sufficienti per specificare (in modo univoco) l'approccio bayesiano all'aggiornamento bayesiano non sono universalmente considerate soddisfacenti.[19]

Approccio tramite la teoria delle decisioni

Una giustificazione basata sulla teoria delle decisioni dell'uso dell'inferenza bayesiana (e quindi delle probabilità bayesiane) è stata fornita dal matematico ungherese Abraham Wald, che ha dimostrato che qualunque procedura statistica ammissibile (nel senso della statistica bayesiana) o è una procedura bayesiana oppure è un limite di procedure bayesiane.[20] Per converso, ogni procedura bayesiana è ammissibile.[21]

Probabilità personali e metodi oggettivi per costruire le probabilità iniziali

In seguito al lavoro sulla teoria dell'utilità attesa di F. P. Ramsey e J. von Neumann, i teorici delle decisioni hanno spiegato il comportamento razionale usando una distribuzione di probabilità relativa all'agente. Johann Pfanzagl ha completato la teoria dei giochi e del comportamento economico fornendo un'assiomatizzazione della probabilità e dell'utilità soggettive, un compito lasciato incompleto da von Neumann e Oskar Morgenstern: la loro teoria originale, infatti, supponeva che tutti gli agenti avessero la stessa distribuzione di probabilità, per comodità.[22]

Frank Plumpton Ramsey e Leonard Jimmie Savage hanno notato che la distribuzione di probabilità del singolo agente potrebbe essere oggettivamente studiata tramite esperimenti.

Il "test di Ramsey" per la valutazione delle distribuzioni di probabilità è implementabile in teoria e ha interessato la psicologia sperimentale per circa mezzo secolo.[23] Questo lavoro dimostra che le proposizioni della probabilità bayesiana possono essere falsificate e quindi soddisfare un criterio empirico posto da Charles S. Peirce, il cui lavoro ha ispirato Ramsey; tale criterio di falsificabilità è stato reso popolare da Karl Popper[24][25]).

Le probabilità personali sono problematiche per le scienze e per alcune applicazioni in cui gli agenti mancano della conoscenza o del tempo necessari per specificare una distribuzione di probabilità informata, sulla base della quale sono disposti ad agire. Per soddisfare le esigenze della scienza e superare le limitazioni umane, alcuni teorici bayesiani hanno sviluppato metodi "oggettivi" per specificare le probabilità iniziali.

In effetti, alcuni bayesiani hanno sostenuto che lo stato di conoscenza iniziale definisce la (unica) distribuzione di probabilità precedente per problemi statistici "regolari" (cioè ben posti nel senso fornito da J. Hadamard). Trovare il metodo giusto per costruire tali probabilità iniziali "oggettive" (per classi appropriate di problemi regolari) è stata la ricerca di teorici statistici da Laplace a John Maynard Keynes, Harold Jeffreys e Edwin Thompson Jaynes. Questi teorici e i loro successori hanno suggerito diversi metodi per costruire probabilità iniziali "oggettive":

Ognuno di questi metodi contribuisce alla formazione di probabilità iniziali utili per problemi "regolari" a un parametro, e ciascuno di essi può gestire alcuni modelli statistici stimolanti (con "irregolarità" o diversi parametri). Inoltre ognuno di questi metodi è stato utile nella pratica bayesiana. In effetti, metodi per costruire probabilità iniziali "oggettive" sono stati sviluppati da bayesiani soggettivisti (o "personalisti") dichiarati come James Berger (Duke University) e José-Miguel Bernardo (Universitat de València), semplicemente perché tali probabilità iniziali sono necessarie per la pratica bayesiana, in particolare nella scienza.[26] La ricerca del "metodo universale per costruire le probabilità iniziali" continua ad attrarre teorici statistici.

Note

  1. ^ R.T. Cox, Probability, Frequency, and Reasonable Expectation, in American Journal of Physics, vol. 14, n. 1, 1946, pp. 1–10, Bibcode:1946AmJPh..14....1C, DOI:10.1119/1.1990764.
  2. ^ a b Jaynes, E.T., Bayesian Methods: General Background, in Justice, J. H. (a cura di), Maximum-Entropy and Bayesian Methods in Applied Statistics, Cambridge, Cambridge University Press, 1986.
  3. ^ a b Bruno de Finetti, Theory of Probability: A critical introductory treatment, Chichester, John Wiley & Sons Ltd., 2017, ISBN 978-1-119-28637-0.
  4. ^ Theodore Hailperin, Sentential Probability Logic: Origins, Development, Current Status, and Technical Applications, London, Associated University Presses, 1996, ISBN 0-934223-45-9.
  5. ^ New York Times, https://www.nytimes.com/2011/08/07/books/review/the-theory-that-would-not-die-by-sharon-bertsch-mcgrayne-book-review.html. URL consultato il 6 agosto 2011.
  6. ^ Stephen M. Stigler, The history of statistics, Harvard University Press, marzo 1990, ISBN 978-0-674-40341-3.
  7. ^ a b Dupré, Maurice J. e Tipler, Frank J., New axioms for rigorous Bayesian probability, in Bayesian Analysis, vol. 4, n. 3, 2009, pp. 599–606, DOI:10.1214/09-BA422.
  8. ^ a b Richard T. Cox, The algebra of probable inference, Reprint, Baltimore, MD; London, UK, Johns Hopkins Press; Oxford University Press [distributor], 1961, ISBN 978-0-8018-6982-2.
  9. ^ McGrayne, Sharon Bertsch, The Theory that Would not Die, 2011,  , p. 10..
  10. ^ Stigler, Stephen M., Chapter 3, in The History of Statistics, Harvard University Press, 1986.
  11. ^ Fienberg, Stephen. E., When did Bayesian Inference become "Bayesian"? (PDF), in Bayesian Analysis, vol. 1, n. 1, 2006, pp. 5, 1–40, DOI:10.1214/06-BA101 (archiviato dall'url originale il 10 settembre 2014).
  12. ^ Marshall Dees Harris, Recent developments of the so-called Bayesian approach to statistics, in Legal-Economic Research, University of Iowa, 1959, pp. 125 (fn. #52), 126.
    «The works of Wald, Statistical Decision Functions (1950) and Savage, The Foundation of Statistics (1954) are commonly regarded starting points for current Bayesian approaches»
  13. ^ Annals of the Computation Laboratory of Harvard University, vol. 31, 1962, p. 180.
    «This revolution, which may or may not succeed, is neo-Bayesianism. Jeffreys tried to introduce this approach, but did not succeed at the time in giving it general appeal.»
  14. ^ 1967, https://books.google.com/books?id=IC4Ku_7dBFUC&pg=PA235#v=onepage.
  15. ^ J.M. Bernardo, Reference analysis, in Handbook of Statistics, vol. 25, 2005, pp. 17–90, DOI:10.1016/S0169-7161(05)25002-2, ISBN 978-0-444-51539-1.
  16. ^ Wolpert, R.L., A conversation with James O. Berger, in Statistical Science, vol. 9, 2004, pp. 205–218, DOI:10.1214/088342304000000053.
  17. ^ Bernardo, José M., 2006, http://www.ime.usp.br/~abe/ICOTS7/Proceedings/PDFs/InvitedPapers/3I2_BERN.pdf.
  18. ^ Bishop, C.M., Pattern Recognition and Machine Learning, Springer, 2007.
  19. ^ Bas van Frassen, Laws and Symmetry, Oxford University Press, 1989, ISBN 0-19-824860-1.
  20. ^ Wald, Abraham, Statistical Decision Functions, Wiley, 1950.
  21. ^ Bernardo, José M. e Smith, Adrian F.M., Bayesian Theory, John Wiley, 1994, ISBN 0-471-92416-4.
  22. ^ Pfanzagl (1967, 1968)
  23. ^ Davidson et al. (1957)
  24. ^ Stanford Encyclopedia of Philosophy.
  25. ^ (EN) Popper, Karl, The Logic of Scientific Discovery, 2nd, Routledge, 2002 [1959], p. 57, ISBN 0-415-27843-0. (translation of 1935 original, in German).
  26. ^ Bernardo, J. M., Reference Analysis (PDF), in Dey (a cura di), Handbook of Statistics, vol. 25, Amsterdam, Elsevier, 2005, pp. 17–90.

Voci correlate

  Portale Filosofia: accedi alle voci di Wikipedia che trattano di filosofia