Minimizzazione del rischio empiricoNella teoria dell'apprendimento statistico, la minimizzazione del rischio empirico (in inglese empirical risk minimization, da cui la sigla ERM) è un principio che definisce una famiglia di algoritmi di apprendimento e viene utilizzato per fornire limiti teorici alle loro prestazioni. L'idea centrale è che non è possibile sapere esattamente quanto bene funzionerà un algoritmo nella pratica (il "rischio vero") perché è ignota la vera distribuzione dei dati su cui lavorerà l'algoritmo, ma è invece possibile misurarne le prestazioni su un insieme di dati di addestramento noto (il rischio "empirico"). ContestoIn molti problemi di apprendimento supervisionato, l'impostazione generale prevede due spazi e con l'obiettivo è conoscere una funzione (spesso chiamato ipotesi) che genera un oggetto , dato . Per fare ciò, si utilizza un training set con campioni dove è un input e è la risposta corrispondente da cui desideriamo ottenere . In modo più formale, viene assunta l'esistenza di una distribuzione di probabilità congiunta su e , e che i campioni del training set siano stati estratte in maniera i. i. d. da . Si noti che l'assunzione di una distribuzione di probabilità congiunta consente di modellizzare l'incertezza nelle previsioni (ad esempio dal rumore nei dati) perché non è una funzione deterministica di , ma piuttosto una variabile casuale con distribuzione condizionale per un fisso . Si assuma inoltre di avere una funzione obiettivo a valori reali non negativa che misura quanto sia diversa la previsione di un'ipotesi dal vero risultato Il rischio associato all'ipotesi viene quindi definita come il valore atteso della funzione obiettivo: Una funzione obiettivo comunemente usata in teoria è la funzione 0-1:
L'obiettivo finale di un algoritmo di apprendimento è trovare un'ipotesi tra una classe fissa di funzioni per cui il rischio è minimo: Per problemi di classificazione, il classificatore di Bayes è definito come il classificatore che minimizza il rischio definito con la funzione di perdita 0-1. Minimizzazione del rischio empiricoIn generale, il rischio non può essere calcolato perché la distribuzione è sconosciuto all'algoritmo di apprendimento (questa situazione viene definita apprendimento agnostico). Tuttavia, si calcola un'approssimazione, chiamata rischio empirico, che corrisponde alla media della funzione obiettivo sul training set: Il principio della minimizzazione del rischio empirico[1] afferma che l'algoritmo di apprendimento dovrebbe scegliere un'ipotesi che minimizza il rischio empirico: Pertanto l'algoritmo di apprendimento definito dal principio ERM consiste nella risoluzione del problema di ottimizzazione sopra descritto. ProprietàComplessità computazionaleÈ noto che la minimizzazione del rischio empirico per un problema di classificazione con una funzione 0-1 sia un problema NP-difficile anche per una classe di funzioni relativamente semplice come i classificatori lineari.[2] Tuttavia, può essere risolto in modo efficiente quando il rischio empirico minimo è zero, ovvero i dati sono separabili linearmente. In pratica, gli algoritmi di apprendimento automatico affrontano questo problema utilizzando un'approssimazione convessa alla funzione 0-1 (come la hinge loss per SVM), che è più facile da ottimizzare, o imponendo ipotesi sulla distribuzione . Note
Bibliografia
Voci correlate |