Entrenament i validació de conjunts de dades![]() En l'aprenentatge automàtic, una tasca habitual és l'estudi i la construcció d'algorismes que puguin aprendre i fer prediccions sobre les dades.[1] Aquests algorismes funcionen fent prediccions o decisions basades en dades,[2] mitjançant la construcció d'un model matemàtic a partir de dades d'entrada. Aquestes dades d'entrada que s'utilitzen per construir el model solen dividir-se en diversos conjunts de dades. En particular, s'utilitzen habitualment tres conjunts de dades en diferents etapes de la creació del model: formació, validació i conjunts de proves. El model s'ajusta inicialment a un conjunt de dades d'entrenament,[3] que és un conjunt d'exemples utilitzats per ajustar els paràmetres (per exemple, els pesos de les connexions entre neurones en xarxes neuronals artificials) del model.[4] El model (per exemple, un classificador Bayes ingenu) s'entrena en el conjunt de dades d'entrenament mitjançant un mètode d'aprenentatge supervisat, per exemple utilitzant mètodes d'optimització com ara el descens del gradient o el descens del gradient estocàstic. A la pràctica, el conjunt de dades d'entrenament sovint consta de parells d'un vector d'entrada (o escalar) i el vector de sortida corresponent (o escalar), on la clau de resposta es denota habitualment com a objectiu (o etiqueta). El model actual s'executa amb el conjunt de dades d'entrenament i produeix un resultat, que després es compara amb l' objectiu, per a cada vector d'entrada del conjunt de dades d'entrenament. A partir del resultat de la comparació i de l'algorisme d'aprenentatge específic que s'utilitza, s'ajusten els paràmetres del model. L'ajustament del model pot incloure tant la selecció de variables com l'estimació de paràmetres. ![]() Successivament, el model ajustat s'utilitza per predir les respostes de les observacions en un segon conjunt de dades anomenat conjunt de dades de validació.[5] El conjunt de dades de validació proporciona una avaluació imparcial de l'ajust d'un model al conjunt de dades d'entrenament mentre s'ajusten els hiperparàmetres del model [6] (per exemple, el nombre d'unitats ocultes (capes i amplades de capes) en una xarxa neuronal [7]). Els conjunts de dades de validació es poden utilitzar per a la regularització mitjançant una aturada anticipada (aturant l'entrenament quan augmenta l'error del conjunt de dades de validació, ja que això és un signe d'adaptació excessiva al conjunt de dades d'entrenament).[8] Aquest procediment senzill es complica a la pràctica pel fet que l'error del conjunt de dades de validació pot fluctuar durant l'entrenament, produint múltiples mínims locals. Aquesta complicació ha portat a la creació de moltes regles ad-hoc per decidir quan ha començat realment el sobreajustament.[8] Referències
|
Portal di Ensiklopedia Dunia