El texto que sigue es una traducción defectuosa.Si quieres colaborar con Wikipedia, busca el artículo original y mejora esta traducción.
Copia y pega el siguiente código en la página de discusión del autor de este artículo: {{subst:Aviso mal traducido|Selección de variable}} ~~~~
En aprendizaje de máquina y estadística, selección de característica, también conocida como selección de variable, selección de atributo o selección de subconjunto variable, es el proceso de seleccionar un subconjunto de características pertinentes (variables, predictores) para su uso en construcción de modelos. Las técnicas de selección de la característica son utilizadas por cuatro razones:
Simplificación de modelos con el fin de hacerlas más sencillas de interpretar para los usuarios/investigadores,[1]
Generalización realzada por reducir overfitting[2] (formalmente, reducción de varianza)
La premisa central cuando se utiliza una técnica de selección de características es que el dato contiene muchas redundantes o irrelevantes, y así pueden ser removidas sin incurrir en mucha pérdida de la información. Las características redundantes o irrelevantes son dos nociones distintas, pues una característica relevante puede ser redundante en la presencia de otra característica relevante con la que está fuertemente correlacionada.
Las técnicas de selección de características deben ser distinguidas de la extracción de característica, la cual crea características nuevas a partir de funciones de las características originales, mientras que la selección de característica devuelve un subconjunto de las características. Las técnicas de selección de la característica son a menudo utilizadas en dominios donde hay muchas características y comparativamente pocas muestras (o puntos de dato). Los casos arquetípicos para la aplicación de la selección de característica incluye el análisis de datos de microarrays de ADN y textos escritos, donde hay varios miles de características, y unas cuantas decenas a centenares de muestras.
Introducción
Un algoritmo de selección de características puede ser visto como la combinación de una técnica de búsqueda para proponer nuevos subconjuntos de características, junto con una evaluación mide cuál puntúa los diferentes subconjuntos de características. El algoritmo más sencillo prueba cada subconjunto posible de las características encontrando la que minimiza el índice de error, lo que es una búsqueda exhaustiva del espacio, y es computacionalmente intratable excepto para los conjuntos de característica más pequeños. La elección de la evaluación métrica influye fuertemente en el algoritmo, y son estas evaluaciones métricas las que distinguen entre las tres categorías principales de algoritmos de selección de características: envolturas (wrappers), filtros y métodos embebidos.[3]
Los métodos envolvedores (wrapper methods) utilizan un modelo predictivo para puntuar subconjuntos de característica. Cada subconjunto nuevo suele entrenar un modelo, el cual está probado en un conjunto de resistencia (hold-out set). Contando el número de errores hace en el conjunto de resistencia escogido (el índice de error del modelo) da la puntuación para ese subconjunto. Como los métodos envolvedores, entrena un nuevo modelo para cada subconjunto, es computacionalmente muy intensivo, pero usualmente proporciona el conjunto de características de mejor comportamiento para aquel tipo particular de modelo.
Los métodos de filtrado utilizan una proxy de medida en vez del índice de error para puntuar un subconjunto de características. Esta medida es escogida para sea rápido de computar, mientras todavía est'a capturando la utilidad del conjunto de características. Las medidas comunes incluyen la información mutua, la información mutua puntual, el Coeficiente de correlación de Pearson, inter/intra distancia de clase o las puntuaciones de pruebas de importancia para cada combinación clase/característica. Los filtros son normalmente menos intensivos computacionalmente que los wrappers, pero producen un conjunto de características que no está relacionado con un tipo específico de modelo predictivo. Esta carencia significa que un conjunto de características resultante de un filtro es más general que el conjunto resultante de un wrapper, normalmente dando rendimiento de predicción más bajo que un wrapper. Aun así el conjunto de característica no contiene las suposiciones de un modelo de predicción, y así es más útil para exponer las relaciones entre las características. Muchos filtros proporcionan una característica ranking en vez de un mejor subconjunto de característica explícito, y el punto de corte en el ranking es escogido vía validación cruzada. Los métodos de filtro también han sido utilizados como un paso de preprocesamiento para métodos wrappers, dejando que un wrapper sea utilizado en problemas más grandes.[4][5][6]
Los métodos embebidos son un grupo de técnicas atrapa-todo que realizan selección de características como parte del proceso de construcción del modelo. El ejemplar de esta aproximación es el método LASSO para construir un modelo lineal, el cual penaliza los coeficientes de regresión con una penalidad L1, disminuyendo muchos de ellos a cero. Cualquier característica con coeficiente de regresión diferente de cero es elegido por el algoritmo LASSO. Mejoras al LASSO incluyen Bolasso qué potencia las muestras, y FeaLect que puntúa todas las características basándose en análisis combinatorio de los coeficientes de regresión. Otra aproximación popular es el algoritmo de Eliminación de Característica Recursivo, generalmente utilizado con Máquinas de Soporte Vectorial para repetidamente construir un modelo y sacar características con pesos bajos. Estas aproximaciones tienden aser entre filtros y wrappers en términos de complejidad computacional.[7][8]
En estadística tradicional, la forma más popular de seleccionar características es la regresión paso a paso, que es un técnica de wrapper. Es un algoritmo greedy que añade la mejor característica (o elimina la peor) en cada ronda. El problema principal de control es decidir cuándo parar el algoritmo. En aprendizaje de máquina, esto es típicamente hecho por validación cruz. En estadísticas, algunos criterios están optimizados. Esto se debe al problema inherente de anidación. Métodos más robustos han sido explorados, como ramificación y poda y red lineal por partes.
Selección de subconjunto
La selección de subconjuntos evalúa un subconjunto de características como un grupo por conveniencia. Los algoritmos de selección del subconjunto pueden ser separados en Wrappers, Filtros y Embebidos. Los wrappers utilizan un algoritmo de búsqueda para buscar a través del espacio de características posibles y evaluar cada subconjunto corriendo un modelo en el subconjunto. Los wrappers pueden ser computacionalmente complejos y tener un riesgo de overfitting para el modelo. Los filtros son similares a los wrappers en la aproximación de búsqueda, pero en vez de evaluar contra un modelo, evalúa un filtro más sencillo. Las técnicas embebidas son embebidas para un modelo específico.
Muchos aproximaciones de búsqueda populares utilizan escalada de cerrocodicioso, el cual de manera iterativa evalúa un subconjunto de candidato de características, entonces modifica el subconjunto y evalúa si el subconjunto nuevo es una mejora sobre el viejo. La evaluación de los subconjuntos requiere una puntuado métrico que mide un subconjunto de características. La búsqueda exhaustiva es generalmente poco práctica, por lo que si algún implementador (u operador) define un punto de parada, el subconjunto de características con la puntuación más alta descubierta hasta el momento es seleccionado como el subconjunto de característica satisfactorio. El criterio de parada varía para cada algoritmo; los criterios posibles incluyen: una puntuación de subconjunto supera un umbral, el máximo permitido de tiempo de ejecución del programa fue superado, etc.
Las técnicas de búsqueda alternativas están basadas en la búsqueda de proyección de un objetivo que encuentra proyecciones de baja dimensión del dato con mayor puntuación: las características que tiene las proyecciones más grandes en el espacio de menor dimensión son las elegidas.
Dos métricas de filtros populares para problemas de clasificación son correlación e información mutua, a pesar de que tampoco es son métricas exactas o 'medidas de distancia' en el sentido matemático, como fallan para cumplir la desigualdad triangular y así no computar cualquier 'distancia' real – tendrían que ser considerados 'puntuaciones'. Estas puntuaciones están computadas entre un candidato a característica (o conjunto de características) y la categoría de producción deseada. Aun así, hay ciertas métricas que son simplemente una función de la información mutua; ve aquí.[16]
El criterio de elección de optimalidad es difícil cuando hay objetivos múltiples en una tarea de selección de características. Muchos de los similares incorporan una medida de exactitud, penalizada por el número de características seleccionadas (ej. el Criterio de información bayesiano). El más viejo es el Cp de Mallows estadístico y criterio de información de Akaike (AIC). Estos añaden variables si el t-statidístico es más grande que
Aprendizaje de estructura
Selección de característica del filtro es un caso concreto de un paradigma más general llamada Aprendizaje de Estructura. La selección de características encuentra para característica específica una variable de objetivo concreta mientras que aprendizaje de estructura encuentra las relaciones entre todas las variables, normalmente expresando estas relaciones como un grafo. Los algoritmos más comunes de aprendizaje de estructura suponen que el dato está generado por una Red bayesiana, por lo que la estructura es un modelo de un grafodirigido. La solución óptima al problema de selección de característica de filtro es la Manta de Markov del nodo objetivo, y en una Red bayesiana, hay un Manta de Markov única para cada nodo.[17]
Árboles regularizados
Las características de un árbol de decisión o un árbol ensamblado han demostrado ser redundantes. Un método reciente llamado árbol regularizado puede ser utilizado para la selección del subconjunto de características.[18] Los árboles regularizados penalizan usando una variable similar a las variables seleccionadas en nodos de previos del árbol separando el nodo actual. Árboles regularizados solo necesitan construir un modelo de árbol (o un árbol ensemble modelo) y así éste es computacionalmente eficaz.
Visión general en metaheuristics métodos
Un metaheurística es una descripción general de un algoritmo dedicado a solucionar difíciles (típicamente problemas NP-duros) problemas de optimización para los que no hay soluciones clásicas. Generalmente, un metaheurística es un algoritmo estocástico que tiende a encontrar un óptimo global.
Principios principales
Los métodos de selección de la característica son típicamente presentados en tres clases basados en cómo combinan el algoritmo de selección y la construcción del modelo.
Método de filtro
Los tipos de métodos de filtro seleccionan variables a toda costa del modelo. Están basados sólo en características generales como la correlación con la variable a pronosticar. Los métodos de filtro suprimen las variables menos interesantes. Las otras variables serán parte de una clasificación o un modelo de regresión usado para clasificar o para pronosticar datos. Estos métodos son particularmente eficaces en y resistentes al overfitting.[19]
Sin embargo, los métodos de filtrado tienden a seleccionar variables redundantes porque no consideran las relaciones entre variables. Por tanto, son principalmente utilizados como método de preprocesamiento.
Método Wrapper
Los métodos wrapper evalúan subconjuntos de variables que lo permiten, aproximaciones de filtro diferente, para detectar las interacciones posibles entre variables. Las dos desventajas principales de estos métodos son :[20]
El riesgo creciente de overfitting cuando el número de observaciones es insuficiente.
El tiempo de computación significativo cuándo el número de variables es grande.
Métodos embebidos
Los métodos embebidos han sido recientemente propuestos para intentar combinar las ventajas de los métodos anteriores. Un algoritmo de aprendizaje aprovecha su proceso de selección variable propio y realiza la selección de selección y clasificación simultáneamente.
Aplicación de selección de característica metaheuristics
Esto es una encuesta de la aplicación de las metaheurísticas de selección de característica utilizados recientemente en la literatura. Esta encuesta fue realizada por J. Hammon en su tesis.
Submodular Selección de característica[43][44][45]
Aprendizaje local basado en selección de características. Comparado con métodos tradicionales, no implica cualquier búsqueda heurística, puede fácilmente controlar problemas multi-clase, y trabaja paraproblemas lineales y no lineales . Está apoyado por una fundación teórica fuerte. Los experimentos numéricos mostraron que el método puede conseguir una solución cercana al óptimo incluso cuándo el dato contiene >1M características irrelevantes.[46]
↑Forman, George (2003). «An extensive empirical study of feature selection metrics for text classification». Journal of Machine Learning Research3: 1289-1305.
↑F.C. Garcia-Lopez, M. Garcia-Torres, B. Melian, J.A. Moreno-Perez, J.M. Moreno-Vega. Solving feature subset selection problem by a Parallel Scatter Search, European Journal of Operational Research, vol. 169, no. 2, pp. 477–489, 2006.
↑F.C. Garcia-Lopez, M. Garcia-Torres, B. Melian, J.A. Moreno-Perez, J.M. Moreno-Vega. Solving Feature Subset Selection Problem by a Hybrid Metaheuristic. In First International Workshop on Hybrid Metaheuristics, pp. 59–68, 2004.
↑M. Garcia-Torres, F. Gomez-Vela, B. Melian, J.M. Moreno-Vega. High-dimensional feature selection via feature grouping: A Variable Neighborhood Search approach, Information Sciences, vol. 326, pp. 102-118, 2016.
↑Alexander Kraskov, Harald Stögbauer, Ralph G. Andrzejak, and Peter Grassberger, "Hierarchical Clustering Based on Mutual Information", (2003) ArXiv q-bio/0311039
↑T. M. Phuong, Z. Lin et R. B. Altman. Choosing SNPs using feature selection.Archivado el 13 de septiembre de 2016 en Wayback Machine. Proceedings / IEEE Computational Systems Bioinformatics Conference, CSB. IEEE Computational Systems Bioinformatics Conference, pages 301-309, 2005. PubMed.
↑Shah, S. C.; Kusiak, A. (2004). «Data mining and genetic algorithm based gene/SNP selection». Artificial intelligence in medicine31 (3): 183-196. PMID15302085. doi:10.1016/j.artmed.2004.04.002.
↑Long, N.; Gianola, D.; Weigel, K. A (2011). «Dimension reduction and variable selection for genomic selection : application to predicting milk yield in Holsteins». Journal of Animal Breeding and Genetics128 (4): 247-257. doi:10.1111/j.1439-0388.2011.00917.x.
↑G. Ustunkar, S. Ozogur-Akyuz, G. W. Weber, C. M. Friedrich et Yesim Aydin Son. Selection of representative SNP sets for genome-wide association studies : a metaheuristic approach. Optimization Letters, November 2011.
↑R. Meiri et J. Zahavi. Using simulated annealing to optimize the feature selection problem in marketing applications. European Journal of Operational Research, vol. 171, no. 3, pages 842-858, Juin 2006
↑G. Kapetanios. Variable Selection using Non-Standard Optimisation of Information Criteria. Working Paper 533, Queen Mary, University of London, School of Economics and Finance, 2005.
↑D. Broadhurst, R. Goodacre, A. Jones, J. J. Rowland et D. B. Kell. Genetic algorithms as a method for variable selection in multiple linear regression and partial least squares regression, with applications to pyrolysis mass spectrometry. Analytica Chimica Acta, vol. 348, no. 1-3, pages 71-86, August 1997.
↑Chuang, L.-Y.; Yang, C.-H. (2009). «Tabu search and binary particle swarm optimization for feature selection using microarray data». Journal of computational biology16 (12): 1689-1703. PMID20047491. doi:10.1089/cmb.2007.0211.
↑C. Hans, A. Dobra et M. West. Shotgun stochastic search for 'large p' regression. Journal of the American Statistical Association, 2007.
↑Aitken, S. (2005). «Feature selection and classification for microarray data analysis : Evolutionary methods for identifying predictive genes». BMC Bioinformatics6 (1): 148. doi:10.1186/1471-2105-6-148.
↑Oh, I. S.; Moon, B. R. (2004). «Hybrid genetic algorithms for feature selection». IEEE Transactions on Pattern Analysis and Machine Intelligence26 (11): 1424-1437. doi:10.1109/tpami.2004.105.
↑Xuan, P.; Guo, M. Z.; Wang, J.; Liu, X. Y.; Liu, Y. (2011). «Genetic algorithm-based efficient feature selection for classification of pre-miRNAs». Genetics and Molecular Research10 (2): 588-603. PMID21491369. doi:10.4238/vol10-2gmr969.
↑Peng, S. (2003). «Molecular classification of cancer types from microarray data using the combination of genetic algorithms and support vector machines». FEBS Letters555 (2): 358-362. doi:10.1016/s0014-5793(03)01275-4.
↑J. C. H. Hernandez, B. Duval et J.-K. Hao. A genetic embedded approach for gene selection and classification of microarray data. In Proceedings of the 5th European conference on Evolutionary computation, machine learning and data mining in bioinformatics, EvoBIO'07, pages 90-101, Berlin, Heidelberg, 2007. SpringerVerlag.
↑E. B. Huerta, B. Duval et J.-K. Hao. A hybrid GA/SVM approach for gene selection and classification of microarray data. evoworkshops 2006, LNCS, vol. 3907, pages 34-44, 2006.
↑D. P. Muni, N. R. Pal et J. Das. Genetic programming for simultaneous feature selection and classifier design. IEEE Transactions on Systems, Man, and Cybernetics, Part B : Cybernetics, vol. 36, no. 1, pages 106-117, February 2006.
↑L. Jourdan, C. Dhaenens et E.-G. Talbi. Linkage disequilibrium study with a parallel adaptive GA. International Journal of Foundations of Computer Science, 2004.