Factorización no negativa de matrices

Ilustración de una factorización no negativa matricial aproximada: la matriz V está representado por las dos matrices más pequeñas W y H, las cuales, cuándo se multiplican, aproximadamente reconstruyen V.

Factorización matricial no negativa (NMF o NNMF), también aproximación matricial no negativa,[1]​ es un grupo de algoritmos en análisis multivariante y álgebra lineal donde una matriz V se factoriza en (habitualmente) dos matrices W y H, con la propiedad de que las tres matrices no tienen elementos negativos. Esta no negatividad hace que las matrices resultantes sean más fáciles de inspeccionar. Además, en aplicaciones tales como el procesamiento de espectrogramas de audio o actividad muscular, la no negatividad es inherente a los datos que se consideran. Dado que el problema en general no se puede resolver exactamente, comúnmente se aproxima numéricamente.

NMF encuentra aplicaciones en campos tales como visión por computadora, agrupación de documentos, quimiometría, procesamiento de señal de audio y sistemas de recomendación.

Historia

En quimiometría, la factorización matricial no negativa tiene un largo historial bajo el nombre de "resolución de curva de auto modelado". En este marco, los vectores en la matriz derecha son curvas continuas en lugar de vectores discretos. Un grupo de investigadores finlandeses realizaron a mediados de la década de 1990 un trabajo temprano sobre factorizaciones de matrices no negativas bajo el nombre de factorización de matriz positiva. Se hizo más conocido como factorización nonegativa de matrices después de que Lee y Seung investigaron las propiedades del algoritmo y publicaron algunos algoritmos simples y útiles para dos tipos de factorizaciones.

Bases

Sea la matriz V el producto de las matrices W y H,

La multiplicación de matrices se puede implementar computando los vectores columnas de V como combinaciones lineales de los vectores columnas en W usando coeficientes proporcionados por columnas de H. Es decir, cada columna de V se puede calcular de la siguiente manera:

donde vi es el i-ésimo vector columna de la matriz producto V y hi es el i-ésimo vector columna de la matriz H.

Cuando se multiplican matrices, las dimensiones de las matrices de factores pueden ser significativamente más pequeñas que las de la matriz producto y es esta propiedad la que forma la base de NMF. NMF genera factores con dimensiones significativamente reducidas en comparación con la matriz original. Por ejemplo, si V es una matriz m × n, W es una matriz m × p, y H es una matriz p × n, entonces p puede ser significativamente menor que m y n. .

Este es un ejemplo basado en una aplicación de minería de texto:

  • Tenemos que la matriz de entrada (la matriz a factorizar) sea V con 10000 filas y 500 columnas donde las palabras están en las filas y los documentos están en las columnas. Es decir, tenemos 500 documentos indexados por 10000 palabras. Esto significa que un vector columna v en V representa un documento.
  • Supongamos que pedimos al algoritmo que encuentre 10 características para generar una matriz de características W con 10000 filas y 10 columnas y una matriz de coeficientes H con 10 filas y 500 columnas.
  • El producto de W y H es una matriz con 10000 filas y 500 columnas, la misma forma que la matriz de entrada V y, si la factorización funcionó, es una aproximación razonable a la matriz de entrada V.
  • Del tratamiento de la multiplicación matricial anterior, se destaca que cada columna en la matriz de productos WH es una combinación lineal de los 10 vectores columnas en la matriz de características W con coeficientes suministrados por la matriz de coeficientes H.

Este último punto es la base de NMF porque podemos considerar cada documento original en nuestro ejemplo como construido a partir de un pequeño conjunto de características ocultas. NMF genera estas características.

Es útil pensar en cada característica (vector columna) en la matriz de características W como un arquetipo de documento que comprende un conjunto de palabras en el que el valor de la celda de cada palabra define el rango de la palabra en la característica: cuanto mayor sea el valor de la celda de una palabra mayor será el rango de la palabra en la característica. Una columna en la matriz de coeficientes H representa un documento original con un valor de celda que define el rango del documento para una característica. Ahora podemos reconstruir un documento (vector columna) de nuestra matriz de entrada mediante una combinación lineal de nuestras características (vectores columnas en W) donde cada característica se ponderará por el valor de la celda de característica de la columna del documento en H.

Propiedad de agrupamiento(clúster)

NMF tiene una propiedad inherente de agrupamiento,[11] es decir, agrupa automáticamente las columnas de datos de entrada .Es esta propiedad la que impulsa la mayoría de las aplicaciones de NMF.

Más específicamente, la aproximación de por se logra minimizando la función de error sujeto a

Además, el computado proporciona el indicador de grupo, es decir ,si , el hecho de que pertenezca al grupo . Y el computado proporciona el centroide del grupo, es decir, las columnas proporcionan el centroide del grupo de cluster. Esta representación del centroide se puede mejorar significativamente con NMF convexa.

Cuando la ortogonalidad no se impone explícitamente, la ortogonalidad se mantiene en gran medida, y la propiedad de agrupación también se mantiene. La agrupación en grupos (clúster) es el objetivo principal de la mayoría de las aplicaciones de minería de datos de NMF.

Cuando la función de error que se utilizará es la divergencia Kullback-Leibler, NMF es idéntica al análisis semántico latente probabilístico, un método popular de agrupación de documentos.[2]

Tipos

Aproximada factorización no negativa de matrices

Habitualmente, en NMF se selecciona el número de columnas de W y el número de filas de H, de modo que el producto WH se convertirá en una aproximación a V. La descomposición completa de V entonces equivale a las dos matrices no negativas W y H, así como a una matriz U residual, tal que: V = WH + U. Los elementos de la matriz residual pueden ser negativos o positivos.

Cuando W y H son más pequeños que V, se vuelven más fáciles de almacenar y manipular. Otra razón para factorizar V en matrices más pequeñas W y H es que si se pueden representar aproximadamente los elementos de V con datos significativamente menores, entonces se debe inferir alguna estructura latente en los datos.

Factorización convexa no negativa de matrices

En la NMF estándar, la matriz factor W ∈ ℝ+m × k, es decir, W puede ser cualquier cosa en ese espacio. La NMF convexa[3]​ restringe las columnas de W a combinaciones convexas de los vectores de datos de entrada . Esto mejora en muy alto grado la calidad de la representación de W. Es más, la matriz factor H resultante es más dispersa y ortogonal.

Factorización de rango no negativa

En caso de que el rango no negativo de V sea igual a su rango real, V = WH se denomina factorización de rango no negativo.[4][5][6]​ El problema de encontrar la NRF de V, si existe, se sabe que es NP-duro.[7]

Diferentes funciones de costo y regularizaciones

Existen diferentes tipos de factorizaciones no negativas de matrices. Los diferentes tipos surgen del uso de diferentes funciones de costo para medir la divergencia entre V y WH y posiblemente mediante la regularización de las matrices W y/o H.[8]

Dos simples funciones de divergencia estudiadas por Lee y Seung son el error cuadrado (o norma Frobenius) y una extensión de la divergencia Kullback-Leibler a matrices positivas (la divergencia Kullback-Leibler original se define en las distribuciones de probabilidad). Cada divergencia conduce a un algoritmo de NMF diferente, por lo general minimizando la divergencia usando reglas de actualización iterativa.

El problema de factorización en la versión de error cuadrado de NMF puede establecerse como: Dado una matriz V, encuentre matrices no negativas W y H que minimicen la función

Otro tipo de NMF para las imágenes se basa en la norma de variación total.[9]

Cuando se agrega L1 regularización (similar a Lasso) a NMF con la función de costo de error cuadrático medio, el problema resultante se puede llamar codificación dispersa no negativa debido a la similitud con el problema de codificación dispersa,[10][11]​ aunque también se conoce como NMF.[12]

NMF en línea

Muchos algoritmos de NMF estándar analizan todos los datos juntos; es decir, toda la matriz está disponible desde el principio. Esto puede ser insatisfactorio en aplicaciones en las que hay demasiados datos para caber en la memoria o donde los datos se proporcionan de forma continua. Uno de estos usos es el filtrado colaborativo en los sistemas de recomendación, donde puede haber muchos usuarios y muchos artículos para recomendar, y sería ineficiente volver a calcular todo cuando se agrega al sistema un usuario o un elemento. La función de costo para la optimización en estos casos puede o no ser la misma que para el NMF estándar, pero los algoritmos necesitan ser bastante diferentes.[13][14][15]

Algoritmos

Hay varias formas en que se puede encontrar W y H: la regla de actualización multiplicativa de Lee y Seung ha sido un método popular debido a la simplicidad de implementación. Este algoritmo es:

Inicializa: <W and H no negativo.
Luego actualizar los valores en W y H computando alternativamente:
and

Hasta que W y H sean estables. Tenga en cuenta que las actualizaciones se realizan de elemento en elemento, no de una multiplicación matricial.

Observamos que el factor multiplicativo W y H es la matriz identidad cuando V = W H.

Desde entonces, se han desarrollado algunos otros enfoques algorítmicos. Algunos algoritmos exitosos se basan en alternar mínimos cuadrados no negativos : en cada paso de dicho algoritmo, primero H se fija y W se encuentra mediante un solucionador de mínimos cuadrados no negativo, entonces W se fija y H se encuentra de manera análoga. Los procedimientos utilizados para resolver W y H pueden ser los mismos o diferentes, ya que algunas variantes de NMF regularizan una de las dos matrices W y H. Los enfoques específicos incluyen los métodos de descenso de gradiente proyectados,[16][17]​ el método de conjunto activo,[18]​ el método de gradiente óptimo,[19]​ y el método de pivote principal del bloque[20]​ entre varios otros.[21]

Los algoritmos actualmente disponibles son subóptimos ya que solo pueden garantizar la búsqueda de un mínimo local, en lugar de un mínimo global de la función de costo. Un algoritmo probablemente óptimo es improbable en el futuro cercano ya que se ha demostrado que el problema generaliza el problema de la agrupación k-means que se conoce como NP-completo.[22]​ Sin embargo, como en muchas otras aplicaciones de minería de datos, un mínimo local aún puede resultar útil.

Exacto NMF

Se pueden esperar soluciones exactas para las variantes de NMF (en tiempo polinomial) cuando existen restricciones adicionales para la matriz V. Un algoritmo de tiempo polinomial para resolver factorización de rango no negativo si V contiene una sub-matriz monomérica de rango igual a su rango fue dada por Campbell y Poole en 1981.[23]​ Kalofolias y Gallopoulos (2012)[24]​ resolvieron la contraparte simétrica de este problema, donde V es simétrico y contiene una sub-matriz de diagonal principal de rango r. Su algoritmo se ejecuta en tiempo O (rm ^ 2) en el caso denso. Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu y Zhu (2013) dan un algoritmo de tiempo polinomial para NMF exacta que funciona para el caso donde uno de los factores W satisface la condición de separabilidad.[25]

Relación con otras técnicas

En Learning the parts of objects para factorización no negativa de matrices, Lee y Seung[26]​ propusieron NMF principalmente para la descomposición de imágenes basada en partes. Esto compara la NMF con la cuantificación vectorial y el análisis de componentes principales, y muestra que aunque las tres técnicas pueden escribirse como factorizaciones, implementan diferentes restricciones y, por lo tanto, producen resultados diferentes.

NMF como modelo gráfico probabilístico: las unidades visibles (V) se conectan a unidades ocultas (H) a través de los pesos W, de modo que V se genera a partir de una distribución de probabilidad con media.:5

Más tarde se demostró que algunos tipos de NMF son una instancia de un modelo probabilístico más general llamado "PCA multinomial".[27]​ Cuando se obtiene NMF minimizando la divergencia Kullback-Leibler, es de hecho equivalente a otra instancia de PCA multinomial, análisis semántico latente probabilístico,[28]​ entrenado por estimación de máxima verosimilitud. Ese método se usa comúnmente para analizar y agrupar datos textuales y también está relacionado con el modelo de clase latente.

NMF con el objetivo de mínimos cuadrados es equivalente a una forma relajada de K-means clustering: la matriz factor W contiene los centroides del grupo y H contiene los indicadores de pertenencia al grupo.[29][30]​ Esto proporciona una base teórica para usar NMF para la agrupación de datos. Sin embargo, k-means no impone la no negatividad en sus centroides, por lo que la analogía más cercana es en realidad con "semi-NMF".

La NMF puede verse como un modelo gráfico dirigido de dos capas con una capa de variables aleatorias observadas y una capa de variables aleatorias ocultas.[31]

NMF se extiende más allá de las matrices a tensores de orden arbitrario.[32][33][34]​ Esta extensión puede verse como una contraparte no negativa para, por ejemplo, el modelo PARAFAC

Otras extensiones de NMF incluyen factorización conjunta de varias matrices de datos y tensores donde se comparten algunos factores. Dichos modelos son útiles para la fusión del sensor y el aprendizaje relacional.[35]

NMF es una instancia de programación cuadrática no negativa (NQP), al igual que la máquina de vectores de soporte (SVM). Sin embargo, SVM y NMF están relacionados a un nivel más íntimo que el de NQP, lo que permite la aplicación directa de los algoritmos de solución desarrollados para cualquiera de los dos métodos a problemas en ambos dominios.[36]

Unicidad

La factorización no es única: una matriz y su inversa pueden usarse para transformar las dos matrices de factorización por, por ejemplo,[37]

Si las dos matrices nuevas

La no negatividad de

Se obtiene un mayor control sobre la no singularidad de NMF con restricciones de esparcidad.[38]

Aplicaciones

Extracción de textos

NMF se puede usar para aplicaciones de minería de texto. En este proceso, se construye una matriz de términos de documentos con los pesos de varios términos (típicamente información de frecuencia de palabras ponderadas) de un conjunto de documentos. Esta matriz se factoriza en una función de término y una matriz de documento de características. Las características se derivan del contenido de los documentos, y la matriz del documento de características describe grupos de datos de documentos relacionados.

Una aplicación específica utilizó NMF jerárquica en un pequeño subconjunto de resúmenes científicos de PubMed.[39]​ Otro grupo de investigación agrupó partes del conjunto de datos de correo electrónico de Enron[40]​ con 65,033 mensajes y 91,133 términos en 50 grupos.[41]​ NMF también se ha aplicado a los datos de citas, con un ejemplo agrupando los artículos de Wikipedia en inglés y las revistas científicas basadas en las citas científicas salientes en Wikipedia en inglés.[42]

Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu y Zhu (2013) han dado algoritmos de tiempo polinomial para aprender modelos de temas utilizando NMF. El algoritmo asume que la matriz del tema satisface una condición de separabilidad que a menudo se encuentra en esta configuración.

Análisis de datos espectrales

NMF también se usa para analizar datos espectrales; uno de esos usos está en la clasificación de los objetos dispersos y los desechos.[43]

Predicción de distancia escalable de Internet

NMF se aplica en la predicción de distancia escalable de Internet (tiempo de ida y vuelta). Para una red con hosts . Este tipo de método se introdujo en primer lugar en el Servicio de Estimación de Distancia de Internet (IDES).[44]​ Posteriormente, como un enfoque totalmente descentralizado, se propone el sistema de coordenadas de la red Phoenix.[45]​ Este alcanza una mejor precisión de predicción global introduciendo el concepto de peso.

Eliminación de ruido del habla no estacionaria

El ruido de voz ha sido un problema de larga duración en el procesamiento de la señal de audio. Hay muchos algoritmos para eliminar ruido si el ruido es estacionario. Por ejemplo, el filtro Wiener es adecuado para el ruido Gaussiano aditivo. Sin embargo, si el ruido no es estacionario, los algoritmos de eliminación de ruido clásicos generalmente tienen un rendimiento bajo porque la información estadística del ruido no estacionario es difícil de estimar. Schmidt y col.[46]​ usan NMF para hacer ruido de voz bajo ruido no estacionario, que es completamente diferente de los enfoques estadísticos clásicos. La idea clave es que la señal de voz limpia puede estar escasamente representada por un diccionario de voz, pero el ruido no estacionario no puede. De manera similar, el ruido no estacionario también puede estar escasamente representado por un diccionario de ruido, pero el habla no puede.

El algoritmo para la eliminación de NMF es el siguiente. Dos diccionarios, uno para discurso y uno para ruido, deben ser entrenados sin conexión. Una vez que se da un discurso ruidoso, primero calculamos la magnitud de la Transformada de Fourier de Corto Tiempo. En segundo lugar, sepárelo en dos partes a través de NMF, uno puede ser escasamente representado por el diccionario de voz, y la otra parte puede ser escasamente representado por el diccionario de ruido. Tercero, la parte que está representada por el diccionario de habla será el discurso limpio estimado.

Bioinformática

La NMF se aplicó con éxito en bioinformática para agrupar la expresión génica y los datos de metilación del ADN y encontrar los genes más representativos de los grupos.[47][48][49]​ En el análisis de las mutaciones del cáncer se ha utilizado para identificar patrones comunes de mutaciones que ocurren en muchos tipos de cáncer y que probablemente tengan causas distintas.[50]

Imágenes nucleares

La NMF, también referida en este campo como análisis factorial, se ha utilizado desde los años 80[51]​ para analizar secuencias de imágenes en imágenes médicas dinámicas SPECT y PET. La no-singularidad de NMF fue abordada usando limitaciones de dispersidad.[52]

Búsqueda actual

La investigación actual (desde 2010) en factorización no negativa de matrices incluye, pero no se limita a,

  1. Algorítmico: búsqueda de mínimos globales de los factores y la inicialización de factores.[53]
  2. Escalabilidad: cómo factorizar las matrices de millones de mil millones, que son comunes en la minería de datos a escala Web, por ejemplo, ver Factorización de matriz no negativa distribuida (DNMF)[54]​ y Factorización no negativa de matrices escalables (ScalableNMF)[55]
  3. En línea: cómo actualizar la factorización cuando entran nuevos datos sin recompilar desde cero, por ejemplo, consulte CNSC en línea[56]
  4. Facturación colectiva (conjunta): factorización de múltiples matrices interrelacionadas para el aprendizaje de múltiples vistas, ejemplo mutli-view clustering, ver CoNMF[57]​ y MultiNMF[58]
  5. Problema de Cohen y Rothblum 1993: si una matriz racional siempre tiene una NMF de dimensión interna mínima cuyos factores también son racionales. Recientemente, este problema ha sido respondido negativamente.[59]

Véase también

Referencias

  1. Tandon, Rashish; Suvrit Sra (2010). Sparse nonnegative matrix approximation: new formulations and algorithms. TR. 
  2. C Ding, T Li, W Peng, " On the equivalence between non-negative matrix factorization and probabilistic latent semantic indexing" Archivado el 4 de marzo de 2016 en Wayback Machine. Computational Statistics & Data Analysis 52, 3913-3927
  3. C Ding, T Li, MI Jordan, Convex and semi-nonnegative matrix factorizations, IEEE Transactions on Pattern Analysis and Machine Intelligence, 32, 45-55, 2010
  4. Berman, A.; R.J. Plemmons (1974). «Inverses of nonnegative matrices». Linear and Multilinear Algebra 2 (2): 161-172. doi:10.1080/03081087408817055. 
  5. A. Berman; R.J. Plemmons (1994). Nonnegative matrices in the Mathematical Sciences. Philadelphia: SIAM. 
  6. Thomas, L.B. (1974). «Problem 73-14, Rank factorization of nonnegative matrices». SIAM rev. 16 (3): 393-394. doi:10.1137/1016064. 
  7. Vavasis, S.A. (2009). «On the complexity of nonnegative matrix factorization». SIAM J. Optim. 20 (3): 1364-1377. doi:10.1137/070709967. 
  8. Inderjit S. Dhillon; Suvrit Sra (2005). Generalized Nonnegative Matrix Approximations with Bregman Divergences (PDF). NIPS. Archivado desde el original el 7 de agosto de 2011. Consultado el 6 de noviembre de 2017. 
  9. Zhang, T.; Fang, B.; Liu, W.; Tang, Y. Y.; He, G.; Wen, J. (2008). «Total variation norm-based nonnegative matrix factorization for identifying discriminant representation of image patterns». Neurocomputing 71 (10–12): 1824-1831. doi:10.1016/j.neucom.2008.01.022. 
  10. Hoyer, Patrik O. (2002). Non-negative sparse coding. Proc. IEEE Workshop on Neural Networks for Signal Processing. 
  11. Leo Taslaman & Björn Nilsson (2012). «A framework for regularized non-negative matrix factorization, with application to the analysis of gene expression data». PLoS One 7 (11): e46331. Bibcode:2012PLoSO...746331T. PMC 3487913. PMID 23133590. doi:10.1371/journal.pone.0046331. 
  12. Hsieh, C. J.; Dhillon, I. S. (2011). Fast coordinate descent methods with variable selection for non-negative matrix factorization. Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '11. p. 1064. ISBN 9781450308137. doi:10.1145/2020408.2020577. 
  13. http://www.ijcai.org/papers07/Papers/IJCAI07-432.pdf
  14. http://portal.acm.org/citation.cfm?id=1339264.1339709
  15. Naiyang Guan; Dacheng Tao; Zhigang Luo; Bo Yuan (July 2012). «Online Nonnegative Matrix Factorization With Robust Stochastic Approximation». IEEE Transactions on Neural Networks and Learning Systems 23 (7): 1087-1099. PMID 24807135. doi:10.1109/TNNLS.2012.2197827. 
  16. Lin, Chih-Jen (2007). «Projected Gradient Methods for Nonnegative Matrix Factorization». Neural Computation 19 (10): 2756-2779. PMID 17716011. doi:10.1162/neco.2007.19.10.2756. 
  17. Lin, Chih-Jen (2007). «On the Convergence of Multiplicative Update Algorithms for Nonnegative Matrix Factorization». IEEE Transactions on Neural Networks 18 (6): 1589-1596. doi:10.1109/TNN.2007.895831. 
  18. Hyunsoo Kim; Haesun Park (2008). «Nonnegative Matrix Factorization Based on Alternating Nonnegativity Constrained Least Squares and Active Set Method». SIAM Journal on Matrix Analysis and Applications 30 (2): 713-730. doi:10.1137/07069239x. 
  19. Naiyang Guan; Dacheng Tao; Zhigang Luo, Bo Yuan (June 2012). «NeNMF: An Optimal Gradient Method for Nonnegative Matrix Factorization». IEEE Transactions on Signal Processing 60 (6): 2882-2898. doi:10.1109/TSP.2012.2190406. 
  20. Jingu Kim & Haesun Park (2011). «Fast Nonnegative Matrix Factorization: An Active-set-like Method and Comparisons». SIAM Journal on Scientific Computing 58 (6): 3261-3281. doi:10.1137/110821172.  (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
  21. Jingu Kim; Yunlong He & Haesun Park (2013). «Algorithms for nonnegative matrix and tensor factorizations: A unified view based on block coordinate descent framework». Journal of Global Optimization 33 (2): 285-319. doi:10.1007/s10898-013-0035-4. 
  22. Ding, C.; He, X.; Simon, H.D. (2005). «On the equivalence of nonnegative matrix factorization and spectral clustering». Proc. SIAM Data Mining Conf 4: 606-610. ISBN 978-0-89871-593-4. doi:10.1137/1.9781611972757.70. 
  23. Campbell, S.L.; G.D. Poole (1981). «Computing nonnegative rank factorizations.». Linear Algebra Appl. 35: 175-182. doi:10.1016/0024-3795(81)90272-x. 
  24. Kalofolias, V.; Gallopoulos, E. (2012). «Computing symmetric nonnegative rank factorizations». Linear Algebra Appl 436 (2): 421-435. doi:10.1016/j.laa.2011.03.016. 
  25. Arora, Sanjeev; Ge, Rong; Halpern, Yoni; Mimno, David; Moitra, Ankur; Sontag, David; Wu, Yichen; Zhu, Michael (2013). A practical algorithm for topic modeling with provable guarantees. Proceedings of the 30th International Conference on Machine Learning. arXiv:1212.4777. 
  26. Lee, Daniel D and Seung, H Sebastian (1999). «Learning the parts of objects by non-negative matrix factorization». Nature 401: 788-791. doi:10.1038/44565. Archivado desde el original el 18 de septiembre de 2017. Consultado el 6 de noviembre de 2017. 
  27. Wray Buntine (2002). Variational Extensions to EM and Multinomial PCA (PDF). Proc. European Conference on Machine Learning (ECML-02). LNAI 2430. pp. 23-34. 
  28. Eric Gaussier & Cyril Goutte (2005). Relation between PLSA and NMF and Implications (PDF). Proc. 28th international ACM SIGIR conference on Research and development in information retrieval (SIGIR-05). pp. 601-602. Archivado desde el original el 28 de septiembre de 2007. 
  29. C. Ding, X. He, H.D. Simon (2005). "On the Equivalence of Nonnegative Matrix Factorization and Spectral Clustering". Proc. SIAM Int'l Conf. Data Mining, pp. 606-610. May 2005
  30. Ron Zass and Amnon Shashua (2005). "A Unifying Approach to Hard and Probabilistic Clustering". International Conference on Computer Vision (ICCV) Beijing, China, Oct., 2005.
  31. Max Welling (2004). Exponential Family Harmoniums with an Application to Information Retrieval. NIPS. 
  32. Pentti Paatero (1999). «The Multilinear Engine: A Table-Driven, Least Squares Program for Solving Multilinear Problems, including the n-Way Parallel Factor Analysis Model». Journal of Computational and Graphical Statistics 8 (4): 854-888. JSTOR 1390831. doi:10.2307/1390831. 
  33. Max Welling & Markus Weber (2001). «Positive Tensor Factorization». Pattern Recognition Letters 22 (12): 1255-1261. doi:10.1016/S0167-8655(01)00070-8. 
  34. Jingu Kim & Haesun Park (2012). Fast Nonnegative Tensor Factorization with an Active-set-like Method. High-Performance Scientific Computing: Algorithms and Applications. Springer. pp. 311-326. 
  35. Kenan Yilmaz; A. Taylan Cemgil; Umut Simsekli (2011). Generalized Coupled Tensor Factorization. NIPS. Archivado desde el original el 6 de marzo de 2012. Consultado el 6 de noviembre de 2017. 
  36. Vamsi K. Potluru; Sergey M. Plis; Morten Morup; Vince D. Calhoun; Terran Lane (2009). Efficient Multiplicative updates for Support Vector Machines. Proceedings of the 2009 SIAM Conference on Data Mining (SDM). pp. 1218-1229. 
  37. Wei Xu; Xin Liu; Yihong Gong (2003). Document clustering based on non-negative matrix factorization. Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval. New York: Association for Computing Machinery. pp. 267-273. 
  38. Julian Eggert, Edgar Körner, "Sparse coding and NMF", Proceedings. 2004 IEEE International Joint Conference on Neural Networks, 2004, pp. 2529-2533, 2004.
  39. Nielsen, Finn Årup; Balslev, Daniela; Hansen, Lars Kai (2005). «Mining the posterior cingulate: segregation between memory and pain components». NeuroImage 27 (3): 520-522. PMID 15946864. doi:10.1016/j.neuroimage.2005.04.034. 
  40. Cohen, William (4 de abril de 2005). «Enron Email Dataset». Consultado el 26 de agosto de 2008. 
  41. Berry, Michael W.; Browne, Murray (2005). «Email Surveillance Using Non-negative Matrix Factorization». Computational and Mathematical Organization Theory 11 (3): 249-264. doi:10.1007/s10588-005-5380-5. 
  42. Finn ̊Arup Nielsen (2008). Clustering of scientific citations in Wikipedia (PDF). Wikimania 2008 (en inglés). Technical University of Denmark. 
  43. Michael W. Berry (2006). Algorithms and Applications for Approximate Nonnegative Matrix Factorization. 
  44. «IDES: An Internet Distance Estimation Service for Large Networks». IEEE Journal on Selected Areas in Communications 24 (12): 2273-2284. 2006. doi:10.1109/JSAC.2006.884026. 
  45. Yang Chen; Xiao Wang; Cong Shi (2011). «Phoenix: A Weight-based Network Coordinate System Using Matrix Factorization» (PDF). IEEE Transactions on Network and Service Management 8 (4): 334-347. doi:10.1109/tnsm.2011.110911.100079. Archivado desde el original el 14 de noviembre de 2011. 
  46. Schmidt, M.N., J. Larsen, and F.T. Hsiao. (2007). "Wind noise reduction using non-negative sparse coding", Machine Learning for Signal Processing, IEEE Workshop on, 431–436
  47. Devarajan, K. (2008). «Nonnegative Matrix Factorization: An Analytical and Interpretive Tool in Computational Biology». PLoS Computational Biology 4 (7): e1000029. doi:10.1371/journal.pcbi.1000029. 
  48. «Sparse non-negative matrix factorizations via alternating non-negativity-constrained least squares for microarray data analysis». Bioinformatics 23 (12): 1495-1502. 2007. PMID 17483501. doi:10.1093/bioinformatics/btm134. 
  49. Schwalbe, E. (2013). «DNA methylation profiling of medulloblastoma allows robust sub-classification and improved outcome prediction using formalin-fixed biopsies». Acta Neuropathologica 125 (3): 359-371. PMC 4313078. PMID 23291781. doi:10.1007/s00401-012-1077-2. 
  50. «Deciphering signatures of mutational processes operative in human cancer». Cell Reports 3 (1): 246-259. 31 de enero de 2013. ISSN 2211-1247. PMC 3588146. PMID 23318258. doi:10.1016/j.celrep.2012.12.008. 
  51. «Handling of dynamic sequences in nuclear medicine». IEEE Trans Nucl Sci. NS-29 (4): 1310-21. 1982. Bibcode:1982ITNS...29.1310D. doi:10.1109/tns.1982.4332188. 
  52. Sitek; Gullberg; Huesman (2002). «Correction for ambiguous solutions in factor analysis using a penalized least squares objective». IEEE Trans Med Imaging 21 (3): 216-25. doi:10.1109/42.996340. 
  53. «SVD based initialization: A head start for nonnegative matrix factorization». Pattern Recognition 41 (4): 1350-1362. 2008. doi:10.1016/j.patcog.2007.09.010. 
  54. «Distributed Nonnegative Matrix Factorization for Web-Scale Dyadic Data Analysis on MapReduce». Proceedings of the 19th International World Wide Web Conference. 2010. 
  55. Jiangtao Yin; Lixin Gao; Zhongfei (Mark) Zhang (2014). «Scalable Nonnegative Matrix Factorization with Block-wise Updates». Proceedings of the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases. 
  56. «Online Non-Negative Convolutive Pattern Learning for Speech Signals». IEEE Transactions on Signal Processing 61: 44-56. 2013. doi:10.1109/tsp.2012.2222381. Archivado desde el original el 19 de abril de 2015. 
  57. Xiangnan He; Min-Yen Kan; Peichu Xie; Xiao Chen (2014). «Comment-based Multi-View Clustering of Web 2.0 Items». Proceedings of the 23rd International World Wide Web Conference. Archivado desde el original el 2 de abril de 2015. 
  58. Jialu Liu; Chi Wang; Jing Gao; Jiawei Han (2013). «Multi-View Clustering via Joint Nonnegative Matrix Factorization». Proceedings of SIAM Data Mining Conference: 252-260. ISBN 978-1-61197-262-7. doi:10.1137/1.9781611972832.28. Archivado desde el original el 4 de marzo de 2016. Consultado el 6 de noviembre de 2017. 
  59. Chistikov, Dmitry; Kiefer, Stefan; Marušić, Ines; Shirmohammadi, Mahsa; Worrell, James (22 de mayo de 2016). «Nonnegative Matrix Factorization Requires Irrationality». arXiv:1605.06848  [cs.CC].