Teorema de aproximación universal

Los teoremas de aproximación universal en la teoría matemática de las redes neuronales artificiales, son teoremas [1][2]​ de la siguiente forma:

Dada una familia de redes neuronales, para toda función en cierto espacio funcional existe una secuencia de redes neuronales pertenecientes a esta familia tales que de acuerdo a algún criterio.

Esto es, la familia de redes neuronales es densa en ese espacio funcional.

La versión más difundida establece que las redes neuronales prealimentadas con funciones de activación no-polinómicas son densas en el espacio de las funciones continuas entre dos espacios euclidianos, con respecto a la topología de convergencia compacta.

  • Los teoremas de aproximación universal son teoremas de existencia: Simplemente afirman que existe una tal secuencia y no proveen manera alguna para efectivamente hallar una secuencia de esas características. Tampoco garantizan que algún método, como por ejemplo la retropropagación, pueda realmente encontrar una secuencia tal. Cualquier método de búsqueda en el espacio de las redes neuronales, incluido el de retropropagación, podría o no hallar una secuencia convergente (en efecto, es posible que la retropropagación quede atascada en un óptimo local).
  • Los teoremas de aproximación universal son teoremas de límite: Simplemente afirman que para toda función y para un criterio de cercanía , si hay suficientes neuronas en una red neuronal, entonces existe una red neuronal con ese número de neuronas que aproxima a dentro del margen . No existe garantía de que algún tamaño finito, digamos 10 000 neuronas, sea suficiente.

Contexto

Las redes neuronales artificiales son combinaciones de múltiples funciones matemáticas simples que implementan funciones más complejas, que típicamente transforman vectores de componentes reales en vectores de componentes reales. Los espacios de funciones multivariables que se pueden implementar por medio de una red se encuentran determinados por la estructura de la red, el conjunto de funciones simples en cuestión, así como por sus parámetros multiplicativos. Se han dedicado grandes esfuerzos teóricos a la caracterización de estos espacios funcionales.

La mayoría de los teoremas de aproximación universal perteneces a una de estas dos clases. La primera de ellas cuantifica la capacidad aproximadora de las redes neuronales con un número arbitrario de neuronas artificiales (el caso de "ancho arbitrario"), mientras que la segunda se centra en el caso del número arbitrario de capas ocultas, cada una de las cuales contiene un número limitado de neuronas (el caso de "profundidad arbitraria"). Además de estas dos clases, también existen teoremas de aproximación universal para redes neuronales con un número acotado de capas ocultas, cada una de las cuales contiene un número limitado de neuronas (caso de "profundidad acotada y ancho acotado").

Historia

Ancho arbitrario

Los primeros ejemplos fueron para el caso de ancho arbitrario. En 1989, George Cybenko efectuó la prueba para funciones de activación sigmoides.[3]​ También en 1989, Kurt Hornik, Maxwell Stinchcombe y Halbert White mostraron que las redes neuronales prealimentadas multicapas con no más que una capa oculta son aproximadores universales.[1]​ En 1991, Hornik también mostró[4]​ que no es la elección específica de la función activadora, sino más bien la propia arquitectura prealimentada multicapas la que le otorga a las redes neuronales su potencial función como aproximadores universales. Moshe Leshno et al, en 1993,[5]​ y luego Allan Pinkus, en 1999,[6]​ mostraron que la propiedad de aproximación universal es equivalente a que la función de activación sea no-polinómica.

Profundidad arbitraria

El caso de profundidad arbitraria también fue estudiado por varios autores tales como Gustaf Gripenberg en 2003,[7]​ Dmitry Yarotsky,[8]​ Zhou Lu et al en 2017,[9]​ Boris Hanin y Mark Sellke en 2018,[10]​ los que se centraron en las redes neuronales con función de activación ReLU. En 2020, Patrick Kidger y Terry Lyons[11]​ extendieron esos resultados al caso de redes neuronales con funciones activadoras generales como p.ej. tanh, GeLU o Swish.

Un caso especial de profundidad arbitraria consiste en que cada componente de la composición provenga de un conjunto finito de aplicaciones. En 2024, Cai[12]​ construyó un conjunto finito de aplicaciones, denominado "vocabulario", tal que cualquiera función continua se pudiera aproximar componiendo una secuencia con elementos de este vocabulario. Esto se asemeja al concepto de composicionalidad en lingüistica, que consiste en la idea de que un vocabulario finito de elementos básicos se puede combinar por vía de una gramática para expresar un rango infinito de significados.

Profundidad y ancho acotados

El caso de profundidad y ancho acotados fue estudiado primero por Maiorov y Pinkus en 1999.[13]​ Ellos demostraron que existe una función de activación analítica sigmoidal tal que las redes neuronales de dos capas ocultas dotadas con ella sean aproximadores universales.

Guliyev e Ismailov[14]​ construyeron una función de activación sigmoidal lisa que provee la propiedad de aproximación universal para redes neuronales prealimentadas de dos capas ocultas con menos unidades en sus capas ocultas.

Los mismos autores[15]​ construyeron redes de una sola capa oculta de ancho acotado que siguen siendo aproximadores universales para funciones de una sola variable. Sin embargo esto no se aplica a las funciones multivariadas.

Shen et.al.[16]​ obtuvieron información cuantitativa precisa acerca de la profundidad y el ancho requeridos para aproximar una función objetivo por medio de redes neuronales ReLU profundas y anchas.

Límites cuantitativos

La cuestión del ancho mínimo requerido para la universalidad fue estudiada primero en 2021, cuando Park et al obtuvieron el ancho mínimo requerido para una aproximación universal de las funciones de Lp usando redes neuronales prealimentadas con funciones de activación ReLU.[17]​ Resultados similares y que pueden aplicarse directamente a las redes neuronales residuales también se obtuvieron el mismo año por Paulo Tabuada y Bahman Gharesifard empleando argumentos de teoría del control.[18][19]​ En 2023, Cai obtuvo el límite de ancho mínimo óptimo para la aproximación universal.[20]

Para el caso de profundidad arbitraria, Leonie Papon y Anastasis Kratsios derivaron estimaciones explícitas de profundidad dependientes de la regularidad de la función objetivo y de la función de activación.[21]

Redes de Kolmogorov

El teorema de representación de Kolmogórov-Arnold es similar en su tónica. De hecho, para ciertas familias de redes neuronales se puede aplicar directamente el teorema de Kolmogorov-Arnold obteniendo un teorema de aproximación universal. Robert Hecht-Nielsen demostró que una red neuronal de tres capas puede aproximar cualquiera función continua de variable múltiple.[22]​ Este resultado fue extendido al caso discontinuo por Vugar Ismailov.[23]​ En 2024, Ziming Liu y sus coautores presentaron una aplicación práctica.[24]

Variantes

Entre los teoremas de aproximación universal existen variantes con funciones de activación discontinuas,[5]​ dominios no compactos,[11][25]​ redes certificables,[26]​ redes neuronales aleatorias,[27]​ así como redes con arquitecturas y topologías alternativas.[11][28]

La propiedad de aproximación universal de las redes de ancho acotado se ha estudiado como caso dual de los resultados clásicos en materia de aproximación universal para redes de profundidad acotada. Para dimensiones de entrada dx y dimensiones de salida dy, el ancho mínimo requerido para la aproximación universal de las funciones Lp es exactamente max{dx + 1, dy} (para una red ReLU). Más en general, esto también rige si se emplean tanto ReLU como una función de activación por tramos.[17]

Las aproximaciones universales de funciones de grafos (o más bien de [[Isomorfismo de grafos |clases de isomorfismos de grafos]]) por medio de las conocidas redes neuronales gráficas pueden hacerse tan discrininativas como la prueba Weisfeiler–Leman de isomorfismo de grafos.[29]​ En 2020,[30]​ se estableció un teorema de aproximación universal por Brüel-Gabrielsson, demostrando que la representación como grafos con ciertas propiedades inyectivas injective es suficiente para la aproximación universal de funciones de grafos acotados y para una aproximación universal restringida para grafos no acotados, junto a un método en tiempo de ejecución, que exhibió resultados punta en una colección de pruebas de desempeño (donde y son los conjuntos de nodos and aristas del grafo respectivamente).

También existe una variedad de resultados entre espacios no euclidianos[31]​ y otras arquitecturas comúnmente usadas, así como, más en general, conjuntos algorítmicamente generados de funciones, tales como la arquitectura de redes neuronales convolucionales (RCN),[32][33]funciones de base radial,[34]​ o redes neuronales con propiedades específicas.[35][36]

El caso de ancho arbitrario

En una seguidilla de artículos de los años de 1980 y 1990, por George Cybenko y Kurt Hornik etc., se establecieron varios teoremas de aproximación universal para un ancho arbitrario y profundidad acotada.[37][3][38][4]​ Véanse reseñas en [39][40][6]​. Este es el que más frecuentemente se ha citado:

Sea el conjunto de funciones continuas desde un subconjunto de una espacio euclidiano a un espacio euclidiano . Sea . Nótese que , de modo que denota aplicado a cada componente de .

Entonces no es polinómico si y sólo si para todo , , conjunto compacto , existe , , , de manera que donde

Además, ciertas funciones no-continuas de activación pueden usarse para aproximar una función sigmoide, lo que entonces permite aplicar este teorema a aquellas funciones. Por ejemplo, puede usarse la función escalonada. En particular, esto demuestra que una red de perceptrones con una única capa oculta de ancho infinito puede aproximar funciones arbitrarias.

Una tal función también puede aproximarse por medio de una red de profundidad mayor usando la misma construcción para la primera capa y aproximando la función de identidad por medio de capas posteriores.

Esbozo de prueba
Resulta suficiente probar el caso donde , ya que la convergencia uniforme en es igualmente convergencia uniforme en cada coordenada.

Sea el conjunto de todas las redes neuronales de una sola capa oculta construidos con . Sea el conjunto de todos los con soporte compacto.

Si la función es un polinomio de grado , entonces está contenido en el subespacio cerrado de todos los polinomios de grado , por lo que su clausura también está contenida en él, que no es todo .

En caso contrario, mostramos que la clausura topológica de es todo . Supongamos que podamos construir aproximaciones arbitrariamente buenas de la función de rampa entonces esta puede combinarse para construir funciones continuas arbitrarias con soporte compacto y hasta una precisión arbitraria. Resta aproximar la función rampa.

Cualquiera de las funciones de activación comunmente usadas en aprendizaje automático puede obviamente emplearse para aproximar la función de rampa, o bien primero aproximar la ReLU y a continuación la función de rampa.

Si es "squashing", esto es, tiene límites , entonces se puede primero poner a escala su eje x de manera afín de modo que su gráfica se vea como una función escalonada con dos "excesos" marcados y luego hacer una suma lineal de suficientes de estas para obtener una aproximación en "escala" de la función de rampa. Mientras más escalones de la escala, los excesos se suavizan y obtenemos una aproximación arbitrariamente buena de la función de rampa.

El caso donde es una función no polinómica genérica es más difícil y se invita al lector a revisar [6]​.

En esta prueba no se ha especificado cómo podría usarse una función de rampa para aproximar funciones arbitrarias en . Un esbozo de prueba consiste en que se puede primero construir primero funciones de protuberancia plana, hacer una intersección de ellas para obtener funciones de protuberancia esféricas que aproximen la función delta de Dirac y luego usar estas últimas para aproximar funciones arbitrarias en .[41]​ Las pruebas originales, tales como la realizada por Cybenko, usan métodos del análisis funcional, incluyendo los teoremas de representación de Hahn-Banach y de Riesz–Markov–Kakutani.

Nótese también que solo se requiere que la red neuronal aproxime la función en un conjunto compacto . La prueba no describe cómo se extrapolaría la función fuera de esa región.

El problema con los polinomios puede removerse al permitir que las salidas de las capas ocultas puedan multiplicarse (las "redes pi-sigma"), obteniéndose la generalización:[38]

Con cualquiera función de activación no constante, una red pi-sigma de una capa oculta es un aproximador universal.

El caso de profundidad arbitraria

Las versiones «duales» del teorema consideran redes de ancho acotado y profundidad arbitraria. Una variante del teorema de aproximación universal fue demostrado para el caso de profundidad arbitraria por Zhou Lu et al. en 2017.[9]​ Ellos mostraron que las redes de ancho n + 4 con funciones de activación ReLU pueden aproximar cualquiera función Lebesgue-integrable sobre un espacio de entrada n-dimensional con respecto a la distancia si se permite que crezca la profundidad de la red. También se mostró que si el ancho es menor o igual a n, este poder general para aproximar cualquiera función Lebesgue integrable se perdía. En el mismo artículo[9]​ se mostró que las redes ReLU de ancho n + 1 son suficientes para aproximar cualquiera función continua con una entrada n-dimensional.[42]​ El siguiente refinamiento debido a Park et al[43]​ especifica el ancho mínimo óptimo para el que una aproximación de este tipo es posible.

Para cualquier función Bochner–Lebesgue p-integrable y cualquier existe una red ReLU totalmente conectada de ancho exacto , que satisface Además, existen una función y algún , para los cuales no existe ninguna red ReLU totalmente conectada de ancho menor que y que satisfaga la desigualdad antedicha en su aproximación.

Nota: Si la activación se reemplaza por leaky-ReLU y la entrada se restringe a un dominio compacto, entonces el ancho mínimo es exactamente .[20]

Refinamiento cuantitativo: En el caso de que , (es decir, ) and es la función de activación ReLU, the profundidad y el ancho exactos para que una red ReLU logre cierto error también se conoce.[44]​ Si, además, la función objetivo es infinitamente diferenciable, entonces el número requerido de capas y su ancho puede ser exponencialmente menor.[45]​ Incluso si no es infinitamente diferenciable, la maldición de la dimensión puede superarse si admite una "estructura composicional" adicional.[46][47]

En suma, el resultado central de[11]​ arroja el siguiente teorema de aproximación universal para redes con ancho acotado (véase también[7]​ para el primer resultado de este tipo).

Sea un subconjunto compacto de . Sea cualquiera función continua no afín que sea continuamente diferenciable al menos en un punto, con derivada no nulaen ese punto. Sea el espacio de redes neuronales no recurrentes con neuronas de entrada, neuronas de salida, así como un número arbitrario de capas ocultas, cada una con neuronas, tal que cada neurona oculta tiene la función de activación y cada neurona de salida tiene como función de activación la identidad, con capa de entrada y capa de salida . Entonces, dado cualquier y cualquiera función , existe tal que

En otras palabras, es denso en con respecto a la topología de convergencia uniforme.

Refinamiento cuantitativo: El número de capas y el ancho de cada una de las capas requeridas para aproximar a una precisión dada;[21]​ más aún, el resultado sigue vigente cuando y se reemplazan por cualquiera variedad de Riemann de curvatura no positiva.

Se han establecido ciertas condiciones necesarias para el caso de ancho acotado y profundidad arbitraria, pero sigue existiendo una brecha entre las condiciones suficientes y necesarias.[9][10][48]

El caso de profundidad y ancho acotados

El primer resultado sobre las capacidades de aproximación de redes neuronales con un número acotado de capas, cada una de las cuales contiene un número limitado de neuronas artificiales, fue obtenido por Maiorov y Pinkus.[13]​ Su notable resultado reveló que tales redes pueden ser aproximadores universales y que para lograr esta propiedad bastan dos capas ocultas.

Existe una función de activación que es analítica, estrictamente creciente, sigmoidal y que tiene la siguiente propiedad: Para toda y existen constantes y vectores para los que para todo .

Este es un resultado de existencia. Sostiene que existen funciones de activación que proveen la propiedad de aproximación universal para redes de profundidad y ancho acotados. Empleando ciertas técnicas algorítmicas y de programación de ordenadores, Guliyev e Ismailov eficientemente construyeron tales funciones de activación dependientes de un parámetro numérico. El algoritmo desarrollado permite computar instantáneamente las funciones de activación en cualquier punto de la recta real. Para el algoritmo y el código computacional correspondiente véase [14]​ El resultado teórico se puede formular como sigue.

Sean un segmento finito de la recta real, y cualquier número positivo. Entonces es posible construir algorítmicamente una función de activación sigmoidal computable , que sea infinitamente diferenciable, estrictamente creciente en , -estrictamente creciente en y que satisface las siguientes propiedades:

  1. Para toda y todo existen números y de modo que para todo
  2. Para toda función continua en el paralelepípedo -dimensional y , existen constantes , , y tales que la desigualdad se cumple para todo . Aquí las ponderaciones , , se fijan como sigue: Además, todos los coeficientes , excepto uno, son iguales.

Aquí “ es -estrictamente creciente en algún conjunto ” quiere decir que existe una función estrictamente creciente tal que para todo . Claramente, una función -creciente se comporta igual que una función creciente usual a medida que se hace pequeño. En la terminología de "profundidad-ancho", este teorema dice que para ciertas funciones de activación las redes de profundidad- y ancho- son aproximadores universales para funciones de una variable y las redes de profundidad- y ancho- son aproximadores universales para funciones de variables ().

Véase también

Referencias

  1. a b Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert (enero de 1989). «Multilayer feedforward networks are universal approximators». Neural Networks 2 (5): 359-366. doi:10.1016/0893-6080(89)90020-8. 
  2. Balázs Csanád Csáji (2001) Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary
  3. a b Cybenko, G. (1989). «Approximation by superpositions of a sigmoidal function». Mathematics of Control, Signals, and Systems 2 (4): 303-314. Bibcode:1989MCSS....2..303C. S2CID 3958369. doi:10.1007/BF02551274. 
  4. a b Hornik, Kurt (1991). «Approximation capabilities of multilayer feedforward networks». Neural Networks 4 (2): 251-257. S2CID 7343126. doi:10.1016/0893-6080(91)90009-T. 
  5. a b Leshno, Moshe; Lin, Vladimir Ya.; Pinkus, Allan; Schocken, Shimon (enero de 1993). «Multilayer feedforward networks with a nonpolynomial activation function can approximate any function». Neural Networks 6 (6): 861-867. S2CID 206089312. doi:10.1016/S0893-6080(05)80131-5. 
  6. a b c Pinkus, Allan (January 1999). «Approximation theory of the MLP model in neural networks». Acta Numerica 8: 143-195. Bibcode:1999AcNum...8..143P. S2CID 16800260. doi:10.1017/S0962492900002919. 
  7. a b Gripenberg, Gustaf (June 2003). «Approximation by neural networks with a bounded number of nodes at each level». Journal of Approximation Theory 122 (2): 260-266. doi:10.1016/S0021-9045(03)00078-9. 
  8. Yarotsky, Dmitry (October 2017). «Error bounds for approximations with deep ReLU networks». Neural Networks 94: 103-114. PMID 28756334. S2CID 426133. arXiv:1610.01145. doi:10.1016/j.neunet.2017.07.002. 
  9. a b c d Lu, Zhou; Pu, Hongming; Wang, Feicheng; Hu, Zhiqiang; Wang, Liwei (2017). «The Expressive Power of Neural Networks: A View from the Width». Advances in Neural Information Processing Systems (Curran Associates) 30: 6231-6239. arXiv:1709.02540. 
  10. a b Hanin, Boris; Sellke, Mark (2018). «Approximating Continuous Functions by ReLU Nets of Minimal Width». arXiv:1710.11278  [stat.ML]. 
  11. a b c d Kidger, Patrick; Lyons, Terry (July 2020). Universal Approximation with Deep Narrow Networks. Conference on Learning Theory. arXiv:1905.08539. 
  12. Yongqiang, Cai (2024). «Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions». ICML: 5189-5208. arXiv:2305.12205. 
  13. a b Maiorov, Vitaly; Pinkus, Allan (April 1999). «Lower bounds for approximation by MLP neural networks». Neurocomputing 25 (1–3): 81-91. doi:10.1016/S0925-2312(98)00111-8. 
  14. a b Guliyev, Namig; Ismailov, Vugar (November 2018). «Approximation capability of two hidden layer feedforward neural networks with fixed weights». Neurocomputing 316: 262-269. S2CID 52285996. arXiv:2101.09181. doi:10.1016/j.neucom.2018.07.075. 
  15. Guliyev, Namig; Ismailov, Vugar (February 2018). «On the approximation by single hidden layer feedforward neural networks with fixed weights». Neural Networks 98: 296-304. PMID 29301110. S2CID 4932839. arXiv:1708.06219. doi:10.1016/j.neunet.2017.12.007. 
  16. Shen, Zuowei; Yang, Haizhao; Zhang, Shijun (January 2022). «Optimal approximation rate of ReLU networks in terms of width and depth». Journal de Mathématiques Pures et Appliquées 157: 101-135. S2CID 232075797. arXiv:2103.00502. doi:10.1016/j.matpur.2021.07.009. 
  17. a b Park, Sejun; Yun, Chulhee; Lee, Jaeho; Shin, Jinwoo (2021). Minimum Width for Universal Approximation. International Conference on Learning Representations. arXiv:2006.08859. 
  18. Tabuada, Paulo; Gharesifard, Bahman (2021). Universal approximation power of deep residual neural networks via nonlinear control theory. International Conference on Learning Representations. arXiv:2007.06007. 
  19. Tabuada, Paulo; Gharesifard, Bahman (May 2023). «Universal Approximation Power of Deep Residual Neural Networks Through the Lens of Control». IEEE Transactions on Automatic Control 68 (5): 2715-2728. S2CID 250512115. doi:10.1109/TAC.2022.3190051. 
  20. a b Cai, Yongqiang (1 de febrero de 2023). «Achieve the Minimum Width of Neural Networks for Universal Approximation». ICLR (en inglés). arXiv:2209.11395. 
  21. a b Kratsios, Anastasis; Papon, Léonie (2022). «Universal Approximation Theorems for Differentiable Geometric Deep Learning». Journal of Machine Learning Research 23 (196): 1-73. arXiv:2101.05390. 
  22. Hecht-Nielsen, Robert (1987). «Kolmogorov's mapping neural network existence theorem». Proceedings of International Conference on Neural Networks, 1987 3: 11-13. 
  23. Ismailov, Vugar E. (July 2023). «A three layer neural network can represent any multivariate function». Journal of Mathematical Analysis and Applications 523 (1): 127096. S2CID 265100963. arXiv:2012.03016. doi:10.1016/j.jmaa.2023.127096. 
  24. Liu, Ziming; Wang, Yixuan; Vaidya, Sachin; Ruehle, Fabian; Halverson, James; Soljačić, Marin; Hou, Thomas Y.; Tegmark, Max (2024-05-24). «KAN: Kolmogorov-Arnold Networks». arXiv:2404.19756  [cs.LG]. 
  25. van Nuland, Teun (2024). «Noncompact uniform universal approximation». Neural Networks 173. PMID 38412737. arXiv:2308.03812. doi:10.1016/j.neunet.2024.106181. 
  26. Baader, Maximilian; Mirman, Matthew; Vechev, Martin (2020). Universal Approximation with Certified Networks. ICLR. 
  27. Gelenbe, Erol; Mao, Zhi Hong; Li, Yan D. (1999). «Function approximation with spiked random networks». IEEE Transactions on Neural Networks 10 (1): 3-9. PMID 18252498. doi:10.1109/72.737488. 
  28. Lin, Hongzhou; Jegelka, Stefanie (2018). «ResNet with one-neuron hidden layers is a Universal Approximator». Advances in Neural Information Processing Systems 30 (Curran Associates): 6169-6178. 
  29. Xu, Keyulu; Hu, Weihua; Leskovec, Jure; Jegelka, Stefanie (2019). «How Powerful are Graph Neural Networks?». International Conference on Learning Representations. 
  30. Brüel-Gabrielsson, Rickard (2020). «Universal Function Approximation on Graphs». Advances in Neural Information Processing Systems 33 (Curran Associates). 
  31. Kratsios, Anastasis; Bilokopytov, Eugene (2020). «Non-Euclidean Universal Approximation». Advances in Neural Information Processing Systems 33 (Curran Associates). 
  32. Zhou, Ding-Xuan (2020). «Universality of deep convolutional neural networks». Applied and Computational Harmonic Analysis 48 (2): 787-794. S2CID 44113176. arXiv:1805.10769. doi:10.1016/j.acha.2019.06.004. 
  33. Heinecke, Andreas; Ho, Jinn; Hwang, Wen-Liang (2020). «Refinement and Universal Approximation via Sparsely Connected ReLU Convolution Nets». IEEE Signal Processing Letters 27: 1175-1179. Bibcode:2020ISPL...27.1175H. S2CID 220669183. doi:10.1109/LSP.2020.3005051. 
  34. Park, J.; Sandberg, I. W. (1991). «Universal Approximation Using Radial-Basis-Function Networks». Neural Computation 3 (2): 246-257. PMID 31167308. S2CID 34868087. doi:10.1162/neco.1991.3.2.246. 
  35. Yarotsky, Dmitry (2021). «Universal Approximations of Invariant Maps by Neural Networks». Constructive Approximation 55: 407-474. S2CID 13745401. arXiv:1804.10306. doi:10.1007/s00365-021-09546-1. 
  36. Zakwan, Muhammad; d’Angelo, Massimiliano; Ferrari-Trecate, Giancarlo (2023). «Universal Approximation Property of Hamiltonian Deep Neural Networks». IEEE Control Systems Letters: 1. S2CID 257663609. arXiv:2303.12147. doi:10.1109/LCSYS.2023.3288350. 
  37. Funahashi, Ken-Ichi (January 1989). «On the approximate realization of continuous mappings by neural networks». Neural Networks 2 (3): 183-192. doi:10.1016/0893-6080(89)90003-8. 
  38. a b Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert (January 1989). «Multilayer feedforward networks are universal approximators». Neural Networks 2 (5): 359-366. doi:10.1016/0893-6080(89)90020-8. 
  39. Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation, Volume 2, Prentice Hall. ISBN 0-13-273350-1.
  40. Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48
  41. Nielsen, Michael A. (2015). Neural Networks and Deep Learning (en inglés). 
  42. Hanin, B. (2018). Approximating Continuous Functions by ReLU Nets of Minimal Width. arXiv preprint arXiv:1710.11278.
  43. Park, Yun, Lee, Shin, Sejun, Chulhee, Jaeho, Jinwoo (28 de septiembre de 2020). «Minimum Width for Universal Approximation». ICLR (en inglés). arXiv:2006.08859. 
  44. Shen, Zuowei; Yang, Haizhao; Zhang, Shijun (January 2022). «Optimal approximation rate of ReLU networks in terms of width and depth». Journal de Mathématiques Pures et Appliquées 157: 101-135. S2CID 232075797. arXiv:2103.00502. doi:10.1016/j.matpur.2021.07.009. 
  45. Lu, Jianfeng; Shen, Zuowei; Yang, Haizhao; Zhang, Shijun (January 2021). «Deep Network Approximation for Smooth Functions». SIAM Journal on Mathematical Analysis 53 (5): 5465-5506. S2CID 210116459. arXiv:2001.03040. doi:10.1137/20M134695X. 
  46. Juditsky, Anatoli B.; Lepski, Oleg V.; Tsybakov, Alexandre B. (1 de junio de 2009). «Nonparametric estimation of composite functions». The Annals of Statistics 37 (3). ISSN 0090-5364. S2CID 2471890. doi:10.1214/08-aos611. 
  47. Poggio, Tomaso; Mhaskar, Hrushikesh; Rosasco, Lorenzo; Miranda, Brando; Liao, Qianli (14 de marzo de 2017). «Why and when can deep-but not shallow-networks avoid the curse of dimensionality: A review». International Journal of Automation and Computing 14 (5): 503-519. ISSN 1476-8186. S2CID 15562587. arXiv:1611.00740. doi:10.1007/s11633-017-1054-2. 
  48. Johnson, Jesse (2019). Deep, Skinny Neural Networks are not Universal Approximators. International Conference on Learning Representations.