es Historia del procesamiento de lenguaje natural

La historia del procesamiento de lenguaje natural describe los avances del procesamiento de lenguajes naturales. Existe cierta superposición con la historia de la traducción automática, la historia del reconocimiento de voz y la historia de la inteligencia artificial.

Historia temprana

La historia de la traducción automática se remonta al siglo XVII, cuando filósofos como Leibniz y Descartes propusieron códigos que relacionarían palabras entre idiomas. Todas estas propuestas siguieron siendo teóricas y ninguna resultó en el desarrollo de una máquina real.

Las primeras patentes para "máquinas traductoras" se solicitaron a mediados de la década de 1930. Una propuesta de Georges Artsrouni fue simplemente un diccionario bilingüe automático que utilizara cinta de papel. La otra propuesta, del ruso Peter Troyanskii, era más detallada. La propuesta de Troyanski incluía tanto el diccionario bilingüe como un método para tratar los roles gramaticales entre idiomas, basado en el esperanto.

Periodo lógico

En 1950, Alan Turing publicó su famoso artículo “Computing machinery and intelligence” donde proponía lo que hoy se llama la prueba de Turing como criterio de inteligencia. Este criterio depende de la capacidad de un programa informático para hacerse pasar por un humano en una conversación escrita en tiempo real con un juez humano, lo suficientemente bien como para que el juez no pueda distinguir de manera fiable — basándose únicamente en el contenido de la conversación — entre el programa y un ser humano real.

En 1957, las Estructuras sintácticas de Noam Chomsky revolucionaron la lingüística con la «gramática universal», un sistema de estructuras sintácticas basado en reglas.^[1]

El experimento de Georgetown en 1954 implicó la traducción totalmente automática de más de sesenta frases rusas al inglés. Los autores afirmaron que dentro de tres o cinco años, la traducción automática sería un problema resuelto.^[2] Sin embargo, el progreso real fue mucho más lento y después del informe ALPAC de 1966, que concluyó que diez años de investigación no habían logrado cumplir las expectativas, la financiación para la traducción automática se redujo drásticamente. Hasta finales de la década de 1980, cuando se desarrollaron los primeros sistemas de traducción automática estadística, se realizaron pocas investigaciones adicionales en el ámbito de la traducción automática.

Algunos sistemas de PNL de notable éxito desarrollados en la década de 1960 fueron SHRDLU, un sistema de lenguaje natural que funciona en "mundos de bloques" restringidos con vocabularios restringidos.

En 1969, Roger Schank introdujo la teoría de la dependencia conceptual para la comprensión del lenguaje natural.^[3] Este modelo, parcialmente influenciado por el trabajo de Sydney Lamb, fue ampliamente utilizado por los estudiantes de Schank en la Universidad Yale, como Robert Wilensky, Wendy Lehnert y Janet Kolodner.

En 1970, William A. Woods introdujo la red de transición aumentada (ATN) para representar la entrada del lenguaje natural.^[4] En lugar de reglas de estructura de frases, los ATN utilizaban un conjunto equivalente de autómatas de estados finitos que se llamaban recursivamente. Las ATN y su formato más general, denominado "ATN generalizadas", continuaron utilizándose durante varios años. Durante la década de 1970, muchos programadores comenzaron a escribir "ontologías conceptuales", que estructuraban información del mundo real en datos comprensibles para computadoras. Algunos ejemplos son MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) y Plot Units (Lehnert 1981). Durante este tiempo, se escribieron muchos chatterbots, incluidos PARRY, Racter y Jabberwacky.

En los últimos años, los avances en aprendizaje profundo y modelos de lenguaje de gran tamaño han mejorado significativamente las capacidades del procesamiento del lenguaje natural, lo que ha dado lugar a aplicaciones generalizadas en áreas como la atención médica, el servicio al cliente y la generación de contenido.^[5]

Periodo estadístico

Hasta la década de 1980, la mayoría de los sistemas de PNL se basaban en conjuntos complejos de reglas escritas a mano. Sin embargo, a partir de finales de la década de 1980, se produjo una revolución en el PNL con la introducción de algoritmos de aprendizaje automático para el procesamiento del lenguaje. Esto se debió tanto al aumento constante del poder computacional resultante de la ley de Moore como a la disminución gradual del predominio de las teorías chomskianas de la lingüística (por ejemplo, la gramática generativa transformacional), cuyos fundamentos teóricos desalentaban el tipo de lingüística de corpus que sustenta el enfoque de aprendizaje automático para el procesamiento del lenguaje.^[6] Algunos de los primeros algoritmos de aprendizaje automático utilizados, como los árboles de decisión, produjeron sistemas de reglas estrictas de "si-entonces" similares a las reglas escritas a mano existentes. Sin embargo, la investigación se ha centrado cada vez más en modelos estadísticos, que toman decisiones suaves y probabilísticas basadas en la asignación de pesos de valores reales a las características que componen los datos de entrada. Los modelos de lenguaje de caché en los que se basan actualmente muchos sistemas de reconocimiento del habla son ejemplos de dichos modelos estadísticos. Estos modelos son generalmente más robustos cuando se les dan entradas desconocidas, especialmente entradas que contienen errores (como es muy común con los datos del mundo real), y producen resultados más confiables cuando se integran en un sistema más grande que comprende múltiples subtareas.

Conjuntos de datos

La aparición de enfoques estadísticos se vio favorecida tanto por el aumento de la potencia informática como por la disponibilidad de grandes conjuntos de datos. En aquella época empezaban a surgir grandes corpus multilingües. Cabe destacar que algunos de ellos fueron elaborados por el Parlamento de Canadá y la Unión Europea como resultado de leyes que exigían la traducción de todos los procedimientos gubernamentales a todos los idiomas oficiales de los sistemas de gobierno correspondientes.

Muchos de los primeros éxitos notables ocurrieron en el campo de la traducción automática. En 1993, los modelos de alineación de IBM se utilizaron para la traducción automática estadística.^[7] En comparación con los sistemas de traducción automática anteriores, que eran sistemas simbólicos codificados manualmente por lingüistas computacionales, estos sistemas eran estadísticos, lo que les permitía aprender automáticamente a partir de grandes corpus textuales. Aunque estos sistemas no funcionan bien en situaciones donde solo se dispone de pequeños corpus, los métodos que utilizan datos de manera eficiente siguen siendo un área de investigación y desarrollo.

En 2001, un corpus de texto de mil millones de palabras, extraído de Internet, considerado en aquel momento como "muy, muy grande", se utilizó para desambiguar palabras.^[8]

Para aprovechar conjuntos de datos grandes y no etiquetados, se desarrollaron algoritmos para el aprendizaje no supervisado y autosupervisado. Generalmente, esta tarea es mucho más difícil que el aprendizaje supervisado y normalmente produce resultados menos precisos para una cantidad determinada de datos de entrada. Sin embargo, hay una enorme cantidad de datos disponibles no anotados (incluido, entre otras cosas, todo el contenido de la World Wide Web), que a menudo pueden compensar los resultados inferiores.

Periodo neural

En 1990, la red Elman, utilizando una red neuronal recurrente, codificó cada palabra en un conjunto de entrenamiento como un vector, llamado word embedding, y todo el vocabulario como una base de datos de vectores, lo que le permitió realizar tareas tales como predicciones de secuencias que están más allá del poder de un simple perceptrón multicapa. Una deficiencia de las incrustaciones estáticas era que no diferenciaban entre múltiples significados de homónimos.^[9]

Software

Software	Año	Creador	Descripción
Experimento de Georgetown	1954	Universidad de Georgetown e IBM	implicó la traducción totalmente automática de más de sesenta frases del ruso al inglés.
STUDENT	1964	Daniel Bobrow	Podría resolver problemas planteados de álgebra de la escuela secundaria.^[10]
ELIZA	1964	Joseph Weizenbaum	una simulación de una psicoterapeuta rogeriana, reformulando su respuesta con algunas reglas gramaticales.^[11]
SHRDLU	1970	Terry Winograd	un sistema de lenguaje natural que funciona en "mundos de bloques" restringidos con vocabularios restringidos, funcionó extremadamente bien
PARRY	1972	Kenneth Colby	Un bot conversacional
KL-ONE	1974	Sondheimer et al.	un sistema de representación del conocimiento en la tradición de las redes y marcos semánticos; es un lenguaje marco.
MARGIE	1975	Roger Schank
TaleSpin (software)	1976	Meehan
QUALM		Lehnert
LIFER/LADDER	1978	Hendrix	una interfaz de lenguaje natural para una base de datos de información sobre barcos de la Armada de EE. UU.
SAM (software)	1978	Cullingford
PAM (software)	1978	Robert Wilensky
Politics (software)	1979	Carbonell
Plot Units (software)	1981	Lehnert
Jabberwacky	1982	Rollo Carpenter	chatterbot con el objetivo declarado de "simular el chat humano natural de una manera interesante, entretenida y divertida".
MUMBLE (software)	1982	McDonald
Racter	1983	William Chamberlain y Thomas Etter	chatterbot que generaba prosa en inglés al azar.
MOPTRANS	1984	Lytinen
KODIAK (software)	1986	Wilensky
Absity (software)	1987	Hirst
Dr. Sbaitso	1991	Creative Labs
Watson (inteligencia artificial)	2006	IBM	Un sistema de respuesta a preguntas que ganó el premio Jeopardy! concurso, derrotando a los mejores jugadores humanos en febrero de 2011.
Siri	2011	Apple	Un asistente virtual desarrollado por Apple.
Cortana	2014	Microsoft	Un asistente virtual desarrollado por Microsoft.
Amazon Alexa	2014	Amazon	Un asistente virtual desarrollado por Amazon.
Google Assistant	2016	Google	Un asistente virtual desarrollado por Google.

Referencias

↑ «SEM1A5 - Part 1 - A brief history of NLP». Consultado el 25 de junio de 2010.
↑ Hutchins, J. (2005)
↑ Roger Schank, 1969, A conceptual dependency parser for natural language Proceedings of the 1969 conference on Computational linguistics, Sång-Säby, Sweden, pages 1-3
↑ Woods, William A (1970). "Transition Network Grammars for Natural Language Analysis". Communications of the ACM 13 (10): 591–606
↑ Gruetzemacher, Ross (19 de abril de 2022). «The Power of Natural Language Processing». Harvard Business Review. ISSN 0017-8012. Consultado el 7 de diciembre de 2024.
↑ La lingüística chomskyana fomenta la investigación de "casos extremos" que ponen a prueba los límites de sus modelos teóricos (comparable a los fenómenos patológicos en matemáticas), generalmente creados mediante experimentos mentales, en lugar de la investigación sistemática de fenómenos típicos que ocurren en los datos del mundo real, como ocurre en la lingüística de corpus. La creación y uso de tales corpus de datos del mundo real es una parte fundamental de los algoritmos de aprendizaje automático para el procesamiento del lenguaje natural (PLN). Además, los fundamentos teóricos de la lingüística chomskyana, como el llamado argumento de la "pobreza del estímulo", implican que los algoritmos generales de aprendizaje, como los que se usan comúnmente en el aprendizaje automático, no pueden ser exitosos en el procesamiento del lenguaje. Como resultado, el paradigma chomskiano desalentó la aplicación de dichos modelos al procesamiento del lenguaje..
↑ Brown, Peter F. (1993). «The mathematics of statistical machine translation: Parameter estimation». Computational Linguistics (19): 263-311.
↑ Banko, Michele; Brill, Eric (2001). «Scaling to very very large corpora for natural language disambiguation». Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01 (Morristown, NJ, USA: Association for Computational Linguistics): 26-33. doi:10.3115/1073012.1073017.
↑ Elman, Jeffrey L. (March 1990). «Finding Structure in Time». Cognitive Science 14 (2): 179-211. doi:10.1207/s15516709cog1402_1.
↑ McCorduck, 2004, p. 286, Crevier, 1993, pp. 76−79, Russell y Norvig, 2003, p. 19
↑ McCorduck, 2004, pp. 291–296, Crevier, 1993, pp. 134−139

Bibliografía

McCorduck, Pamela (2004), Machines Who Think (2nd edición), Natick, MA: A. K. Peters, Ltd., ISBN 978-1-56881-205-2, OCLC 52197627 ..

Datos: Q5868273

[1] «SEM1A5 - Part 1 - A brief history of NLP». Consultado el 25 de junio de 2010.

[2] Hutchins, J. (2005)

[3] Roger Schank, 1969, A conceptual dependency parser for natural language Proceedings of the 1969 conference on Computational linguistics, Sång-Säby, Sweden, pages 1-3

[4] Woods, William A (1970). "Transition Network Grammars for Natural Language Analysis". Communications of the ACM 13 (10): 591–606

[5] Gruetzemacher, Ross (19 de abril de 2022). «The Power of Natural Language Processing». Harvard Business Review. ISSN 0017-8012. Consultado el 7 de diciembre de 2024.

[6] La lingüística chomskyana fomenta la investigación de "casos extremos" que ponen a prueba los límites de sus modelos teóricos (comparable a los fenómenos patológicos en matemáticas), generalmente creados mediante experimentos mentales, en lugar de la investigación sistemática de fenómenos típicos que ocurren en los datos del mundo real, como ocurre en la lingüística de corpus. La creación y uso de tales corpus de datos del mundo real es una parte fundamental de los algoritmos de aprendizaje automático para el procesamiento del lenguaje natural (PLN). Además, los fundamentos teóricos de la lingüística chomskyana, como el llamado argumento de la "pobreza del estímulo", implican que los algoritmos generales de aprendizaje, como los que se usan comúnmente en el aprendizaje automático, no pueden ser exitosos en el procesamiento del lenguaje. Como resultado, el paradigma chomskiano desalentó la aplicación de dichos modelos al procesamiento del lenguaje..

[U4RiN-7] Brown, Peter F. (1993). «The mathematics of statistical machine translation: Parameter estimation». Computational Linguistics (19): 263-311.

[2001_very_very_large_corpora-8] Banko, Michele; Brill, Eric (2001). «Scaling to very very large corpora for natural language disambiguation». Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01 (Morristown, NJ, USA: Association for Computational Linguistics): 26-33. doi:10.3115/1073012.1073017.

[1990_ElmanPaper-9] Elman, Jeffrey L. (March 1990). «Finding Structure in Time». Cognitive Science 14 (2): 179-211. doi:10.1207/s15516709cog1402_1.

[10] McCorduck, 2004, p. 286, Crevier, 1993, pp. 76−79, Russell y Norvig, 2003, p. 19

[11] McCorduck, 2004, pp. 291–296, Crevier, 1993, pp. 134−139

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Historia del procesamiento de lenguaje natural