Historia del procesamiento de lenguaje naturalLa historia del procesamiento de lenguaje natural describe los avances del procesamiento de lenguajes naturales. Existe cierta superposición con la historia de la traducción automática, la historia del reconocimiento de voz y la historia de la inteligencia artificial. Historia tempranaLa historia de la traducción automática se remonta al siglo XVII, cuando filósofos como Leibniz y Descartes propusieron códigos que relacionarían palabras entre idiomas. Todas estas propuestas siguieron siendo teóricas y ninguna resultó en el desarrollo de una máquina real. Las primeras patentes para "máquinas traductoras" se solicitaron a mediados de la década de 1930. Una propuesta de Georges Artsrouni fue simplemente un diccionario bilingüe automático que utilizara cinta de papel. La otra propuesta, del ruso Peter Troyanskii, era más detallada. La propuesta de Troyanski incluía tanto el diccionario bilingüe como un método para tratar los roles gramaticales entre idiomas, basado en el esperanto. Periodo lógicoEn 1950, Alan Turing publicó su famoso artículo “Computing machinery and intelligence” donde proponía lo que hoy se llama la prueba de Turing como criterio de inteligencia. Este criterio depende de la capacidad de un programa informático para hacerse pasar por un humano en una conversación escrita en tiempo real con un juez humano, lo suficientemente bien como para que el juez no pueda distinguir de manera fiable — basándose únicamente en el contenido de la conversación — entre el programa y un ser humano real. En 1957, las Estructuras sintácticas de Noam Chomsky revolucionaron la lingüística con la «gramática universal», un sistema de estructuras sintácticas basado en reglas.[1] El experimento de Georgetown en 1954 implicó la traducción totalmente automática de más de sesenta frases rusas al inglés. Los autores afirmaron que dentro de tres o cinco años, la traducción automática sería un problema resuelto.[2] Sin embargo, el progreso real fue mucho más lento y después del informe ALPAC de 1966, que concluyó que diez años de investigación no habían logrado cumplir las expectativas, la financiación para la traducción automática se redujo drásticamente. Hasta finales de la década de 1980, cuando se desarrollaron los primeros sistemas de traducción automática estadística, se realizaron pocas investigaciones adicionales en el ámbito de la traducción automática. Algunos sistemas de PNL de notable éxito desarrollados en la década de 1960 fueron SHRDLU, un sistema de lenguaje natural que funciona en "mundos de bloques" restringidos con vocabularios restringidos. En 1969, Roger Schank introdujo la teoría de la dependencia conceptual para la comprensión del lenguaje natural.[3] Este modelo, parcialmente influenciado por el trabajo de Sydney Lamb, fue ampliamente utilizado por los estudiantes de Schank en la Universidad Yale, como Robert Wilensky, Wendy Lehnert y Janet Kolodner. En 1970, William A. Woods introdujo la red de transición aumentada (ATN) para representar la entrada del lenguaje natural.[4] En lugar de reglas de estructura de frases, los ATN utilizaban un conjunto equivalente de autómatas de estados finitos que se llamaban recursivamente. Las ATN y su formato más general, denominado "ATN generalizadas", continuaron utilizándose durante varios años. Durante la década de 1970, muchos programadores comenzaron a escribir "ontologías conceptuales", que estructuraban información del mundo real en datos comprensibles para computadoras. Algunos ejemplos son MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) y Plot Units (Lehnert 1981). Durante este tiempo, se escribieron muchos chatterbots, incluidos PARRY, Racter y Jabberwacky. En los últimos años, los avances en aprendizaje profundo y modelos de lenguaje de gran tamaño han mejorado significativamente las capacidades del procesamiento del lenguaje natural, lo que ha dado lugar a aplicaciones generalizadas en áreas como la atención médica, el servicio al cliente y la generación de contenido.[5] Periodo estadísticoHasta la década de 1980, la mayoría de los sistemas de PNL se basaban en conjuntos complejos de reglas escritas a mano. Sin embargo, a partir de finales de la década de 1980, se produjo una revolución en el PNL con la introducción de algoritmos de aprendizaje automático para el procesamiento del lenguaje. Esto se debió tanto al aumento constante del poder computacional resultante de la ley de Moore como a la disminución gradual del predominio de las teorías chomskianas de la lingüística (por ejemplo, la gramática generativa transformacional), cuyos fundamentos teóricos desalentaban el tipo de lingüística de corpus que sustenta el enfoque de aprendizaje automático para el procesamiento del lenguaje.[6] Algunos de los primeros algoritmos de aprendizaje automático utilizados, como los árboles de decisión, produjeron sistemas de reglas estrictas de "si-entonces" similares a las reglas escritas a mano existentes. Sin embargo, la investigación se ha centrado cada vez más en modelos estadísticos, que toman decisiones suaves y probabilísticas basadas en la asignación de pesos de valores reales a las características que componen los datos de entrada. Los modelos de lenguaje de caché en los que se basan actualmente muchos sistemas de reconocimiento del habla son ejemplos de dichos modelos estadísticos. Estos modelos son generalmente más robustos cuando se les dan entradas desconocidas, especialmente entradas que contienen errores (como es muy común con los datos del mundo real), y producen resultados más confiables cuando se integran en un sistema más grande que comprende múltiples subtareas. Conjuntos de datosLa aparición de enfoques estadísticos se vio favorecida tanto por el aumento de la potencia informática como por la disponibilidad de grandes conjuntos de datos. En aquella época empezaban a surgir grandes corpus multilingües. Cabe destacar que algunos de ellos fueron elaborados por el Parlamento de Canadá y la Unión Europea como resultado de leyes que exigían la traducción de todos los procedimientos gubernamentales a todos los idiomas oficiales de los sistemas de gobierno correspondientes. Muchos de los primeros éxitos notables ocurrieron en el campo de la traducción automática. En 1993, los modelos de alineación de IBM se utilizaron para la traducción automática estadística.[7] En comparación con los sistemas de traducción automática anteriores, que eran sistemas simbólicos codificados manualmente por lingüistas computacionales, estos sistemas eran estadísticos, lo que les permitía aprender automáticamente a partir de grandes corpus textuales. Aunque estos sistemas no funcionan bien en situaciones donde solo se dispone de pequeños corpus, los métodos que utilizan datos de manera eficiente siguen siendo un área de investigación y desarrollo. En 2001, un corpus de texto de mil millones de palabras, extraído de Internet, considerado en aquel momento como "muy, muy grande", se utilizó para desambiguar palabras.[8] Para aprovechar conjuntos de datos grandes y no etiquetados, se desarrollaron algoritmos para el aprendizaje no supervisado y autosupervisado. Generalmente, esta tarea es mucho más difícil que el aprendizaje supervisado y normalmente produce resultados menos precisos para una cantidad determinada de datos de entrada. Sin embargo, hay una enorme cantidad de datos disponibles no anotados (incluido, entre otras cosas, todo el contenido de la World Wide Web), que a menudo pueden compensar los resultados inferiores. Periodo neuralEn 1990, la red Elman, utilizando una red neuronal recurrente, codificó cada palabra en un conjunto de entrenamiento como un vector, llamado word embedding, y todo el vocabulario como una base de datos de vectores, lo que le permitió realizar tareas tales como predicciones de secuencias que están más allá del poder de un simple perceptrón multicapa. Una deficiencia de las incrustaciones estáticas era que no diferenciaban entre múltiples significados de homónimos.[9] Software
Referencias
Bibliografía
|
Portal di Ensiklopedia Dunia