Prueba de esquemas de WinogradLa prueba de esquemas de Winograd (en inglés: Winograd Schema Test; abreviado como WSC), también Test de esquemas de Winograd, es una prueba de inteligencia artificial propuesta por Hector Levesque, científico computacional de la Universidad de Toronto, en 2014. Esta prueba fue diseñada como una mejora al Test de Turing y consiste en un cuestionario de preguntas con múltiples respuestas provenientes de los esquemas ideados por Terry Winograd, también científico computacional, de la Universidad de Stanford.[1] A primera vista, las preguntas de los esquemas de Winograd parecen requerir, simplemente, de la resolución de anáforas; de esta manera, la máquina debe identificar el antecedente de un pronombre ambiguo en una declaración. Esto lo hace una tarea de procesamiento de lenguaje natural, pero Levesque asegura que para resolver los esquemas de Winograd hace falta, también, emplear conocimiento y sentido común.[2] En 2016, la empresa desarrolladora de software, Nuance Communications, anunció que patrocinaría una competencia anual con un premio de 25 mil dólares para el sistema que más se acercara al desempeño humano en un reto de esquemas de Winograd.[3] Sin embargo, el premio no ha sido ofertado nuevamente. HistoriaLa prueba de esquemas de Winograd fue propuesta con el mismo espíritu que el Test de Turing, propuesto por Alan Turing en 1950, la cual posee un importante rol en la filosofía de la inteligencia artificial. Turing propuso que en vez de debatir sobre una definición de inteligencia, la ciencia computacional debería preocuparse por demostrar a existencia de comportamiento inteligente a través de pruebas. No obstante, desde entonces, el Test de Turing ha sido sometido a grandes críticas, especialmente desde que, en 2014, se alegó que un robot llamado Eugene había pasado la prueba.[4] Eugene GoostmanEl 7 de junio de 2014, un programa de computadora llamado Eugene Goostman fue declarado como la primera IA en haber pasado el Test de Turing en una competición llevada cabo por la Universidad de Reading en Inglaterra. En la competencia Eugene fue capaz de convencer a 33% de los jueces de que hablaban con un niño ucraniano de 13 años. Esta supuesta victoria despertó controversias sobre el Test de Turing. Los críticos reclamaron que Eugene pasó la prueba sencillamente por engañar a los jueces y tomando ventajas de su supuesta identidad. Por ejemplo, se saltó preguntas importantes mediante chistes y cambiando temas. Aun así, el jurado perdonaba sus equivocaciones porque Eugene se identificó como un adolescente cuyo idioma nativo no era el inglés.[5][6] Debilidades del Test de TuringLevesque identifica diversos problemas del Test de Turing:[2][7]
Esquemas de WinogradOrigenEl primer ejemplo citado de un esquema de Winograd se debe a Terry Winograd:[8]
El tema central es si el pronombre "they/ellos" se refiere a los concejales o a los manifestantes, y elegir entre las dos instancias del esquema cambia la respuesta. La respuesta es inmediata para un lector humano, pero es difícil de emular en máquinas. Levesque sostiene, siguiendo las conclusiones de Winograd, que el conocimiento juega una función central en estos problemas: la respuesta a este esquema está relacionado con nuestro entendimiento de las relaciones típicas de comportamiento de concejales y manifestantes.[9] Desde la fecha en que se propuso el Test de esquemas de Winograd, Ernest Davis, un profesor en Universidad de Nueva York, ha compilado una lista de alrededor de 140 esquemas de Winograd, provenientes de diversas fuentes, como ejemplos del tipo de preguntas que pueden aparecer en un Test de esquemas de Winograd.[10] Descripción formalUna pregunta para la prueba de esquemas de Winograd consta de tres partes:
Los esquemas serán dados a la máquina de una manera estandarizada incluyendo las opciones de respuesta. De esta manera se genera un problema de decisión binaria. VentajasLa prueba de esquemas de Winograd tiene el siguientes ventajas:
InconvenientesLa principal desventaja la prueba de esquemas de Winograd es el desarrollo de las preguntas. Estas necesitan ser cuidadosamente creadas para asegurarse de que requieren sentido común para ser respondidas. Esto conlleva dos posibilidades: o las respuestas son "demasiado obvias" o "no son suficientemente obvias".[4] En el primer caso nos encontramos con respuestas que pueden ser determinadas por lo que en lingüística se conoce como "restricciones seleccionales", esto es, los predicados deducen y limitan el contenido semántico de su argumento. Un ejemplo de esto, usado por el propio Lavesque, sería el siguiente:[4]
Debido a la fuerte relación entre velocidad-autos de carreras, el predicado ofrece una pista del sujeto del que se habla sin necesidad de hacer una valoración semántica del esquema en su totalidad. En el segundo caso, esto es, en esquemas no tan obvios en que la respuesta pueda fácilmente atribuirse a uno u otro sujeto:[4]
EventosEn 2016, la empresa Nuance Communications patrocinó una competencia anual, ofreciendo un premio de 25 mil dólares a la inteligencia artificial que pudiera pasar una prueba de esquemas de Winograd en al menos un round de 60 preguntas. El premio nunca fue otorgado y en 2018 Nuance retiró el patrocinio del reto.[11] El reto del esquema de Winograd de 2016 Winograd se llevó a cabo el 11 de julio, durante la International Joint Conference on Artificial Intelligence de aquel año. Hubo 4 contendientes. El mayor puntaje obtenido fue de 58% de respuestas correctas, por el equipo de Quan Liu, de la Universidad de Ciencia y Tecnología de China.[12] No obstante, las reglas del reto establecían que debía obtenerse un porcentaje de aciertos de 90%, por lo que el premio no fue concedido. El comité organizador de aquel año fue Leora Morgenstern, Ernest Davis y Charles Ortiz. Una versión del Test de esquemas de Winograd forma parte de la colección de preguntas de referencias del estándar de evaluación de lenguaje GLUE (General Language Understanding Evaluation) en lo que se refiere a comprensión de lenguaje natural.[13] Referencias
|