OpenAI o1
OpenAI o1 es un transformador generativo preentrenado (GPT). OpenAI lanzó una vista previa el 12 de septiembre de 2024. Este modelo «piensa» antes de responder, lo que lo hace mejor que GPT-4o en tareas de razonamiento complejo, ciencia y programación. [1] La versión completa se lanzó el 5 de diciembre de 2024. [2] HistoriaSegún información filtrada, o1 antes se conocía dentro de OpenAI como “Q*”, y luego como “Strawberry”. [3] El nombre clave «Q*» apareció por primera vez en noviembre de 2023, cerca del momento de la destitución y posterior reinstalación de Sam Altman, con rumores que sugerían que este modelo experimental había mostrado resultados prometedores en puntos de referencia matemáticos. [4] En julio de 2024, Reuters informó que OpenAI estaba desarrollando un transformador generativo preentrenado conocido como “Strawberry”, [3] que luego se convirtió en o1. “o1-preview” y “o1-mini” se lanzaron el 12 de septiembre de 2024 para los usuarios de ChatGPT Plus y Team. [1] GitHub comenzó a probar la integración de o1-preview en su servicio Copilot el mismo día. [5] El 5 de diciembre de 2024 se lanzó la versión completa de o1. [6] Ese mismo día se lanzó una suscripción llamada ChatGPT Pro, que ofrece acceso a una versión pro de o1 que utiliza más recursos informáticos para brindar mejores respuestas. [6] OpenAI señaló que o1 es el primero de una serie de modelos de “razonamiento”. La API de o1-preview es varias veces más cara que la de GPT-4o . [7] OpenAI planea lanzar su modelo o1-mini a los usuarios gratuitos, pero no se anunció ningún cronograma al momento del lanzamiento. CapacidadesSegún OpenAI, o1 ha sido entrenado utilizando un nuevo algoritmo de optimización y un conjunto de datos específicamente diseñado para él; al mismo tiempo que incorpora aprendizaje de refuerzo en su entrenamiento. [7] OpenAI describió a o1 como un complemento de GPT-4o en lugar de un sucesor. [8] [9] O1 dedica más tiempo a pensar (generar una cadena de pensamientos) antes de generar una respuesta, lo que lo hace mejor para tareas de razonamiento complejas, particularmente en ciencias y matemáticas. [1] En comparación con los modelos anteriores, o1 ha sido entrenado para generar largas «cadenas de pensamiento» antes de devolver una respuesta final. [10] [11] Según Mira Murati, esta capacidad de pensar antes de responder representa un nuevo paradigma adicional, que mejora los resultados del modelo al gastar más poder computacional al generar la respuesta, mientras que el paradigma de escalamiento del modelo mejora los resultados al aumentar el tamaño del modelo, los datos de entrenamiento y el poder computacional del entrenamiento. [8] Los resultados de las pruebas de OpenAI sugieren una correlación entre la precisión y el logaritmo de la cantidad de cálculo empleado para pensar antes de responder. [11] [10] O1-preview tuvo un desempeño aproximado a un nivel de doctorado en pruebas de referencia relacionadas con física, química y biología. En el American Invitational Mathematics Examination, resolvió el 83% (12,5/15) de los problemas, en comparación con el 13% (1,8/15) del GPT-4o. También se ubicó en el percentil 89 en las competiciones de codificación de Codeforces . [12] o1-mini es más rápido y un 80% más barato que o1-preview. Es especialmente adecuado para programación y tareas relacionadas con STEM, pero no tiene el mismo «conocimiento mundial amplio» que o1-preview. [13] OpenAI señaló que las capacidades de razonamiento de o1 lo hacen mejor a la hora de cumplir con las reglas de seguridad proporcionadas en la ventana de contexto del mensaje. OpenAI informó que durante una prueba, una instancia de o1-preview aprovechó una configuración incorrecta para realizar con éxito una tarea que debería haber sido inviable debido a un error. [14] [15] OpenAI también otorgó acceso anticipado a los Institutos de Seguridad de IA del Reino Unido y los EE. UU. para investigación, evaluación y pruebas. Según las evaluaciones de OpenAI, o1-preview y o1-mini pasaron a ser de “riesgo medio” en armas CBRN (biológicas, químicas, radiológicas y nucleares). Dan Hendrycks escribió que «el modelo ya supera a los científicos con doctorado la mayor parte del tiempo en la respuesta a preguntas relacionadas con las armas biológicas». Sugirió que estas capacidades preocupantes seguirán aumentando. [16] LimitacionesO1 generalmente requiere más tiempo de cálculo y potencia que otros modelos GPT de OpenAI, porque genera largas cadenas de pensamiento antes de dar la respuesta final. [10] Según OpenAI, o1 puede «falsificar la alineación», es decir, generar una respuesta que es contraria a la precisión y a su propia cadena de pensamiento, en aproximadamente el 0,38% de los casos. [17] OpenAI prohíbe a los usuarios intentar revelar la cadena de pensamiento de o1, que está oculta por diseño y no está entrenada para cumplir con las políticas de la empresa. Se monitorean los mensajes y los usuarios que violen esto intencional o accidentalmente pueden perder su acceso a o1. OpenAI cita la seguridad de la IA y la ventaja competitiva como razones para la restricción, que ha sido descrita como una pérdida de transparencia por parte de los desarrolladores que trabajan con modelos de lenguaje grandes (LLM). [18] En octubre de 2024, los investigadores de Apple presentaron un informe preliminar en el que informaban que los LLM como o1 podrían estar replicando los pasos de razonamiento de los propios datos de entrenamiento de los modelos. [19] Al cambiar los números y nombres utilizados en un problema de matemáticas o simplemente ejecutar el mismo problema nuevamente, los LLM obtendrían un rendimiento ligeramente peor que sus mejores resultados de referencia. Añadir información extraña pero lógicamente intrascendente a los problemas provocó una caída mucho mayor en el rendimiento, de -17,5 % para o1-preview y -29,1 % para o1-mini, a -65,7 % para el peor modelo probado. [20] Véase tambiénReferencias
|
Portal di Ensiklopedia Dunia