Un modelo extenso de lenguaje o LLM (siglas en inglés para Large Language Model), también llamado modelo de lenguaje de gran tamaño, modelo de lenguaje grande,[1] o gran modelo de lenguaje,[2] es un modelo de lenguaje que consta de una red neuronal con muchos parámetros (normalmente miles de millones o más), entrenados en grandes cantidades de texto sin etiquetar mediante aprendizaje autosupervisado o aprendizaje semisupervisado.[3] Los LLMs surgieron alrededor de 2018[cita requerida] y se desempeñan bien en una amplia variedad de tareas. Esto ha cambiado el enfoque de la investigación del procesamiento del lenguaje natural alejándose del paradigma anterior de entrenar modelos supervisados especializados para tareas específicas.
Algunos LLMs notables son la serie de modelos GPT de OpenAI (por ejemplo, GPT-3 y GPT-4 , utilizados en ChatGPT y Microsoft Copilot), PaLM y Gemini de Google (el último de los cuales se utiliza actualmente en el chatbot del mismo nombre), o Claude de Anthropic, entre otros.
Aunque el término modelo grande de lenguaje no tiene una definición formal, a menudo se refiere a modelos de aprendizaje profundo que tienen un recuento de parámetros del orden de miles de millones o más. Los LLMs son modelos de propósito general que se destacan en una amplia gama de tareas, en lugar de estar capacitados para una tarea específica (como el análisis de sentimientos, el reconocimiento de entidades nombradas o el razonamiento matemático).[4] La habilidad con la que realizan las tareas y la gama de tareas de las que son capaces parece ser una función de la cantidad de recursos (datos, número de parámetros, capacidad de cálculo) que se les dedican, de una manera que no depende sobre avances adicionales en el diseño.[5]
Aunque entrenados en tareas simples como predecir la siguiente palabra en una oración, se encuentran modelos de lenguaje neuronal con suficiente entrenamiento y contaje de parámetros para capturar gran parte de la sintaxis y la semántica del lenguaje humano. Además, los modelos de lenguaje grande demuestran un conocimiento general considerable sobre el mundo y son capaces de "memorizar" una gran cantidad de hechos durante el entrenamiento.
Propiedades
Conjuntos de datos de pre-entrenamiento
Los LLMs están pre-entrenados en grandes conjuntos de corpus textuales. Algunos conjuntos de corpus de texto de uso común son Common Crawl, The Pile, MassiveText,[6] Wikipedia y GitHub. Los conjuntos de datos tienen un tamaño de hasta 10 billones de palabras.
El almacén de datos lingüísticos de alta calidad está dentro de los 4,6 a 17 billones de palabras, que está dentro de un orden de magnitud para los conjuntos de corpus textuales más grandes.[7]
Leyes de escala
En general, un LLM se puede describir de manera incompleta con cuatro parámetros:[cita requerida] tamaño del modelo, tamaño del conjunto de datos de entrenamiento, costo del entrenamiento y rendimiento después del entrenamiento. Cada una de estas cuatro variables se puede definir con precisión mediante un número real y, empíricamente, se encuentra que dichos números están relacionados por leyes estadísticas simples, llamadas "leyes de escala".
es el número de tokens en el conjunto de entrenamiento.
es la pérdida promedio de probabilidad logarítmica negativa por token (nats /token), lograda por el LLM capacitado en el conjunto de datos de prueba.
y los parámetros estadísticos son:
, lo que significa que cuesta 6 FLOP por parámetro entrenar en un token. Obsérvese que el costo de capacitación es mucho más alto que el costo de inferencia, donde cuesta de 1 a 2 FLOP por parámetro inferir en un token.
.
Habilidades emergentes
Si bien generalmente se puede extrapolar el rendimiento de los modelos grandes en varias tareas, en función del rendimiento de modelos más pequeños similares, a veces los modelos grandes experimentan un "cambio de fase discontinuo" en el que el modelo adquiere repentinamente habilidades sustanciales que no se ven en modelos más pequeños. Estas se conocen como "habilidades emergentes" y han sido objeto de un estudio sustancial. Los investigadores señalan que tales habilidades "no se pueden predecir simplemente extrapolando el rendimiento de modelos más pequeños".[4] Estas habilidades se descubren en lugar de programarse o diseñarse, en algunos casos solo después de que el LLM se haya implementado públicamente.[5] Se han descrito cientos de habilidades emergentes. Los ejemplos incluyen aritmética de varios pasos, aprobar exámenes de nivel universitario, identificar el significado previsto de una palabra,[4] indicaciones de cadena de pensamientos,[4] decodificar el Alfabeto Fonético Internacional, descifrar las letras de una palabra, identificar contenido ofensivo en párrafos de Hinglish (una combinación de hindi e inglés), y generando un equivalente en inglés similar a los proverbios en kiswahili.[9]
Se ha observado que los LLM generativos afirman con confianza afirmaciones de hecho que no parecen estar justificadas por sus datos de entrenamiento, un fenómeno que se ha denominado "alucinación".[10]
Arquitectura
Los modelos de lenguajes grandes han utilizado con mayor frecuencia la arquitectura de transformadores, que, desde 2018, se ha convertido en la técnica de aprendizaje profundo estándar para datos secuenciales (anteriormente, las arquitecturas recurrentes como LSTM eran las más comunes).
Tokenización
Formalmente, los LLM son funciones matemáticas cuya entrada y salida son listas de números. En consecuencia, las palabras deben convertirse en números. En general, un LLM usa un tokenizador separado. Un tokenizador es una función biyectiva que mapea entre textos y listas de enteros. El tokenizador generalmente se adapta primero a todo el conjunto de datos de entrenamiento y luego se congela antes de que se entrene el LLM. Una opción común es la codificación de pares de bytes.
Otra función de los tokenizadores es la compresión de texto, que ahorra cómputo. Las palabras o frases comunes como "dónde está" se pueden codificar en un token, en lugar de 10 caracteres. La serie OpenAI GPT utiliza un tokenizador donde 1 token se asigna a alrededor de 4 caracteres, o alrededor de 0,75 palabras, en texto común en inglés.[11] El texto en inglés poco común es menos predecible, por lo tanto, menos comprimible, por lo que requiere más tokens para codificar.
Un tokenizador no puede generar enteros arbitrarios. Por lo general, solo generan números enteros en el rango , donde se llama su tamaño de vocabulario.
Algunos tokenizadores son capaces de manejar texto arbitrario (generalmente al operar directamente en Unicode), pero otros no. Al encontrar texto no codificable, un tokenizador generaría un token especial (a menudo 0) que representa "texto desconocido". Esto a menudo se escribe como [UNK], como en el documento BERT.
Otro token especial que se usa comúnmente es [PAD] (a menudo 1), para "relleno". Esto se usa porque los LLM generalmente se usan en lotes de texto a la vez, y estos textos no se codifican con la misma longitud. Dado que los LLM generalmente requieren que la entrada sea una matriz no irregular, los textos codificados más cortos deben rellenarse hasta que coincidan con la longitud del más largo.
Output
El output de un LLM es una distribución de probabilidad sobre su vocabulario. Esto generalmente se implementa de la siguiente manera:
Al recibir un texto, la mayor parte del LLM genera un vector dónde es su tamaño de vocabulario (definido arriba).
el vector se pasa a través de una función softmax para obtener .
En el proceso, el vector generalmente se llama el vector logit no normalizado, y el vector se llama vector de probabilidad. Dado que el vector tiene entradas, todas no negativas, y suman 1, podemos interpretarlo como una distribución de probabilidad sobre —es decir, es una distribución de probabilidad sobre el vocabulario del LLM.
Considerar que la función softmax se define matemáticamente sin parámetros para variar. En consecuencia, no está entrenada.
Entrenamiento
La mayoría de los LLM se entrenan mediante preentrenamiento generativo, es decir, dado un conjunto de datos de entrenamiento de tokens de texto, el modelo predice los tokens en el conjunto de datos. Hay dos estilos generales de preentrenamiento generativo:[12]
autorregresivo (estilo GPT, "predecir la siguiente palabra"): Dado un segmento de texto como "Me gusta comer", el modelo predice los siguientes tokens, como "helado".
enmascarado ("estilo BERT",[13] "prueba cloze"): dado un segmento de texto como "Me gusta [MASCARILLA] [MASCARILLA] crema", el modelo predice los tokens enmascarados, como "comer helado".
Los LLM pueden recibir capacitación en tareas auxiliares que prueban su comprensión de la distribución de datos, como la predicción de la siguiente oración (NSP), en la que se presentan pares de oraciones y el modelo debe predecir si aparecen consecutivamente en el corpus de capacitación.[13]
Por lo general, los LLM están capacitados para minimizar una función de pérdida específica: la probabilidad logarítmica negativa promedio por token (también llamada pérdida de entropía cruzada).[14] Por ejemplo. si un modelo autorregresivo, dado "Me gusta comer", predice una distribución de probabilidad entonces la pérdida de probabilidad logarítmica negativa en este token es .
Durante el entrenamiento, la pérdida de regularización también se utiliza para estabilizar el entrenamiento. Sin embargo, la pérdida de regularización generalmente no se usa durante las pruebas y la evaluación. También hay muchos más criterios de evaluación más allá de la probabilidad logarítmica negativa.
Los primeros LLM se formaron en un corpus linguítico que tenía una dimensión de miles de millones de palabras.
GPT-1, el primer modelo de la serie numerada de modelos de transformadores preentrenados generativos de OpenAI, se entrenó en 2018 en BookCorpus, que consta de 985 millones de palabras.[15] En el mismo año, BERT se capacitó en una combinación de BookCorpus y Wikipedia en inglés, con un total de 3300 millones de palabras.[13] Desde entonces, los corpus de capacitación para LLM han aumentado en órdenes de magnitud, llegando a billones de tokens.[13]
Costo de entrenamiento
Los LLM son computacionalmente costosos de entrenar. Un estudio de 2020 estimó el costo de entrenar un modelo de 1500 millones de parámetros (2 órdenes de magnitud más pequeño que el estado del arte en ese momento) en $1,6 millones. Los avances en software y hardware han reducido sustancialmente el costo, con un documento de 2023 que informa un costo de 72,300 A100-GPU -horas para entrenar un modelo de 12 mil millones de parámetros.[16]Se estima que para entrenar solo una vez a GPT-3, con 175 mil millones de parámetros, se necesitan $4,6 millones, para lo cual una sola RTX 8000, tardaría 665 años en terminar.[17]
Para los LLMs basados en transformers, cuesta 6 FLOP por parámetro entrenar en un token. Debe considerarse que el costo de capacitación es mucho más alto que el costo de inferencia, donde cuesta de 1 a 2 FLOP por parámetro inferir en un token.[cita requerida]
Respecto a su coste ambiental, entrenar un LLM tiene un coste energético muy alto. Esto llega a tal punto que entrenar un modelo tan solo una vez, genera las mismas emisiones de carbono que un pasajero en un vuelo de Nueva York a San Francisco.[18] En el caso particular de GPT-3, se estima que entrenarlo una vez llega a consumir más de 1.200 MWh, produciendo más de 500 toneladas de emisiones de CO2.[19] Estos costes aumentan a medida que los modelos tengan más parámetros, es decir, sean más grandes y complejos. Cada ciclo de entrenamiento requiere la dedicación exclusiva de cientos o miles de CPUs y GPUs, que soportan una gran carga computacional, además de almacenar y mover bastas cantidades de datos. Todo esto contribuye a un gran consumo energético, y genera grandes cantidades de calor.
Para reducir estos costes, una solución posible es utilizar modelos más pequeños. Estos pueden tener un desempeño similar a un modelo grande en la mayoría de las situaciones, costando alrededor de $100 para entrenar, en vez de millones. Un ejemplo de un modelo pequeño es el modelo Alpaca, desarrollado por investigadores de la Universidad de Stanford a partir del modelo de Meta AI llamado LLaMA. Este es suficientemente ligero como para correr en un ordenador de escritorio.[20]
Otra forma de reducir el coste de entrenamiento inicial es usar aprendizaje one-shot o few-shot durante su ciclo de vida, lo cual permitirá al modelo aprender durante su utilización. De esta manera, no se requiere una inversión tan grande para el entrenamiento inicial, y puede aprender a medida que se utiliza.
Aplicación a tareas posteriores (downstream tasks)
Entre 2018 y 2020, el método estándar para preparar un LLM para una tarea específica de procesamiento del lenguaje natural (NLP) fue ajustar el modelo con capacitación adicional específica para la tarea. Posteriormente, se descubrió que los LLM más potentes, como GPT-3, pueden resolver tareas sin capacitación adicional a través de técnicas de "incitación", en las que el problema a resolver se presenta al modelo como un mensaje de texto, posiblemente con algunos ejemplos textuales de similares problemas y sus soluciones.
Ajuste fino (Fine-tuning)
El ajuste fino es la práctica de modificar un modelo de lenguaje previamente entrenado entrenándolo (de manera supervisada) en una tarea específica (por ejemplo, análisis de sentimientos, reconocimiento de entidades nombradas o etiquetado de partes del discurso).[21][22] Es una forma de transferencia de aprendizaje. Por lo general, implica la introducción de un nuevo conjunto de pesos (weights)[23] que conectan la capa final del modelo de lenguaje con el resultado de la tarea posterior. Los pesos originales del modelo de lenguaje pueden "congelarse", de modo que solo se aprenda la nueva capa de pesos que los conecta con la salida durante el entrenamiento. Alternativamente, los pesos originales pueden recibir pequeñas actualizaciones (posiblemente con capas anteriores congeladas).[13]
Indicaciones (prompting)
En el paradigma de indicaciones, popularizado por GPT-3,[4] el problema a resolver se formula a través de un mensaje de texto, que el modelo debe resolver proporcionando una finalización (a través de la inferencia). En las "indicaciones de pocas oportunidades", la indicación incluye una pequeña cantidad de ejemplos de pares similares (problema, solución). Por ejemplo, una tarea de análisis de opinión de etiquetar la opinión de una reseña de una película podría solicitarse de la siguiente manera:[4]
Reseña: Esta película apesta.
Sentimiento: negativo
Reseña: ¡Esta película es fantástica!
Sentimiento: positivo
Si el modelo da como resultado "positivo", entonces ha resuelto correctamente la tarea. En las indicaciones de disparo cero (zero-shot),[Notas 1][24][25] no se proporcionan ejemplos de resolución. Un ejemplo de un aviso de disparo cero para la misma tarea de análisis de sentimiento sería "El sentimiento asociado con la reseña de la película '¡Esta película es fantástica!' ".
Se ha demostrado que el rendimiento de pocos disparos de los LLM logra resultados competitivos en tareas de PNL, a veces superando los enfoques de ajuste fino de última generación. Ejemplos de tales tareas de PNL son la traducción, la respuesta a preguntas, las tareas de cloze[Notas 2], descifrar palabras y usar una palabra nueva en una oración. La creación y optimización de dichos avisos se denomina ingeniería de avisos.
Ajuste de instrucciones
El ajuste de instrucciones es una forma de ajuste fino diseñado para facilitar interacciones de indicaciones de tiro cero más naturales y precisas. Dada una entrada de texto, un modelo de lenguaje previamente entrenado generará una terminación que coincida con la distribución del texto en el que fue entrenado. Un modelo de lenguaje ingenuo dado el mensaje "Escribe un ensayo sobre los temas principales de Hamlet ". podría proporcionar una finalización como "Se aplicará una multa por retraso del 10% por día a las presentaciones recibidas después del 17 de marzo". En el ajuste de instrucciones, el modelo de lenguaje se entrena en muchos ejemplos de tareas formuladas como instrucciones en lenguaje natural, junto con las respuestas apropiadas.
En la práctica se han aplicado diversas técnicas para la puesta punto de instrucciones.[25] Un ejemplo, "autoinstrucción", ajusta el modelo de lenguaje en un conjunto de ejemplos de entrenamiento que son generados por un LLM (arrancado a partir de un pequeño conjunto inicial de ejemplos generados por humanos).
Aprendizaje reforzado
El protocolo InstructGPT[26] de OpenAI implica un ajuste fino supervisado en un conjunto de datos de pares generados por humanos (solicitud, respuesta), seguido de un aprendizaje reforzado a partir de la retroalimentación humana (RLHF),[27] en el que se supervisó y aprendió un modelo de recompensa en un conjunto de datos de preferencias humanas, luego este modelo de recompensa se utilizó para capacitar al propio LLM mediante la optimización de políticas proximales.
Evaluación
Perplejidad
La medida más utilizada del rendimiento de un modelo de lenguaje es su perplejidad en un corpus de texto dado. La perplejidad es una medida del acierto con el que un modelo puede predecir el contenido de un conjunto de datos; cuanto mayor sea la probabilidad que el modelo asigna al conjunto de datos, menor será la perplejidad. Matemáticamente, la perplejidad se define como el exponencial de la probabilidad logarítmica negativa promedio por token:aquí es el número de tokens en el corpus de texto, y el "contexto para el token i" depende del tipo específico de LLM utilizado. Si el LLM es autorregresivo, entonces el "contexto para el token i" es el segmento de texto que aparece antes del token i. Si el LLM está enmascarado, entonces el "contexto para el token i" es el segmento de texto que rodea al token i.[28]
Debido a que los modelos de lenguaje pueden sobreajustarse a sus datos de entrenamiento, los modelos generalmente se evalúan por su perplejidad en un conjunto de prueba de datos no vistos.[13] Esto presenta desafíos particulares para la evaluación de grandes modelos de lenguaje. A medida que se entrenan en corpus de texto cada vez más grandes extraídos en gran parte de la web, es cada vez más probable que los datos de entrenamiento de los modelos incluyan inadvertidamente partes de cualquier conjunto de prueba dado.[25]
Conjuntos de datos y puntos de referencia específicos de la tarea
También se ha desarrollado una gran cantidad de conjuntos de datos de prueba y puntos de referencia para evaluar las capacidades de los modelos de lenguaje en tareas posteriores más específicas. Las pruebas pueden diseñarse para evaluar una variedad de capacidades, incluido el conocimiento general, el razonamiento de sentido común y la resolución de problemas matemáticos.
Una amplia categoría de conjuntos de datos de evaluación son los conjuntos de datos de preguntas y respuestas, que consisten en pares de preguntas y respuestas correctas, por ejemplo, ("¿Han ganado los San Jose Sharks la Copa Stanley?"). , "No").[29] Una tarea de respuesta a una pregunta se considera un "libro abierto" si el mensaje del modelo incluye texto del que se puede derivar la respuesta esperada (por ejemplo, la pregunta anterior podría ir acompañada de algún texto que incluya la oración "Los Shraks han avanzado a la Copa Stanley finales una vez, perdiendo ante los Pittsburgh Penguins en 2016").[29] De lo contrario, la tarea se considera "libro cerrado" y el modelo debe basarse en el conocimiento retenido durante el entrenamiento.[30] Algunos ejemplos de conjuntos de datos de respuesta a preguntas de uso común incluyen TruthfulQA, Web Questions, TriviaQA y SQuAD.[30]
Los conjuntos de datos de evaluación también pueden tomar la forma de finalización de texto, haciendo que el modelo seleccione la palabra o la oración más probable para completar un mensaje, por ejemplo: "Alice era amiga de Bob. Alice fue a visitar a su amiga, ___".[25]
También se han desarrollado algunos puntos de referencia compuestos que combinan una diversidad de diferentes conjuntos de datos y tareas de evaluación. Los ejemplos incluyen GLUE, SuperGLUE, MMLU, BIG-bench y HELM.[31][30]
Anteriormente, era estándar informar los resultados en una parte retenida de un conjunto de datos de evaluación después de realizar un ajuste fino supervisado en el resto. Ahora es más común evaluar un modelo previamente entrenado directamente a través de técnicas de indicación, aunque los investigadores varían en los detalles de cómo formulan las indicaciones para tareas particulares, particularmente con respecto a cuántos ejemplos de tareas resueltas se adjuntan a la indicación (es decir, el valor de n en la solicitud de n disparos).
Evaluaciones construidas adversarialmente
Debido al rápido ritmo de mejora de los grandes modelos de lenguaje, los puntos de referencia de evaluación han sufrido una vida útil corta, con modelos de última generación que "saturan" rápidamente los puntos de referencia existentes, superando el rendimiento de los anotadores humanos, lo que lleva a esfuerzos para reemplazar o aumentar el punto de referencia con tareas más desafiantes.[32]
Algunos conjuntos de datos se han construido de manera contradictoria, centrándose en problemas particulares en los que los modelos de lenguaje existentes parecen tener un rendimiento inusualmente bajo en comparación con los humanos. Un ejemplo es el conjunto de datos TruthfulQA, un conjunto de datos de respuesta a preguntas que consta de 817 preguntas cuyos modelos de lenguaje son susceptibles de responder incorrectamente al imitar falsedades a las que fueron expuestos repetidamente durante el entrenamiento. Por ejemplo, un LLM puede responder "No" a la pregunta "¿Puedes enseñarle trucos nuevos a un perro viejo?" Debido a su exposición al idioma inglés , no puedes enseñarle nuevos trucos a un perro viejo,[33] aunque esto no es literalmente cierto.[34]
Otro ejemplo de un conjunto de datos de evaluación contradictorio es Swag y su sucesor, HellaSwag, colecciones de problemas en los que se debe seleccionar una de múltiples opciones para completar un pasaje de texto. Las finalizaciones incorrectas se generaron mediante el muestreo de un modelo de lenguaje y el filtrado con un conjunto de clasificadores. Los problemas resultantes son triviales para los humanos, pero en el momento en que se crearon los conjuntos de datos, los modelos de lenguaje de última generación tenían poca precisión. Por ejemplo:
Vemos un cartel de un gimnasio. Luego vemos a un hombre hablando a la cámara y sentado y acostado sobre una pelota de ejercicios. El hombre... a) demuestra cómo aumentar el trabajo de ejercicio eficiente corriendo pelotas hacia arriba y hacia abajo. b) mueve todos sus brazos y piernas y desarrolla mucho músculo. c) luego toca la pelota y vemos una demostración de gráficos y poda de setos. d) realiza abdominales mientras tiene la pelota y habla.[35]
BERT selecciona b) como la finalización más probable, aunque la respuesta correcta es d).[35]
La primera de una serie de alternativas gratuitas de GPT-3 lanzadas por EleutherAI. GPT-Neo superó a un modelo GPT-3 de tamaño equivalente en algunos puntos de referencia, pero fue significativamente peor que el GPT-3 más grande.[49]
38.5B tokens de páginas web filtradas para contenido matemático y de artículos enviados al servidor de preimpresión arXiv[70]
Patentado
LLM capacitado para resolver "cuestiones matemáticas y científicas utilizando el razonamiento paso a paso".[71] Minerva se basa en el modelo PaLM, más capacitado en datos matemáticos y científicos.
Capacitado en un gran corpus de 20 idiomas para apuntar a un mejor rendimiento con menos parámetros. Investigadores de la Universidad de Stanford entrenaron un modelo afinado basado en pesos LLaMA, llamado Alpaca.[79]
363 miles de millones token conjunto de datos basado en las fuentes de datos de Bloomberg, plus 345 miles de millones tokens de conjuntos de datos de propósito general[83]
Patentado
LLM entrenado en datos financieros de fuentes patentadas, que "supera a los modelos existentes en tareas financieras por márgenes significativos sin sacrificar el rendimiento en los puntos de referencia generales de LLM" [83]
↑El aprendizaje de disparo cero (ZSL) es una configuración de problemas en el aprendizaje automático donde, en el momento de la prueba, un alumno observa muestras de clases que no se observaron durante el entrenamiento y necesita predecir la clase a la que pertenece. Los métodos de tiro cero generalmente funcionan asociando clases observadas y no observadas a través de alguna forma de información auxiliar, que codifica las propiedades distintivas observables de los objetos.
↑Una prueba de cloze (también prueba de eliminación de cloze o prueba de oclusión) es un ejercicio, prueba o evaluación que consiste en una parte del idioma con ciertos elementos, palabras o signos eliminados (texto cloze), donde se le pide al participante que reemplace el elemento faltante.
↑Esta es la fecha en que se publicó por primera vez la documentación que describe la arquitectura del modelo.
↑En muchos casos, los investigadores publican o informan sobre múltiples versiones de un modelo que tiene diferentes tamaños. En estos casos, aquí se indica el tamaño del modelo más grande.
↑Esta es la licencia de los modelos pre-entrenados. En casi todos los casos, el código de entrenamiento en sí es de código abierto o se puede replicar fácilmente.
↑Como se indica en el Informe técnico: "Dado el panorama competitivo y las implicaciones de seguridad de los modelos a gran escala como GPT-4, este informe no contiene más detalles sobre la arquitectura (incluido el tamaño del modelo), el hardware, el cálculo de entrenamiento, la construcción de conjuntos de datos, el entrenamiento método ..." Número aproximado en el cuadro de comparación que compara el almacenamiento relativo, del mismo informe.
↑Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne et al. (29 de marzo de 2022). «Training Compute-Optimal Large Language Models». arXiv:2203.15556 [cs].Se sugiere usar |número-autores= (ayuda)
↑Biderman, Stella; Schoelkopf, Hailey; Anthony, Quentin; Bradley, Herbie; Khan, Mohammad Aflah; Purohit, Shivanshu; Prashanth, USVSN Sai (April 2023). «Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling». arXiv:2304.01373 [cs.CL].
↑Strubell, Emma; Ganesh, Ananya; McCallum, Andrew (2019-07). «Energy and Policy Considerations for Deep Learning in NLP». En Korhonen, Anna, ed. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (Association for Computational Linguistics): 3645-3650. doi:10.18653/v1/P19-1355. Consultado el 4 de noviembre de 2023.
↑Xian, Yongqin; Lampert, Christoph H.; Schiele, Bernt; Akata, Zeynep (2020-09-23). «Zero-Shot Learning -- A Comprehensive Evaluation of the Good, the Bad and the Ugly». arXiv:1707.00600 [cs.CV].
↑Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe (4-3-2022). «Training language models to follow instructions with human feedback»(en inglés). Consultado el 8-5-2023.
↑ abcZhao, Wayne Xin; Zhou, Kun; Li, Junyi; Tang, Tianyi; Wang, Xiaolei; Hou, Yupeng; Min, Yingqian; Zhang, Beichen et al. (28 de abril de 2023). «A Survey of Large Language Models». arXiv:2303.18223 [cs]. Consultado el 8 de mayo de 2023.Se sugiere usar |número-autores= (ayuda)
↑«Introducing ChatGPT». openai.com(en inglés estadounidense). Consultado el 8 de mayo de 2023.
↑GPT Neo, EleutherAI, 8 de mayo de 2023, consultado el 8 de mayo de 2023.
↑Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace et al. (31 de diciembre de 2020). «The Pile: An 800GB Dataset of Diverse Text for Language Modeling». arXiv:2101.00027 [cs]. Consultado el 8 de mayo de 2023.Se sugiere usar |número-autores= (ayuda)
↑Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace et ál. (2020-12-31). «The Pile: An 800GB Dataset of Diverse Text for Language Modeling». arXiv:2101.00027 [cs.CL].
↑Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan et al. (23 de diciembre de 2021). ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation. arXiv:2112.12731.Se sugiere usar |número-autores= (ayuda)
↑«Product». Anthropic(en inglés). Consultado el 14 de marzo de 2023.
↑ abAskell, Amanda; Bai, Yuntao; Chen, Anna et ál. (2021-12-09). «A General Language Assistant as a Laboratory for Alignment». arXiv:2112.00861 [cs.CL].
↑Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan et ál. (2022-12-15). «Constitutional AI: Harmlessness from AI Feedback». arXiv:2212.08073 [cs.CL].
↑Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne et al. (29 de marzo de 2022). «Training Compute-Optimal Large Language Models». arXiv:2203.15556 [cs]. Consultado el 8 de mayo de 2023.Se sugiere usar |número-autores= (ayuda)
↑Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur et ál. (2022-03-29). «Training Compute-Optimal Large Language Models». arXiv:2203.15556 [cs.CL].
↑. Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. 1 de mayo de 2022. pp. 95-136.
↑Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace et ál. (2020-12-31). «The Pile: An 800GB Dataset of Diverse Text for Language Modeling». arXiv:2101.00027 [cs.CL].
↑The smaller models including 66B are publicly available, while the 175B model is available on request.
↑ abKhrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey; Zinov, Nikolay (22 de junio de 2022), YaLM 100B, consultado el 18 de marzo de 2023.
↑ abLewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem et al. (30 de junio de 2022). «Solving Quantitative Reasoning Problems with Language Models». arXiv:2206.14858 [cs]. Consultado el 8 de mayo de 2023.Se sugiere usar |número-autores= (ayuda)
↑Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor et al. (16 de noviembre de 2022). «Galactica: A Large Language Model for Science». arXiv:2211.09085 [cs, stat]. Consultado el 8 de mayo de 2023.Se sugiere usar |número-autores= (ayuda)
↑"20B-parameter Alexa model sets new marks in few-shot learning". Amazon Science. 2 de agosto de 2022.
↑Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack et ál. (2022-08-03). «AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model». arXiv:2208.01448 [cs.CL].
↑"AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog". aws.amazon.com. 17 de noviembre de 2022. Consultado el 8 de mayo de 2023.
↑ abWu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David et al. (30 de marzo de 2023). BloombergGPT: A Large Language Model for Finance. arXiv:2303.17564.Se sugiere usar |número-autores= (ayuda)
↑Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda et al. (19 de marzo de 2023). PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing. arXiv:2303.10845.Se sugiere usar |número-autores= (ayuda)