Chinchilla AIChinchilla AI es una familia de grandes modelos de lenguaje desarrollados por el equipo de investigación de DeepMind, presentados en marzo de 2022.[1] Se llama "chinchilla" porque es un desarrollo adicional sobre una familia de modelos anterior llamada "Gopher" (tuzas). Ambas familias de modelos fueron entrenadas para investigar las leyes de escala de modelos grandes de lenguaje.[2] Supera a GPT-3 en rendimiento.[3] Simplifica considerablemente la utilización posterior porque requiere mucha menos potencia informática para la inferencia y el ajuste. Con base en el entrenamiento de modelos de lenguaje empleados anteriormente, se ha determinado que si uno duplica el tamaño del modelo, también debe tener el doble de tokens de entrenamiento. Esta hipótesis ha sido utilizada para entrenar Chinchilla AI por DeepMind. Similar a Gopher en términos de costo, Chinchilla AI tiene parámetros 70B y cuatro veces más datos.[4] Chinchilla AI tiene una precisión promedio del 67,5 % en el punto de referencia MMLU (Measuring Massive Multitask Language Understanding), que es un 7 % más alto que el rendimiento de Gopher. Chinchilla AI todavía está en la fase de prueba desde el 12 de enero de 2023.[5] Chinchilla AI contribuye a desarrollar un paradigma de entrenamiento efectivo para grandes modelos de lenguaje autorregresivos con recursos informáticos limitados. El equipo de Chinchilla recomienda que la cantidad de tokens de capacitación sea el doble por cada duplicación del tamaño del modelo, lo que significa que el uso de conjuntos de datos de capacitación más grandes y de mayor calidad puede generar mejores resultados en las tareas posteriores.[6][7] ArquitecturaTanto la familia Gopher como la familia Chinchilla son modelos de aprendizaje transformador. En particular, son esencialmente iguales a GPT-2, con diferentes tamaños y modificaciones menores. La familia Gopher usa RMSNorm en lugar de LayerNorm, codificación posicional relativa en lugar de codificación posicional absoluta. La familia Chinchilla es la misma que la familia Gopher, pero entrenada con AdamW en lugar del optimizador Adam. La familia Gopher contiene 6 modelos de tamaño creciente, desde 44 millones de parámetros hasta 280 mil millones de parámetros. Se refieren al más grande como "Gopher" por defecto. Se aplican convenciones de nomenclatura similares para la familia Chinchilla. La tabla muestra toda la familia Gopher:[2]
La tabla compara el Chinchilla de 70 mil millones de parámetros con el Gopher 280B:[1]
Referencias
|