Modelos fundacionalesUn modelo fundacional es un modelo de gran tamaño de inteligencia artificial entrenado en una gran cantidad de datos no etiquetados a escala (generalmente mediante aprendizaje autosupervisado) que da como resultado un modelo que se puede adaptar a una amplia gama de tareas posteriores.[1][2] Los modelos fundacionales han ayudado a lograr una gran transformación en la forma en que se construyen los sistemas de IA desde su introducción en 2018. Los primeros ejemplos de modelos fundacionales fueron grandes modelos de lenguaje pre-entrenados, incluidos BERT y GPT-3 . Usando las mismas ideas, también se han construido modelos específicos de dominio que usan secuencias de otros tipos de tokens, como códigos médicos.[3] Posteriormente, se han producido varios modelos fundacionales multimodales, incluidos DALL-E, Flamingo,[4] y Florence. El Centro de Investigación de Modelos Fundacionales (CRFM) del Institute for Human-Centered Artificial Intelligence de la Universidad de Stanford (HAI) popularizó el término.[1] Referencias
|