Sora (inteligencia artificial)

Sora

Demostración de vídeo de una mujer asiática caminando por las calles de Tokio, Japón Bandera de Japón, generado por Sora
Información general
Tipo de programa Inteligencia artificial generativa e inteligencia artificial multimodal
Autor OpenAI
Desarrollador OpenAI
Modelo de desarrollo Privado
Lanzamiento inicial 15 de febrero de 2024
Licencia Licencia privada
Estado actual En desarrollo
Idiomas inglés (english) Bandera del Reino Unido
Enlaces

Sora es un modelo de inteligencia artificial de texto a vídeo y multimodal desarrollado por OpenAI que permite generar vídeos realistas a partir de descripciones textuales.[1]​ Fue publicado por primera vez el 15 de febrero de 2024.[2]

El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo vídeo generado que conservan con precisión los personajes y el estilo visual. El modelo comprende no solo lo que el usuario ha pedido en la solicitud, sino también cómo existen esas cosas en el mundo físico, según la empresa.[3]

Inicialmente, la herramienta estará disponible para «un número limitado de creadores», escribió el director ejecutivo de OpenAI, Sam Altman, en una publicación en X (conocida como Twitter). OpenAI también otorgará acceso a un equipo de expertos encargado de evaluar la seguridad de Sora antes de incorporarlo a los productos de la empresa.[4]

Funcionamiento

OpenAI entrenó el modelo utilizando vídeos disponibles públicamente, así como vídeos con derechos de autor con licencia para este propósito, pero no reveló el número ni la fuente exacta de los vídeos.[5]

Sora es un modelo generalista de datos visuales: puede generar vídeos e imágenes que abarcan diversas duraciones, relaciones de aspecto y resoluciones, hasta un minuto completo de vídeo de alta definición. El funcionamiento de Sora se basa en un método de difusión.[6]​ A partir de un vídeo inicial borroso y ruidoso, Sora aplica un proceso de refinamiento gradual hasta obtener un resultado final de alta calidad que se ajusta finalmente al texto de entrada.[2]

Convertir datos visuales en parches

Los modelos de lenguaje de gran tamaño (LLM) han demostrado ser herramientas formidables para el procesamiento del lenguaje natural gracias a su uso de tokens que agrupan información de forma eficiente. Estos tokens permiten que los LLM manejen diferentes tipos de texto, como código, matemáticas y lenguajes naturales. Sora introduce un concepto similar para la generación de videos: los parches visuales.

Al igual que los tokens de texto en los LLM, los parches visuales de Sora agrupan información visual en unidades discretas. Estos parches se extraen de una gran cantidad y diversidad de datos visuales, incluyendo videos, imágenes y animaciones. Posteriormente, se convierten en la base para el entrenamiento de un modelo de tipo transformer, similar al utilizado en el procesamiento del lenguaje natural.

De esta manera, se logra unificar la representación de texto y vídeo. Los parches visuales permiten que Sora interprete y genere contenido visual de la misma manera que los tokens de texto permiten a los LLM procesar y generar lenguaje.[2]

Red de comprensión de vídeo

Se utiliza una red para disminuir la dimensión de los datos visuales. Esta red recibe el vídeo original como entrada y produce una representación latente que se reduce en el tiempo y el espacio. Sora se entrena y luego crea vídeos dentro de este espacio latente reducido. Además, se entrena un modelo de decodificador asociado que mapea los latentes creados al espacio de píxeles.

Parches latentes del espacio-tiempo

A partir de un vídeo comprimido de entrada, se obtiene una secuencia de parches de espacio-tiempo que funcionan como tokens de transformador. Este método también se aplica a las imágenes, ya que las imágenes son vídeos de un solo cuadro. La representación basada en parches le permite a Sora entrenarse en videos e imágenes con diferentes resoluciones, duraciones y proporciones. Al momento de inferir, se puede ajustar el tamaño de los vídeos generados al organizar parches aleatorios en una rejilla del tamaño deseado.

Comprensión del idioma

Para entrenar este sistema, se necesita una gran cantidad de vídeos con sus subtítulos de texto correspondientes. Una técnica que se utiliza para obtener estos subtítulos es el re-subtitulado, que consiste en generar nuevos subtítulos a partir de los existentes. Esta técnica fue introducida en Dall-e 3, una herramienta que crea imágenes a partir de texto. Para aplicar el re-subtitulado, se entrena un modelo que produce subtítulos muy descriptivos y se usa para generar nuevos subtítulos para todos los vídeos del conjunto de entrenamiento. Además, OpenAI utiliza sus modelos de lenguaje, como GPT 3 o 4 para convertir indicaciones cortas del usuario en subtítulos más largos y detallados que se envían al sistema de generación de texto a vídeo.[2]

Duración y resolución de los vídeos

Los vídeos generados por Sora pueden tener diferentes resoluciones, duraciones y relaciones de aspecto. Sin embargo, el límite máximo de duración es de 60 segundos,[7]​ lo que es notablemente superior a la mayoría de los modelos generativos desarrollados por otras compañías.

La resolución de los vídeos generados por Sora puede variar desde 64x64 hasta 512x512 píxeles.[cita requerida] Según OpenAI, «Sora puede muestrear vídeos panorámicos de 1920x1080p, vídeos verticales de 1080x1920 y todo lo demás. Esto permite a Sora crear contenido para diferentes dispositivos directamente en sus relaciones de aspecto nativas».[2]

Limitaciones

Observa cómo el ‘gato’ en el video tiene tres patas delanteras, y la ‘mano’ se desprende de la ‘persona’

Tras su lanzamiento, OpenAI reconoció algunas de las deficiencias de Sora, incluida su lucha por simular una física compleja, comprender la causalidad y diferenciar la izquierda de la derecha.[8]​ OpenAI también declaró que, en cumplimiento de las prácticas de seguridad existentes de la compañía, Sora restringirá las indicaciones de texto para imágenes sexuales, violentas, de odio o de celebridades, así como el contenido con propiedad intelectual preexistente.[9]​ Tim Brooks, un investigador de Sora, declaró que el modelo descubrió cómo crea gráficos 3D solo a partir de su conjunto de datos, mientras que Bill Peebles, también investigador de Sora, dijo que el modelo creaba automáticamente diferentes ángulos de video sin que se le solicitara.[10]​ Según OpenAI, los vídeos generados por Sora se etiquetan con metadatos C2PA para indicar que fueron generados por IA.[9]

Seguridad

Debido a que esta tecnología podría tener riesgos e impactos negativos si se usa de forma maliciosa, OpenAI está tomando algunas medidas de protección antes de hacerla pública. Algunas de estas medidas son:[11][12][13]

  • Compartir solo con un grupo selecto de investigadores externos, que evalúan sus posibles usos y abusos.
  • Colaborar con artistas visuales, diseñadores y cineastas, para recopilar comentarios y mejorar la utilidad de Sora para los creadores de contenido.
  • Aplicar filtros y restricciones a las indicaciones de texto que se pueden enviar a Sora, para evitar generar vídeos ofensivos, ilegales o dañinos.
  • Añadir marcas de agua o señales visuales a los vídeos generados por Sora, para distinguirlos de los vídeos reales y evitar la desinformación o el engaño.

Referencias

  1. cruiz (11 de diciembre de 2024). «Así funciona Sora, la inteligencia artificial de video de OpenAI que sorprende con su gran nivel de detalle». PlayGround. Consultado el 11 de diciembre de 2024. 
  2. a b c d e «Sora: Creating video from text». openai.com (en inglés estadounidense). Consultado el 16 de febrero de 2024. 
  3. Jiménez, Miguel (16 de febrero de 2024). «Open AI lanza Sora, una revolucionaria herramienta de vídeo con inteligencia artificial». El País. Consultado el 16 de febrero de 2024. 
  4. «MSN». www.msn.com. Consultado el 16 de febrero de 2024. 
  5. Metz, Cade (15 de febrero de 2024). «OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos». The New York Times (en inglés estadounidense). ISSN 0362-4331. Consultado el 16 de febrero de 2024. 
  6. «Video generation models as world simulators». openai.com (en inglés estadounidense). Consultado el 16 de febrero de 2024. 
  7. Chile, C. N. N. «Sora: Así son los videos creados por la nueva inteligencia artificial de OpenAI». CNN Chile. Consultado el 16 de febrero de 2024. 
  8. IV, Antonio Pequeño. «OpenAI Reveals ‘Sora’: AI Video Model Capable Of Realistic Text-To-Video Prompts». Forbes (en inglés). Consultado el 16 de febrero de 2024. 
  9. a b «Meet Sora, OpenAI's Text-to-Video Generator». CNET (en inglés). Consultado el 16 de febrero de 2024. 
  10. Levy, Steven. «OpenAI’s Sora Turns AI Prompts Into Photorealistic Videos». Wired (en inglés estadounidense). ISSN 1059-1028. Consultado el 16 de febrero de 2024. 
  11. Infobae, Por Newsroom (15 de febrero de 2024). «OpenAI presenta "Sora", un modelo que transforma texto en video». infobae. Consultado el 16 de febrero de 2024. 
  12. Pulzo. «OpenAI presenta Sora: nueva herramienta de inteligencia artificial para generar video». pulzo.com. Consultado el 16 de febrero de 2024. 
  13. «Sora, el generador de vídeos de OpenAI, es impresionante pero aterrador». Gizmodo en Español. 15 de febrero de 2024. Consultado el 16 de febrero de 2024. 

Enlaces externos