Sora la inteligencia artificial que transforma texto en vídeo
Acepta meras instrucciones de texto y las convierte en vídeos realistas, con múltiples caracteres y movimientos específicos
La empresa OpenAI, uno de los líderes en inteligencia artificial generativa, presentó el jueves su modelo ‘Sora’, que acepta instrucciones en texto y las convierte en escenas de vídeo, realistas, con múltiples caracteres y movimientos específicos.
Según la firma, establecida en 2015 y dirigida por Sam Altman, que ha desarrollado ChatGPT y el generador de imágenes fijas DALL-E, ‘Sora’ es capaz de crear «escenas complejas con detalles del componente principal y el trasfondo».
La compañía también indicó que su modelo puede «entender cómo existen los objetos en el mundo físico» y tiene la capacidad de «interpretar acertadamente las instrucciones y de generar caracteres convincentes que expresan emociones vibrantes».
‘Sora’ es el término en japones para «cielo» y la compañía todavía no la ha puesto a disposición del público porque sigue analizándola para comprender los peligros del sistema, según indicó el diario The New York Times. En cambio, OpenAI ha compartido la tecnología con un pequeño grupo de académicos y otros investigadores externos cuya tarea es detectar las maneras en las cuales ‘Sora’ podría usarse con fines maliciosos.
Steven Levy, de la revista Wired, describió su experiencia cuando OpenAi le permitió ver, aunque no operar, el modelo ‘Sora’ en respuesta a la instrucción en texto para crear una escena de la ciudad de Tokio captada por una cámara que se mueve por las calles mientras sigue a algunas personas en un día con nieve.
«El resultado es una vista convincente de lo que es, sin duda, Tokio en ese momento, cuando coexisten los copos de nieve y las flores de cerezo» escribió Levy. «La cámara virtual, colocada en un robot volador (dron), sigue a una pareja que camina por el paisaje». En otro de los vídeos lanzados por OpenAI, aparecen unos mamuts deambulando por la nieve, creados también a partir de un mero texto.
La firma indica que ‘Sora’ permite la creación de muchos mundos, con escenas realistas o fantásticas, tridimensionales, con movimientos fluidos, y aún en las escenas que no existen en el mundo real, el modelo aplica las reglas físicas correctas.
Otros modelos
El gigante tecnológico Google lanzó también el jueves, para un grupo selecto de desarrolladores, Gemini 1.5 Pro, un modelo de inteligencia artificial que puede procesar grandes cantidades de información de una sola vez, incluida una hora de vídeo, once horas de audio, 30.000 líneas de código o más de 700.000 palabras.
«Hace unos años memorizar u obtener el contexto de cientos de palabras era bastante difícil e incluso si miramos a la década de 1950, cuando Shannon (el matemático que inventó la teoría de la información) soñada con modelos de lenguaje, se estaba analizando dos palabras de contexto», dijo a la prensa Oriol Vinyals, vicepresidente de investigación de Google DeepMind y director ejecutivo de Gemini. Para ejemplificar las capacidades de Gemini 1.5 Pro, Vinyals mostró –usando un vídeo pregrabado– que el modelo era capaz de analizar un texto de 402 páginas de transcripciones del Apolo 11 –la primera misión en lograr que un ser humano llegase a la Luna– y encontrar tres citas graciosas.
Además de con texto, los usuarios podrán interactuar con el modelo con fotos o dibujos.