Sora la inteligencia artificial que transforma texto en vídeo

Acepta meras instrucciones de texto y las convierte en vídeos realistas, con múltiples caracteres y movimientos específicos

17 febrero 2024 07:37 | Actualizado a 17 febrero 2024 21:00

Captura de uno de los vídeos lanzados por OpenAI para dar a conocer su nuevo modelo. Foto: openai

Un articulo de EFE

Se lee en minutos

Participa:

Para guardar el artículo tienes que navegar logueado/a. Puedes iniciar sesión en este enlace.

Comparte en:

Temas:

La empresa OpenAI, uno de los líderes en inteligencia artificial generativa, presentó el jueves su modelo ‘Sora’, que acepta instrucciones en texto y las convierte en escenas de vídeo, realistas, con múltiples caracteres y movimientos específicos.

Según la firma, establecida en 2015 y dirigida por Sam Altman, que ha desarrollado ChatGPT y el generador de imágenes fijas DALL-E, ‘Sora’ es capaz de crear «escenas complejas con detalles del componente principal y el trasfondo».

La compañía también indicó que su modelo puede «entender cómo existen los objetos en el mundo físico» y tiene la capacidad de «interpretar acertadamente las instrucciones y de generar caracteres convincentes que expresan emociones vibrantes».

‘Sora’ es el término en japones para «cielo» y la compañía todavía no la ha puesto a disposición del público porque sigue analizándola para comprender los peligros del sistema, según indicó el diario The New York Times. En cambio, OpenAI ha compartido la tecnología con un pequeño grupo de académicos y otros investigadores externos cuya tarea es detectar las maneras en las cuales ‘Sora’ podría usarse con fines maliciosos.

Steven Levy, de la revista Wired, describió su experiencia cuando OpenAi le permitió ver, aunque no operar, el modelo ‘Sora’ en respuesta a la instrucción en texto para crear una escena de la ciudad de Tokio captada por una cámara que se mueve por las calles mientras sigue a algunas personas en un día con nieve.

«El resultado es una vista convincente de lo que es, sin duda, Tokio en ese momento, cuando coexisten los copos de nieve y las flores de cerezo» escribió Levy. «La cámara virtual, colocada en un robot volador (dron), sigue a una pareja que camina por el paisaje». En otro de los vídeos lanzados por OpenAI, aparecen unos mamuts deambulando por la nieve, creados también a partir de un mero texto.

La firma indica que ‘Sora’ permite la creación de muchos mundos, con escenas realistas o fantásticas, tridimensionales, con movimientos fluidos, y aún en las escenas que no existen en el mundo real, el modelo aplica las reglas físicas correctas.

Otros modelos

El gigante tecnológico Google lanzó también el jueves, para un grupo selecto de desarrolladores, Gemini 1.5 Pro, un modelo de inteligencia artificial que puede procesar grandes cantidades de información de una sola vez, incluida una hora de vídeo, once horas de audio, 30.000 líneas de código o más de 700.000 palabras.

«Hace unos años memorizar u obtener el contexto de cientos de palabras era bastante difícil e incluso si miramos a la década de 1950, cuando Shannon (el matemático que inventó la teoría de la información) soñada con modelos de lenguaje, se estaba analizando dos palabras de contexto», dijo a la prensa Oriol Vinyals, vicepresidente de investigación de Google DeepMind y director ejecutivo de Gemini. Para ejemplificar las capacidades de Gemini 1.5 Pro, Vinyals mostró –usando un vídeo pregrabado– que el modelo era capaz de analizar un texto de 402 páginas de transcripciones del Apolo 11 –la primera misión en lograr que un ser humano llegase a la Luna– y encontrar tres citas graciosas.

Además de con texto, los usuarios podrán interactuar con el modelo con fotos o dibujos.

Comentarios

Para publicar comentarios es necesario estar registrado/a. Haga clic aquí para iniciar sesión.

Multimedia Diari

Más recientes

Lo último
Lo más leído

Sora la inteligencia artificial que transforma texto en vídeo

Acepta meras instrucciones de texto y las convierte en vídeos realistas, con múltiples caracteres y movimientos específicos

Temas:

Las mejores imágenes de la Cursa de Sant Silvestre 2024 de Tarragona

El Home dels Nassos celebra el último día del año con los niños y niñas de Tarragona

Más de 2.000 personas despiden el año con el tradicional baño de San Silvestre en La Pineda

Cancelan arresto del presidente surcoreano ante la obstrucción de su servicio de seguridad

Una avería mecánica deja a Tortosa sin el primer tren hasta Tarragona

La pagesia rep els ajuts per la sequera, «però són insuficients i no han arribat a tothom»

El cantautor Joan Dausà lleva este sábado su Concert de Nadal a Riudoms

72.789 personas visitaron CaixaForum Tarragona en 2024

Sora la inteligencia artificial que transforma texto en vídeo

Acepta meras instrucciones de texto y las convierte en vídeos realistas, con múltiples caracteres y movimientos específicos

Luces y sombras de la Inteligencia Artificial

El empleo ligado a la IA crece un 20%

Temas:

Las mejores imágenes de la Cursa de Sant Silvestre 2024 de Tarragona

El Home dels Nassos celebra el último día del año con los niños y niñas de Tarragona

Más de 2.000 personas despiden el año con el tradicional baño de San Silvestre en La Pineda

Cancelan arresto del presidente surcoreano ante la obstrucción de su servicio de seguridad

Una avería mecánica deja a Tortosa sin el primer tren hasta Tarragona

La pagesia rep els ajuts per la sequera, «però són insuficients i no han arribat a tothom»

El cantautor Joan Dausà lleva este sábado su Concert de Nadal a Riudoms

72.789 personas visitaron CaixaForum Tarragona en 2024