OpenAI lanza Sora, una revolucionaria herramienta de v��deo con inteligencia artificial

El programa presentado en redes por la compa?��a es capaz de crear clips de alta calidad a partir de simples peticiones mediante texto

Captura de pantalla de un fotograma de uno de los v��deos de muestra publicados por OpenAI generados con la herramienta de inteligencia artificial Sora.V��deo: EPV

Miguel Jim��nez

Washington - 16 feb 2024 - 00:18CET

Reg��strate gratis para seguir leyendo

Si tienes cuenta en EL PA?S, puedes utilizarla para identificarte

INICIA SESI?N REG?STRATE

O suscr��bete para leer sin l��mites

Cuando a��n no ha pasado la fascinaci��n por ChatGPT y los modelos de lenguaje de inteligencia artificial generativa, OpenAI acaba de presentar una deslumbrante y revolucionaria herramienta de creaci��n de v��deo llamada Sora. Con ella, basta dar una descripci��n de lo que se quiere ver en la pantalla y ah�� est�� el clip, creado por inteligencia artificial. Algunos est��n m��s logrados que otros, a veces tienen ese estilo de videojuego que los diferencia de la realidad, pero todos son sorprendentes.

El consejero delegado de OpenAI, Sam Altman, ha hecho el anuncio del lanzamiento en la red social X, que se ha inundado en un momento con las nuevas creaciones. V��deos realistas, futuristas, alocados, de dibujos animados�� Los v��deos incluyen todo tipo de creaciones autom��ticas creadas con inteligencia artificial generativa. Sora es capaz de producir v��deos enteros de una sola vez o de ampliar los v��deos generados para hacerlos m��s largos.

En las pruebas mostradas por Altman y su compa?��a se ven escenas complejas con m��ltiples personajes, tipos espec��ficos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no solo lo que el usuario ha pedido en la solicitud, sino tambi��n c��mo existen esas cosas en el mundo f��sico, seg��n OpenAI. El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar con precisi��n las indicaciones y generar personajes convincentes que expresan emociones vibrantes, explica la empresa.

��Aqu�� est�� Sora, nuestro modelo de generaci��n de v��deo��, ha escrito Altman. ��Ofrecemos acceso a un n��mero limitado de creadores��, ha a?adido, antes de pedir a sus seguidores que le hicieran sugerencias para ir creando nuevos v��deos, adem��s de las muestras que ya hab��a ofrecido en su p��gina web.

Las instrucciones pueden ser m��s o menos detalladas. Uno de los ejemplos que ofrece OpenAI responde a la siguiente descripci��n: ��Una elegante mujer camina por una calle de Tokio llena de c��lidos neones brillantes y animada se?alizaci��n urbana. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y pintalabios rojo. Camina con seguridad y despreocupaci��n. La calle est�� h��meda y es reflectante, lo que crea un efecto espejo de las luces de colores. Muchos peatones pasean��. Y el resultado es sorprendente (arriba).

Otro se?ala: ��Tr��iler de una pel��cula sobre las aventuras del hombre del espacio de 30 a?os que lleva un casco de moto de punto de lana roja, cielo azul, desierto de sal, estilo cinematogr��fico, rodado en pel��cula de 35 mm, colores vivos�� (abajo).

Adem��s de poder generar un v��deo ��nicamente a partir de instrucciones de texto, el modelo es capaz de tomar una imagen fija existente y generar un v��deo a partir de ella, animando el contenido de la imagen con precisi��n y atenci��n a los peque?os detalles. El modelo tambi��n puede tomar un v��deo existente y ampliarlo o rellenar los fotogramas que faltan.

Se puede pedir un contenido, un estilo y dar todo tipo de indicaciones. Altman ha ido publicando v��deos nuevos solicitados por los tuiteros, probando que los resultados son inmediatos. Sora tambi��n puede crear varias tomas dentro de un mismo v��deo generado manteniendo con precisi��n los personajes y el estilo visual.

��Estamos ense?ando a la IA a comprender y simular el mundo f��sico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacci��n en el mundo real��, explica OpenAI al presentar la nueva herramienta de conversi��n de texto a v��deo. ��Sora puede generar v��deos de hasta un minuto de duraci��n manteniendo la calidad visual y la fidelidad a las indicaciones del usuario��, a?ade.

De momento, la herramienta se ha puesto a disposici��n de los llamados equipos rojos. Los miembros de esos equipos tratan de cuestionar un producto o servicio, forzarlo al l��mite, ponerlo a prueba y encontrar sus fallos como si fueran enemigos de la empresa. Aqu�� tienen la misi��n espec��fica de evaluar ��reas cr��ticas en busca de potenciales da?os o riesgos. Entre ellos hay expertos en ��reas como la desinformaci��n, los contenidos que incitan al odio y la parcialidad.

Open AI tambi��n est�� dando acceso a una serie de artistas visuales, dise?adores y cineastas para que les den su opini��n sobre c��mo mejorar el modelo para que resulte m��s ��til a los profesionales creativos.

��Estamos compartiendo los avances de nuestra investigaci��n con antelaci��n para empezar a trabajar con personas ajenas a OpenAI y recibir sus comentarios, as�� como para dar al p��blico una idea de las capacidades de IA que se vislumbran en el horizonte��, explica la compa?��a.

Defectos a pulir

La propia firma de inteligencia artificial reconoce que Sora todav��a tiene algunos fallos muy evidentes. Puede que le cueste simular con precisi��n la f��sica de una escena compleja y que no entienda casos concretos de causa y efecto. Pone como ejemplo que una persona puede dar un mordisco a una galleta, pero despu��s la galleta puede no tener la marca del mordisco.

El modelo tambi��n puede confundir detalles espaciales de una indicaci��n, por ejemplo, confundir izquierda y derecha, y puede tener problemas con descripciones precisas de acontecimientos que tienen lugar a lo largo del tiempo, como seguir una trayectoria espec��fica de la c��mara.

Antes de poner la herramienta a disposici��n del p��blico, OpenAI promete tomar algunas precauciones. Entre ellas est�� tomar en cuenta las indicaciones de los equipos rojos. Adem��s, est�� creando herramientas para ayudar a detectar contenidos enga?osos, con detectores que puedan decir cu��ndo un v��deo ha sido generado por Sora. Tambi��n ha desarrollado potentes clasificadores de im��genes que se utilizan para revisar los fotogramas de todos los v��deos generados y garantizar que cumplen sus pol��ticas de uso antes de mostr��rselos al usuario.

Adem��s, reutilizar�� los m��todos de seguridad que cre�� para sus productos que utilizan DALL-E 3. Por ejemplo, el clasificador de texto comprobar�� y rechazar�� las solicitudes de entrada de texto que infrinjan sus pol��ticas de uso, como las que solicitan violencia extrema, contenido sexual, im��genes que inciten al odio, im��genes de famosos o la propiedad intelectual de terceros.

��Nos pondremos en contacto con responsables pol��ticos, educadores y artistas de todo el mundo para conocer sus inquietudes e identificar casos de uso positivos para esta nueva tecnolog��a. A pesar de las numerosas investigaciones y pruebas realizadas, no podemos predecir todas las formas beneficiosas en que la gente utilizar�� nuestra tecnolog��a, ni todas las formas en que abusar�� de ella. Por eso creemos que aprender de la utilizaci��n en el mundo real es un componente fundamental para crear y lanzar con el tiempo sistemas de IA cada vez m��s seguros��, concluye OpenAI.

Puedes seguir a EL PA?S Tecnolog��a en Facebook y X o apuntarte aqu�� para recibir nuestra newsletter semanal.

Sobre la firma

Miguel Jim��nez

M��s informaci��n

Doce monos muertos y un abuelo resucitado difuminan la frontera del yo

Javier Salas

De la fascinaci��n a la agenda oculta: el a?o de ChatGPT define la batalla por el futuro de la humanidad