Google estrena el generador de texto a vídeo Imagen Video AI, rival de Meta’s Make-A-Video

Google ha presentado un motor de IA de texto a vídeo llamado Imagen Video en un documento de investigación. La herramienta de medios sintéticos traduce las instrucciones escritas en vídeos silenciosos pocos días después de que Meta presentara su propia IA de texto a vídeo, Make-A-Video.

Los vídeos de Imagen, como el ejemplo anterior, utilizan la IA para interpretar las palabras de un mensaje, tanto por su contenido como por su estilo. La IA puede crear patrones de vídeo a partir de artistas famosos, crear objetos tridimensionales y reproducir cualquier texto en diferentes formatos de animación. El proceso de varios pasos utiliza siete modelos de difusión para producir primero un borrador de vídeo de baja resolución antes de aumentar la resolución repetidamente. La IA se entrenó en el conjunto de datos público de imagen-texto LAION-400M, junto con 60 millones de emparejamientos de imágenes con texto descriptivo y 14 millones de emparejamientos de vídeos con texto. Junto con Imagen, los investigadores de Google publicaron información sobre otro modelo de conversión de texto a vídeo llamado Phenaki, diseñado para procesar indicaciones de texto más largas y detalladas en vídeos más largos. Por ejemplo, el vídeo de Imagen de la parte superior tenía como objetivo “Un oso de peluche patinando en Times Square”, mientras que el vídeo de Phenaki de la parte inferior utilizaba las siguientes series de objetivos: “Un oso de peluche buceando en el océano, Un oso de peluche saliendo del agua, Un oso de peluche caminando por la playa, La cámara se acerca al oso de peluche en la hoguera de la playa”.

“Esta es una solución de ensueño para los creadores de medios sociales. El contenido principal de muchos creadores es primero verbal, mientras que los canales en los que se distribuyen son primero visuales. Además, todas las plataformas se inclinan por el vídeo porque es lo que impulsa las visitas, el tiempo de visualización y la participación”, explica el fundador de Voicebot, Bret Kinsella, en su boletín de noticias Synthedia. “Dado que estos creadores a menudo buscan darle un toque visual a sus flujos, los generadores de texto a vídeo serán una forma de hacerlo sin incurrir en gastos de derechos, sin una inversión de tiempo significativa y con un mensaje personalizado representado en los visuales que se alinea con el segmento”.

A pesar del evidente éxito de Imagen a la hora de producir vídeos interesantes a partir de mensajes de texto, Google no lo pondrá a disposición del público por el momento debido a la preocupación de cómo podría emplearse la tecnología. Al igual que el programa Make-A-Video de Meta, el código de Imagen estará restringido por ahora a los investigadores.

“Los riesgos potenciales de uso indebido suscitan preocupación en cuanto a la apertura responsable del código y las demostraciones”, explicó el investigador de Google. “En este momento hemos decidido no liberar el código ni una demo pública. En futuros trabajos exploraremos un marco de externalización responsable que equilibre el valor de la auditoría externa con los riesgos del acceso abierto sin restricciones.”

Fuente aquí.

La entrada Google estrena el generador de texto a vídeo Imagen Video AI, rival de Meta’s Make-A-Video se publicó primero en Domótica en Casa.

Eduardo Ruiz

Informático de vocación, apasionado de la tecnología y blogger desde hace mucho tiempo, escribo de lo que me entretiene y disfruto con ello. Si deseas seguirme, usa el rss del blog o en mi perfil de Google+.