El nuevo modelo de la empresa de medios sintéticos Play.ht clona la voz a partir de segundos de audio

El desarrollador de voz sintética Play.ht ha presentado un nuevo modelo de clonación de voz llamado Parrot, capaz de crear una voz deepfake a partir de una grabación de segundos de su discurso. Parrot está disponible en versión beta para la plataforma de síntesis de texto a voz de Play.ht, dirigida a los creadores de contenidos que buscan soluciones de clonación de voz.

Parrot Deepfake

Play.ht acaparó mucha atención cuando publicó una conversación imaginaria entre el difunto fundador de Apple, Steve Jobs, y Joe Rogan utilizando sus clones de voz generados por IA y un guión compuesto por el gran modelo de lenguaje GPT-3 de OpenAI. Eso dio el pistoletazo de salida a su programa Podcast.ai, ya desaparecido, en el que se mostraban los servicios de voz sintética ofrecidos por Play.ht., incluidos episodios en los que Zach Galifianakis entrevistaba a Quentin Tarantino y Oprah compartía consejos para aliviar el estrés.

Esas voces se basan en el modelo Peregrine de Play.ht, que ahora ha sido superado por el nuevo modelo Parrot, continuando con el tema de los pájaros para Play.ht. Parrot se entrenó con un conjunto de datos más amplio y utilizó lo que los desarrolladores aprendieron de Peregrine para actualizar la forma de entrenamiento. Las voces sintéticas se utilizan después para procesar texto como audio. La empresa afirma que Parrot es muy bueno poniendo todo tipo de acentos, aunque sólo puede hablar inglés. Dicho esto, Parrot puede utilizar los modelos de clonación de voz de personas que no hablan inglés para que parezca que hablan inglés, incluso manteniendo intacto su acento original. Play.ht hace hincapié en que sus modelos son algo más que clones de voz que leen un texto. La empresa presume de que la IA entiende la emoción que debe estar presente en una voz basándose en el contexto de todo el texto y ajusta el discurso en consecuencia.

El método cero de Parrot sólo requiere una breve grabación, pero Play.ht también tiene un método de clonación de voz de alta fidelidad que utiliza unos 20 minutos de audio para una clonación más completa y llena de matices. El audio puede crearse en el sitio web de Play.ht o incrustarse como API en el producto de un cliente.

“Los creadores de contenidos de todo tipo (juegos, producción multimedia, aprendizaje electrónico) dedican mucho tiempo y esfuerzo a grabar y editar audio de alta calidad. Nosotros solucionamos eso y lo hacemos tan sencillo como escribir y editar texto. Nuestros usuarios van desde creadores individuales que quieren poner voz a sus vídeos, podcasts, etc., hasta equipos de diversas empresas que crean contenidos dinámicos de audio”, explicaban los fundadores de Play. ht en un post en Y-Combinator. “. Hay muchos servicios TTS robóticos por ahí, pero el nuestro permite generar habla expresiva de nivel verdaderamente humano y permite a cualquiera clonar voces al instante con gran parecido. Al principio utilizamos modelos TTS y API existentes, pero cuando empezamos a hablar con nuestros clientes de los sectores de los videojuegos y la producción audiovisual, entre otros, a la gente no le gustaba el estilo monótono del TTS robótico. Así que nos pusimos manos a la obra para entrenar un nuevo modelo basado en las nuevas arquitecturas emergentes mediante transformadores y aprendizaje autosupervisado”.

Fuente aquí.

La entrada El nuevo modelo de la empresa de medios sintéticos Play.ht clona la voz a partir de segundos de audio se publicó primero en Domótica en Casa.

Eduardo Ruiz

Informático de vocación, apasionado de la tecnología y blogger desde hace mucho tiempo, escribo de lo que me entretiene y disfruto con ello. Si deseas seguirme, usa el rss del blog o en mi perfil de Google+.