ZipVoice de Xiaomi AI Lab revoluciona la síntesis de voz zero-shot con modelos avanzados

ZipVoice de Xiaomi AI Lab revoluciona la síntesis de voz zero-shot con modelos avanzados

Xiaomi Group ha presentado ZipVoice, una nueva serie de modelos de texto a voz (TTS) desarrollada por su equipo Kaldi, basada en la arquitectura Flow Matching. Esta línea incluye ZipVoice, orientado a la síntesis de voz de un único hablante en zero-shot, y ZipVoice-Dialog, diseñado para la síntesis de voz conversacional en zero-shot. La llegada de ZipVoice marca un avance importante en la síntesis de voz, enfocándose en modelos ligeros y con velocidades de inferencia mucho más rápidas, respondiendo a los principales problemas que enfrentan los sistemas TTS actuales.

Esta familia de modelos responde a retos clave de la síntesis TTS zero-shot, como el elevado número de parámetros y la lentitud en la generación de voz. Xiaomi destaca que ZipVoice optimiza estas áreas con un modelo mucho más eficiente. Por su parte, ZipVoice-Dialog se centra en la síntesis para diálogos, buscando una salida natural, estable y rápida. Este enfoque permite un rendimiento destacado en escenarios de interacción que requieren respuestas inmediatas y fiables.

ZipVoice: tecnología y rendimiento

Un componente fundamental de ZipVoice es la adopción de la arquitectura Zipformer, inicialmente creada para el reconocimiento automático del habla (ASR), pero que ahora sirve como columna vertebral para la síntesis de voz. Zipformer emplea una estructura en U multi-escala que combina capas convolucionales y mecanismos de atención, además de reutilizar repetidamente los pesos de atención. Esta combinación técnica está afinada para optimizar tanto el entrenamiento como la inferencia, lo que se traduce en un balance ideal entre velocidad y calidad sonora.

Comparado con modelos basados en DiT para síntesis de voz, ZipVoice reduce el número de parámetros en un 63% aproximadamente, manteniendo un rendimiento similar. Las pruebas arrojan resultados competitivos en métricas objetivas como la similitud del hablante (SIM-o), la tasa de error de palabras (WER) y UTMOS, así como en medidas subjetivas, incluyendo CMOS y SMOS. Estos datos sitúan a ZipVoice entre los avances más relevantes en modelos zero-shot, con un claro liderazgo en modelaje ligero y rapidez de ejecución.

ZipVoice combina eficacia y calidad sin comprometer la experiencia auditiva. ZipVoice-Dialog, por su parte, aporta una solución refinada para diálogos, equilibrando estabilidad, velocidad y naturalidad de manera notable. Su desarrollo impulsa escenarios de interacción sonora más ágiles y accesibles. Xiaomi apuesta por estas cualidades para ampliar las aplicaciones prácticas de los sistemas de síntesis de voz, enfocándose en tecnologías para la interacción directa y fluida con dispositivos.

De cara al futuro, Xiaomi planea seguir optimizando ZipVoice para mejorar su accesibilidad y reducir costes, buscando democratizar el acceso a capacidades avanzadas de síntesis de voz. La serie ZipVoice incluye archivos de modelos open-source, código para entrenamiento e inferencia, y un dataset de diálogo de voz de 6.800 horas llamado OpenDialog. Además, el trabajo ha sido aceptado para presentar en ASRU 2025, mostrando la confianza del equipo en la relevancia y calidad de la investigación.

En definitiva, ZipVoice representa un paso importante en el mundo del texto a voz, con una arquitectura innovadora y un enfoque claro en eficiencia que facilita aplicaciones reales, desde asistentes de voz hasta herramientas de conversación automatizada. Su desarrollo promete aumentar la velocidad y la naturalidad de la síntesis con menos recursos, una combinación muy valorada en la industria actual.

Fuente

La entrada ZipVoice de Xiaomi AI Lab revoluciona la síntesis de voz zero-shot con modelos avanzados se publicó primero en Domótica en Casa.

Eduardo Ruiz

Informático de vocación, apasionado de la tecnología y blogger desde hace mucho tiempo, escribo de lo que me entretiene y disfruto con ello. Si deseas seguirme, usa el rss del blog o en mi perfil de .