
Xiaomi, en colaboración con TileRT, ha lanzado el MiMo-V2.5-Pro-UltraSpeed, estableciendo un hito significativo en la industria tecnológica. Este avance en tecnología de inteligencia artificial se destaca por su capacidad de generar texto a una velocidad de 1000 tokens por segundo en un nodo GPU estándar con 8 tarjetas. Con un rendimiento máximo que puede alcanzar hasta 1200 tokens por segundo sin la necesidad de chips diseñados a medida, se reduce considerablemente el umbral para implementar inferencias de IA ultrarrápidas.
Junto a este lanzamiento, Xiaomi ha presentado un servicio de API por tiempo limitado para el MiMo-V2.5-Pro-UltraSpeed. El coste es tres veces superior al del original MiMo-V2.5-Pro, lo cual está justificadamente compensado por un aumento diez veces mayor en la velocidad de generación, ofreciendo una propuesta de valor fuerte. Debido a restricciones en los recursos de inferencia de alta velocidad, el servicio se lleva a cabo mediante un modelo basado en aplicaciones con disponibilidad limitada, operando entre el 9 y el 23 de junio, Hora de Beijing. Se da preferencia a empresas y desarrolladores profesionales con necesidades empresariales tangibles, aunque los usuarios generales pueden probar la funcionalidad de chat de forma gratuita a través de un portal dedicado.
![]()
Este salto en el rendimiento se apoya en una integración profunda del diseño del modelo y del sistema, presentando tres innovaciones clave. Primero, la introducción de la tecnología de cuantización FP4, aplicable a la arquitectura MoE del modelo, permite la cuantización sin pérdidas de la capa experta rica en parámetros mientras conserva la precisión original en otros módulos. Este enfoque optimiza el uso de memoria y alivia la presión del ancho de banda sin comprometer la capacidad general del modelo. En segundo lugar, la implementación de la decodificación especulativa paralela por bloques DFlash reemplaza los métodos tradicionales de decodificación en serie, permitiendo la predicción de bloques de texto completos en una sola iteración. En escenarios como la programación y el razonamiento matemático, esta técnica mejora significativamente la eficiencia de decodificación.
Innovaciones del MiMo-V2.5 que Transforman el Marco de Aplicaciones de IA
La capacidad avanzada de inferencia está redefiniendo los marcos de aplicación de la IA, permitiendo la simulación paralela del modelo y la autocorrección, lo que mejora la calidad del razonamiento lógico. Además, reduce significativamente la latencia en la generación de códigos, aumentando así la productividad de los agentes inteligentes de programación. También, esta tecnología facilita el despliegue de modelos de un billón de parámetros en áreas como el comercio financiero de alta frecuencia, la detección de fraudes en tiempo real y el análisis de imágenes médicas, donde las decisiones deben tomarse en milisegundos.
![]()
La entrada Xiaomi lanza versión ultra rápida de MiMo-V2.5 Pro: Impulsa la Generación de Tokens a 1000/s se publicó primero en Domótica en Casa.