Xiaomi anuncia MiMo-V2-Omni, base multi-modal con visión, audio y control avanzado

Xiaomi anuncia MiMo-V2-Omni, base multi-modal con visión, audio y control avanzado

Xiaomi ha presentado tres nuevos modelos, entre los que destaca el Xiaomi MiMo-V2-Omni, un modelo fundamental de modalidad completa diseñado para la era de los agentes inteligentes. Este modelo está pensado para gestionar interacciones y tareas multimodales complejas en entornos reales, integrando texto, visión y voz en una arquitectura unificada que conecta estrechamente percepción y acción. Xiaomi ha dotado a MiMo-V2-Omni con soporte nativo para percepción multimodal, invocación de herramientas, ejecución de funciones y operaciones GUI, lo que permite una integración fluida con diversos marcos de agentes y reduce considerablemente las barreras para desplegar agentes de modalidad completa.

Antes de su lanzamiento oficial, la versión de prueba inicial de MiMo-V2-Omni, con el nombre en clave “Healer Alpha”, se lanzó de forma anónima en OpenRouter, la mayor plataforma global de agregación de APIs. Sin ningún tipo de marketing previo, el modelo se convirtió rápidamente en uno de los más usados en esa plataforma. Además, logró la máxima puntuación media en el ranking de evaluación OpenClaw PinchBench, confirmando su potencial tanto a través de la opinión de usuarios como evaluaciones profesionales.

Xiaomi MiMo-V2-Omni: desempeño en percepción multimodal

MiMo-V2-Omni destaca por ofrecer capacidades de percepción multimodal de última generación que sirven como base robusta para una ejecución eficiente. En el ámbito del audio, soporta clasificación de sonidos ambientales, separación de múltiples voces y análisis profundo de más de 10 horas de audio continuo, superando en rendimiento a modelos como Gemini 3 Pro y situándose entre los más potentes en comprensión auditiva. Su comprensión visual incluye razonamiento avanzado multidisciplinar y análisis de gráficos complejos, con resultados mejores que Claude Opus 4.6 y cercanos a modelos cerrados de alto nivel como Gemini 3 Pro. La comprensión de vídeo combina entrada conjunta nativa audiovisual con innovadoras técnicas de preentrenamiento que aportan mejor conciencia contextual y razonamiento predictivo.

Además, MiMo-V2-Omni lleva las capacidades de agentes inteligentes más allá de la simple comprensión, permitiendo la ejecución completa de tareas. Es capaz de interpretar entornos multimodales complejos, formular y ejecutar planes de forma autónoma, y ajustar dinámicamente sus estrategias frente a imprevistos para generar resultados integrales. Su rendimiento en benchmarks de interacción en entornos digitales es equiparable al modelo Gemini 3 Pro, manteniendo además una notable competitividad en tareas de agentes inteligentes basados exclusivamente en texto.

Tras una semana de optimización continua, las capacidades de percepción multimodal y acción de agente del modelo han ganado estabilidad y muestran un potencial relevante para escenarios de productividad cotidiana. Actualmente, la API de MiMo-V2-Omni está disponible públicamente, soportando una longitud de contexto de hasta 256K tokens. El precio se establece en 0,4 dólares (aproximadamente 0,37 euros) por cada millón de tokens de entrada y 2 dólares (cerca de 1,85 euros) por millón de tokens de salida. Los desarrolladores pueden acceder a este modelo en plataformas específicas y aprovechar un periodo gratuito limitado de una semana, cortesía de una colaboración entre OpenClaw, OpenCode y tres importantes marcos de desarrollo de agentes.

Tareas complejas y uso en entornos profesionales

Este modelo presenta fortalezas notables en tareas cruzadas entre modalidades, como la interpretación profunda de metáforas y emociones en fragmentos de películas, o la extracción precisa de argumentos centrales y esquemas lógicos en entrevistas de varias horas. Al integrarlo con el marco OpenClaw, puede realizar operaciones complejas en navegadores que simulan la actuación humana, incluyendo selección de productos, comparación de precios, negociación, realización de pedidos, producción y difusión de vídeos cortos, además de resolver problemas como errores en páginas web o la gestión eficiente de múltiples pestañas.

En el entorno de oficina inteligente, Xiaomi colabora con Kingsoft Office para integrar MiMo-V2-Omni en WPS Office. Gracias a esta integración, es posible generar documentos Word, hojas de Excel estructuradas, PDFs bien formateados y presentaciones completas de PowerPoint basadas en comandos del usuario. Esta solución va más allá de los chatbots tradicionales, mejorando notablemente la eficiencia en el trabajo diario.

Con MiMo-V2-Omni, Xiaomi refuerza su apuesta por modelos multimodales potentes, preparándose para el futuro de los agentes inteligentes capaces de operar en entornos complejos y dinámicos con fluidez y autonomía.

Fuente

La entrada Xiaomi anuncia MiMo-V2-Omni, base multi-modal con visión, audio y control avanzado se publicó primero en Domótica en Casa.

Eduardo Ruiz

Informático de vocación, apasionado de la tecnología y blogger desde hace mucho tiempo, escribo de lo que me entretiene y disfruto con ello. Si deseas seguirme, usa el rss del blog o en mi perfil de .