Xiaomi lanza su potente modelo de inferencia de código abierto MiMo: 7B parámetros supera a o1-mini

Xiaomi ha revolucionado el mundo de la inteligencia artificial al presentar el Xiaomi MiMo, su innovador modelo de código abierto orientado a tareas de razonamiento. Este modelo ha demostrado su valía en campos complejos como el razonamiento matemático y la competencia de código, alcanzando resultados excepcionales en benchmarks de referencia como el AIME 24-25 y LiveCodeBench v5. Con apenas 7 mil millones de parámetros, MiMo ha superado al modelo cerrado o1-mini de OpenAI y al modelo QwQ-32B-Preview de Alibaba, demostrando que Xiaomi está a la vanguardia de la investigación en inteligencia artificial.

La clave del éxito de Xiaomi con MiMo radica en un enfoque multifacético que combina innovaciones en datos y algoritmos durante las fases de pre-entrenamiento y post-entrenamiento. En la fase de pre-entrenamiento, se expuso al modelo a una amplia variedad de patrones de razonamiento. Además, Xiaomi se tomó la molestia de organizar un conjunto de datos rico, logrando acumular aproximadamente 200 mil millones de tokens dedicados a tareas de razonamiento.

El proceso de entrenamiento se estructuró en tres fases distintas, incrementando progresivamente la dificultad, con un total de 25 trillones de tokens utilizados. En la fase de post-entrenamiento, Xiaomi aplicó un eficiente algoritmo de aprendizaje por refuerzo para mejorar y estabilizar el proceso. Una de las innovaciones más destacadas fue el mecanismo de recompensa Test Difficulty Driven, que aborda el desafío de las recompensas escasas en tareas de dificultad restringida. También se implementó la estrategia Easy Data Re-Sampling, garantizando una experiencia de entrenamiento más estable en el aprendizaje por refuerzo.

Con el fin de optimizar aún más el entrenamiento, Xiaomi ideó el sistema Seamless Rollout, que ha mejorado la velocidad del aprendizaje por refuerzo en un 129% y los procesos de validación en un 96%. Todos los detalles técnicos y metodológicos se han hecho públicos en el informe técnico de la empresa. Por si fuera poco, la serie MiMo-7B se ha abierto al uso general, con cuatro modelos ya disponibles en Hugging Face, facilitando el acceso a desarrolladores e investigadores que deseen aprovechar los avances de Xiaomi en inteligencia artificial centrada en razonamiento.

Fuente

La entrada Xiaomi lanza su potente modelo de inferencia de código abierto MiMo: 7B parámetros supera a o1-mini se publicó primero en Domótica en Casa.

Eduardo Ruiz

Informático de vocación, apasionado de la tecnología y blogger desde hace mucho tiempo, escribo de lo que me entretiene y disfruto con ello. Si deseas seguirme, usa el rss del blog o en mi perfil de Google+.