Modelos como ChatGPT han logrado democratizar tanto el acceso a la Inteligencia Artificial por parte del usuario final, que hoy día incluso tienes modelos IA dentro de Twitter / X (Grok 3) o hasta WhatsApp con la IA de Meta. Y, por descontado, Xiaomi no ha descuidado el apartado que no es el futuro, sino el presente.
Y ese presente tiene un nombre: MiMo, el modelo IA creado por Xiaomi que acaba de dar otro paso de gigante: ya es ‘open source’, de código abierto, para que todo el mundo tenga acceso a él.
MiMo de Xiaomi y su modelo de voz IA casi humana
Presentado en abril de este año, MiMo es un modelo que ya destacó en los tests de tareas complejas como razonamiento matemático y de generación de código por superar a otros modelos como ChatGPT 4 o OpenAI 01, modelos con capacidad de parámetros superior a MiMo.
Hoy, MiMo es noticia porque su modelo de voz, Xiaomi-MiMo-Audio, ha sido lanzado de forma oficial y bajo su modelo ‘Open Source’. Esto significa que cualquiera puede acceder al código base del módulo al ser de código abierto, y usarlo para programar sus propias aplicaciones, herramientas, programas, etc.
Xiaomi-MiMo-Audio, su primer modelo de voz nativo de extremo a extremo, está basado en una innovadora arquitectura de preentrenamiento y cientos de millones de horas de datos de entrenamiento. Este módulo logra por primera vez una generalización con pocos ejemplos basada en ICL en el campo de la voz y observa un comportamiento de ‘emergencia’ significativo durante el preentrenamiento.
Hecho para aprender de discursos y audio, no de textos
Según los informes, MiMo-Audio supera a otros modelos de código abierto con un número similar de parámetros en múltiples pruebas de evaluación estándar, incluyendo la comprensión general del habla y el diálogo, logrando el mejor rendimiento en la categoría de 7B parámetros.
- En el conjunto de pruebas estándar de la prueba de comprensión de audio MMAU, MiMo-Audio supera al modelo de voz de código cerrado de Google, Gemini-2.5-Flash
- En la tarea Big Bench Audio S2T, un punto de referencia dirigido al razonamiento auditivo complejo, MiMo-Audio es capaz de superar al modelo de voz de código cerrado GPT-4o-Audio-Preview de OpenAI.
La gracia de MiMo es que se trata de un módulo de voz IA que puede ser usado para apps que requieran integrar voces IA para hablar con el usuario. O para reconstruir archivos de audio dañados. O para tareas de transcribir notas de audio a texto.
Y su ventaja es que los requisitos que necesita de datos son menores que los de otros módulos, y por tanto funciona más rápido en los procesos, tanto si lo usas a nivel individual como aplicándolo a toda una industria.
Y es que ese es uno de los elementos que pueden hacer que tu módulo IA triunfe o fracase frente a otros: la cantidad de requisitos que demanda, y su rapidez de aprendizaje y uso. Ahora mismo Xiaomi-MiMo-Audio parte con muchas ventajas, pero el ámbito de la IA es toda una guerra entre compañías y modelos, y falta por ver si logra hacerse un hueco.
Vía | IT Home / Futunn.com
En Mundo Xiaomi | Me ha dejado loco de lo que es capaz la IA Gemini de Google en cuanto al retoque de fotos: las transforma completamente y gratis
–
La noticia
Xiaomi ha creado un modelo de voz IA revolucionario. Y su criatura es ahora ‘open source’: así es MiMo
fue publicada originalmente en
Mundo Xiaomi
por
César Otero
.