Esta semana, Xiaomi ha anunciado un movimiento audaz: va a abrir Xiaomi-MiMo-Audio, su modelo de voz de IA de extremo a extremo. ¿Qué significa esto? Xiaomi-MiMo-Audio está diseñado para un verdadero aprendizaje de voz en contexto, un avance que está a punto de cambiar la forma en que la IA puede comprender e interactuar en las plataformas de voz.
En lugar del antiguo método de ahogarse en datos etiquetados para obtener resultados, Xiaomi-MiMo-Audio puede generalizar y adaptarse a nuevas tareas con sólo un puñado de ejemplos. Esto recuerda notablemente al cambio que vimos con modelos como el GPT-3 en el ámbito del lenguaje, salvo que ahora ocurre con la voz. El modelo se ha entrenado meticulosamente con cientos de millones de horas de datos de audio, lo que le ha proporcionado no sólo el CI para analizar el contenido, sino también el CI para comprender el tono y la intención, lo que supone un avance significativo para las aplicaciones empresariales y los productos de cara al cliente.
Xiaomi-MiMo-Audio: Innovación en AI Voice
Lo que diferencia a MiMo-Audio de las soluciones de la competencia es su salto técnico en el preentrenamiento de compresión sin pérdidas, que permite al modelo desbloquear la generalización entre tareas a escala. En términos prácticos, esto permite a las empresas desplegar aplicaciones de voz de IA con unos requisitos de datos drásticamente reducidos y una incorporación mucho más rápida para nuevas tareas e industrias.
Liderazgo en voz generativa de código abierto
Xiaomi no sólo está innovando, sino que está compartiendo el libro de jugadas. La empresa ha puesto a disposición del público no sólo el modelo en sí, sino también su tokenizador, una estructura de modelo recién desarrollada, herramientas avanzadas de entrenamiento y una suite de evaluación. Este movimiento debería acelerar el progreso en todo el ecosistema de voz de IA, proporcionando a los desarrolladores y a las empresas acceso a una tecnología madura y probada que puede adaptarse a casos de uso personalizados.
Para la implementación, los modelos de preentrenamiento y ajuste fino de Xiaomi-MiMo-Audio son accesibles en la plataforma Huggingface, con el tokenizador publicado en GitHub. El modelo se basa en una arquitectura Transformer de 1.200 millones de parámetros, lo que lo hace robusto tanto para la reconstrucción de audio como para las tareas de conversión de audio a texto. Para las empresas o los profesionales individuales que deseen mejorar sus dispositivos o integrar las últimas funciones, las aplicaciones del sistema están disponibles a través de HyperOSUpdates.com, y la aplicación MemeOS Enhancer en Google Play ofrece herramientas adicionales, actualizaciones del sistema y funciones de acceso anticipado.
Fuente: IT Home