Xiaomi ha lanzado su modelo de voz con IA similar a la humana

Esta semana, Xiaomi ha anunciado un movimiento audaz: va a abrir Xiaomi-MiMo-Audio, su modelo de voz de IA de extremo a extremo. ¿Qué significa esto? Xiaomi-MiMo-Audio está diseñado para un verdadero aprendizaje de voz en contexto, un avance que está a punto de cambiar la forma en que la IA puede comprender e interactuar en las plataformas de voz.

En lugar del antiguo método de ahogarse en datos etiquetados para obtener resultados, Xiaomi-MiMo-Audio puede generalizar y adaptarse a nuevas tareas con sólo un puñado de ejemplos. Esto recuerda notablemente al cambio que vimos con modelos como el GPT-3 en el ámbito del lenguaje, salvo que ahora ocurre con la voz. El modelo se ha entrenado meticulosamente con cientos de millones de horas de datos de audio, lo que le ha proporcionado no sólo el CI para analizar el contenido, sino también el CI para comprender el tono y la intención, lo que supone un avance significativo para las aplicaciones empresariales y los productos de cara al cliente.


Xiaomi-MiMo-Audio: Innovación en AI Voice

Lo que diferencia a MiMo-Audio de las soluciones de la competencia es su salto técnico en el preentrenamiento de compresión sin pérdidas, que permite al modelo desbloquear la generalización entre tareas a escala. En términos prácticos, esto permite a las empresas desplegar aplicaciones de voz de IA con unos requisitos de datos drásticamente reducidos y una incorporación mucho más rápida para nuevas tareas e industrias.

Liderazgo en voz generativa de código abierto

Xiaomi no sólo está innovando, sino que está compartiendo el libro de jugadas. La empresa ha puesto a disposición del público no sólo el modelo en sí, sino también su tokenizador, una estructura de modelo recién desarrollada, herramientas avanzadas de entrenamiento y una suite de evaluación. Este movimiento debería acelerar el progreso en todo el ecosistema de voz de IA, proporcionando a los desarrolladores y a las empresas acceso a una tecnología madura y probada que puede adaptarse a casos de uso personalizados.

Para la implementación, los modelos de preentrenamiento y ajuste fino de Xiaomi-MiMo-Audio son accesibles en la plataforma Huggingface, con el tokenizador publicado en GitHub. El modelo se basa en una arquitectura Transformer de 1.200 millones de parámetros, lo que lo hace robusto tanto para la reconstrucción de audio como para las tareas de conversión de audio a texto. Para las empresas o los profesionales individuales que deseen mejorar sus dispositivos o integrar las últimas funciones, las aplicaciones del sistema están disponibles a través de HyperOSUpdates.com, y la aplicación MemeOS Enhancer en Google Play ofrece herramientas adicionales, actualizaciones del sistema y funciones de acceso anticipado.


Fuente: IT Home

Play Store icon
HyperOS Downloader Easily check if your phone is eligible for HyperOS 3.0 update!
Download icon

Deja una respuesta

fckk

Encuesta
Which name did you like better, MIUI or HyperOS?