Xiaomi, líder mundial en razonamiento de audio con IA

Xiaomi ha logrado un gran avance en inteligencia artificial, y su equipo Big Model está a la vanguardia de la tecnología de razonamiento de audio. En una hazaña notable que pone de manifiesto la creciente destreza de la empresa en la investigación de la IA de vanguardia, el último modelo de Xiaomi ha superado a gigantes del sector como OpenAI y Google en un punto de referencia clave de comprensión de audio.

El equipo ha anunciado a través de la cuenta oficial de Xiaomi Technology que han superado la lista de evaluación de renombre mundial MMAU (Massive Multi-Task Audio Understanding and Reasoning). Su modelo alcanzó una precisión récord del 64,5%, superando significativamente al GPT-4o de OpenAI (57,3%) y al Gemini 2.0 Flash de Google (55,6%).

Enfoque revolucionario del aprendizaje por refuerzo

Lo más destacable de este logro es el ritmo al que se ha conseguido. Siguiendo el ejemplo de DeepSeek-R1, los investigadores de Xiaomi ampliaron los algoritmos de aprendizaje por refuerzo a tareas de comprensión de audio multimodal y lo consiguieron en el plazo de una semana.

Los científicos aplicaron el método Group Relative Policy Optimization (GRPO), que permite a los modelos de IA aprender de forma independiente mediante un mecanismo de «prueba y error-recompensa». Este mecanismo permite crear capacidades de razonamiento similares a la reflexión humana y la verificación en varios pasos.

El Dr. Zhang Wei, investigador principal del proyecto, añade: «El aprendizaje por refuerzo es especialmente bueno para manejar una gran brecha entre la generación y la comprobación de resultados. El razonamiento auditivo es precisamente una tarea de este tipo, en la que el pensamiento activo crea resultados más eficientes que la memorización de patrones.»

Más que reconocer sonidos

Hoy en día, las aplicaciones de IA requieren algo más que el mero reconocimiento de sonidos. El avance de Xiaomi permite a la IA:

  • Determinar posibles fallos en un vehículo analizando las grabaciones de la cabina.
  • Inferir el estado de ánimo de un compositor escuchando interpretaciones musicales
  • Anticipar riesgos de colisión en lugares concurridos, como estaciones de metro.

El conjunto de pruebas MMAU utiliza 10.000 clips de audio que van desde el habla hasta el sonido ambiente y la música, con pares de pregunta-respuesta anotados por humanos, para probar el modelo en 27 habilidades.

Alterar los enfoques tradicionales de la IA

Los experimentos de Xiaomi produjeron algunos resultados sorprendentes que desafían la sabiduría convencional del desarrollo de la IA:

  • El aprendizaje por refuerzo superó significativamente al aprendizaje supervisado en un conjunto de datos de tan sólo 38.000 elementos.
  • Su modelo de 7.000 parámetros demostró una capacidad de razonamiento superior a pesar de ser mucho más pequeño que otros modelos competidores de más de 100.000 parámetros.
  • De hecho, forzar al modelo a generar procesos de razonamiento explícitos redujo el rendimiento en un 3,4%.

Aunque la precisión del 64,5% es alta, sigue siendo inferior a la referencia del 82,23% de los expertos humanos, lo que indica que todavía hay mucho margen de mejora.

Compromiso de código abierto

Fiel a la filosofía de Xiaomi de innovar para todos, la organización ha puesto en código abierto tanto el código de entrenamiento como los parámetros del modelo. Con este acto altruista, la empresa permite que desarrolladores e investigadores de todo el mundo amplíen su innovación.

«Al abrir nuestros esfuerzos a la comunidad global de IA, pretendemos acelerar el proceso hacia una verdadera comprensión inteligente del audio», declaró Lei Jun, fundador y consejero delegado de Xiaomi. «Este es un paso más en nuestra misión de hacer que la tecnología innovadora sea accesible a todo el mundo».

Para los interesados en experimentar con esta tecnología:

Este avance se produce en un momento en que Xiaomi está introduciendo funciones de IA en toda su gama de productos, desde teléfonos inteligentes hasta productos IoT para el hogar inteligente, y está convirtiendo a la empresa en un serio competidor en el ámbito mundial de la investigación en IA.

Fuente: IT Home

Play Store icon
HyperOS Downloader Easily check if your phone is eligible for HyperOS 2.0 update!
Download icon

Deja una respuesta

Encuesta
Which name did you like better, MIUI or HyperOS?