Xiaomi arregla las decisiones de conducción autónoma con el nuevo cerebro de IA «Binary»

El fundador de Xiaomi, Lei Jun, ha anunciado oficialmente un hito importante para el laboratorio de IA de la empresa: varios trabajos de investigación del equipo de Xiaomi han sido aceptados en la ICLR 2026 (Conferencia Internacional sobre Representaciones de Aprendizaje), una de las principales conferencias sobre inteligencia artificial del mundo.

Los trabajos seleccionados abarcan fronteras críticas de la IA moderna, como el razonamiento multimodal, el aprendizaje por refuerzo (RL), los agentes GUI, la generación de audio y, quizá lo más notable, la conducción autónoma de extremo a extremo.

Investigación destacada: DIPOLE (Optimización de la Política de Difusión Dicotómica)

Entre los trabajos aceptados, destaca el titulado «Dichotomous Diffusion Policy Optimization » por su aplicación directa a los sistemas de conducción autónoma y a los modelos de toma de decisiones a gran escala.

El reto: estabilidad frente a complejidad Las estrategias basadas en la difusión son actualmente el patrón oro para las tareas generativas debido a su gran poder expresivo y controlabilidad. Sin embargo, aplicarlas al Aprendizaje por Refuerzo (RL ) para la toma de decisiones crea un cuello de botella:

  • La Optimización Directa suele provocar inestabilidad en el entrenamiento.
  • Las Aproximaciones Gaussianas son caras computacionalmente y requieren excesivos pasos de eliminación de ruido, lo que las hace poco prácticas para aplicaciones en tiempo real como la conducción autónoma.

La solución: El algoritmo DIPOLE

El equipo de investigación de Xiaomi (dirigido por los coautores Liang Ruiming, Zheng Yinan y otros) propone DIPOLE (Mejora de la Política de Difusión Dicotómica).

  • Lógica central: El algoritmo reexamina el objetivo RL KL-regularizado. En lugar de una optimización desordenada, introduce una «regularización de política codiciosa».
  • Descomposición binaria: Descompone la política óptima en una estructura «binaria»: una que maximiza las recompensas y otra que las minimiza.
  • Control de la inferencia: Durante el despliegue real, el sistema genera acciones combinando linealmente las puntuaciones de probabilidad de estas dos políticas opuestas. Esto permite al sistema ajustar con flexibilidad el grado de «avaricia» (agresividad) o conservadurismo de la toma de decisiones.

Validación e impacto

El algoritmo DIPOLE no es sólo teórico. El documento valida su rendimiento en tres puntos de referencia críticos:

  1. RL general: Mejoras significativas en puntos de referencia estándar como ExORL y OGBench.
  2. Escalabilidad: Validado con éxito en modelos VLA (Visión-Lenguaje-Acción) con escalas de parámetros que alcanzan los 1.000 millones, lo que demuestra que funciona en modelos de fundamentos a gran escala.
  3. Conducción autónoma: El algoritmo demostró un rendimiento superior en NAVSIM, una prueba comparativa de conducción autónoma en el mundo real, lo que supone mejoras directas para los futuros sistemas Pilot de Xiaomi.

Fuente: Lei Jun Weibo

Play Store icon
HyperOS Downloader Easily check if your phone is eligible for HyperOS 3.0 update!
Download icon

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Encuesta
Which name did you like better, MIUI or HyperOS?