La startup de robótica 1X Technologies ha presentado un modelo generativo innovador, diseñado para mejorar la eficiencia en la capacitación de sistemas robóticos en entornos simulados. Según su último blog, este modelo aborda un desafío clave en robótica: crear "modelos de mundo" que predigan con precisión cómo cambian los entornos en respuesta a las acciones de un robot.
Entrenar robots en espacios físicos implica altos costos y riesgos, lo que lleva a los robóticos a depender de entornos simulados para el desarrollo de modelos antes de su implementación en el mundo real. Sin embargo, las discrepancias entre las simulaciones y los entornos físicos pueden generar desafíos significativos.
“Los robóticos suelen crear escenas diseñadas manualmente que sirven como 'gemelos digitales' del mundo real, utilizando simuladores de cuerpos rígidos como MuJoCo, Bullet e Isaac para la simulación de dinámicas”, explicó Eric Jang, vicepresidente de IA en 1X Technologies. “Desafortunadamente, estos gemelos digitales pueden contener inexactitudes en física y geometría, lo que conduce a la 'brecha sim2real'. Por ejemplo, un modelo de puerta descargado en línea puede no replicar la misma rigidez del resorte en la manija que la puerta utilizada durante las pruebas."
Modelos Generativos de Mundo
Para superar esta brecha, el innovador modelo de 1X aprende a simular dinámicas del mundo real entrenando con datos de sensores recopilados directamente de los robots. Analiza miles de horas de videos y datos de actuadores de los robots humanoides de la empresa, que realizan diversas tareas de manipulación móvil en entornos domésticos y de oficina.
“Recopilamos datos de nuestras oficinas de 1X, apoyados por un equipo de Android Operators para la anotación y filtrado,” declaró Jang. “Al construir un simulador directamente a partir de interacciones del mundo real, podemos lograr dinámicas que se alineen más estrechamente con escenarios reales a medida que se expande el pool de datos de interacción.”
El modelo de mundo desarrollado sobresale en la simulación de interacciones con objetos. Los videos compartidos por la empresa demuestran la capacidad del modelo para predecir con precisión situaciones como un robot agarrando cajas e interactuando con diversos objetos, desde cuerpos rígidos hasta elementos deformables como cortinas y ropa, considerando también dinámicas complejas, como evitar obstáculos y mantener distancias seguras de las personas.
Desafíos de los Modelos Generativos
A pesar de sus avances, el modelo enfrenta desafíos continuos debido a cambios ambientales. Como cualquier simulador, requiere actualizaciones a medida que evoluciona el entorno operativo. Sin embargo, los investigadores creen que el enfoque de aprendizaje del modelo facilita actualizaciones más fáciles.
"El modelo generativo puede experimentar una brecha sim2real si sus datos de entrenamiento están desactualizados," reconoció Jang. "El objetivo es crear un simulador aprendido que pueda refinarse continuamente con datos frescos del mundo real sin necesidad de ajustes manuales."
El enfoque de 1X se inspira en avances como OpenAI Sora y Runway, que demuestran que se pueden desarrollar modelos generativos para mantener la consistencia a lo largo del tiempo con datos de entrenamiento adecuados. Mientras que otros modelos generan videos a partir de entradas de texto, 1X se centra en sistemas generativos que responden dinámicamente durante la fase de generación, colocándola en la vanguardia de la innovación. Investigadores de Google han empleado técnicas similares para entrenar modelos generativos capaces de simular entornos interactivos como el juego DOOM.
A pesar de estos avances, los desafíos persisten. La ausencia de un simulador de mundo claramente definido puede resultar en escenarios poco realistas; por ejemplo, el modelo puede predecir erróneamente que un objeto suspendido no caerá o puede hacer que un objeto desaparezca entre cuadros. Abordar estos problemas requerirá un esfuerzo continuo.
Una solución potencial radica en acumular continuamente más datos para mejorar el entrenamiento del modelo. “Los recientes avances en modelado generativo de video han sido notables, y los resultados de OpenAI Sora ilustran que escalar datos y poder computacional puede conducir a mejoras significativas," comentó Jang.
1X está involucrando activamente a la comunidad en esta iniciativa al liberar sus modelos y pesos, mientras planea competencias que ofrezcan premios en efectivo a los participantes que contribuyan a refinar los modelos. “Estamos explorando varios métodos para modelado de mundo y generación de video,” concluyó Jang, enfatizando el compromiso de la empresa con la innovación continua.