El MIT ha dado un gran paso en el entrenamiento de robots al presentar un modelo inspirado en los grandes modelos de lenguaje (LLM) como GPT-4. A diferencia de los métodos tradicionales que usan conjuntos de datos específicos y limitados para enseñar tareas a los robots, este nuevo enfoque busca maximizar el volumen y la variedad de datos, tal como ocurre con los modelos de lenguaje. La meta es entrenar robots de manera más versátil y robusta, permitiéndoles adaptarse mejor a situaciones impredecibles.
Transformadores Heterogéneos Preentrenados (HPT): una nueva arquitectura de datos
El aprendizaje por imitación, que ha sido una técnica común para entrenar robots, tiene sus limitaciones: cuando los robots enfrentan cambios en su entorno, como variaciones de iluminación o nuevos obstáculos, pueden fallar en adaptarse. Para resolver esta limitación, el equipo del MIT desarrolló una arquitectura llamada Transformadores Heterogéneos Preentrenados (HPT). Este modelo integra datos de distintos sensores y entornos, lo que permite que los robots obtengan una representación más amplia y diversa de posibles escenarios, similar a cómo los modelos de lenguaje absorben grandes cantidades de información textual.
Lirui Wang, autor principal del estudio, explica que el objetivo es crear una “fuerza bruta” de datos para robótica, comparable a los vastos repositorios que usan los LLM. El HPT funciona reuniendo información en diferentes formatos y combinándola en un modelo de entrenamiento unificado. De esta forma, cuanto más grande sea el transformador, mejores serán los resultados en la capacidad de adaptación del robot.
Hacia un cerebro de robot universal
David Held, profesor asociado de la Universidad Carnegie Mellon, colaborador del proyecto, destaca el potencial revolucionario de esta investigación. “Nuestro sueño es tener un cerebro de robot universal que puedas descargar y usar para tu robot sin ningún tipo de entrenamiento”, comentó. Aunque aún es una idea en fase inicial, la visión de un sistema preentrenado para robots recuerda a los avances de los modelos de lenguaje, que han transformado la comprensión y generación de texto. Este enfoque promete mejoras significativas en las “políticas robóticas” o normas de comportamiento de los robots, permitiendo una mejor generalización y adaptación.
Un proyecto respaldado por Toyota y Boston Dynamics
La investigación del MIT ha recibido el apoyo del Toyota Research Institute (TRI), conocido por su enfoque en la robótica avanzada. Toyota ha sido pionero en métodos de entrenamiento de robots más rápidos y eficientes, como su modelo de “entrenamiento de la noche a la mañana” presentado el año pasado en TechCrunch Disrupt. En colaboración con Boston Dynamics, TRI está logrando sinergias clave entre su investigación de aprendizaje robótico y hardware avanzado, ampliando las capacidades de la robótica autónoma en entornos reales.
El futuro de la robótica: ¿Una IA de uso general?
Esta nueva arquitectura de aprendizaje abre las puertas a robots con capacidades más generalizadas, lo que implica que podrían adaptarse a tareas diversas y a cambios de entorno de manera más fluida. Al igual que los modelos de lenguaje permitieron un avance en las interacciones humano-computadora, el modelo HPT podría significar un gran salto en robótica, haciendo realidad la idea de un cerebro de robot que cualquier dispositivo podría utilizar sin necesidad de extensos ajustes o entrenamientos específicos.
Para aquellos interesados en profundizar en el tema, puedes explorar los últimos avances en robótica en el MIT CSAIL o aprender más sobre los proyectos de robótica en el Toyota Research Institute.